Muhammad Fahmi – Head of Data Scientist & AI Mentor

Portfolio

Strategic Data & AI Projects

A curated selection of enterprise-grade NLP, predictive modeling, and AI automation solutions delivered for high-scale environments.

Data Engineering

Real-Time NLP Platform with Kafka & Event-Driven Architecture

The Challenge

Respons terhadap opini publik sangat bergantung pada ketepatan waktu. Informasi yang terlambat membuat keputusan menjadi kurang relevan. Pendekatan laporan periodik menyebabkan isu baru teridentifikasi saat situasi sudah berkembang.

The Impact

Visibilitas situasi publik meningkat secara real-time, pengambilan keputusan menjadi lebih proaktif, dan risiko eskalasi isu dapat ditekan lebih awal. Sistem tetap stabil meski terjadi lonjakan traffic mendadak.

PythonApache KafkaFastAPIRedisElasticsearchDocker

Jutaan data per hari dari multiple API sources dengan lonjakan percakapan mendadak yang berpotensi membebani worker.DETAIL

Data Engineering

Automated Report Generation with LLM & Constrained Reasoning

The Challenge

Laporan operasional harian perlu dikirim ke klien dalam format presentasi, namun proses penyusunan masih manual. Menggunakan template statis tidak fleksibel terhadap variasi data, sementara penggunaan LLM bebas menghasilkan format tidak konsisten dan angka tidak terkontrol (hallucination).

The Impact

Analist fokus pada interpretasi, bukan penulisan laporan. Laporan harian dapat dihasilkan otomatis dan konsisten, integrasi langsung dengan Dashboard/Product, dan waktu pembuatan report berkurang drastis dari jam menjadi menit.

PythonApache AirflowLLM APILangChainCustom Report GeneratorPPT/PDF

Ratusan report per bulan dengan berbagai format dan kompleksitas data.DETAIL

Data Engineering

MLOps Auto-Retrain with Drift Detection & Auto Evaluation

The Challenge

Performa model di produksi menurun seiring perubahan data meskipun akurasi metric terlihat stabil. Label ground truth sering terlambat (delayed feedback), membuat deteksi drift akurasi menjadi sulit. Retrain berkala (schedule-based) tidak mengikuti realitas - kadang boros saat data stabil, atau terlambat saat data berubah drastis.

The Impact

Model tetap relevan tanpa monitoring manual, mengurangi risiko penurunan performa, update model lebih aman dan cepat, serta efisiensi resource karena hanya retrain saat benar-benar diperlukan.

PythonApache AirflowMLflowDockerFastAPIDrift Detection

Ribuan sampel baru per minggu untuk continuous monitoring dan drift detection.DETAIL

Data Engineering

Multi-Source Web Data Collection Pipeline

The Challenge

Tim data dan analytics membutuhkan data dari berbagai sumber publik (e-commerce, news portal, image repositories) untuk analisis market research, sentiment monitoring, dan content aggregation. Pengumpulan manual tidak scalable dan rawan error.

The Impact

Framework mengurangi waktu collection dari hari menjadi jam, meningkatkan data quality melalui validation layer, dan mendukung penambahan data source baru dengan minimal code changes.

PythonSeleniumPandasBeautifulSoupDockerCSVParquet

Puluhan hingga ratusan ribu records dari multiple sources (Shopee reviews, Kompas articles, Unsplash images).DETAIL

NLP

Aspect-Based Sentiment Analysis (ABSA) Engine with IndoBERT

The Challenge

Satu kalimat dapat mengandung opini berbeda terhadap beberapa entitas, sehingga label tunggal tidak cukup merepresentasikan makna sebenarnya. Contoh: 'Aplikasinya cepat, tapi CS-nya lama respon.' Sentimen general membuat insight tidak bisa ditindaklanjuti karena menggabungkan aspect A dan aspect B menjadi satu skor sentiment.

The Impact

Analisis sentimen menjadi lebih kontekstual per isu/aspek, multi-entity dalam satu kalimat dapat dipetakan dengan tepat, dan hasil analisis dapat ditindaklanjuti untuk monitoring reputasi yang lebih presisi.

PythonPyTorchTransformersHugging FaceONNXFastAPI

Ratusan ribu hingga jutaan data social media dan online media per bulan dengan multi-entity dalam satu kalimat.DETAIL

Machine Learning

Language Routing Filter with Early-Exit Pipeline (TFLite)

The Challenge

Sebagian data masuk tidak relevan dengan konteks proyek (misalnya bahasa asing), namun tetap diproses oleh model utama yang berat. Filter dilakukan di akhir pipeline, sehingga resource mahal (GPU) sudah terbuang untuk memproses data sampah sebelum akhirnya dibuang.

The Impact

Beban komputasi model NLP berat berkurang signifikan, pipeline lebih stabil pada volume data tinggi, dan efisiensi resource meningkat drastis karena GPU hanya memproses data yang benar-benar relevan.

PythonTFLiteGoogle Language DetectorFastAPIMachine Learning

Ratusan ribu data per bulan dari seluruh data masuk social & online media dengan dominasi emoji dan slang dalam data sosmed.DETAIL

Data Science

Clustering & Social Network Analysis (SNA) Engine with LLM

The Challenge

Data percakapan besar sulit dianalisis secara manual, sehingga diperlukan ekstraksi topik dan pemahaman komunitas secara otomatis. Visualisasi graph tanpa struktur hanya menghasilkan visual yang kusut dan tidak bermakna. Analis tidak bisa membedakan noise dari komunitas.

The Impact

Topik pembicaraan publik dapat dipahami tanpa membaca manual, komunitas dan fokus diskusinya teridentifikasi otomatis, insight dapat dicari dalam hitungan menit, dan analis dapat membedakan noise dari komunitas yang meaningful.

PythonBERTopicHDBSCANLLM APILangChainNetworkXIndoBERT

Puluhan hingga ratusan ribu data percakapan per periode analisis dengan cluster yang berubah seiring waktu dan noise percakapan tinggi.DETAIL

Automated Media Summarization Engine (Daily, WA, & Report)

The Challenge

Pembuatan ringkasan manual dari ribuan data media setiap hari tidak efisien dan tidak konsisten.

The Impact

Waktu pembuatan laporan berkurang drastis dan insight dapat diterima lebih cepat oleh stakeholder.

PythonLLM APINLPFastAPIPandas

Ratusan ribu data per hari dari social media dan online media.DETAIL

Hybrid ML + LLM Verification System with Confidence Threshold

The Challenge

Model ML cukup akurat untuk kasus umum, namun gagal pada kalimat ambigu, sarkasme, dan konteks implisit. Menggunakan LLM (seperti GPT-4) untuk memproses semua data sangat mahal dan memiliki latensi tinggi yang tidak praktis untuk skala besar.

The Impact

±80% data diproses oleh model cepat, ±20% kasus kompleks diverifikasi LLM, akurasi meningkat tanpa lonjakan biaya, dan sistem tetap cost-efficient dengan high precision.

PythonIndoBERTLLM APIFastAPIMachine Learning

Subset data ambigu dari ratusan ribu data bulanan yang memerlukan eskalasi ke LLM.DETAIL

NLP

NER & Statement Extraction with Entity Normalization

The Challenge

Analisis narasi membutuhkan identifikasi aktor dan pernyataannya, bukan hanya kata kunci. Kutipan tidak selalu berdekatan dengan aktor, dan perlu menangani referensi implisit seperti 'dia mengatakan' atau 'pejabat itu membantah'. NER standar menemukan nama, tetapi tidak memahami hubungan pernyataan antar aktor.

The Impact

Analisis narasi berbasis aktor dapat dilakukan otomatis, mendukung query seperti 'siapa mengatakan apa tentang siapa', dan mempercepat ekstraksi informasi terstruktur dari teks media.

PythonIndoBERTTransformersNLPEntity DBFastAPI

Ratusan ribu artikel online media dan konten social media per bulan dengan complex quote attribution patterns.DETAIL

Media Summarization with Vector Search & Context Preservation

The Challenge

Terlalu banyak artikel berita dan laporan yang masuk setiap hari melebihi kapasitas baca manual tim analis. Ringkasan ekstraktif (memotong kalimat penting) sering kehilangan konteks nuansa dan menghasilkan informasi yang terpotong. Informasi antar sumber bisa saling bertentangan.

The Impact

Menghasilkan summary data dengan cepat, mendukung pengambilan keputusan cepat, context preservation terjaga, dan analis dapat fokus pada interpretasi daripada membaca manual ratusan artikel.

PythonLLM APIVector SearchNLPFastAPIContext Preservation

Ratusan ribu data per hari dari social media dan online media dengan multi-step processing latency.DETAIL