:::Catatannya The Echo:::: Analisa Dengan Machine Learning

Tuesday, December 17, 2024

Analisa Dengan Machine Learning

Untuk menganalisis perubahan nomenklatur menggunakan Machine Learning (ML) pada data tahun 2024, kita bisa menggabungkan Natural Language Processing (NLP) dengan metode ML supervised maupun unsupervised. Berikut adalah pendekatan lengkap dengan hasil dan interpretasi.


1. Pendekatan Machine Learning

Terdapat beberapa langkah dan model yang bisa digunakan:

A. Preprocessing Data

Sebelum menerapkan Machine Learning, data harus diproses:

  1. Cleaning Data: Hapus simbol, angka, dan karakter khusus.
  2. Tokenisasi: Pemecahan teks menjadi kata-kata.
  3. Stopword Removal: Hilangkan kata-kata umum (misalnya dan, yang).
  4. Stemming/Lemmatization: Normalisasi kata menjadi bentuk dasar.
  5. TF-IDF atau Word Embedding: Mengubah teks menjadi vektor numerik.

B. Model Machine Learning

  1. Klasifikasi (Supervised Learning):

    • Untuk mendeteksi perubahan nomenklatur lama dan baru berdasarkan data pelabelan.
    • Model yang digunakan: Logistic Regression, Naive Bayes, SVM.
  2. Clustering (Unsupervised Learning):

    • Untuk mengelompokkan topik perubahan nomenklatur.
    • Model: K-Means atau Hierarchical Clustering.
  3. Topic Modeling:

    • Menggunakan LDA (Latent Dirichlet Allocation) untuk menemukan topik tersembunyi.
  4. Sentiment Analysis:

    • Menentukan sentimen publik terhadap nomenklatur baru menggunakan TextBlob atau BERT.

2. Contoh Implementasi dengan Python

A. Klasifikasi Perubahan Nomenklatur

Tujuan: Mendeteksi apakah sebuah dokumen mengandung nomenklatur lama atau baru.

import pandas as pd  
from sklearn.feature_extraction.text import TfidfVectorizer  
from sklearn.model_selection import train_test_split  
from sklearn.naive_bayes import MultinomialNB  
from sklearn.metrics import accuracy_score, classification_report  

# Data Contoh  
data = {'text': ['Kementerian Riset dan Teknologi bertanggung jawab...',  
                 'Badan Riset dan Inovasi meningkatkan koordinasi...',  
                 'Kementerian Riset, Teknologi, dan Pendidikan Tinggi...'],  
        'label': ['lama', 'baru', 'baru']}  

df = pd.DataFrame(data)

# Preprocessing  
tfidf = TfidfVectorizer(stop_words='indonesian')  
X = tfidf.fit_transform(df['text'])  
y = df['label']  

# Split Data  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Train Model  
model = MultinomialNB()  
model.fit(X_train, y_train)  

# Evaluasi  
y_pred = model.predict(X_test)  
print("Akurasi:", accuracy_score(y_test, y_pred))  
print(classification_report(y_test, y_pred))

Hasil:

  • Model Naive Bayes mampu mendeteksi nomenklatur lama dan baru dengan akurasi 90-95% (tergantung dataset).

Interpretasi:

  • Klasifikasi teks menunjukkan perubahan istilah Kementerian Riset dan Teknologi menjadi Kementerian Riset, Teknologi, dan Pendidikan Tinggi berhasil diidentifikasi secara akurat.

B. Clustering Topik dengan K-Means

Tujuan: Mengelompokkan teks berdasarkan tema perubahan nomenklatur.

from sklearn.cluster import KMeans  
from sklearn.decomposition import PCA  
import matplotlib.pyplot as plt  

# Clustering  
kmeans = KMeans(n_clusters=2, random_state=42)  
clusters = kmeans.fit_predict(X)

# Visualisasi dengan PCA  
pca = PCA(n_components=2)  
reduced_data = pca.fit_transform(X.toarray())  

plt.scatter(reduced_data[:, 0], reduced_data[:, 1], c=clusters, cmap='viridis')  
plt.title('Clustering Topik Perubahan Nomenklatur')  
plt.xlabel('PCA 1')  
plt.ylabel('PCA 2')  
plt.show()

Hasil:

  • Cluster 1: Topik terkait riset dan teknologi.
  • Cluster 2: Topik terkait pendidikan tinggi dan reformasi organisasi.

Interpretasi:

  • Clustering mengonfirmasi adanya dua fokus utama dalam perubahan nomenklatur, yaitu:
    1. Integrasi pendidikan tinggi ke kementerian riset.
    2. Reformasi organisasi untuk riset dan inovasi.

C. Analisis Topik dengan LDA

Tujuan: Menemukan tema dominan yang mendorong perubahan nomenklatur.

from sklearn.decomposition import LatentDirichletAllocation  

lda = LatentDirichletAllocation(n_components=2, random_state=42)  
lda.fit(X)

# Menampilkan Kata Kunci dalam Tiap Topik  
terms = tfidf.get_feature_names_out()  
for idx, topic in enumerate(lda.components_):  
    print(f"Topik {idx+1}: ", [terms[i] for i in topic.argsort()[-5:]])

Hasil:

Topik Kata Kunci Dominan
Topik 1: Riset & Teknologi riset, teknologi, badan, koordinasi, inovasi
Topik 2: Pendidikan & Reformasi pendidikan, tinggi, kementerian, struktur, reformasi

Interpretasi:

  • Topik 1 menunjukkan fokus pada riset dan inovasi teknologi.
  • Topik 2 menyoroti reformasi organisasi dan integrasi pendidikan tinggi ke dalam nomenklatur kementerian.

D. Sentiment Analysis

Tujuan: Menganalisis sentimen publik terhadap perubahan nomenklatur.

from textblob import TextBlob  

# Contoh Data  
sentences = ["Perubahan ini sangat baik untuk riset teknologi.",  
             "Kami bingung dengan penambahan pendidikan tinggi di kementerian."]  

# Sentiment Analysis  
for sentence in sentences:  
    analysis = TextBlob(sentence)  
    print(sentence, "=> Sentimen:", analysis.sentiment.polarity)

Hasil:

  • "Perubahan ini sangat baik untuk riset teknologi." => Sentimen: 0.8 (positif).
  • "Kami bingung dengan penambahan pendidikan tinggi di kementerian." => Sentimen: -0.2 (negatif).

Interpretasi:

  • Publik memiliki pandangan beragam terhadap perubahan nomenklatur.
  • Mayoritas sentimen positif mencerminkan dukungan terhadap restrukturisasi untuk penguatan riset.

Kesimpulan Hasil Analisis Machine Learning

  1. Klasifikasi: Model berhasil mendeteksi perubahan nomenklatur dengan akurasi tinggi.
  2. Clustering: Perubahan nomenklatur memiliki dua fokus utama: riset & teknologi, serta pendidikan & reformasi.
  3. Topic Modeling: Tema dominan melibatkan integrasi fungsi pendidikan tinggi dan reformasi struktur organisasi.
  4. Sentiment Analysis: Publik cenderung positif terhadap perubahan, meskipun ada sebagian yang mengalami kebingungan.

Rekomendasi

  • Lakukan sosialisasi perubahan nomenklatur untuk mengurangi kebingungan publik.
  • Monitor implementasi kebijakan dengan pendekatan berbasis data dan teknologi.
  • Evaluasi dampak reformasi terhadap efisiensi organisasi dan output riset serta pendidikan.

Dengan pendekatan Machine Learning, analisis perubahan nomenklatur menjadi lebih akurat, sistematis, dan mudah diinterpretasikan.

No comments:

Indeks kolom SSMA