Model Text Embedding dan TF-IDF+Ngram untuk Meningkatkan Kinerja Algoritma Binary Classifier pada Klasifikasi SMS Palsu
Klasifikasi SMS, Naive Bayes, TF-IDF, word2vec, algoritma binary classifierAbstract
Seiring meningkatnya penggunaan SMS, deteksi SMS palsu (spam) menjadi tantangan dalam menjaga keamanan komunikasi. Algoritma klasifikasi berbasis teks, seperti Naive Bayes, Logistic Regression, dan Random Forest, memiliki performa yang bervariasi tergantung pada representasi fitur teks yang digunakan. Penelitian ini bertujuan untuk mengevaluasi kinerja algoritma binary classifier dalam klasifikasi SMS palsu menggunakan representasi fitur TF-IDF, TF-IDF + Ngram, dan Word2Vec. Algoritma yang diuji meliputi Naive Bayes, Logistic Regression, Random Forest, dan Decision Tree, dengan metrik akurasi, precision, recall, dan F1-score sebagai evaluasi. Hasil penelitian menunjukkan bahwa Naive Bayes dengan TF-IDF mencapai akurasi 91.26%, sementara Random Forest dengan Word2Vec memperoleh akurasi 89.08%. Logistic Regression dengan TF-IDF + Ngram menunjukkan hasil lebih rendah. Temuan ini menegaskan pentingnya pemilihan representasi fitur yang tepat untuk meningkatkan akurasi klasifikasi SMS palsu.References
