PERBANDINGAN KINERJA TF-IDF DAN COUNT VECTORIZATION PADA SISTEM REKOMENDASI JUDUL SKRIPSI BERBASIS CONTENT-BASED FILTERING
DOI:
https://doi.org/10.51401/jinteks.v7i4.6741Keywords:
Content-based filtering, K-Nearest Neighbor, Repository skripsiAbstract
Penelitian ini bertujuan membandingkan dua skema representasi teks, TF-IDF dan Count Vectorizer, untuk membangun sistem rekomendasi judul skripsi berbasis content-based filtering pada repository Universitas Jambi. Kedua metode dipilih karena mewakili dua pendekatan pembobotan yang berbeda, TF-IDF menonjolkan istilah yang penting pada korpus sehingga cocok membedakan topik, sedangkan Count Vectorizer hanya berdasarkan frekuensi kemunculan kata dalam suatu dokumen tanpa mempertimbangkan sebarannya di korpus. Data berupa judul dan abstrak diperoleh melalui web scraping, kemudian diproses dengan deteksi bahasa, penghapusan stop-word, stemming, dan pembersihan teks. Untuk mengatasi ketiadaan label, dilakukan klasterisasi menggunakan HDBSCAN guna menghasilkan label tematik sementara, lalu subset berlabel (347 dokumen) dibagi menjadi 80% data latih dan 20% data uji dan dievaluasi menggunakan K-Nearest Neighbors dengan metrik accuracy, precision, recall, F1-score, serta analisis confusion matrix. Hasil menunjukkan kombinasi TF-IDF + K-Nearest Neighbors (k = 7) mencapai akurasi 98,57%, presisi 99,05%, recall 98,57%, dan F1-score 98,48%, melampaui Count Vectorizer yang tertinggi pada akurasi 94,29%. Prototipe Streamlit sebagai proof of concept menunjukkan bahwa TF-IDF menghasilkan rekomendasi yang lebih relevan dan efisien untuk penemuan skripsi di repository Universitas Jambi.
References
Muhammad Zaynurroyhan, Asriyanik, and Agung Pambudi, “Perbandingan TF-IDF dengan Count Vectorization Dalam Content-Based Filtering Rekomendasi Mobil Listrik,” explorit, vol. 15, no. 1, pp. 8–15, June 2023, doi: 10.35891/explorit.v15i1.3829.
V. M. Hersianty, E. L. Amalia, D. Puspitasari, and D. W. Wibowo, “PENERAPAN ALGORITMA TF-IDF DAN COSINE SIMILARITY DALAM SISTEM REKOMENDASI LOWONGAN PEKERJAAN,” vol. 9, no. 1, 2025.
D. S. Pradana, P. Prajoko, and G. P. Hartawan, “Perbandingan Algoritma Content-Based Filtering dan Collaborative Filtering dalam Rekomendasi Kegiatan Ekstrakurikuler Siswa,” Progresif J. Ilmi. Kom, vol. 18, no. 2, p. 151, July 2022, doi: 10.35889/progresif.v18i2.854.
T. Ridwansyah, B. Subartini, and S. Sylviani, “Penerapan Metode Content-Based Filtering pada Sistem Rekomendasi,” Universitas Jambi, vol. 4, no. 2, pp. 70–77, Apr. 2024, doi: 10.22437/msa.v4i2.32136.
R. Ferdian, S. Achmady, and Z. Razi, “PENGEMBANGAN APLIKASI MARKETPLACE DENGAN PENERAPAN TEKNOLOGI MACHINE LEARNING BERBASIS WEB,” vol. 3, no. 3, 2024.
R. I. Kesuma and A. Iqbal, “Penerapan Content-Boosted Collaborative Filtering untuk Meningkatkan Kemampuan Sistem Rekomendasi Penyedia Jasa Acara Pernikahan,” FIFO, vol. 12, no. 1, p. 112, May 2020, doi: 10.22441/fifo.2020.v12i1.009.
M. D. Dinda Maristha, A. J. Santoso, and F. K. Sari Dewi, “Sistem Rekomendasi Pembelian Produk Kesehatan pada E-Commerce ABC berbasis Graph Database Amazon Neptune menggunakan Metode Hybrid Content-Collaborative Filtering,” JBI, vol. 12, no. 2, pp. 88–97, Nov. 2021, doi: 10.24002/jbi.v12i2.4623.
I. K. Syuriadi and W. Astuti, “Klasifikasi Teks Multi Label pada Hadis dalam Terjemahan Bahasa Indonesia Berdasarkan Anjuran, Larangan dan Informasi menggunakan TF-IDF dan KNN,” 2019.
A. Deolika, K. Kusrini, and E. T. Luthfi, “ANALISIS PEMBOBOTAN KATA PADA KLASIFIKASI TEXT MINING,” JurTI, vol. 3, no. 2, p. 179, Dec. 2019, doi: 10.36294/jurti.v3i2.1077.
D. H. Kalokasari, I. M. Shofi, and A. H. Setyaningrum, “IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus?: DISKOMINFO Kabupaten Tangerang),” J.Teknik Informatika, vol. 10, no. 2, pp. 109–118, Oct. 2017, doi: 10.15408/jti.v10i2.6199.
T. K. Deo, R. K. Deshmukh, and G. Sharma, “Comparative Study among Term Frequency-Inverse Document Frequency and Count Vectorizer towards K Nearest Neighbor and Decision Tree Classifiers for Text Dataset,” Nep. J. Multidisc. Res., vol. 7, no. 2, pp. 1–11, July 2024, doi: 10.3126/njmr.v7i2.68189.
A. Rokhim, “IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB,” vol. 9, no. 1, 2017.
Dedy Sugiarto, Ema Utami, and Ainul Yaqin, “Perbandingan Kinerja Model TF-IDF dan BOW untuk Klasifikasi Opini Publik Tentang Kebijakan BLT Minyak Goreng,” j. teknik industri, vol. 12, no. 3, pp. 272–277, Dec. 2022, doi: 10.25105/jti.v12i3.15669.
M. A. Valles-Coral et al., “Density-Based Unsupervised Learning Algorithm to Categorize College Students into Dropout Risk Levels,” Data, vol. 7, no. 11, p. 165, Nov. 2022, doi: 10.3390/data7110165.
K. I. Neijenhuijs, C. F. W. Peeters, H. Van Weert, P. Cuijpers, and I. V. Leeuw, “Symptom clusters among cancer survivors: what can machine learning techniques tell us?,” BMC Med Res Methodol, vol. 21, no. 1, p. 166, Dec. 2021, doi: 10.1186/s12874-021-01352-4.
S. D’Amico et al., “MOSAIC: An Artificial Intelligence–Based Framework for Multimodal Analysis, Classification, and Personalized Prognostic Assessment in Rare Cancers,” JCO Clin Cancer Inform, no. 8, p. e2400008, June 2024, doi: 10.1200/CCI.24.00008.
Rio Feriangga Kurniawan, “IMPLEMENTASI TEXT MINING MENGGUNAKAN METODE COSINE SIMILARITY UNTUK KLASIFIKASI KONTEN BERITA DI POSTINGAN GRUP FACEBOOK INFO LANTAS DAN KRIMINAL PASURUAN,” jami, vol. 3, no. 1, pp. 9–17, June 2022, doi: 10.46510/jami.v3i1.41.
A. Sanjaya, A. B. Setiawan, U. Mahdiyah, I. N. Farida, and A. R. Prasetyo, “Pengukuran Kemiripan Makna Menggunakan Cosine Similarity dan Basis Data Sinonim Kata,” JTIIK, vol. 10, no. 4, pp. 747–752, Aug. 2023, doi: 10.25126/jtiik.20241046864.
S. Lumbansiantar, S. Dwiasnati, and N. S. Fatonah, “Penerapan Metode Cosine Similarity Dalam Mendeteksi Plagiarisme Pada Jurnal,” FORMAT, vol. 12, no. 2, p. 142, July 2023, doi: 10.22441/format.2023.v12.i2.007.
R. Rismayani, H. Sy, T. Darwansyah, and I. Mansyur, “Implementasi Algoritma Text Mining dan Cosine Similarity untuk Desain Sistem Aspirasi Publik Berbasis Mobile,” Komputika, vol. 11, no. 2, pp. 169–176, Aug. 2022, doi: 10.34010/komputika.v11i2.6501.
A. Firdaus, “Aplikasi Algoritma K-Nearest Neighbor pada Analisis Sentimen Omicron Covid-19,” JRS, pp. 85–92, Dec. 2022, doi: 10.29313/jrs.v2i2.1148.
A. C. Prasetya, B. Hidayat, and R. Hartanto, “DETEKSI INFEKSI PADA RONGGA MULUT BERBASIS PEMROSESAN SINYAL WICARA DENGAN METODE DISCRETE COSINE TRANSFORM (DCT) DAN K NEAREST NEIGHBOR (KNN),” 2019.
R. Kurnia, M. Asmita, R. Ihsan, I. Elfitri, and D. K. Hadi, “Perbandingan Metoda Klasifikasi K-Nearest Neighbor dan Support Vector Machine pada Pengenalan Benda Terhalang berbasis Kode Rantai,” ELKOMIKA, vol. 12, no. 3, p. 823, July 2024, doi: 10.26760/elkomika.v12i3.823.
M. S. Fajri, N. Septian, and E. Sanjaya, “Evaluasi Implementasi Algoritma Machine Learning K-Nearest Neighbors (kNN) pada Data Spektroskopi Gamma Resolusi Rendah,” Fiziya, vol. 3, no. 1, pp. 9–14, Aug. 2020, doi: 10.15408/fiziya.v3i1.16180.
R. R. Sani, Y. A. Pratiwi, S. Winarno, E. D. Udayanti, and F. A. Zami, “Analisis Perbandingan Algoritma Naive Bayes Classifier dan Support Vector Machine untuk Klasifikasi Hoax pada Berita Online Indonesia,” vol. 13, no. 2, 2022.
M. A. Afif, M. Ula, L. Rosnita, and R. Rizal, “Applying TF-IDF and K-NN for Clickbait Detection in Indonesian Online News Headlines,” Jo. Adv. Comp. Know. Algo, vol. 1, no. 2, pp. 38–41, Apr. 2024, doi: 10.29103/jacka.v1i2.15810.
C. Schröer, F. Kruse, and J. M. Gómez, “A Systematic Literature Review on Applying CRISP-DM Process Model,” Procedia Computer Science, vol. 181, pp. 526–534, 2021, doi: 10.1016/j.procs.2021.01.199.
SAP Community, “SAP Machine Learning: Approaching your Project,” SAP Community. Accessed: Feb. 24, 2025. [Online]. Available: https://community.sap.com/t5/technology-blogs-by-sap/sap-machine-learning-approaching-your-project/ba-p/13359323
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2025 Muhammad Arrafu Mazta, Edi Saputra, Muhammad Razi A

This work is licensed under a Creative Commons Attribution 4.0 International License.
















