Komparasi Optimasi Chi-Square, CFS, Information Gain dan ANOVA dalam Evaluasi Peningkatan Akurasi Algoritma Klasifikasi Data Performa Akademik Mahasiswa

Taghfirul Azhima Yoga Siswa

Abstract


Telah banyak penelitian implementasi data mining pada perfoma akademik mahasiswa yang dilakukan untuk mencari kinerja terbaik dari algoritma klasifikasi, namun penelitian yang menguji hubungan atribut-atribut dengan dimensi data yang tinggi pada pemodelan terhadap label data yang digunakan masih rendah. Penelitian ini bertujuan untuk mengkomparasi peningkatan akurasi algoritma klasifikasi yakni Naive Bayes, C4.5, Random Forest, dan Logistic Regression yang telah dioptimasi dengan beberapa algoritma seleksi fitur seperti Chi-Square, CFS, Information Gain dan ANOVA. Dataset yang digunakan berjumlah 2663 record, dengan membagi data menggunakan metode 5-fold cross validation kemudian dilakukan evaluasi kinerja algoritma menggunakan confusion matrix. Hasil penelitian yang diperoleh adalah optimasi Chi-square memiliki nilai tertinggi dalam meningkatkan akurasi pemodelan algoritma klasifikasi, dengan rata-rata peningkatan akurasi sebesar 2.45%. Sementara, hasil perbandingan algoritma klasifikasi dalam menangani data prediksi performa mahasiswa menghasilkan algoritma Random Forest sebagai algoritma klasifikasi tertinggi dengan persentase accuracy sebesar 94.5%, precision 95%, recall 94, f1-score 94%.


Keywords


klasifikasi; c4.5; naïve bayes; random forest; logistic regression; optimasi; chisquare; cfs; information gain; anova;

Full Text:

PDF

References


Abubakar, Y., & Ahmad, N. B. H. (2017). Prediction of Students Performance in ELearning Environment Using Random Forest. International Journal of Innovative Computing, 7(2).

Annisa, R., & Sasongko, A. (2020). Prediksi Nilai Akademik Mahasiswa Menggunakan Algoritma NaÔve Bayes. Jurnal Sains & Teknologi. Vol. 9 (1)

Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32. Springer.

Daqiqil Id, I. (2021). Machine Learning: Teori, Studi Kasus dan Implementasi Menggunakan Python. Riau: UR PRESS

Hall, M. A. (1999). Correlation-based feature selection for machine learning

Hermawati, F.A. (2013). Data Mining. Yogyakarta: Penerbit Andi

Hastuti, K. (2012). Analisis komparasi algoritma klasifikasi data mining untuk prediksi mahasiswa non aktif. Semantik, 2(1).

Jensen, R., & Shen, Q. (2008). Computational Intelligence and Feature Selection - Rough and Fuzzy Approaches. IEEE Press series on computational intelligence.Johnson, K. J., & Synovec, R. E. (2002).

Pattern recognition of jet fuels: comprehensive GC◊ GC with ANOVA-based feature selection and principal component analysis. Chemometrics and Intelligent Laboratory Systems, 60(1-2), 225-237.

Jassim, M. A., & Abdulwahid, S. N. (2021). Data Mining preparation: Process, Techniques and Major Issues in Data Analysis. In IOP Conference Series: Materials Science and Engineering (Vol. 1090, No. 1, p. 012053). IOP Publishing.

Khaire, U. M., & Dhanalakshmi, R. (2022). Stability of feature selection algorithm: A review. Journal of King Saud University-Computer and Information Sciences, 34(4), 1060-1073.

Kurniawan, D., Pengenalan Machine Learning Python. Jakarta: PT Alex Media Komputindo, 2020.

KPAI. 2021. Survei Pelaksanaan Pembelajaran Jarak Jauh (PJJ) dan Sistem Penilaian Jarak Jauh Berbasis Pengaduan KPAI [pdf] Komisi Perlindungan Anak Indonesia. Tersedia di: https://bankdata.kpai.go.id/files /2021/02/ Paparan-Survei-PJJ-KPAI-29042020_Final-update.pdf [Diakses 10 Februari 2022]

Lin, H., & Ding, H. (2011). Predicting ion channels and their types by the dipeptide mode of pseudo amino acid composition. Journal of theoretical biology, 269(1), 64-69.

Ling, J., Kencana, I. P. E. N., & Oka, T. B. (2014). Analisis Sentimen Menggunakan Metode NaÔve Bayes Classifier Dengan Seleksi Fitur Chi Square. E-Jurnal Matematika, 3(3), 92-99.

Liparas, D., Ha, Cohen-Kerner, Y., Moumtzidou, A., Vrochidis, S., & Kompatsiaris, I. (2014). News articles classification using random forests and weighted multimodal features. In Information Retrieval Facility Conference (pp. 63-75). Springer, Cham.

Nurhayati, Soekarno, I., Hadihardaja, I. K., & Cahyono, M. (2015). IEEE. A study of hold-out and k-fold cross validation for accuracy of groundwater modelling in tidal lowland reclamation using extreme learning machine. 10.1109/TIME-E.2014.7011623.

Nofriansyah, D., & Nurcahyo, G. (2015). Algoritma Data Mining dan Pengujian. Yogyakarta: DEEPUBLISH.

Pulungan, A. F. (2019). Analisis Kinerja Bray Curtis Distance, Canberra Distance dan Euclidean Distance pada Algoritma K-Nearest Neighbour. Tersedia di: https://repositori.usu.ac.id/handle/123456789/15051 [Diakses 28 Januari 2022]

Sugiyono. (2010). Statistika untuk Penelitian. Bandung: CV Alfabeta.

Sokolova, M., & Lapalme, G. (2009). A systematic analysis of performance measures for classification tasks. Information processing & management, 45(4), 427-437.

Usman, H., & Akbar, S. R. Purnomo (2000), Pengantar Statistika, PT. Bumi Aksara, Jakarta

Primartha, R. (2021). Algoritma Machine Learning. Bandung: Informatika Bandung.

Santoso, B., & Umam, A. (2018). Data Mining dan Big Data Analytics. Yogyakarta: Penebar Media Pustaka.

Sihombing, I. A., Hartama, D., Parlina, I., Gunawan, I., & Kirana, I. O. (2021). Analisis Keberhasilan Pembelajaran Daring pada Masa Pandemi Covid-19 menggunakan Algoritma C4 . 5 dan Naive Bayes. Jurnal Komputer dan Informatika, 3(November), 89ñ96.

Wibawa, A. P. (2018). Metode-metode Klasifikasi. In Prosiding SAKTI (Seminar Ilmu Komputer dan Teknologi Informasi) (Vol. 3, No. 1, pp. 134-138).

Willcox, M. del R. (2011). Factores de riesgo y protecciÛn para el rendimiento acadÈmico: Un estudio descriptivo en estudiantes de PsicologÌa de una universidad privada. Ibero-American Journal of Education, 55(1), 1-9. Recuperado de http://www.rieoei.org/deloslectores/3878Wilcox.pdf




DOI: http://dx.doi.org/10.30872/jim.v18i1.11330

Refbacks

  • There are currently no refbacks.


Copyright (c) 2023 Informatika Mulawarman : Jurnal Ilmiah Ilmu Komputer

Editor Informatika Mulawarman Address:
ISSN 1858-4853 (Print) | ISSN 2597-4963 (Online)

Published by: Mulawarman University
Managed by : Informatika Department
Jalan Sambaliung No.9 Sempaja Selatan Samarinda Utara,
Kalimantan Timur 75117
 - Indonesia
E-mail: jim.unmul@gmail.com
OJS: http://e-journals.unmul.ac.id/index.php/JIM
Contact Person: Gubtha Mahendra Putra

 Creative Commons License

Informatika Mulawarman by http://e-journals.unmul.ac.id/index.php/JIM/index is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Under the CC BY-SA license, authors and other users are able to reprint, distribute or use the material for commercial purposes so long as they give attribution to the journal Informatika Mulawarman and license the republished material under the same license.