Kajian Penerapan Jarak Euclidean, Manhattan, Minkowski, dan Chebyshev pada Algoritma Clustering K-Prototype

Rani Nooraeni, Ghita Nurfalah

Abstract


Clustering merupakan teknik data mining yang bertujuan mengelompokkan data yang memiliki kemiripan kedalam satu klaster, semakin tinggi tingkat kemiripan dalam satu klaster semakin baik hasil clustering yang dihasilkan. Kemiripan data tersebut diukur menggunakan fungsi jarak, sehingga memilih fungsi jarak yang tepat sangatlah penting dalam clustering. K-Prototype (KP) adalah algoritma clustering untuk data campuran yang telah banyak digunkan, pengembangan algoritma lainnya dari K-Prototype yang terkenal adalah Fuzzy K-Prototype (FKP) dan Genetic Algorithm K-Prototype (GAFKP). Namun ketiga algoritma tersebut hanya menggunakan jarak Euclidean dalam mengukur kesamaan datanya. Oleh karena itu, dalam penelitian ini dilakukan penerapan jarak Euclidean, Manhattan, Minkowski, dan Chebyshev pada ketiga algoritma tersebut untuk memperoleh kombinasi jarak dan algoritma yang memberikan hasil clustering yang lebih baik. Hasil penelitian menunjukkan bahwa diantara seluruh kombinasi jarak dan algoritma clustering, algoritma Fuzzy K-Prototype dengan jarak Euclidean memberikan hasil yang lebih baik berdasarkan metode evaluasi akurasi dan indeks CV

Keywords


lustering;KP; FKP; GAFKP

Full Text:

PDF

References


Thant, Aye & Aye, Soe. (2020). Euclidean, Manhattan and Minkowski Distance Methods For Clustering Algorithms. International Journal of Scientific Research in Science, Engineering and Technology. 553-559. 10.32628/IJSRSET2073118.

Ji, J., Pang, W., Zhou, C., Han, X., & Wang, Z. (2012). A fuzzy k-prototype clustering algorithm for mixed numeric and categorical data. Knowl. Based Syst., 30, 129-135.

Ahmad, Amir & Dey, Lipika. (2007). A k-mean clustering algorithm for mixed numeric and categorical data. Data & Knowledge Engineering. 63. 503-527. 10.1016/j.datak.2007.03.016.

Faisal, M & Zamzami, E & Sutarman, (2020). Comparative Analysis of Inter-Centroid K-Means Performance using Euclidean Distance, Canberra Distance and Manhattan Distance. Journal of Physics: Conference Series. 1566. 012112. 10.1088/1742-6596/1566/1/012112.

Nooraeni, R. (2015). Metode Cluster Menggunakan Kombinasi Algoritma Cluster K-Prototype dan Algoritma Genetika untuk Data Bertipe Campuran.

Huang, Z. (1997). Clustering Large Data Sets with Mixed Numeric and Categorical Values.

Khairi, R & Fitri, Sari & Rustam, Zuherman & Pandelaki, Jacub. (2021). Fuzzy C-Means Clustering with Minkowski and Euclidean Distance for Cerebral Infarction Classification. Journal of Physics: Conference Series. 1752. 012033. 10.1088/1742-6596/1752/1/012033.

Arsa, M.I. (2018). Kombinasi Algoritme Genetika dan Fuzzy K-Prototype untuk Pengelompokan Data Campuran.

Grabusts, Peter. (2015). The Choice of Metrics for Clustering Algorithms. Environment. Technology. Resources. Proceedings of the International Scientific and Practical Conference. 2. 70. 10.17770/etr2011vol2.973.

Bora, Dibya & Gupta, Dr. (2014). Effect of Different Distance Measures on the Performance of K-Means Algorithm: An Experimental Study in Matlab. 5.

Liu, Hsiang-Chuan & Jeng, Bai-Cheng & Yih, Jeng-Ming & Yu, Yen-Kuei. (2009). Fuzzy C-means algorithm based on standard mahalanobis distances. Proceedings of the 2009 International Symposium on Information Processing (ISIP'09).

Ahmad, A., & Khan, S.S. (2019). Survey of State-of-the-Art Mixed Data Clustering Algorithms. IEEE Access, 7, 31883-31902.

Haryati, A. E., Surono, S., & Suparman, S. (2021). Implementation of Minkowski-Chebyshev Distance in Fuzzy Subtractive Clustering. EKSAKTA: Journal of Sciences and Data Analysis, 2(2), 82–87. https://doi.org/10.20885/EKSAKTA.vol2.iss2.art1.

Hsu, Chung-Chian & Huang, Yan-Ping. (2008). Incremental clustering of mixed data based on distance hierarchy. Expert Systems with Applications. 35. 1177-1185. 10.1016/j.eswa.2007.08.049.

Ji, Jinchao & Zhou, Chunguang & Wang, Zhe & He, Jialiang & Bai, Tian. (2012). A fuzzy k-prototypes algorithm using fuzzy centroid for clustering mixed data. International Journal of Advancements in Computing Technology. 4. 281-290. 10.4156/ijact.vol4.issue7.31.

Nishom, M.. (2019). Perbandingan Akurasi Euclidean Distance, Minkowski Distance, dan Manhattan Distance pada Algoritma K-Means Clustering berbasis Chi-Square. Jurnal Informatika: Jurnal Pengembangan IT. 4. 20-24. 10.30591/jpit.v4i1.1253.

Nooraeni, R., Arsa, M.I., & Kusumo Projo, N.W. (2021). Fuzzy Centroid and Genetic Algorithms: Solutions for Numeric and Categorical Mixed Data Clustering. Procedia Computer Science, 179, 677-684.

Santoso, A.B. (2021). Fuzzy K-Prototype Geographically Weighted Clustering yang Dioptimasi Menggunakan Algoritma Genetika untuk Data Campuran (Studi Kasus: Indikator Indeks Pembangunan Desa di Kabupaten Temanggung Tahun 2018).

Shirkhorshidi, A. S., Aghabozorgi, S., & Wah, T. Y. (2015). A Comparison Study on Similarity and Dissimilarity Measures in Clustering Continuous Data. PloS one, 10(12), e0144059. https://doi.org/10.1371/journal.pone.0144059.

Singh, Archana & Yadav, Avantika & Rana, Ajay. (2013). K-means with Three different Distance Metrics. International Journal of Computer Applications. 67. 13-17. 10.5120/11430-6785.

Szepannek, G. (2018). clustMixType: User-Friendly Clustering of Mixed-Type Data in R. R J., 10, 200.

Widodo, S., Brawijaya, H., & Samudi, S. (2021). Clustering Kanker Serviks Berdasarkan Perbandingan Euclidean dan Manhattan Menggunakan Metode K-Means.




DOI: http://dx.doi.org/10.30872/jsakti.v4i2.9241

Refbacks

  • There are currently no refbacks.


Copyright (c) 2022 Sains, Aplikasi, Komputasi dan Teknologi Informasi

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

 

2nd Floor, Faculty of Computer Science and Information Technology
Jl. Panajam Kampus Gn. Kelua Universitas Mulawarman Samarinda-Kalimantan Timur 75123
Phone: +62 813 31112002 (Haviluddin) +62 811 8207777 (Reza)
E-Mail: jurnal.sakti.fkti@gmail.com; sakti@unmul.ac.id

Creative Commons License
Sains, Aplikasi, Komputasi dan Teknologi Informasi by http://e-journals.unmul.ac.id/index.php/jsakti eISSN: 2684-8473 is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.