ALGORITMA PREDIKSI OUTLIER MENGGUNAKAN BORDER SOLVING SET

Barry Nuqoba, Arif Djunaidy

Abstract


Prediksi outlier penting untuk menjaga validitas data. Algoritma prediksi outlier konvensional memiliki kelemahan dalam hal efisiensi karena harus membandingkan data yang akan diprediksi dengan seluruh data dalam data set. Konsep baru yang melibatkan solving setmuncul sebagai solusi atas permasalahan efisiensi dalam prediksi outlier. Dengan menggunakan solving set, waktu prediksi menjadi lebih cepat tetapi akurasi
prediksi menjadi lebih jelek. Dalam penelitian ini dikembangkan suatu algoritma prediksi outlier baru yang
efisien dalam melakukan prediksi tetapi tidak mengorbankan akurasi hasil prediksi. Algoritma baru ini
merupakan inovasi terhadap konsep solving setyang sudah dikembangkan sebelumnya. Dalam penelitian
sebelumnya, solving setdidefinisikan sebagai subset dari data set yang beranggotakan data yang menjadi top n-outlier sebagai representasi data set. Sedangkan dalam penelitian ini, solving setdidefinisikan ulang sebagai
subset dari data set yang merupakan data tepi klaster beserta pusat klasternya sebagai representasi data set, atau selanjutnya disebut border solving set. Data tepi klaster dideteksi menggunakan algoritmaBORDER yang telah terbukti dapat mendeteksi data tepi klaster secara efisien, dan algoritma klasterisasi berbasis hirarki digunakan untuk melakukan klasterisasi data tepi yang telah terdeteksi. Selanjutnya, pusat masing-masing klaster dicari dengan menghitung nilai median dari data tepi pada masing-masing klaster. Algoritma Prediksi Outlier dalam penelitian ini dilakukan dengan membandingkan jarakantara data yang akan diprediksi (query data) dengan pusat klaster dan jarak antara query datadengan data tepi klaster yang terdekat. Algoritma Prediksi Outlier pada penelitian ini selanjutnya disebut APOTEK (Algoritma Prediksi Outlier menggunakan TEpi Klaster). Setelah dilakukan beberapa percobaan terhadap beberapa dataset dengan distribusi normal dan seragam, APOTEK terbukti dapat melakukan perbaikan terhadap algoritma prediksi outlier yang sudah ada sebelumnya. Dalam aspek akurasi prediksi, APOTEK berhasil melakukan peningkatan sebesar 5% dibandingkan dengan algoritma prediksi outlier yang dikembangkan oleh Angiulli et. al. (2006), untuk data set berdistribusi normal.


Keywords


AnalisisOutlier; PrediksiOutlier; Data Tepi Klaster; Solving Set; DataMining

Full Text:

PDF

References


Chenyi Xia, Wynne Hsu, Mong Li Lee dan Beng Chin Ooi, (2006), "BORDER: Efficient Computation of Boundary Points”, IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 3, hal. 289-303.

Fabrizio Angiulli, Stefano Basta dan Clara Pizzutti, (2006), “Distance-Based Detection and Prediction of Outliers”, IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 2, hal. 145-160.

Hui Xiong, Gaurav Pandey, Michael Steinbach dan Vipin Kumar, (2006), “Enhancing Data Analysis with Noise Removal”, IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 3, hal. 304-319.

Lubsa, Dana Avram, (2005), “Unsupervised Single-Link Hierarchical Clustering”, Studia Univ. Babes-Bolyai, Informatica, vol. 1, no. 2.

Pang-Ning Tan, Michael Steinbach dan Vipin Kumar, (2006), Introduction to Data Mining, Pearson Education, Inc., Boston.




DOI: http://dx.doi.org/10.30872/jim.v9i3.172

Refbacks

  • There are currently no refbacks.


Copyright (c) 2017 Jurnal Informatika Mulawarman (JIM)

Editor Informatika Mulawarman Address:
ISSN 1858-4853 (Print) | ISSN 2597-4963 (Online)

Published by: Mulawarman University
Managed by : Computer Science Department - Faculty of CSIT 
Jl. Panajam Kampus Gunung Kelua Samarinda 75123 - Kalimantan Timur - Indonesia
E-mail: jim.unmul@gmail.com
OJS: http://e-journals.unmul.ac.id/index.php/JIM
Contact Person: Putut Pamilih W. (+6285246436015)

 Creative Commons License

Informatika Mulawarman by http://e-journals.unmul.ac.id/index.php/JIM/index is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Under the CC BY-SA license, authors and other users are able to reprint, distribute or use the material for commercial purposes so long as they give attribution to the journal Informatika Mulawarman and license the republished material under the same license.