PENERAPAN ALGORITMA TERM FREQUENCY-INVERSE DOCUMENT FREQUENCY (TF-IDF) UNTUK TEXT MINING

Musfiroh Nurjannah, Hamdani Hamdani, Indah Fitri Astuti

Abstract


Algoritma Term Frequency Inverse-Document Frequency merupakan suatu algoritma yang menggalikan antara Term frequency dengan Inverse Document Frequency. Term frequency yaitu jumlah kemunculan sebuah term pada sebuah dokumen. Inverse Document Frequency yaitu pengurangan dominasi term yang sering muncul diberbagai dokumen, dengan memperhitungkan kebalikan frekuensi dokumen yang mengandung suatu kata.
Text Mining pada umumnya adalah unstructured data, atau minimal semistructured. Maka merupakan tantangan tambahan pada text mining yaitu struktur teks yang kompleks dan tidak lengkap, arti yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang tidak akurat.
Hasil dari penelitian menunjukan bahwa, penerapkan algoritma term frequency inverse-document frequency untuk text mining sangat membantu pengguna. untuk mendapatkan informasi pada kumpulan dokumen. Dengan format file txt berdasarkan kata kunci yang dimasukan oleh pengguna pada sistem. Dengan koleksi uji kata ‘upaya’ pada query maka didapatkan keluaran dengan bobot nilai 8.65441 yang merupakan jumlah kata terbanyak sesuai dengan query.


Full Text:

PDF

References


Trunojoyo, H. Sistem Temu Balik Informasi (Sebuah Contoh Implementasi).(http://husni.trunojoyo.ac.id/wpcontent/uploads/2010/03/Husni-IR-dan Klasifikasi.pdf).

Arifin, A. 2002. Penggunaan Digital Tree Hibrida pada Aplikasi Information Retrieval untuk Dokumen Berita. Surabaya : Institut Teknologi Sepuluh Nopember.

Hendry. 2009. Berbagai Aplikasi Databae dengan VB 6.0. Jakarta : PT. Elex Media Komputindo.

Ladjamudin, A. 2005. Analisa dan Desain Sistem Informasi. Yogyakarta : Penerbit Andi Yogyakarta.

Mandala, R. dan Setiawan, H. 2002. Peningkatan Performansi Sistem Temu- Kembali Informasi dengan Perluasan Query Secara Otomatis. Bandung: Institut Teknologi Bandung.

Munawar, 2005. Permodelan Visual dengan UML. Yogyakarta : GRAHA ILMU.

Raymond, J. 2006. Machine Learning Text Categorization. Austin: University of Texas at Austin.

Simarmata, J dan Paryudi, I. 2006. Basis Data. Yogyakarta : Andi.

Naradhipa, R. 2009. Pemilihan Kategori Artikel Berita dengan Text Mining. Paper Terpublikasi. Bandung: Institut Teknologi Bandung.

Ramadhany, T. 2008. Implementasi Kombinasi Model Ruang Vektor dan Model Probabilistik Pada Sistem Temu Balik Informasi. Skripsi Terpublikasi. Bandung: Institut Teknologi Bandung.

http://lecturer.eepis-its.edu/~iwanarif/kuliah/dm/6Text%20Mining.pdf(Tanggal Akses 12 Maret 2011)

http://papers.gunadarma.ac.id/index.php/computer/article/view/574/536(Tanggal Akses 13 Maret 2011)




DOI: http://dx.doi.org/10.17605/jim.v8i3.113

Refbacks

  • There are currently no refbacks.


Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Editor Informatika Mulawarman Address:
( p-ISSN: 1858-4853 | e-ISSN: 2597-4963 )

Organized by: Computer Science Department -  Mulawarman University
Published by: Faculty Computer Science and Technology Information (CSIT) 
Jl. Panajam Kampus Gunung Kelua Samarinda 75123 - Kalimantan Timur - Indonesia
Telp : (+62541) 753133 
E-mail: jim.unmul@gmail.com
OJS: http://e-journals.unmul.ac.id/index.php/JIM
Contact Person: Putut Pamilih W. (085246436015)


Creative Commons License
JIM by http://e-journals.unmul.ac.id/index.php/JIM/index is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.