PENERAPAN ALGORITMA TERM FREQUENCY-INVERSE DOCUMENT FREQUENCY (TF-IDF) UNTUK TEXT MINING

Musfiroh Nurjannah, Hamdani Hamdani, Indah Fitri Astuti

Abstract


Algoritma Term Frequency Inverse-Document Frequency merupakan suatu algoritma yang menggalikan antara Term frequency dengan Inverse Document Frequency. Term frequency yaitu jumlah kemunculan sebuah term pada sebuah dokumen. Inverse Document Frequency yaitu pengurangan dominasi term yang sering muncul diberbagai dokumen, dengan memperhitungkan kebalikan frekuensi dokumen yang mengandung suatu kata.
Text Mining pada umumnya adalah unstructured data, atau minimal semistructured. Maka merupakan tantangan tambahan pada text mining yaitu struktur teks yang kompleks dan tidak lengkap, arti yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang tidak akurat.
Hasil dari penelitian menunjukan bahwa, penerapkan algoritma term frequency inverse-document frequency untuk text mining sangat membantu pengguna. untuk mendapatkan informasi pada kumpulan dokumen. Dengan format file txt berdasarkan kata kunci yang dimasukan oleh pengguna pada sistem. Dengan koleksi uji kata ‘upaya’ pada query maka didapatkan keluaran dengan bobot nilai 8.65441 yang merupakan jumlah kata terbanyak sesuai dengan query.


Full Text:

PDF

References


Trunojoyo, H. Sistem Temu Balik Informasi (Sebuah Contoh Implementasi).(http://husni.trunojoyo.ac.id/wpcontent/uploads/2010/03/Husni-IR-dan Klasifikasi.pdf).

Arifin, A. 2002. Penggunaan Digital Tree Hibrida pada Aplikasi Information Retrieval untuk Dokumen Berita. Surabaya : Institut Teknologi Sepuluh Nopember.

Hendry. 2009. Berbagai Aplikasi Databae dengan VB 6.0. Jakarta : PT. Elex Media Komputindo.

Ladjamudin, A. 2005. Analisa dan Desain Sistem Informasi. Yogyakarta : Penerbit Andi Yogyakarta.

Mandala, R. dan Setiawan, H. 2002. Peningkatan Performansi Sistem Temu- Kembali Informasi dengan Perluasan Query Secara Otomatis. Bandung: Institut Teknologi Bandung.

Munawar, 2005. Permodelan Visual dengan UML. Yogyakarta : GRAHA ILMU.

Raymond, J. 2006. Machine Learning Text Categorization. Austin: University of Texas at Austin.

Simarmata, J dan Paryudi, I. 2006. Basis Data. Yogyakarta : Andi.

Naradhipa, R. 2009. Pemilihan Kategori Artikel Berita dengan Text Mining. Paper Terpublikasi. Bandung: Institut Teknologi Bandung.

Ramadhany, T. 2008. Implementasi Kombinasi Model Ruang Vektor dan Model Probabilistik Pada Sistem Temu Balik Informasi. Skripsi Terpublikasi. Bandung: Institut Teknologi Bandung.

http://lecturer.eepis-its.edu/~iwanarif/kuliah/dm/6Text%20Mining.pdf(Tanggal Akses 12 Maret 2011)

http://papers.gunadarma.ac.id/index.php/computer/article/view/574/536(Tanggal Akses 13 Maret 2011)




DOI: http://dx.doi.org/10.30872/jim.v8i3.113

Refbacks

  • There are currently no refbacks.


Copyright (c) 2016 Jurnal Informatika Mulawarman (JIM)

Editor Informatika Mulawarman Address:
ISSN 1858-4853 (Print) | ISSN 2597-4963 (Online)

Published by: Mulawarman University
Managed by : Informatika Department
Jalan Sambaliung No.9 Sempaja Selatan Samarinda Utara,
Kalimantan Timur 75117
 - Indonesia
E-mail: jim.unmul@gmail.com
OJS: http://e-journals.unmul.ac.id/index.php/JIM
Contact Person: Gubtha Mahendra Putra

 Creative Commons License

Informatika Mulawarman by http://e-journals.unmul.ac.id/index.php/JIM/index is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Under the CC BY-SA license, authors and other users are able to reprint, distribute or use the material for commercial purposes so long as they give attribution to the journal Informatika Mulawarman and license the republished material under the same license.