An Improved TFIDF Algorithm in Text Classification

2014 ◽  
Vol 651-653 ◽  
pp. 2258-2261 ◽  
Author(s):  
Dong Dong Xu ◽  
Shao Bo Wu

Term frequency/inverse document frequency (TF-IDF) is widely used in text classification at present, which is borrowed from Information Retrieval. Based on this conventional classical TF-IDF formula, we present a new TF-IDF weight schemes named CTF-IDF. The experiment shows that the improved method is feasible and effective. Furthermore, from the subsequent evaluations using 10-fold cross-validation, we can see the CTF-IDF greatly improves the accuracy of text classification.

Author(s):  
Mariani Widia Putri ◽  
Achmad Muchayan ◽  
Made Kamisutara

Sistem rekomendasi saat ini sedang menjadi tren. Kebiasaan masyarakat yang saat ini lebih mengandalkan transaksi secara online dengan berbagai alasan pribadi. Sistem rekomendasi menawarkan cara yang lebih mudah dan cepat sehingga pengguna tidak perlu meluangkan waktu terlalu banyak untuk menemukan barang yang diinginkan. Persaingan antar pelaku bisnis pun berubah sehingga harus mengubah pendekatan agar bisa menjangkau calon pelanggan. Oleh karena itu dibutuhkan sebuah sistem yang dapat menunjang hal tersebut. Maka dalam penelitian ini, penulis membangun sistem rekomendasi produk menggunakan metode Content-Based Filtering dan Term Frequency Inverse Document Frequency (TF-IDF) dari model Information Retrieval (IR). Untuk memperoleh hasil yang efisien dan sesuai dengan kebutuhan solusi dalam meningkatkan Customer Relationship Management (CRM). Sistem rekomendasi dibangun dan diterapkan sebagai solusi agar dapat meningkatkan brand awareness pelanggan dan meminimalisir terjadinya gagal transaksi di karenakan kurang nya informasi yang dapat disampaikan secara langsung atau offline. Data yang digunakan terdiri dari 258 kode produk produk yang yang masing-masing memiliki delapan kategori dan 33 kata kunci pembentuk sesuai dengan product knowledge perusahaan. Hasil perhitungan TF-IDF menunjukkan nilai bobot 13,854 saat menampilkan rekomendasi produk terbaik pertama, dan memiliki keakuratan sebesar 96,5% dalam memberikan rekomendasi pena.


PLoS ONE ◽  
2021 ◽  
Vol 16 (8) ◽  
pp. e0254937
Author(s):  
Serhad Sarica ◽  
Jianxi Luo

There are increasing applications of natural language processing techniques for information retrieval, indexing, topic modelling and text classification in engineering contexts. A standard component of such tasks is the removal of stopwords, which are uninformative components of the data. While researchers use readily available stopwords lists that are derived from non-technical resources, the technical jargon of engineering fields contains their own highly frequent and uninformative words and there exists no standard stopwords list for technical language processing applications. Here we address this gap by rigorously identifying generic, insignificant, uninformative stopwords in engineering texts beyond the stopwords in general texts, based on the synthesis of alternative statistical measures such as term frequency, inverse document frequency, and entropy, and curating a stopwords dataset ready for technical language processing applications.


2019 ◽  
Vol 1 (1) ◽  
pp. 43-49
Author(s):  
Jeremy Andre Septian ◽  
Tresna Maulana Fachrudin ◽  
Aryo Nugroho

Persepakbolaan Indonesia belakangan ini memiliki banyak polemik mulai dari kasus pengaturan skor, pergantian pelatih timnas senior hingga pergantian ketua umum Persatuan Sepak bola Seluruh Indonesia (PSSI). Polemik ini menimbulkan banyaknya opini maupun pendapat dari pengguna twitter terhadap persepakbolaan di Indonesia sehingga diperlukan sebuah sistem untuk memudahkan dalam mengetahui sentimen pada setiap kalimat. Tujuan dari penelitian ini adalah untuk menganalisis sentimen pada setiap kalimat dari pengguna twitter terhadap persepakbolaan Indonesia apakah memiliki sentimen negatif atau positif. Data yang digunakan dalam penelitian ini didapatkan dari hasil crawling dari media sosial twitter terkait persepakbolaan di Indonesia yang diambil dari akun twitter resmi PSSI. Setelah data dikumpulkan kemudian akan dilakukan beberapa tahapan yaitu preprocessing yang terdiri dari cleansing, tokenizing, stopword removal, dan stemming.  Pembobotan kata menggunakan Term Frequency-Invers Document Frequency (TF-IDF). Pada tahap validasi data dilakukan pengujian silang sebanyak 10 kali menggunakan k-fold cross validation, kemudian diklasifikasikan dengan metode K-Nearest Neighbor dapat menghasilkan akurasi yang cukup baik. Dari 2000 data tweet berbahasa indonesia didapatkan hasil akurasi optimal pada nilai k=23 sebanyak 79.9%


2020 ◽  
Vol 2 (2) ◽  
pp. 70
Author(s):  
Hidayatul Ma'rifah ◽  
Aji Prasetya Wibawa ◽  
Muhammad Iqbal Akbar

Penelitian ini bertujuan untuk menemukan kombinasi dan urutan preprocessing dalam text mining yang paling maksimal untuk klasifikasi bidang jurnal berbahasa Indonesia berdasarkan judul dan abstraknya. Tahap-tahap preprocessing yang akan diterapkan terdiri dari case folding, stemming, stopwords removal, transformasi VSM (Vector Space Model), dan SMOTE. Namun, pengamatan tiap skenario berfokus pada stemming dan dua teknik stopwords removal, yaitu stopwords removal berbasis kamus, dan berbasis document frequency setelah melewati proses transformasi ke dalam bentuk VSM dengan pembobotan TF-IDF (Term Trequency–Inverse Document Frequency). Proses klasifikasi mengadopsi algoritma k-NN (K-Nearest Neighbour), yang menentukan kelas suatu data tes dengan melihat tetangga terdekatnya. Dalam penelitian ini, metrik untuk menemukan jarak tetangga terdekat adalah Cosine Similarity. Pengujian klasifikasi menggunakan 10-Fold Cross Validation untuk menghasilkan confusion matrix sebagai hasil akhir. Kinerja klasifikasi terbaik dicapai dengan persentase accuracy sebesar 72.91% dan precision mencapai 73,36%.


2019 ◽  
Author(s):  
Matthew J. Lavin

This lesson focuses on a foundational natural language processing and information retrieval method called Term Frequency - Inverse Document Frequency (tf-idf). This lesson explores the foundations of tf-idf, and will also introduce you to some of the questions and concepts of computationally oriented text analysis.


Author(s):  
Dhaifa Farah Zhafira ◽  
Bayu Rahayudi ◽  
Indriati Indriati

Kebijakan Kampus Merdeka merupakan salah satu kebijakan baru yang digagas oleh Menteri Pendidikan dan Kebudayaan Republik Indonesia (Mendikbud RI). Kebijakan tersebut tengah ramai disorot publik khususnya pada platform Youtube berkaitan dengan video unggahan Mendikbud di kanalnya.  Pada Youtube, opini masyarakat dapat membanjiri kolom komentar dalam sekejap karena kemunculannya sebagai platform pertama yang menawarkan fasilitas konten audio visual. Penelitian ini mencoba menganalisis opini masyarakat yang tertampung dalam kolom komentar Youtube ke dalam klasifikasi sentimen positif dan negatif. Klasifikasi diimplementasikan pada Google Colaboratory yang berbasis bahasa Python dan Jupyter Notebook dengan algoritme Naive Bayes Classifier serta pembobotan kata Term Frequency Inverse Document Frequency (TF-IDF). 5 proses utama dalam penelitian ini yang meliputi pelabelan manual, text preprocessing, pembobotan TF-IDF, validasi data menggunakan k-fold cross validation, dan klasifikasi. Hasil akurasi terbaik sebesar 97% yang didapat dengan menggunakan 900 data latih, 100 data uji, menerapkan pembobotan TF-IDF, dan 10-fold cross validation. Rata-rata akurasi yang didapat dari 10 iterasi pada k-fold cross validation yaitu sebesar 91.8% dengan nilai precision, recall, f-measure sebesar 90.35%, 93.6%, 91.95%. Berdasarkan hasil tersebut, Naive Bayes Classifier cukup baik sebagai alternatif untuk analisis sentimen.


2021 ◽  
Vol 8 (2) ◽  
pp. 207
Author(s):  
I Putu Gede Hendra Suputra ◽  
Kiki Dwi Prebiana ◽  
Frisca Olivia Gorianto

Pada sebuah sistem temu kembali,salah satu cara untuk mencari kesamaan antara query dengan dokumen adalah dengan menggunakan Term Frequency – Inverse Document Frequency atau TF-IDF. TF yang umum digunakan adalah langsung menggunakan jumlah term frequency padahal banyak jenis TF lainnya yang dapat dikombinasikan dengan IDF. Penelitian ini akan mengkombinasikan 4 jenis TF, yaitu Natural TF, Normalization/max TF, Logaritma TF, dan Boolean TF dengan tujuan untuk mencari jenis TF mana yang lebih baik setelah dikombinasikan dengan IDF. Hasil penelitian menunjukkan bahwa.Logaritma TF adalah yang terbaik dengan nilai F-measure sebesar 0,00662. Keywords: TF-IDF, Natural TF, Normalization TF, Logaritma TF, Boolean TF


Sign in / Sign up

Export Citation Format

Share Document