scholarly journals ANALISIS PEMBOBOTAN KATA PADA KLASIFIKASI TEXT MINING

2019 ◽  
Vol 3 (2) ◽  
pp. 179 ◽  
Author(s):  
Agatha Deolika ◽  
Kusrini Kusrini ◽  
Emha Taufiq Luthfi

Abstract - In this era, we need to extract the text needed to visualize or need knowledge from a large collection of document texts. Text mining is the process of obtaining high-quality information from text. High-quality information obtained because of attention to patterns and trends by reading statistical patterns. In the process of extracting the text, we need to pay for the words offered to give value/weight to the terms provided in a document. The weight given to the term depends on the method used. In weighting many words such as algorithms for example such as TF, IDF, RF, TF-IDF, TF.RF, TF.CHI, WIDF. This research will be analyzed and compared with the TF-IDF, TF.RF, and WIDF algorithms. For the test method, the naïve Bayes classification method will be used and the valuation analysis using the confusion matrix. With a dataset used as many as 130 documents in which 100 data transfer and 30 test data. Based on the analysis of the results of the classification that has been done, it can determine the weighting of TF.RF with naif classification is better than weighting TF.IDF and WIDF with Accuracy values of 98.67%, Precision 93.81%, and Recall 96.67%.Keywords - Text Mining, TF-IDF, TF-RF, WIDF, Classification, Naïve Bayes. Abstract - Pada era sekarang ini pemanfaatan text mining sangatlah diperlukan untuk mevisualkan atau mengevaluasi pengetahuan dari kumpulan besar dari teks dokumen. Text mining adalah proses untuk memperoleh informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya didapatkan karena memperhatikan pola dan tren dengan cara mempelajari pola statistik. Pada proses teks mining terdapat pembobobtan kata yang bertujuan untuk memberikan nilai/bobot pada term yang terdapat pada suatu dokumen. Bobot yang diberikan pada term tergantung kepada metode yang digunakan. Dalam pembobotan kata banyak sekali terdapat algoritma-algoritma contohnya seperti TF, Idf, RF, TF-IDF, TF.RF, TF.CHI, WIDF. Pada penelitian ini akan dianalisis dan dibandingkan algoritma  TF-IDF, TF.RF, dan WIDF. Untuk metode pengujiannya akan digunakan metode klasifikasi naïve bayes  dan analisis perbandingannya menggunakan confussion matrix. Dengan dataset yang digunakan sebanyak 130 dokumen yang mana 100 data traning dan 30 data uji. Berdasarkan analisa pada hasil klasifikasi yang telah dilakukan, dapat disimpulkan bahwa pembobotan TF.RF dengan klasifikasi Naïve bayes lebih baik dari pembobotan TF.IDF dan WIDF dengan nilai Accuracy 98,67%, Precision 93,81%, dan Recall 96,67%.   Kata Kunci - Text Mining, TF-IDF, TF-RF, WIDF, Klasifikasi, Naïve Bayes.

2021 ◽  
Vol 7 (2) ◽  
pp. 226
Author(s):  
Angelina Pramana Thenata

Era sekarang jumlah berita dari berbagai media sosial yang tersebar dalam waktu singkat dan kebutuhan masyarakat untuk mengkonsumsi berita dalam berbagai referensi dapat mempengaruhi kehidupan masyarakat. Hal ini menyebabkan data yang tersebar dapat dikumpulkan dan dimanfaatkan oleh pemerintah, pengusaha, analisis, ataupun peneliti untuk mengidentifikasi tren, mengembangkan bisnis, memprediksi perilaku pelanggan dan lain sebagainya. Pengumpulan data berita dari media sosial tersebut dapat menggunakan text mining yang melibatkan algoritma yakni Naive Bayes, K-NN, dan SVM. Namun, penggunaan algoritma pada studi kasus yang tidak sesuai dapat memberikan hasil yang tidak optimal. Oleh karena itu, penelitian ini akan menganalisis algoritma text mining yang diimplementasikan pada media sosial berbahasa Indonesia dengan memakai metode systematic literature review. Metode ini dimulai dengan melakukan tahap planning yang menetapkan pertanyaan penelitian, kata pencarian, sumber literatur digital, dan standard literatur. Dilanjutkan dengan tahap conducting yang memilih dan mencocokan standard literatur, serta ekstraksi data. Kemudian tahap reporting yang melakukan analisis hasil ekstraksi data sehingga bisa menemumkan informasi dan pengetahuan. Tolak ukur yang menjadi acuan untuk perbandingan yakni pengujian confusion matrix berupa accuracy, precision, dan recall. Adapun hasil dari penelitian ini ditemukan algoritma Naive Bayes memberikan hasil yang stabil tapi kurang optimal jika diterapkan pada studi kasus media sosial berbahasa Indonesia. Sedangkan algortima K-NN dan SVM ditemukan memberikan hasil yang optimal jika diterapkan pada studi kasus media sosial berbahasa Indonesia yang dibuktikan dengan accuracy (50%-98.13%), precision (58.22%-98.48%), dan recall (21.05%-98%).  


Sebatik ◽  
2020 ◽  
Vol 24 (1) ◽  
pp. 1-7
Author(s):  
Aida Indriani

Penggunaan forum sebagai sarana pembelajaran telah banyak digunakan pada kalangan Mahasiswa. Forum digunakan sebagai sarana berdiskusi antar sesama anggota forum untuk membahas materi sesuai dengan judul topik. Judul topik biasanya ditentukan sesuai dengan isi materi yang akan dibahas. Judul topik yang sudah terlalu banyak di dalam sebuah forum dapat berakibat salah dalam pemilihan judul. Salah satu cara untuk mengatasinya yaitu dengan melakukan klasifikasi judul topik secara otomatis sesuai dengan isi materi. Klasifikasi teks dapat diselesaikan dengan menggunakan teknik text mining. Pada proses klasifikasi yang dilakukan yaitu dengan membagi dataset menjadi 2 (dua) bagian menjadi data latih (training) dan data uji (testing). Pada tahapan awal klasifikasi dilakukan proses pre-processing yang diawali dengan tahapan tokenisasi, kemudian dilanjutkan dengan filtering dan diakhiri dengan stemming. Ada beberapa metode yang dapat digunakan dalam klasifikasi teks antara lain naïve bayes classifier (nbc), k-nearest neighbor (k-nn), rocchio, weight adjusted k-nearest neighbor (wa k-nn) dan lain-lain. Pada penelitian ini, penulis membandingkan 2 (dua) metode yaitu nbc dan k-nn. Dari hasil perbandingan kedua metode dapat disimpulkan bahwa metode k-nn lebih baik tingkat akurasinya daripada metode nbc. Hal ini dibuktikan dengan tingkat akurasi sebesar 80% untuk metode k-nn dan sebesar 73% untuk nbc yang dihitung dengan menggunakan metode confusion matrix.


2021 ◽  
Vol 26 (1) ◽  
pp. 65-77
Author(s):  
Muhammad Azis Suprayogi

Laras Online adalah fasilitas pada Pemkab Bogor yang diperuntukkan bagi masyarakat terutama warga Kabupaten Bogor sebagai wadah aspirasi dan pengaduan. Seiring dengan jumlah pengaduan yang masuk sangat banyak sehingga mengakibatkan waktu yang lebih lama yang digunakan oleh petugas admin dalam memilah kemudian menentukan unit tujuan pengaduan. Penelitian ini bertujuan untuk membandingkan performansi klasifikasi dokumen pengaduan pada situs Laras Online menggunakan algoritma K-Nearest Neighbor (KNN) dan Naïve Bayes Classifier (NBC). Penelitian dilakukan dengan cara mengumpulkan dokumen pengaduan, melakukan preprocessing, pembobotan kata, klasifikasi, dan pengujian. Pengujian menggunakan cross validation dengan parameter k-fold=10 dan confusion matrix berdasarkan nilai accuracy, precission, recall, dan score-f1. Hasil pengujian terhadap 360 dataset menunjukkan bahwa algoritma NBC lebih baik dari algoritma KNN dengan nilai k=3, k=5, k=7, dan k=9 untuk mengklasifikasikan dokumen pengaduan ke dalam 6 kategori. Hasil klasifikasi menggunakan algoritma NBC memberikan nilai accuracy sebesar 79,16% dengan nilai precission tertinggi pada 2 kategori yaitu Dinsos 91,30% dan SatpolPP 66,80%, nilai recall tertinggi pada 4 kategori yaitu Disdukcapil 89,90%, Dislinghidup 88,40%, Dispupr 93,20%, dan Dishub 76,50%, serta nilai score-f1 tertinggi pada 4 kategori yaitu Disdukcapil sebesar 82,10%, Dislinghidup 82,90%, Dinsos 88,90%, dan Dishub 81,20%.


2018 ◽  
Vol 10 (2) ◽  
pp. 109-118
Author(s):  
Anif Hanifa Setianingrum ◽  
Dea Herwinda Kalokasari ◽  
Imam Marzuki Shofi

ABSTRAK Informasi diperkirakan lebih dari 80% tersimpan dalam bentuk teks tidak terstruktur. Oleh karena itu, dibutuhkan sistem pengelolaan teks yaitu dengan metode text mining yang diyakini memiliki potensial nilai komersial tinggi. Salah satu implementasi dari text mining yaitu klasifikasi teks. Tidak hanya dokumen, pemanfaatan klasifikasi juga digunakan pada surat. Peneliti mengkaji Multinomial Naive Bayes Classifier untuk mengklasifikasi surat keluar sehingga dapat menentukan nomor surat secara otomatis. Sistem klasifikasi didukung dengan confix-stripping stemmer untuk menemukan kata dasar dan TF-IDF untuk pembobotan kata. Pengujian diukur dengan menggunakan confusion matrix. Dari hasil pengujian menunjukkan bahwa implementasi Multinomial Naive Bayes Classifier pada sistem klasifikasi surat memiliki tingkat accuracy, precision, recall, dan F-measure berturut-turut sebesar 89,58%, 79,17%, 78,72%, dan 77,05%.  ABSTRACT The information estimated that more than 80% is stored in the form of unstructured text. Therefore, it takes a text management system, namely text mining method is believed to have high potential commercial. One of text mining implementation is text classification. Not only documents, the use of classification is also used in official letter. Researcher examined Multinomial Naive Bayes Classifier to classify the letter so it can determine the letters classification code automatically. The classification system is supported by confix-stripping stemmer to find root and TF-IDF for term weighting. The test used by confusion matrix of a classified as a measure of its quality. The test results showed that the implementation of Multinomial Naive Bayes Classifier on letter classification system has a level of accuracy, precision, recall, and F-measure respectively for 89.58%, 79.17%, 78.72% and 77.05%.How to Cite : Setianingrum, A. H. Kalokasari, D.H . Shofi. I. M. (2017). IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER. Jurnal Teknik Informatika, 10(2), 109-118. doi: 10.15408/jti.v10i2.6822Permalink/DOI: http://dx.doi.org/10.15408/jti.v10i2.6822


2019 ◽  
Vol 7 (1) ◽  
pp. 29-36 ◽  
Author(s):  
Elly Indrayuni

Saat ini produk kosmetik sudah menjadi kebutuhan utama kaum wanita yang merupakan target utama dari industri kosmetik. Banyak website yang menyediakan informasi tentang produk kosmetik dengan memberikan banyak informasi berupa gambar dan review pengguna. Membaca semua review yang ada pada sebuah website tentu sangat memakan waktu, karena terlalu banyak opini yang ada dari berbagai sumber website yang berbeda. Oleh karena itu, analisa sentimen merupakan salah satu solusi mengatasi masalah untuk mengelompokan opini atau review menjadi opini positif atau negatif secara otomatis. Naive Bayes memiliki kelebihan yaitu sederhana, cepat dan memiliki akurasi yang tinggi. Penerapan fitur generate            n-gram pada penelitian ini diharapkan dapat meningkatkan nilai akurasi algoritma Naive Bayes. N-gram dianggap dapat mengurangi selisih antara klasifikasi kelas positif dan negatif sehingga dapat meningkatkan rata-rata akurasi akhir suatu algoritma. Hasil klasifikasi sentimen pada penelitian ini terdiri dari dua label class, yaitu positif dan negatif. Nilai akurasi yang dihasilkan akan menjadi tolak  ukur untuk mencari model pengujian terbaik untuk kasus klasifikasi sentimen. Evaluasi dilakukan menggunakan 10 fold cross validation. Pengukuran akurasi diukur dengan confusion matrix dan kurva ROC. Hasil penelitian menunjukkan penerapan generate n-gram pada tahap preprocessing mempengaruhi nilai akurasi dan nilai AUC yang dihasilkan. Nilai akurasi terbaik yang dihasilkan pada penelitian ini yaitu 90.50% dengan nilai AUC sebesar 0.715 pada penerapan generate n-gram = 2.


1997 ◽  
Vol 22 (3) ◽  
Author(s):  
Michael Jensen

Abstract: Scholarly publishing and access to high-quality information may in fact be threatened, rather than improved, by the revolution in communications, particularly in a fully commercial Internet. The effects of the political revolution in Eastern Europe on scholarship and quality publishing are used as a touchstone of the dangers that occur when naïve revolutionaries make swift changes without fully recognizing the impact upon delicately balanced social institutions such as non-profit organizations. Résumé: La révolution en communications, particulièrement en ce qui regarde un Internet commercialisé, plutôt que d'améliorer l'édition savante et l'accès à de l'information de haute qualité, pourrait en fait poser une menace pour ceux-ci. Cet article examine comment la révolution politique en Europe de l'Est a influé sur la recherche et l'édition de qualité. Il utilise cet exemple pour examiner les dangers que peuvent courir certains révolutionnaires naïfs quand ils instaurent des changements rapides san songer à leur impact sur des institutions sociales à équilibre délicat comme les organisations à but non lucratif.


2014 ◽  
Vol 2014 ◽  
pp. 1-16 ◽  
Author(s):  
Qingchao Liu ◽  
Jian Lu ◽  
Shuyan Chen ◽  
Kangjia Zhao

This study presents the applicability of the Naïve Bayes classifier ensemble for traffic incident detection. The standard Naive Bayes (NB) has been applied to traffic incident detection and has achieved good results. However, the detection result of the practically implemented NB depends on the choice of the optimal threshold, which is determined mathematically by using Bayesian concepts in the incident-detection process. To avoid the burden of choosing the optimal threshold and tuning the parameters and, furthermore, to improve the limited classification performance of the NB and to enhance the detection performance, we propose an NB classifier ensemble for incident detection. In addition, we also propose to combine the Naïve Bayes and decision tree (NBTree) to detect incidents. In this paper, we discuss extensive experiments that were performed to evaluate the performances of three algorithms: standard NB, NB ensemble, and NBTree. The experimental results indicate that the performances of five rules of the NB classifier ensemble are significantly better than those of standard NB and slightly better than those of NBTree in terms of some indicators. More importantly, the performances of the NB classifier ensemble are very stable.


Sign in / Sign up

Export Citation Format

Share Document