scholarly journals Text Mining Literature Review on Indonesian Social Media

2021 ◽  
Vol 7 (2) ◽  
pp. 226
Author(s):  
Angelina Pramana Thenata

Era sekarang jumlah berita dari berbagai media sosial yang tersebar dalam waktu singkat dan kebutuhan masyarakat untuk mengkonsumsi berita dalam berbagai referensi dapat mempengaruhi kehidupan masyarakat. Hal ini menyebabkan data yang tersebar dapat dikumpulkan dan dimanfaatkan oleh pemerintah, pengusaha, analisis, ataupun peneliti untuk mengidentifikasi tren, mengembangkan bisnis, memprediksi perilaku pelanggan dan lain sebagainya. Pengumpulan data berita dari media sosial tersebut dapat menggunakan text mining yang melibatkan algoritma yakni Naive Bayes, K-NN, dan SVM. Namun, penggunaan algoritma pada studi kasus yang tidak sesuai dapat memberikan hasil yang tidak optimal. Oleh karena itu, penelitian ini akan menganalisis algoritma text mining yang diimplementasikan pada media sosial berbahasa Indonesia dengan memakai metode systematic literature review. Metode ini dimulai dengan melakukan tahap planning yang menetapkan pertanyaan penelitian, kata pencarian, sumber literatur digital, dan standard literatur. Dilanjutkan dengan tahap conducting yang memilih dan mencocokan standard literatur, serta ekstraksi data. Kemudian tahap reporting yang melakukan analisis hasil ekstraksi data sehingga bisa menemumkan informasi dan pengetahuan. Tolak ukur yang menjadi acuan untuk perbandingan yakni pengujian confusion matrix berupa accuracy, precision, dan recall. Adapun hasil dari penelitian ini ditemukan algoritma Naive Bayes memberikan hasil yang stabil tapi kurang optimal jika diterapkan pada studi kasus media sosial berbahasa Indonesia. Sedangkan algortima K-NN dan SVM ditemukan memberikan hasil yang optimal jika diterapkan pada studi kasus media sosial berbahasa Indonesia yang dibuktikan dengan accuracy (50%-98.13%), precision (58.22%-98.48%), dan recall (21.05%-98%).  

2019 ◽  
Vol 15 (2) ◽  
pp. 247-254
Author(s):  
Heru Sukma Utama ◽  
Didi Rosiyadi ◽  
Dedi Aridarma ◽  
Bobby Suryo Prakoso

Analysis of the odd even-numbered sentiment systems in Bekasi toll using the Naïve Bayes Algorithm, is a process of understanding, extracting, and processing textual data automatically from social media. The purpose of this study was to determine the level of accuracy, recall and precision of opinion mining generated using the Naïve Bayes algorithm to provide information community sentiment towards the effectiveness of the odd system of Bekasi tiolls on social media. The research method used in this study was to do text mining in comments-comments regarding posts regarding even odd oddities on Bekasi toll on Twitter, Instagram, Youtube and Facebook. The steps taken are starting from preprocessing, transformation, datamining and evaluation, followed by information gaon feature selection, select by weight and applying NB Algorithm model. The results obtained from the study using the NB model are obtained Confusion Matrix result, namely accuracy of 79,55%, Precision of 80,51%, and Sensitivity or Recall of 80,91%. Thus this study concludes that the use of Support Vector Machine Algorithms can analyze even odd sentiments on the Bekasi toll road.


Author(s):  
Ade Febriany ◽  
◽  
Ditdit Nugeraha Utama

Cyberbullying is an act that violates where this crime is committed on social media, e.g. the Twitter application. This action is difficult to detect, thus someone has to report the case before detection. Identification of cyberbullying tweets aims to classify tweets containing the bullying content. Several studies gave output results in the identification of whether the tweet is positive or negative, or bully or not. It can be confusing when analyzing the classification results as it only results in two classes. In this research, by using the conception of text mining Naïve Bayes, the model that can categorize into more detail was developed. It does not only categorize the contents are bullying or not, however it can classify the contents into five detail categories. The classification process done based on the dataset and label where the schema to build dataset was proposed scientifically from this study. The contribution of this research is to offer the algorithm to collect and label the Indonesian language dataset and then classify the types of sarcasm, namely animal, psychology and stupidity, disabled person, attitude, and general bullying. The research hypothesis is that analysis from the classification results can be improved by classifying bully content into the five classes. Dataset was collected by the researcher and labelling was done manually based on study literature. The result proves the model can use to classify cyberbullying content in social media with 99.15% accuracy.


Sebatik ◽  
2020 ◽  
Vol 24 (1) ◽  
pp. 1-7
Author(s):  
Aida Indriani

Penggunaan forum sebagai sarana pembelajaran telah banyak digunakan pada kalangan Mahasiswa. Forum digunakan sebagai sarana berdiskusi antar sesama anggota forum untuk membahas materi sesuai dengan judul topik. Judul topik biasanya ditentukan sesuai dengan isi materi yang akan dibahas. Judul topik yang sudah terlalu banyak di dalam sebuah forum dapat berakibat salah dalam pemilihan judul. Salah satu cara untuk mengatasinya yaitu dengan melakukan klasifikasi judul topik secara otomatis sesuai dengan isi materi. Klasifikasi teks dapat diselesaikan dengan menggunakan teknik text mining. Pada proses klasifikasi yang dilakukan yaitu dengan membagi dataset menjadi 2 (dua) bagian menjadi data latih (training) dan data uji (testing). Pada tahapan awal klasifikasi dilakukan proses pre-processing yang diawali dengan tahapan tokenisasi, kemudian dilanjutkan dengan filtering dan diakhiri dengan stemming. Ada beberapa metode yang dapat digunakan dalam klasifikasi teks antara lain naïve bayes classifier (nbc), k-nearest neighbor (k-nn), rocchio, weight adjusted k-nearest neighbor (wa k-nn) dan lain-lain. Pada penelitian ini, penulis membandingkan 2 (dua) metode yaitu nbc dan k-nn. Dari hasil perbandingan kedua metode dapat disimpulkan bahwa metode k-nn lebih baik tingkat akurasinya daripada metode nbc. Hal ini dibuktikan dengan tingkat akurasi sebesar 80% untuk metode k-nn dan sebesar 73% untuk nbc yang dihitung dengan menggunakan metode confusion matrix.


2019 ◽  
Vol 3 (2) ◽  
pp. 179 ◽  
Author(s):  
Agatha Deolika ◽  
Kusrini Kusrini ◽  
Emha Taufiq Luthfi

Abstract - In this era, we need to extract the text needed to visualize or need knowledge from a large collection of document texts. Text mining is the process of obtaining high-quality information from text. High-quality information obtained because of attention to patterns and trends by reading statistical patterns. In the process of extracting the text, we need to pay for the words offered to give value/weight to the terms provided in a document. The weight given to the term depends on the method used. In weighting many words such as algorithms for example such as TF, IDF, RF, TF-IDF, TF.RF, TF.CHI, WIDF. This research will be analyzed and compared with the TF-IDF, TF.RF, and WIDF algorithms. For the test method, the naïve Bayes classification method will be used and the valuation analysis using the confusion matrix. With a dataset used as many as 130 documents in which 100 data transfer and 30 test data. Based on the analysis of the results of the classification that has been done, it can determine the weighting of TF.RF with naif classification is better than weighting TF.IDF and WIDF with Accuracy values of 98.67%, Precision 93.81%, and Recall 96.67%.Keywords - Text Mining, TF-IDF, TF-RF, WIDF, Classification, Naïve Bayes. Abstract - Pada era sekarang ini pemanfaatan text mining sangatlah diperlukan untuk mevisualkan atau mengevaluasi pengetahuan dari kumpulan besar dari teks dokumen. Text mining adalah proses untuk memperoleh informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya didapatkan karena memperhatikan pola dan tren dengan cara mempelajari pola statistik. Pada proses teks mining terdapat pembobobtan kata yang bertujuan untuk memberikan nilai/bobot pada term yang terdapat pada suatu dokumen. Bobot yang diberikan pada term tergantung kepada metode yang digunakan. Dalam pembobotan kata banyak sekali terdapat algoritma-algoritma contohnya seperti TF, Idf, RF, TF-IDF, TF.RF, TF.CHI, WIDF. Pada penelitian ini akan dianalisis dan dibandingkan algoritma  TF-IDF, TF.RF, dan WIDF. Untuk metode pengujiannya akan digunakan metode klasifikasi naïve bayes  dan analisis perbandingannya menggunakan confussion matrix. Dengan dataset yang digunakan sebanyak 130 dokumen yang mana 100 data traning dan 30 data uji. Berdasarkan analisa pada hasil klasifikasi yang telah dilakukan, dapat disimpulkan bahwa pembobotan TF.RF dengan klasifikasi Naïve bayes lebih baik dari pembobotan TF.IDF dan WIDF dengan nilai Accuracy 98,67%, Precision 93,81%, dan Recall 96,67%.   Kata Kunci - Text Mining, TF-IDF, TF-RF, WIDF, Klasifikasi, Naïve Bayes.


2020 ◽  
Vol 9 (2) ◽  
pp. 109-118
Author(s):  
Bagja Nugraha

Di era industri 4.0 dimana banyaknya kegiatan dengan menggunakan internet, persaingan dalam dunia bisnis sangat meningkat dan mendorong setiap perusahaan atau suatu bisnis untuk terus melakukan perkembanngan dan mengikuti setiap perubahan yang terjadi. Untuk meningkatkan kualitas suatu perusahaan dan inovasi dari suatu bisnis terdapat beberapa cara salah satunya dengan mengetahui opini apa yang berkembang di masyarakat mengenai perusahaan tersebut. Dari banyaknya opini yang diberikan oleh masyarakat terhadap perusahaan tersebut, selanjutnya akan diproses dengan menggunakan analisis sentimen. Dari banyaknya penelitian, analisis sentimen memiliki banyak metode dalam penyelesaian masalahnya. Namun belum ada penelitian mengenai metode klasifikasi yang paling banyak digunakan dan metode mana yang memiliki tingkat akurasi paling tinggi. Oleh karena itu penelitian ini dilakukan untuk melihat metode klasifikasi yang paling banyak digunakan dan metode klasifikasi yang memiliki tingkat akurasi paling tinggi untuk analisis sentimen pada Sosial Media menggunakan metode Systematic Literature Review (SLR). Hasil dari penelitian ini disimpulkan bahwa metode klasifikasi yang paling banyak digunakan adalah metode Naïve Bayes Classifier dan tingkat akurasi dari suatu metode dipengaruhi oleh beberapa faktor seperti jumlah data yang digunakan.


2020 ◽  
Vol 17 (2) ◽  
pp. 109-116
Author(s):  
Fachri Amsury ◽  
Nanang Ruhyana ◽  
Irwansyah Saputra ◽  
Daning Nur Sulistyowati

Customer complaints about the company can be used as a form of self-evaluation and performance that has been carried out by the company, based on customer complaints the company can find out the weaknesses that exist in the company and fix them. The forms of submitting customer complaints are very diverse, currently not only by telephone, but customers also submit suggestions or complaints, customers can submit suggestions or complaints via electronic mail or e-mail or forums in cyberspace that are indeed created by product-producing companies to accommodate various complaints, suggestions, and direct criticism from consumers, especially social media that are free to express opinions on the delivery services used. Instagram is a social media that is more inclined towards images and on the other hand, has captions and comments text, a study is needed for the problem of customer complaints from shipping service users on an Instagram account of a delivery service company. Based on this background, a solution is needed in solving problems for text mining classification using Naïve Bayes with SMOTE techniques and N-Gram feature extraction with the usual process for text mining so that it can produce Naïve Bayes and SMOTE accuracy with an accuracy of 88.54%, before implementation. N-Gram and the accuracy rate increased by 1.44% after the N-Gram Term was applied to 89.98% by using a dataset of 776 Instagram comment text records that had to preprocess text.


2021 ◽  
Vol 26 (1) ◽  
pp. 65-77
Author(s):  
Muhammad Azis Suprayogi

Laras Online adalah fasilitas pada Pemkab Bogor yang diperuntukkan bagi masyarakat terutama warga Kabupaten Bogor sebagai wadah aspirasi dan pengaduan. Seiring dengan jumlah pengaduan yang masuk sangat banyak sehingga mengakibatkan waktu yang lebih lama yang digunakan oleh petugas admin dalam memilah kemudian menentukan unit tujuan pengaduan. Penelitian ini bertujuan untuk membandingkan performansi klasifikasi dokumen pengaduan pada situs Laras Online menggunakan algoritma K-Nearest Neighbor (KNN) dan Naïve Bayes Classifier (NBC). Penelitian dilakukan dengan cara mengumpulkan dokumen pengaduan, melakukan preprocessing, pembobotan kata, klasifikasi, dan pengujian. Pengujian menggunakan cross validation dengan parameter k-fold=10 dan confusion matrix berdasarkan nilai accuracy, precission, recall, dan score-f1. Hasil pengujian terhadap 360 dataset menunjukkan bahwa algoritma NBC lebih baik dari algoritma KNN dengan nilai k=3, k=5, k=7, dan k=9 untuk mengklasifikasikan dokumen pengaduan ke dalam 6 kategori. Hasil klasifikasi menggunakan algoritma NBC memberikan nilai accuracy sebesar 79,16% dengan nilai precission tertinggi pada 2 kategori yaitu Dinsos 91,30% dan SatpolPP 66,80%, nilai recall tertinggi pada 4 kategori yaitu Disdukcapil 89,90%, Dislinghidup 88,40%, Dispupr 93,20%, dan Dishub 76,50%, serta nilai score-f1 tertinggi pada 4 kategori yaitu Disdukcapil sebesar 82,10%, Dislinghidup 82,90%, Dinsos 88,90%, dan Dishub 81,20%.


Jurnal Varian ◽  
2021 ◽  
Vol 4 (2) ◽  
pp. 133-140
Author(s):  
Ade Clinton Sitepu ◽  
Wanayumini Wanayumini ◽  
Zakarias Situmorang

Cyber-bullying includes repeated acts with the aim of scaring, angering, or embarrassing those who are targeted Cyber-bullying is happening along with the rapid development of technology and social media in society. The media and users need to filter out bully comments because they can indirectly affect the mental psychology that reads them especially directly aimed at that person. By utilizing information mining, the system is expected to be able to classify information circulating in the community. One of the classification techniques that can be applied to text-based classification is Naïve Bayes. The algorithm is good at performing the classification process. In this research, the precision of the algorithm's has been carried out on 1000 comment datasets. The data is grouped manually first into the labels "bully" and "not bully" then the data is divided into training data and test data. To test the system's ability, the classified data is analyzed using the confusion matrix method. The results showed that the Naïve Bayes Algorithm got the level of precision at 87%. and the level of  area under the curve (AUC) at 88%. In terms of speed of completing the system, the Naïve Bayes Algorithm has a very good rate of speed with completion time of 0.033 seconds.


2018 ◽  
Vol 10 (2) ◽  
pp. 109-118
Author(s):  
Anif Hanifa Setianingrum ◽  
Dea Herwinda Kalokasari ◽  
Imam Marzuki Shofi

ABSTRAK Informasi diperkirakan lebih dari 80% tersimpan dalam bentuk teks tidak terstruktur. Oleh karena itu, dibutuhkan sistem pengelolaan teks yaitu dengan metode text mining yang diyakini memiliki potensial nilai komersial tinggi. Salah satu implementasi dari text mining yaitu klasifikasi teks. Tidak hanya dokumen, pemanfaatan klasifikasi juga digunakan pada surat. Peneliti mengkaji Multinomial Naive Bayes Classifier untuk mengklasifikasi surat keluar sehingga dapat menentukan nomor surat secara otomatis. Sistem klasifikasi didukung dengan confix-stripping stemmer untuk menemukan kata dasar dan TF-IDF untuk pembobotan kata. Pengujian diukur dengan menggunakan confusion matrix. Dari hasil pengujian menunjukkan bahwa implementasi Multinomial Naive Bayes Classifier pada sistem klasifikasi surat memiliki tingkat accuracy, precision, recall, dan F-measure berturut-turut sebesar 89,58%, 79,17%, 78,72%, dan 77,05%.  ABSTRACT The information estimated that more than 80% is stored in the form of unstructured text. Therefore, it takes a text management system, namely text mining method is believed to have high potential commercial. One of text mining implementation is text classification. Not only documents, the use of classification is also used in official letter. Researcher examined Multinomial Naive Bayes Classifier to classify the letter so it can determine the letters classification code automatically. The classification system is supported by confix-stripping stemmer to find root and TF-IDF for term weighting. The test used by confusion matrix of a classified as a measure of its quality. The test results showed that the implementation of Multinomial Naive Bayes Classifier on letter classification system has a level of accuracy, precision, recall, and F-measure respectively for 89.58%, 79.17%, 78.72% and 77.05%.How to Cite : Setianingrum, A. H. Kalokasari, D.H . Shofi. I. M. (2017). IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER. Jurnal Teknik Informatika, 10(2), 109-118. doi: 10.15408/jti.v10i2.6822Permalink/DOI: http://dx.doi.org/10.15408/jti.v10i2.6822


Sign in / Sign up

Export Citation Format

Share Document