Ekstraksi Informasi Kesehatan Masyarakat Dari Tweet Berbahasa Indonesia Berbasis Klasifikasi Dengan Algoritma Naive Bayes

AbstrakKesehatan merupakan kebutuhan utama manusia. Di Indonesia terdapat permasalahan tentang kesehatan, yaitu meningkatnya penyakit menular dan penyakit tidak menular. Untuk mengatasinya perlu dilakukan tidakan pencegahan. Salah satu usaha untuk melakukan pencegahan penyakit, adalah dengan mengetahui informasi penyakit tersebut, temasuk tentang penyebab dan akibat yang ditimbulkan, sehingga bisa melakukan pencegahan. Informasi bisa didapatkan dengan berbagai macam cara, salah satunya diambil dari media sosial, terutama twitter. Twitter digunakan karena banyaknya tweet yang dihasilkan sehingga memunculkan fenomena big data. Karena hal itulah, penelitian ini bermaksud untuk melakukan suatu metode ekstraksi informasi. Ekstraksi informasi merupakan metode penerapan data mining terutama bidang text mining yang digunakan untuk mendapatkan informasi dari kumpulan banyak data. Informasi yang dimaksud adalah penyakit, akibat, dan penyebab. Penelitian ini menggunakan pendekatan ekstraksi informasi berbasis klasifikasi dengan algoritma Naive Bayes. Penelitian ini menggunakan 7 set fitur dan sebuah model algoritma klasifikasi yaitu Naive Bayes. Dalam ekstraksi fitur terjadi imbalance dataset, sehingga dilakukan resample filtering data. Pengujian dilakukan dengan 2 metode, yaitu pengujian model dengan menggunakan 10-folds cross-validation dan pengujian klasifikasi dengan menggunakan 100 data uji. Hasil dari pengujian model mendapatkan nilai akurasi 77,27% dan pengujian klasifikasi mendapatkan nilai akurasi 74,07%. AbstractHealth is a primary human need. In Indonesia there are health problems, namely the increase of infectious diseases and non-communicable diseases. To overcome this need to do precautionary measures. One effort to prevent disease, is to know the disease information, including about the causes and effects caused, so it can do prevention. Information can be obtained in various ways, one of which is taken from social media, especially twitter. Twitter is used because of the number of tweets produced resulting in big data phenomenon. Because of that, this research intends to perform an information extraction method. Information extraction is a method of application of data mining, especially the text mining field used to obtain information from a large collection of data. The information in question is a disease, effect, and cause. This research uses a classification-based information extraction approach with Naive Bayes algorithm. This research uses 7 feature sets and a model of classification algorithm that is Naive Bayes. In feature extraction there is imbalance dataset, so it is done resample filtering data. The test is done by 2 methods, namely model testing using 10-folds cross-validation and classification testing using 100 test data. The result of model test get the accuracy value 77,27% and the classification test get the accuracy value 74,07%.

Download Full-text

Optimasi Model Prediksi Kelulusan Mahasiswa Menggunakan Algoritma Naive Bayes

Indonesian Journal of Applied Informatics ◽

10.20961/ijai.v5i1.44379 ◽

2021 ◽

Vol 5 (1) ◽

pp. 32

Author(s):

Hartatik Hartatik

Keyword(s):

Data Mining ◽

Big Data ◽

Prediction Models ◽

Naive Bayes ◽

Program Planning ◽

Naïve Bayes ◽

Bayes Method ◽

Student Graduation ◽

Bayes Algorithm ◽

Naive Bayes Method

Abstrak :Prediksi tentang status kelulusan mahasiswa menjadi persoalan tersendiri di perguruan tinggi. Perguruan tinggi utamanya di era Big Data sangatlah penting untuk melakukan prediksi perilaku akademik mahasiswa aktif sehingga dapat di ketahui kemungkinan mahasiswa bisa studi secara tepat waktu serta dapat diketahui langkah preventive dalam membuat prpgram perencanaan. Salah satu cara yang digunakan adalah teknik data mining yaitu menggunakan Algoritma naive bayes. Algoritma Naive bayes merupakan salah satu metode yang digunakan untuk memprediksi kelulusan mahasiswa. Peneliti dalam hal ini menerapkan metode Naive bayes menggunakan parameter Indeks prestasi kumulatif( IPK) dan membandingkan dengan menggunakan prediksi naive bayes methods berdasarkan parameter IPK dan sosial parameter yaitu jenis kelamin dan status tinggal. Dalam penelitian ini menggunakan parameter akademis dan dilakukan optimasi menggunakan parameter sosial yang melekat pada mahasiswa. Berdasarkan hasil evaluasi untuk mendapatkan akurasi, hasil dari penelitian ini mendapatkan nilai akurasi untuk metode Naive bayes sebesar 75% dan akurasi untuk model prediksi dengan parameter sosial sebesar 85% dengan selisih akurasi 10%.__________________________Abstract : Predictions about a student's graduation status are a problem in college. Major tertiary institutions in the era of Big Data are very important to predict the behavior of active students so that they can find out the possibility of students in a timely manner and can determine preventive steps in making program planning. One method used is data mining techniques using the Naive bayes Algorithm. The Naive bayes algorithm is one of the methods used to predict student graduation. Researchers in this case applied the Naive bayes method using the cumulative achievement index (GPA) parameter and compared using the prediction of the Naive bayes method based on the GPA parameters and social parameters, namely gender and status. This study uses academic parameters and is carried out optimally using social parameters inherent in students. Based on the results of the evaluation to get an accuracy value, the results of this study get an accurate value for the Naive bayes method of 75% and accurate for prediction models with social parameters of 85% with a difference of 10%.

Download Full-text

Prediksi Tingkat Kelulusan Tepat Waktu Mahasiswa Menggunakan Algoritma Naïve Bayes pada Universitas XYZ

Jurnal ULTIMATICS ◽

10.31937/ti.v12i2.1715 ◽

2020 ◽

Vol 12 (2) ◽

pp. 104-107

Author(s):

Nurhayati . ◽

Nuraeny Septianti ◽

Nani Retnowati ◽

Arief Wibowo

Keyword(s):

Data Mining ◽

Information Technology ◽

Data Processing ◽

Naive Bayes ◽

Naïve Bayes ◽

Bayes Method ◽

Processing Data ◽

Student Graduation ◽

Phase Data ◽

Bayes Algorithm

Data processing is imperative for the development of information technology. Almost any field of work has information about data. The data is made use of the analysis of the job. Nowadays, information data is imperatively processed to help workers in making decisions. This study discusses student prediction graduation rates by using the naïve Bayes method. That aims at providing information to college if they can use it properly to utilize the data of students who graduated by processing data mining. Based on the data mining process, steps founded that used producing information, namely predicting student graduation on time. The method of this study is Naïve Bayes with classification techniques. At this study, researchers used a six-phase data mining process of industry crossing standards in data mining known as CRISP-DM. The results of research concluded that the application of the Naive Bayes algorithm uses 4 (four) parameters namely ips, ipk, the number of credits, and graduation by getting an accuracy value of 80.95%.

Download Full-text

Implementasi Data Mining Untuk Memprediksi Penyakit Jantung Mengunakan Metode Naive Bayes

Journal of Innovation Information Technology and Application (JINITA) ◽

10.35970/jinita.v1i01.64 ◽

2019 ◽

Vol 1 (01) ◽

pp. 25-34

Author(s):

Ade Riani ◽

Yessy Susianto ◽

Nur Rahman

Keyword(s):

Data Mining ◽

Heart Rate ◽

Heart Disease ◽

Chest Pain ◽

Naive Bayes ◽

Naïve Bayes ◽

Mining Method ◽

The World ◽

Bayes Algorithm ◽

Exercise Induced

Heart disease is a disease with a high mortality rate in the world of health. The disease is usually rarely realized the cause. However, there are several parameters that can be used to predict whether a person has a risk of heart disease or not. As for this study, researchers will use several indicators including Age, Sex, Chest pain type, Trestbps, Cholesterol, Fasting blood sugar, Resting ECG, Max heart rate, Exercise-induced angina, Oldpeak, Slope, Number of vessels coloured, and Thal This research will perform calculations using the Data Mining method with the Naive Bayes Algorithm. The results of this study get an accuracy of 86% for the 303 datasets tested.

Download Full-text

Perbandingan Metode Klasifikasi Data Mining untuk Nasabah Bank Telemarketing

Matrik Jurnal Manajemen Teknik Informatika dan Rekayasa Komputer ◽

10.30812/matrik.v20i1.826 ◽

2020 ◽

Vol 20 (1) ◽

pp. 139-148

Author(s):

Pungkas Subarkah ◽

Enggar Pri Pambudi ◽

Septi Oktaviani Nur Hidayah

Keyword(s):

Data Mining ◽

Cross Validation ◽

Naive Bayes ◽

Confusion Matrix ◽

Regression Trees ◽

Classification And Regression Trees ◽

Naïve Bayes ◽

University Of California ◽

Classification And Regression ◽

F Measure

Bank merupakan perusahaan yang memiliki data yang besar yang tersimpan di dalam database dan diolah menghasilkan sebuah informasi yang saling berkaitan tentang nasabah. Bank, harus memiliki ide dan terobosan baru guna mengetahui kendala pada nasabah telemarketing yang ingin melakukan deposito pada Bank tersebut, agar Bank terhindar dari ancaman krisis keuangan. Penelitian ini menguji keberhasilan Bank telemarketing dengan cara melakukan klasifikasi keputusan nasabah dengan menerapkan data mining. Metode yang di gunakan algoritma Classification and Regression Trees (CART) dan naive bayes menggunakan dataset diambil dari University of California Irvine (UCI) Repository Learning. Adapun metode validasi dan evaluasi yang digunakan yaitu 10-cross validation dan confusion matrix. Hasil akurasi pada algoritma CART yaitu 89.51% dengan nilai precision 87%, Recall 89% dan F-Measure 88% dan pada algoritma naive bayes mendapatkan nilai akurasi sebesar 86.88% dengan nilai precision 87%, Recall 86% dan F-Measure 87%. Dari hasil tersebut dapat disimpulkan bahwa algoritma CART lebih baik dalam memprediksi keputusan nasabah telemarketing tepat dalam penawaran deposito.

Download Full-text

Analisa Pola Penyalahgunaan Facebook Sebagai Alat Kejahatan Trafficking Menggunakan Data Mining

Jurnal Teknik Informatika ◽

10.35793/jti.8.1.2016.12231 ◽

2016 ◽

Vol 8 (1) ◽

Author(s):

Linda Jayanti ◽

Steven R. Sentinuwo ◽

Oktavian A. Lantang ◽

Agustinus Jacobus

Keyword(s):

Data Mining ◽

Text Mining ◽

Naive Bayes ◽

Naïve Bayes ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier

Abstrak - Facebook memungkinkan penggunanya berinteraksi dengan orang yang kita kenal maupun orang yang tidak kita kenal, dimana hal tersebut dapat membuka peluang bagi kejahatan dunia maya seperti, penculikan, perdagangan manusia (trafficking), hingga pembunuhan. IOM mecatat bahwa korban perdagangan orang atau trafficking di Indonesia mencapai 74.616 hingga I juta per tahun, dimana tindak kejahatan teersebut banyak dilakukan melalui facebook sebagai medianya. Data teks (status) yang berada di halaman facebook sangat besar. Dengan menggunakan Teknik pengolahan data dari ilmu Data Mining, terutama di bidangtext mining, penulis memanfaatkannya untuk mengidentifikasi data teks (status facebook) yang terindikasi sebagai proses kejahatan trafficking dengan memakai salah satu teknik klasifikasi dengan teorema naïve bayes classifier (NBC). Kata kunci : facebook, trafficking, data mining, text mining, klasifikasi, naïve bayes classifier.

Download Full-text

The Comparison of Data Mining Methods Using C4.5 Algorithm and Naive Bayes in Predicting Heart Disease

Tech-E ◽

10.31253/te.v4i2.543 ◽

2021 ◽

Vol 4 (2) ◽

pp. 44

Author(s):

Rino Rino

Keyword(s):

Data Mining ◽

Heart Disease ◽

Naive Bayes ◽

Naïve Bayes ◽

Data Set ◽

A Value ◽

C4.5 Algorithm ◽

Calculation Results ◽

Mining Methods ◽

Bayes Algorithm

Heart disease is a condition of the presence of fatty deposits in the coronary arteries in the heart which changes the role and shape of the arteries so that blood flow to the heart is obstructed. Data mining methods can predict this disease, some of the methods are C4.5 Algorithm and Naive Bayes which are often used in research.The data set in this research was obtained from the uci machine learning repository site, where the dataset has 3546 records and 13 attributes.The accuracy value of the Naïve Bayes algorithm has a high value of 81.40% compared to the C4.5 algorithm which only has an accuracy value of 79.07%. Based on the calculation results, it can be concluded that the Naïve Bayes Algorithm is a very good clarification because it has a value between 0.709 - 1.00.From conclusion above, the Naïve Bayes algorithm has a higher accuracy value than the C4.5 algorithm so the researchers decided to use the Naïve Bayes algorithm in predicting heart disease.

Download Full-text

Analisis Sentimen Twitter terhadap Tokoh Publik dengan Algoritma Naive Bayes dan Support Vector Machine

Simetris Jurnal Teknik Mesin Elektro dan Ilmu Komputer ◽

10.24176/simet.v11i2.4568 ◽

2021 ◽

Vol 11 (2) ◽

pp. 626-636

Author(s):

Tanthy Tawaqalia Widowati ◽

Mujiono Sadikin

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector ◽

Fold Cross Validation

Salah satu media sosial yang berkembang adalah Twitter. Media sosial Twitter mempermudah masyarakat untuk bebas berpendapat melalui cuitan atau biasa disebut dengan tweets. Netizen dengan bebas menyampaikan opini pribadinya untuk topik apapun, termasuk persepsi terhadap tokoh publik. Artikel ini menyajikan hasil penelitian dan analisis sentimen masyarakat (netizen) terhadap tokoh publik, Nadiem Makariem sebagai Menteri Kementerian Pendidikan dan Kebudayaan baru. Penelitian ini menggunakan teknik data mining yang bertujuan untuk membandingkan hasil klasifikasi dari opini masyarakat yang dituliskan di Twitter. Dataset yang digunakan berasal dari tweets dengan kata kunci ”nadiem makariem”, ”kemendikbud” dan ”pak nadiem”. Tools RapidMiner digunakan untuk membantu tahap pre-processing dan klasifikasi menggunakan dua metode yaitu, Naive Bayes dan Support Vector Machine dengan evaluasi k-fold cross-validation. Dari hasil ujicoba diketahui bahwa untuk kasus yang diteliti, metode Naive Bayes menghasilkan kinerja yang lebih baik dengan accuracy 91.48%, precision 89.28% dan recall 91.58%.

Download Full-text

Uji Performa Algoritma Naïve Bayes untuk Prediksi Masa Studi Mahasiswa

Creative Information Technology Journal ◽

10.24076/citec.2019v6i1.178 ◽

2020 ◽

Vol 6 (1) ◽

pp. 1

Author(s):

Irkham Widhi Saputro ◽

Bety Wulan Sari

Keyword(s):

Data Mining ◽

Cross Validation ◽

Naive Bayes ◽

Confusion Matrix ◽

Naïve Bayes ◽

Study Program ◽

New Students ◽

Using Data ◽

The Many ◽

Fold Cross Validation

Universitas AMIKOM Yogyakarta adalah salah satu perguruan tinggi yang memiliki ribuan mahasiswa baru khususnya pada prodi Informatika. Pada tahun 2012 tercatat ada 1009 mahasiswa baru, dan pada tahun 2013 juga tercatat ada sebanyak 859 mahasiswa baru. Namun sayangnya, dari sekian banyak mahasiswa hanya sekitar 50% saja yang dapat lulus dengan tepat waktu. Data tersebut untuk membuat sistem klasifikasi menggunakan teknik data mining dengan metode Naïve Bayes. Dataset yang akan digunakan sebanyak 300 data yang bersumber dari data alumni angkatan 2012, dan 2013 dengan masing-masing data sebanyak 150. Data yang diperoleh memiliki 144 mahasiswa dengan keterangan lulus tepat waktu, dan 156 mahasiswa dengan keterangan lulus tidak tepat waktu. Proses pengujian akan dilakukan menggunakan metode 10-Fold Cross Validation, dan Confusion Matrix. Hasil pengujian menunjukkan bahwa rata-rata performa dari model Naïve Bayes mempunyai nilai akurasi sebesar 68%, nilai precision sebesar 61.3%, nilai recall sebesar 65.3%, dan nilai f1-score sebesar 61%. Nilai performa dari model dapat dipengaruhi oleh dataset yang digunakan untuk pembuatan model.Kata Kunci — data mining, Naïve Bayes, K-Fold Cross Validation, Confusion MatrixAMIKOM Yogyakarta University is one of the colleges that has thousands of new students, especially in the Informatics study program. In 2012 there were 1009 new students, and in 2013 there were 859 new students. But unfortunately, of the many students only around 50% can graduate on time. The data is to make the classification system using data mining techniques with the Naïve Bayes method. The dataset will be used as much as 300 data sourced from alumni data of 2012, and 2013 with each data as much as 150. The data obtained has 144 students with information passed on time, and 156 students with graduation information not on time. The testing process will be carried out using the 10-Fold Cross Validation, and Confusion Matrix method. The test results show that the average performance of the Naïve Bayes model has an accuracy value of 68%, precision value is 61.3%, recall value is 65.3%, and f1-score is 61%. The performance value of the model can be influenced by the dataset used for modeling.Keywords — data mining, classification, Naïve Bayes, graduation time

Download Full-text

Penggunaan Metode NAÏVE BAYES Dalam Mengukur Tingkat Kepuasan Pengguna Terhadap Online System Universitas Advent Indonesia

TeIKa ◽

10.36342/teika.v9i02.2162 ◽

2019 ◽

Vol 9 (02) ◽

pp. 147-153

Author(s):

Yusran Timur Samuel ◽

Kemala DEwi

Keyword(s):

Data Mining ◽

Customer Service ◽

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Full Data ◽

Online System

Dengan tercapainya kepuasan pengguna dalam menggunakan suatu sistem informasi, merupakan salah satu faktor untuk menentukan sistem tersebut tercapai sesuai harapan. Sistem online mulai beroperasi pada tahun 2008 di UNAI guna memudahkan mahasiswa mengakses data akademik. Oleh karena itu penentuan kepuasan pengguna dalam menggunakan sistem online di UNAI perlu dibuat sehingga dapat menjadikan suatu ukuran keberhasilan dalam suatu sistem informasi. Metode yang digunakan dalam penelitian ini yaitu menggunakan data mining dengan metode klasifikasi Naïve Bayes dan menggunakan data yang didapat dari penyebaran kuesioner. Atribut yang digunakan yaitu kualitas konten, relevan, privasi, mudah dioperasikan, kecepatan, daya tarik visual, kelengkapan secara online, dan customer service. Hasil pengujian menunjukkan bahwa klasifikasi kepuasan pengguna menggunakan metode naïve bayes untuk pengujian pertama dengan full data training mendapatkan nilai akurasi sebesar 81.3%, pengujian kedua dengan 80% data training 20% data testing mendapatkan nilai akurasi 80%, pengujian ketiga dengan cross-validation mendapatkan nlai akurasi sebesar 78.7 dan pengujian keempat dengan 66% data training dan 33% data testing mendapatkan nilai akurasi 68.6%.

Download Full-text

Komparasi Algoritma Klasifikasi Data Mining untuk Memprediksi Tingkat Kematian Dini Kanker dengan Dataset Early Death Cancer

JOINTECS (Journal of Information Technology and Computer Science) ◽

10.31328/jointecs.v4i2.1008 ◽

2019 ◽

Vol 4 (2) ◽

pp. 63

Author(s):

Panny Agustia Rahayuningsih

Keyword(s):

Neural Network ◽

Data Mining ◽

Random Forest ◽

Cross Validation ◽

Naive Bayes ◽

Early Death ◽

Naïve Bayes ◽

T Test ◽

Fold Cross Validation

Penyakit Kanker merupakan sepuluh besar penyakit pembunuh di dunia. Kanker merupakan penyakit yang ganas dan sulit disembuhkan jika penyebarannya sudah terlalu luas. Akan tetapi, pendeteksian sel kanker sedini mungkin dapat mengurangi resiko kematian. Penelitian ini bertujuan untuk memprediksikan tingkat kematian dini kanker pada penduduk Eropa dengan menggunakan 5algoritma klasifikasi yaitu: Desecion Tree, Naïve Bayes, k-Nearset Neighbour, Random Forest dan Neural Network dari algoritma tersebut algoritma mana yang dianggap paling baik untuk penelitian ini. Pengujian dilakukan dengan beberapa tahapan penelitian antara lain: dataset (pengumpulan data), pengolahan data awal, metode yang diusulkan, pengujian metode menggunakan 10-fold cross validation, evaluasi hasil dan uji beda t-test. Nilai alpha yang digunakan adalah 0.05. jika probabilitasnya >0.05 maka H0 diterima. Sedangkan jika probabilitasnya <0.05 maka Ho ditolak.Hasil dari penelitian yang mendapatkan performe terbaik dengan nilai akurasi sebesar 98,35% adalah algoritma Neural Network. Sedangkan, hasil penelitian menggunakan uji t-test algoritma dengan model terbaik yaitu: algoritma Random Forest dan Neural Network, algoritma Naïve Bayes lumanyan baik, algoritma Desecion Tree cukup baik dan algoritma yang kurang baik adalah algoritma K-Nearset Neighbour (K-NN).

Download Full-text