scholarly journals Uji Performa Algoritma Naïve Bayes untuk Prediksi Masa Studi Mahasiswa

2020 ◽  
Vol 6 (1) ◽  
pp. 1
Author(s):  
Irkham Widhi Saputro ◽  
Bety Wulan Sari

Universitas AMIKOM Yogyakarta adalah salah satu perguruan tinggi yang memiliki ribuan mahasiswa baru khususnya pada prodi Informatika. Pada tahun 2012 tercatat ada 1009 mahasiswa baru, dan pada tahun 2013 juga tercatat ada sebanyak 859 mahasiswa baru. Namun sayangnya, dari sekian banyak mahasiswa hanya sekitar 50% saja yang dapat lulus dengan tepat waktu. Data tersebut untuk membuat sistem klasifikasi menggunakan teknik data mining dengan metode Naïve Bayes. Dataset yang akan digunakan sebanyak 300 data yang bersumber dari data alumni angkatan 2012, dan 2013 dengan masing-masing data sebanyak 150. Data yang diperoleh memiliki 144 mahasiswa dengan keterangan lulus tepat waktu, dan 156 mahasiswa dengan keterangan lulus tidak tepat waktu. Proses pengujian akan dilakukan menggunakan metode 10-Fold Cross Validation, dan Confusion Matrix. Hasil pengujian menunjukkan bahwa rata-rata performa dari model Naïve Bayes mempunyai nilai akurasi sebesar 68%, nilai precision sebesar 61.3%, nilai recall sebesar 65.3%, dan nilai f1-score sebesar 61%. Nilai performa dari model dapat dipengaruhi oleh dataset yang digunakan untuk pembuatan model.Kata Kunci — data mining, Naïve Bayes, K-Fold Cross Validation, Confusion MatrixAMIKOM Yogyakarta University is one of the colleges that has thousands of new students, especially in the Informatics study program. In 2012 there were 1009 new students, and in 2013 there were 859 new students. But unfortunately, of the many students only around 50% can graduate on time. The data is to make the classification system using data mining techniques with the Naïve Bayes method. The dataset will be used as much as 300 data sourced from alumni data of 2012, and 2013 with each data as much as 150. The data obtained has 144 students with information passed on time, and 156 students with graduation information not on time. The testing process will be carried out using the 10-Fold Cross Validation, and Confusion Matrix method. The test results show that the average performance of the Naïve Bayes model has an accuracy value of 68%, precision value is 61.3%, recall value is 65.3%, and f1-score is 61%. The performance value of the model can be influenced by the dataset used for modeling.Keywords — data mining, classification, Naïve Bayes, graduation time

2021 ◽  
Vol 3 (1) ◽  
pp. 12-19
Author(s):  
Bambang Tri Rahmat Doni ◽  
Sari Susanti ◽  
Ade Mubarok

Hepatocellular Carcinoma merupakan tumor ganas hati primer yang berasal dari hepatosit. Dalam dasawarsa terakhir terjadi perkembangan yang cukup berarti menyangkut penyakit Hepatocellular Carcinoma. Penelitian ini bertujuan untuk mengklasifikasikan tingkat kemungkinan hidup pasien yang telah di diagnosis menderita penyakit Hepatocellular Carcinoma dengan menggunakan penerapan metode data mining serta melakukan pengukuran terhadap performa algoritma Naïve Bayes dengan mengacu kepada Confusion Matrix dan Kurva ROC. Data sekunder yang digunakan merupakan data publik yang bernama HCC Survival Data Set yang dirilis pada tahun 2017 dan diperoleh dari website UCI Machine Learning Repository. Algortima Naïve Bayes merupakan salah satu algoritma yang terdapat dalam metode data mining yang menerapkan Teori Keputusan Bayes pada teknik klasifikasi dengan menggunakan cara pendekatan statistik yang bersifat fundamental dalam pengenalan pola. Teknik validasi yang digunakan menggunakan teknik 10-Fold Cross-Validation dengan rasio pembagian data sebesar 90:10. Perangkat lunak yang digunakan adalah RapidMiner Studio v9.5. Hasil penelitian menunjukkan bahwa hasil performa algoritma Naïve Bayes yang diukur menggunakan Confussion Matrix dengan nilai yang dihasilkan berupa nilai Akurasi sebesar 70,30%, Presisi sebesar 73,53% dan Recall sebesar 77,32% serta hasil performa yang diukur menggunakan Kurva ROC (Receiver Operating Characteristic) dengan nilai yang dihasilkan berupa nilai AUC sebesar 0.783 yang termasuk dalam kategori Fair Classification atau kategori Klasifikasi Cukup.


Author(s):  
Pungkas Subarkah ◽  
Enggar Pri Pambudi ◽  
Septi Oktaviani Nur Hidayah

 Bank merupakan perusahaan yang memiliki data yang besar yang tersimpan di dalam database dan diolah menghasilkan sebuah informasi yang saling berkaitan tentang nasabah. Bank, harus memiliki ide dan terobosan baru guna mengetahui kendala pada nasabah telemarketing yang ingin melakukan deposito pada Bank tersebut, agar Bank terhindar dari ancaman krisis keuangan. Penelitian ini menguji keberhasilan Bank telemarketing dengan cara melakukan klasifikasi keputusan nasabah dengan menerapkan data mining. Metode yang di gunakan algoritma Classification and Regression Trees (CART) dan naive bayes menggunakan dataset diambil dari University of California Irvine (UCI) Repository Learning. Adapun metode validasi dan evaluasi yang digunakan yaitu 10-cross validation dan confusion matrix. Hasil akurasi pada algoritma CART yaitu 89.51% dengan nilai precision 87%, Recall 89% dan F-Measure 88% dan pada algoritma naive bayes mendapatkan nilai akurasi sebesar 86.88% dengan nilai precision 87%, Recall 86% dan F-Measure 87%. Dari hasil tersebut dapat disimpulkan bahwa algoritma CART lebih baik dalam memprediksi keputusan nasabah telemarketing tepat dalam penawaran deposito.


Repositor ◽  
2020 ◽  
Vol 2 (8) ◽  
Author(s):  
Nabillah Annisa Rahmayanti ◽  
Yufis Azhar ◽  
Gita Indah Marthasari

AbstrakBullying sering terjadi pada anak-anak khususnya remaja dan meresahkan para orang tua. Maraknya kasus bullying di negeri ini bahkan sampai menyebabkan korban jiwa. Hal ini dapat dicegah dengan cara mengetahui gejala-gejala seorang anak yang mengalami bullying. Kondisi seorang anak yang tidak dapat mengungkapkan keluh kesahnya, tentu membuat orang tua dan juga guru di sekolah sukar dalam mengerti apa yang sedang menimpanya. Hal tersebut bisa saja dikarenakan anak sedang mengalami tindakan bullying oleh teman-temannya. Oleh karena itu peneliti memiliki tujuan untuk menghasilkan fitur yang telah terseleksi dengan menggunakan algoritma C5.0. Sehingga dengan menggunakan fitur yang telah terseleksi dapat meringankan pekerjaan dalam mengisi kuisioner dan juga mempersingkat waktu dalam menentukan seorang anak apakah terkena bullying atau tidak berdasarkan gejala yang ada di setiap pertanyaan pada kuisioner. Untuk menunjang data dalam penelitian ini, peneliti menggunakan kuisioner untuk mendapatkan jawaban dari pertanyaan yang berisi tentang gejala anak yang menjadi korban bullying. Jawaban dari responden akan diolah menjadi kumpulan data yang nantinya akan dibagi menjadi data latih dan data uji untuk selanjutnya diteliti dengan menggunakan Algoritma C5.0. Metode evaluasi yang digunakan pada penelitian ini yaitu 10 fold cross validation dan untuk menilai akurasi menggunakan confusion matrix. Penelitian ini juga melaukan perbandingan dengan beberapa algoritma klasifikasi lainnya yaitu Naive Bayes dan KNN yang bertujuan untuk melhat seberapa akurat algoritma C5.0 dalam melakukan seleksi fitur. Hasil pengujian menunjukkan bahwa algoritma C5.0 mampu melakukan seleksi fitur dan juga memiliki tingkat akurasi yang lebih baik jika dibandingkan dengan algoritma Naive Bayes dan KNN dengan hasil akurasi sebelum menggunakan seleksi fitur sebesar 92,77% dan setelah menggunakan seleksi fitur sebesar 93,33%. Abstract Bullying often occurs in children, especially teenagers and unsettles parents. The rise of cases of bullying in this country even caused casualties. This can be prevented by knowing the symptoms of a child who has bullying. The condition of a child who cannot express his complaints, certainly makes parents and teachers at school difficult to understand what is happening to them. This could be because the child is experiencing bullying by his friends. Therefore, researchers have a goal to produce selected features using the C5.0 algorithm. So using the selected features can ease the work in filling out questionnaires and also shorten the time in determining whether a child is exposed to bullying or not based on the symptoms in each question in the questionnaire. To support the data in this study, the researcher used a questionnaire to get answers to questions that contained the symptoms of children who were victims of bullying. The answer from the respondent will be processed into a data collection which will later be divided into training data and test data for further research using the C5.0 Algorithm. The evaluation method used in this study is 10 fold cross validation and to assess accuracy using confusion matrix. This study also carried out a comparison with several other classification algorithms, namely Naive Bayes and KNN which aimed to see how accurate the C5.0 algorithm was in feature selection. The test results show that the C5.0 algorithm is capable of feature selection and also has a better accuracy compared to the Naive Bayes and KNN algorithms with accuracy results before using feature selection of 92.77% and after using feature selection of 93.33%


2021 ◽  
Vol 11 (2) ◽  
pp. 626-636
Author(s):  
Tanthy Tawaqalia Widowati ◽  
Mujiono Sadikin

Salah satu media sosial yang berkembang adalah Twitter. Media sosial Twitter mempermudah masyarakat untuk bebas berpendapat melalui cuitan atau biasa disebut dengan tweets. Netizen dengan bebas menyampaikan opini pribadinya untuk topik apapun, termasuk persepsi terhadap tokoh publik. Artikel ini menyajikan hasil penelitian dan analisis sentimen masyarakat (netizen) terhadap tokoh publik, Nadiem Makariem sebagai Menteri Kementerian Pendidikan dan Kebudayaan baru. Penelitian ini menggunakan teknik data mining yang bertujuan untuk membandingkan hasil klasifikasi dari opini masyarakat yang dituliskan di Twitter. Dataset yang digunakan berasal dari tweets dengan kata kunci ”nadiem makariem”, ”kemendikbud” dan ”pak nadiem”. Tools RapidMiner digunakan untuk membantu tahap pre-processing dan klasifikasi menggunakan dua metode yaitu, Naive Bayes dan Support Vector Machine dengan evaluasi k-fold cross-validation. Dari hasil ujicoba diketahui bahwa untuk kasus yang diteliti, metode Naive Bayes menghasilkan kinerja yang lebih baik dengan accuracy 91.48%,  precision 89.28%  dan recall 91.58%.


Author(s):  
Panny Agustia Rahayuningsih

Penyakit Kanker merupakan sepuluh besar penyakit pembunuh di dunia. Kanker merupakan penyakit yang ganas dan sulit disembuhkan jika penyebarannya sudah terlalu luas. Akan tetapi, pendeteksian sel kanker sedini mungkin dapat mengurangi resiko kematian. Penelitian ini bertujuan untuk memprediksikan tingkat kematian dini kanker pada penduduk Eropa dengan menggunakan 5algoritma klasifikasi yaitu: Desecion Tree, Naïve Bayes, k-Nearset Neighbour, Random Forest dan Neural Network dari algoritma tersebut algoritma mana yang dianggap paling baik untuk penelitian ini. Pengujian dilakukan dengan beberapa tahapan penelitian antara lain: dataset (pengumpulan data), pengolahan data awal, metode yang diusulkan, pengujian metode menggunakan 10-fold cross validation, evaluasi hasil dan uji beda t-test. Nilai alpha yang digunakan adalah 0.05. jika probabilitasnya >0.05 maka H0 diterima. Sedangkan jika probabilitasnya <0.05 maka Ho ditolak.Hasil dari penelitian yang mendapatkan performe terbaik dengan nilai akurasi sebesar 98,35% adalah algoritma Neural Network. Sedangkan, hasil penelitian menggunakan uji t-test algoritma dengan model terbaik yaitu: algoritma Random Forest dan Neural Network, algoritma Naïve Bayes lumanyan baik, algoritma Desecion Tree cukup baik dan algoritma yang kurang baik adalah algoritma K-Nearset Neighbour (K-NN).


2016 ◽  
Vol 7 (4) ◽  
Author(s):  
Mochammad Yusa ◽  
Ema Utami ◽  
Emha T. Luthfi

Abstract. Readmission is associated with quality measures on patients in hospitals. Different attributes related to diabetic patients such as medication, ethnicity, race, lifestyle, age, and others result in the calculation of quality care that tends to be complicated. Classification techniques of data mining can solve this problem. In this paper, the evaluation on three different classifiers, i.e. Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes with various settingparameter, is developed by using 10-Fold Cross Validation technique. The targets of parameter performance evaluated is based on term of Accuracy, Mean Absolute Error (MAE), dan Kappa Statistic. The selected dataset consists of 47 attributes and 49.735 records. The result shows that k-NN classifier with k=100 has a better performance in term of accuracy and Kappa Statistic, but Naive Bayes outperforms in term of MAE among other classifiers. Keywords: k-NN, naive bayes, diabetes, readmissionAbstrak. Proses Readmisi dikaitkan dengan perhitungan kualitas penanganan pasien di rumah sakit. Perbedaan atribut-atribut yang berhubungan dengan pasien diabetes proses medikasi, etnis, ras, gaya hidup, umur, dan lain-lain, mengakibatkan perhitungan kualitas cenderung rumit. Teknik klasifikasi data mining dapat menjadi solusi dalam perhitungan kualitas ini. Teknik klasifikasi merupakan salah satu teknik data mining yang perkembangannya cukup signifikan. Di dalam penelitian ini, model algoritma klasifikasi Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes dengan berbagai parameter setting akan dievaluasi performanya berdasarkan nilai performa Accuracy, Mean AbsoluteError (MAE), dan Kappa Statistik dengan metode 10-Fold Cross Validation. Dataset yang dievaluasi memiliki 47 atribut dengan 49.735 records. Hasil penelitian menunjukan bahwa performa accuracy, MAE, dan Kappa Statistik terbaik didapatkan dari Model Algoritma Naive Bayes.Kata Kunci: k-NN, naive bayes, diabetes, readmisi


2019 ◽  
Vol 4 (1) ◽  
Author(s):  
Diky Djafar Sidik ◽  
Tjong Wan Sen

Curah hujan sebagai bentuk informasi dari data meteorologis, penting dalam segala kegiatan manusia yang berhubungan dengan alam, oleh karena itu prediksi atas curah hujan dengan hasil yang akurat merupakan hal yang sangat penting. Salah satu metode yang digunakan untuk prediksi/klasifikasi curah hujan adalah data mining dengan berbagai algoritma dan parameter data yang berbeda. Pada penelitian ini digunakan penggabungan metode klasifikasi dengan Teknik Ensemble Stacking/Stacked Generalization yang menggunakan Naïve Bayes dan C4.5 sebagai base learner dan KNN sebagai meta learner untuk klasifikasi curah hujan. Dataset yang dipergunakan adalah data klimatologi harian yang diambil dari website resmi BMKG (Badan Meteorologi, Klimatologi, Dan Geofisika) untuk stasiun UPT Bandung, Bogor, Citeko dan Jatiwangi dari periode 01 Januari 2000 sampai dengan 31 Desember 2018. Dengan menggunakan tiga skenario pengujian dan validasi menggunakan 10 fold cross validation diperoleh bahwa metode stacking dapat meningkatkan akurasi dari base classifier.


2021 ◽  
Vol 7 (2) ◽  
pp. 165-173
Author(s):  
Harliana Harliana ◽  
Fatra Nonggala Putra

Secara definisi kemiskinan merupakan suatu kondisi individu ditingkat rumah tangga yang dinilai berdasarkan karaktersitik kemiskinan. Sebagai dampak dari pandemi covid-19 prosentase rumah tangga miskin di Indonesia meningkat sekitar 9,78%. Berdasarkan hal tersebut, maka penelitian ini akan melakukan klasifikasi dengan algoritma Naïve Bayes Classification untuk menentukan rumah tangga miskin melalui parameter survey ekonomi Nasional Tahun 2020 Modul Ketahanan Sosial yang berfokus pada pengeluaran dan konsumsi perkapita responden selama pandemic. Sedangkan tujuan dari penelitian ini adalah mendapatkan akurasi tertinggi yang dihasilkan oleh Naïve Bayes Classification dalam penentuan rumah tangga miskin. Menurut hasil pengujian dengan confusion matrix dan 10-fold cross validation didapatkan bahwa rata-rata akurasi tertinggi terjadi pada fold ke-10 dengan nilai accuracy 93,21%; precision 86,3%; dan recall 80,11%. Hal ini berarti bahwa akurasi yang dihasilkan oleh naïve bayes classifier dalam melakukan clasifikasi rumah tangga miskin cukup tinggi


Author(s):  
Nurhachita Nurhachita ◽  
Edi Surya Negara

<span id="docs-internal-guid-5a78994c-7fff-41c1-c57f-91661e44674c"><span>The process of admitting new students at Universitas Islam Negeri Raden Fatah each year produces a lot of new student data. So that there is an accumulation of student data continuously. The purpose of this study is to compare deep learning, naïve bayes, and random forest on the admission of new students as well as being one of the bases for making decisions to determine the promotion strategy of each study program. The data mining method used is knowledge discovery in database (KDD). The tools used are rapid miner. The attributes used are student ID number, name, program study, faculty, gender, place of birth, date of birth, year of entry, school origin, national examination, type of payment, and nominal payment. The new student data used from 2016 to 2019 was an 18.930 item. The results of this study used deep learning bayes results resulted in an accuracy value of 52.65%, naïve bayes results resulted in an accuracy value of 99.79%, and random forest results resulted in an accuracy value of 44.65%.</span></span>


2017 ◽  
Vol 11 (1) ◽  
Author(s):  
Mongan winny Amelia ◽  
Arie S.M Lumenta ◽  
Agustinus Jacobus

  Data mining adalah teknik yang memanfaatkan data dalam jumlah yang besar untuk memperoleh informasi berharga yang dapat dimanfaatkan untuk pengambilan keputusan penting. Data kelulusan mahasiswa Universitas Sam Ratulangi menghasilkan data akademik mahasiswa yang berpengaruh pada kualitas perguruan tinggi lewat akreditas yang dilaksanakan oleh Badan Akreditasi Nasional atau BAN-PT. Naïve Bayes merupakan algoritma yang dapat digunakan untuk prediksi masa studi mahasiswa yang bisa dikategorikan tepat waktu, terlambat dan tidak lulus. Dengan menggunakan data mining khususnya klasifikasi untuk prediksi dengan algoritma naïve bayes dapat dilakukan prediksi terhadap ketepatan waktu studi dari mahasiswa berdasarkan data training yang ada.. Pengujian yang dipakai yaitu k-fold cross validation 10-fold. Hasil pengujian didapat nilai akurasi rata-rata sebesar 85.17 % sedangkan nilai akurasi tertinggi sebesar 88.96 %. Kata kunci : Naïve Bayes, K-Fold Cross Validation, Data Mining, Prediksi.


Sign in / Sign up

Export Citation Format

Share Document