Prediksi Masa Studi Mahasiswa dengan Menggunakan Algoritma Naïve Bayes

Data mining adalah teknik yang memanfaatkan data dalam jumlah yang besar untuk memperoleh informasi berharga yang dapat dimanfaatkan untuk pengambilan keputusan penting. Data kelulusan mahasiswa Universitas Sam Ratulangi menghasilkan data akademik mahasiswa yang berpengaruh pada kualitas perguruan tinggi lewat akreditas yang dilaksanakan oleh Badan Akreditasi Nasional atau BAN-PT. Naïve Bayes merupakan algoritma yang dapat digunakan untuk prediksi masa studi mahasiswa yang bisa dikategorikan tepat waktu, terlambat dan tidak lulus. Dengan menggunakan data mining khususnya klasifikasi untuk prediksi dengan algoritma naïve bayes dapat dilakukan prediksi terhadap ketepatan waktu studi dari mahasiswa berdasarkan data training yang ada.. Pengujian yang dipakai yaitu k-fold cross validation 10-fold. Hasil pengujian didapat nilai akurasi rata-rata sebesar 85.17 % sedangkan nilai akurasi tertinggi sebesar 88.96 %. Kata kunci : Naïve Bayes, K-Fold Cross Validation, Data Mining, Prediksi.

Download Full-text

Analisis Sentimen Twitter terhadap Tokoh Publik dengan Algoritma Naive Bayes dan Support Vector Machine

Simetris Jurnal Teknik Mesin Elektro dan Ilmu Komputer ◽

10.24176/simet.v11i2.4568 ◽

2021 ◽

Vol 11 (2) ◽

pp. 626-636

Author(s):

Tanthy Tawaqalia Widowati ◽

Mujiono Sadikin

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector ◽

Fold Cross Validation

Salah satu media sosial yang berkembang adalah Twitter. Media sosial Twitter mempermudah masyarakat untuk bebas berpendapat melalui cuitan atau biasa disebut dengan tweets. Netizen dengan bebas menyampaikan opini pribadinya untuk topik apapun, termasuk persepsi terhadap tokoh publik. Artikel ini menyajikan hasil penelitian dan analisis sentimen masyarakat (netizen) terhadap tokoh publik, Nadiem Makariem sebagai Menteri Kementerian Pendidikan dan Kebudayaan baru. Penelitian ini menggunakan teknik data mining yang bertujuan untuk membandingkan hasil klasifikasi dari opini masyarakat yang dituliskan di Twitter. Dataset yang digunakan berasal dari tweets dengan kata kunci ”nadiem makariem”, ”kemendikbud” dan ”pak nadiem”. Tools RapidMiner digunakan untuk membantu tahap pre-processing dan klasifikasi menggunakan dua metode yaitu, Naive Bayes dan Support Vector Machine dengan evaluasi k-fold cross-validation. Dari hasil ujicoba diketahui bahwa untuk kasus yang diteliti, metode Naive Bayes menghasilkan kinerja yang lebih baik dengan accuracy 91.48%, precision 89.28% dan recall 91.58%.

Download Full-text

Uji Performa Algoritma Naïve Bayes untuk Prediksi Masa Studi Mahasiswa

Creative Information Technology Journal ◽

10.24076/citec.2019v6i1.178 ◽

2020 ◽

Vol 6 (1) ◽

pp. 1

Author(s):

Irkham Widhi Saputro ◽

Bety Wulan Sari

Keyword(s):

Data Mining ◽

Cross Validation ◽

Naive Bayes ◽

Confusion Matrix ◽

Naïve Bayes ◽

Study Program ◽

New Students ◽

Using Data ◽

The Many ◽

Fold Cross Validation

Universitas AMIKOM Yogyakarta adalah salah satu perguruan tinggi yang memiliki ribuan mahasiswa baru khususnya pada prodi Informatika. Pada tahun 2012 tercatat ada 1009 mahasiswa baru, dan pada tahun 2013 juga tercatat ada sebanyak 859 mahasiswa baru. Namun sayangnya, dari sekian banyak mahasiswa hanya sekitar 50% saja yang dapat lulus dengan tepat waktu. Data tersebut untuk membuat sistem klasifikasi menggunakan teknik data mining dengan metode Naïve Bayes. Dataset yang akan digunakan sebanyak 300 data yang bersumber dari data alumni angkatan 2012, dan 2013 dengan masing-masing data sebanyak 150. Data yang diperoleh memiliki 144 mahasiswa dengan keterangan lulus tepat waktu, dan 156 mahasiswa dengan keterangan lulus tidak tepat waktu. Proses pengujian akan dilakukan menggunakan metode 10-Fold Cross Validation, dan Confusion Matrix. Hasil pengujian menunjukkan bahwa rata-rata performa dari model Naïve Bayes mempunyai nilai akurasi sebesar 68%, nilai precision sebesar 61.3%, nilai recall sebesar 65.3%, dan nilai f1-score sebesar 61%. Nilai performa dari model dapat dipengaruhi oleh dataset yang digunakan untuk pembuatan model.Kata Kunci — data mining, Naïve Bayes, K-Fold Cross Validation, Confusion MatrixAMIKOM Yogyakarta University is one of the colleges that has thousands of new students, especially in the Informatics study program. In 2012 there were 1009 new students, and in 2013 there were 859 new students. But unfortunately, of the many students only around 50% can graduate on time. The data is to make the classification system using data mining techniques with the Naïve Bayes method. The dataset will be used as much as 300 data sourced from alumni data of 2012, and 2013 with each data as much as 150. The data obtained has 144 students with information passed on time, and 156 students with graduation information not on time. The testing process will be carried out using the 10-Fold Cross Validation, and Confusion Matrix method. The test results show that the average performance of the Naïve Bayes model has an accuracy value of 68%, precision value is 61.3%, recall value is 65.3%, and f1-score is 61%. The performance value of the model can be influenced by the dataset used for modeling.Keywords — data mining, classification, Naïve Bayes, graduation time

Download Full-text

Komparasi Algoritma Klasifikasi Data Mining untuk Memprediksi Tingkat Kematian Dini Kanker dengan Dataset Early Death Cancer

JOINTECS (Journal of Information Technology and Computer Science) ◽

10.31328/jointecs.v4i2.1008 ◽

2019 ◽

Vol 4 (2) ◽

pp. 63

Author(s):

Panny Agustia Rahayuningsih

Keyword(s):

Neural Network ◽

Data Mining ◽

Random Forest ◽

Cross Validation ◽

Naive Bayes ◽

Early Death ◽

Naïve Bayes ◽

T Test ◽

Fold Cross Validation

Penyakit Kanker merupakan sepuluh besar penyakit pembunuh di dunia. Kanker merupakan penyakit yang ganas dan sulit disembuhkan jika penyebarannya sudah terlalu luas. Akan tetapi, pendeteksian sel kanker sedini mungkin dapat mengurangi resiko kematian. Penelitian ini bertujuan untuk memprediksikan tingkat kematian dini kanker pada penduduk Eropa dengan menggunakan 5algoritma klasifikasi yaitu: Desecion Tree, Naïve Bayes, k-Nearset Neighbour, Random Forest dan Neural Network dari algoritma tersebut algoritma mana yang dianggap paling baik untuk penelitian ini. Pengujian dilakukan dengan beberapa tahapan penelitian antara lain: dataset (pengumpulan data), pengolahan data awal, metode yang diusulkan, pengujian metode menggunakan 10-fold cross validation, evaluasi hasil dan uji beda t-test. Nilai alpha yang digunakan adalah 0.05. jika probabilitasnya >0.05 maka H0 diterima. Sedangkan jika probabilitasnya <0.05 maka Ho ditolak.Hasil dari penelitian yang mendapatkan performe terbaik dengan nilai akurasi sebesar 98,35% adalah algoritma Neural Network. Sedangkan, hasil penelitian menggunakan uji t-test algoritma dengan model terbaik yaitu: algoritma Random Forest dan Neural Network, algoritma Naïve Bayes lumanyan baik, algoritma Desecion Tree cukup baik dan algoritma yang kurang baik adalah algoritma K-Nearset Neighbour (K-NN).

Download Full-text

Analisis Komparatif Evaluasi Performa Algoritma Klasifikasi pada Readmisi Pasien Diabetes

Jurnal Buana Informatika ◽

10.24002/jbi.v7i4.770 ◽

2016 ◽

Vol 7 (4) ◽

Author(s):

Mochammad Yusa ◽

Ema Utami ◽

Emha T. Luthfi

Keyword(s):

Data Mining ◽

Decision Tree ◽

Cross Validation ◽

Nearest Neighbor ◽

Naive Bayes ◽

Kappa Statistic ◽

Naïve Bayes ◽

Validation Dataset ◽

K Nearest Neighbor ◽

Fold Cross Validation

Abstract. Readmission is associated with quality measures on patients in hospitals. Different attributes related to diabetic patients such as medication, ethnicity, race, lifestyle, age, and others result in the calculation of quality care that tends to be complicated. Classification techniques of data mining can solve this problem. In this paper, the evaluation on three different classifiers, i.e. Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes with various settingparameter, is developed by using 10-Fold Cross Validation technique. The targets of parameter performance evaluated is based on term of Accuracy, Mean Absolute Error (MAE), dan Kappa Statistic. The selected dataset consists of 47 attributes and 49.735 records. The result shows that k-NN classifier with k=100 has a better performance in term of accuracy and Kappa Statistic, but Naive Bayes outperforms in term of MAE among other classifiers. Keywords: k-NN, naive bayes, diabetes, readmissionAbstrak. Proses Readmisi dikaitkan dengan perhitungan kualitas penanganan pasien di rumah sakit. Perbedaan atribut-atribut yang berhubungan dengan pasien diabetes proses medikasi, etnis, ras, gaya hidup, umur, dan lain-lain, mengakibatkan perhitungan kualitas cenderung rumit. Teknik klasifikasi data mining dapat menjadi solusi dalam perhitungan kualitas ini. Teknik klasifikasi merupakan salah satu teknik data mining yang perkembangannya cukup signifikan. Di dalam penelitian ini, model algoritma klasifikasi Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes dengan berbagai parameter setting akan dievaluasi performanya berdasarkan nilai performa Accuracy, Mean AbsoluteError (MAE), dan Kappa Statistik dengan metode 10-Fold Cross Validation. Dataset yang dievaluasi memiliki 47 atribut dengan 49.735 records. Hasil penelitian menunjukan bahwa performa accuracy, MAE, dan Kappa Statistik terbaik didapatkan dari Model Algoritma Naive Bayes.Kata Kunci: k-NN, naive bayes, diabetes, readmisi

Download Full-text

Penggunaan Stacking Classifier Untuk Prediksi Curah Hujan

IT for Society ◽

10.33021/itfs.v4i1.1180 ◽

2019 ◽

Vol 4 (1) ◽

Author(s):

Diky Djafar Sidik ◽

Tjong Wan Sen

Keyword(s):

Data Mining ◽

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Base Classifier ◽

Stacked Generalization ◽

Base Learner ◽

Fold Cross Validation

Curah hujan sebagai bentuk informasi dari data meteorologis, penting dalam segala kegiatan manusia yang berhubungan dengan alam, oleh karena itu prediksi atas curah hujan dengan hasil yang akurat merupakan hal yang sangat penting. Salah satu metode yang digunakan untuk prediksi/klasifikasi curah hujan adalah data mining dengan berbagai algoritma dan parameter data yang berbeda. Pada penelitian ini digunakan penggabungan metode klasifikasi dengan Teknik Ensemble Stacking/Stacked Generalization yang menggunakan Naïve Bayes dan C4.5 sebagai base learner dan KNN sebagai meta learner untuk klasifikasi curah hujan. Dataset yang dipergunakan adalah data klimatologi harian yang diambil dari website resmi BMKG (Badan Meteorologi, Klimatologi, Dan Geofisika) untuk stasiun UPT Bandung, Bogor, Citeko dan Jatiwangi dari periode 01 Januari 2000 sampai dengan 31 Desember 2018. Dengan menggunakan tiga skenario pengujian dan validasi menggunakan 10 fold cross validation diperoleh bahwa metode stacking dapat meningkatkan akurasi dari base classifier.

Download Full-text

PENERAPAN DATA MINING UNTUK KLASIFIKASI PENYAKIT HEPATOCELLULAR CARCINOMA MENGGUNAKAN ALGORITMA NAÏVE BAYES

Jurnal Responsif : Riset Sains dan Informatika ◽

10.51977/jti.v3i1.403 ◽

2021 ◽

Vol 3 (1) ◽

pp. 12-19

Author(s):

Bambang Tri Rahmat Doni ◽

Sari Susanti ◽

Ade Mubarok

Keyword(s):

Hepatocellular Carcinoma ◽

Data Mining ◽

Survival Data ◽

Operating Characteristic ◽

Cross Validation ◽

Naive Bayes ◽

Confusion Matrix ◽

Naïve Bayes ◽

Data Set ◽

Fold Cross Validation

Hepatocellular Carcinoma merupakan tumor ganas hati primer yang berasal dari hepatosit. Dalam dasawarsa terakhir terjadi perkembangan yang cukup berarti menyangkut penyakit Hepatocellular Carcinoma. Penelitian ini bertujuan untuk mengklasifikasikan tingkat kemungkinan hidup pasien yang telah di diagnosis menderita penyakit Hepatocellular Carcinoma dengan menggunakan penerapan metode data mining serta melakukan pengukuran terhadap performa algoritma Naïve Bayes dengan mengacu kepada Confusion Matrix dan Kurva ROC. Data sekunder yang digunakan merupakan data publik yang bernama HCC Survival Data Set yang dirilis pada tahun 2017 dan diperoleh dari website UCI Machine Learning Repository. Algortima Naïve Bayes merupakan salah satu algoritma yang terdapat dalam metode data mining yang menerapkan Teori Keputusan Bayes pada teknik klasifikasi dengan menggunakan cara pendekatan statistik yang bersifat fundamental dalam pengenalan pola. Teknik validasi yang digunakan menggunakan teknik 10-Fold Cross-Validation dengan rasio pembagian data sebesar 90:10. Perangkat lunak yang digunakan adalah RapidMiner Studio v9.5. Hasil penelitian menunjukkan bahwa hasil performa algoritma Naïve Bayes yang diukur menggunakan Confussion Matrix dengan nilai yang dihasilkan berupa nilai Akurasi sebesar 70,30%, Presisi sebesar 73,53% dan Recall sebesar 77,32% serta hasil performa yang diukur menggunakan Kurva ROC (Receiver Operating Characteristic) dengan nilai yang dihasilkan berupa nilai AUC sebesar 0.783 yang termasuk dalam kategori Fair Classification atau kategori Klasifikasi Cukup.

Download Full-text

Perbandingan Algoritma Naive Bayes dan Support Vector Machine dalam Seleksi Kelulusan Pemberkasan Beasiswa BPP-PPA Fakultas Teknik Universitas Negeri Jakarta

PINTER Jurnal Pendidikan Teknik Informatika dan Komputer ◽

10.21009/pinter.2.2.4 ◽

2018 ◽

Vol 2 (2) ◽

pp. 108-115

Author(s):

Fakhriyani ◽

Widodo ◽

Bambang Prasetya Adhi

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector ◽

Fold Cross Validation

Beasiswa merupakan salah satu program untuk membantu meringankan mahasiswa dalam membayar uang kuliah, namun sering terjadi kesalahan dalam pemberian beasiswa tersebut karena masih dilakukan secara manual dan tidak adanya kriteria yang jelas bagaimana seorang mahasiswa dapat memperoleh beasiswa. Untuk mengantisipasi agar tidak terjadinya kesalahan dalam pemberian beasiswa maka dibutuhkan sebuah Sistem Pendukung Keputusan, namun sebelum dilakukan pembuatan sistem tersebut dirasa perlu untuk mengetahui algoritma terbaik untuk menyeleksi berkas beasiswa tersebut. Penelitian ini menggunakan duaalgoritma Data Mining yaitu algoritma Naïve Bayes dan Support Vector Machine. Naïve Bayes merupakan metode pengklasifikasian yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class berdasarkan pengalaman di masa sebelumnya dengan kondisi antar atribut saling bebas. Support Vector Machine adalah sebuah metode prediksi dalam klasifikasi yang dapat dilakukan pada kasus yang secara linier dapat dipisahkan, maupun non-linier dengan menggunakan konsep kernel pada ruang kerja berdimensi tinggi.Data mahasiswa yang lulus dan tidak lulus seleksi berkas beasiswa BPP-PPA akan diolah menggunakan algoritma Naïve Bayes dan Support Vector Machine. Setelah diklasifikasi kedua algoritma tersebut akan dihitung hasil akurasinya menggunakan K-fold Cross Validation. Berdasarkan hasil contoh kasus seleksi menunjukan bahwa hasil perhitungan akurasi algoritma Naïve Bayes adalah 0.7542, sedangkan hasil akurasi algoritma Support Vector Machine adalah 0.99. Kedua sistem telah mampu menangani proses penyeleksiankelulusan pemberkasan beasiswa BPP-PPA Fakultas Teknik Universitas Negeri Jakarta. Algoritma Support Vector Machine menghasilkan rata-rata akurasi 0.99 yang mendekati 1, maka algoritma tersebut dinilai lebih akurat dan direkomendasikan untuk penelitian selanjutnya.

Download Full-text

Komparasi Kinerja Algoritma Data Mining pada Dataset Konsumsi Alkohol Siswa

Khazanah Informatika Jurnal Ilmu Komputer dan Informatika ◽

10.23917/khif.v4i2.7061 ◽

2018 ◽

Vol 4 (2) ◽

pp. 98

Author(s):

Noviyanti Sagala ◽

Hendrik Tampubolon

Keyword(s):

Data Mining ◽

Cross Validation ◽

Nearest Neighbor ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector ◽

K Nearest Neighbor ◽

Gain Ratio ◽

Feature Correlation ◽

Fold Cross Validation

Data mining melakukan proses ekstraksi pengetahuan yang diperoleh dari sekumpulan data dalam jumlah besar. Penelitian ini bertujuan untuk menerapkan dan melakukan analisis kinerja algoritma data mining untuk memprediksi konsumsi alkohol dan menganalisis faktor-faktor yang terkait pada siswa tingkat menengah. Adapun tahapan yang dilakukan ialah pra-proses data, seleksi fitur, klasifikasi, dan evaluasi model. Pada tahap praproses, beberapa fitur diubah menjadi bentuk yang sesuai untuk memudahkan proses klasifikasi. Selanjutnya, algoritma Gain Ratio dan Feature Correlation-Based Filter (FCBF) digunakan untuk memilih fitur-fitur yang relevan dan penting untuk digunakan dalam tahapan klasifikasi. Decision Tree C5.0, Support Vector Machine (SVM), K-Nearest Neighbor (KNN), dan Naive Bayes (NB) dieksekusi pada kelompok fitur yang terpilih. Akurasi model yang dibangun dievaluasi menggunakan 10-fold Cross-Validation (CV). Hasil penelitian menunjukkan bahwa model klasifikasi yang dibangun menggunakan Naïve Bayes memiliki nilai akurasi tertinggi dengan menggunakan 5 fitur terbaik dari Gain Ratio. Selain itu, penggunaan metode pemilihan fitur mampu meningkatkan performa dari seluruh klasifier secara umum. Pengujian lebih lanjut pada data yang sama maupun berbeda perlu dilakukan untuk mendapatkan gambaran lebih mendalam mengenai kinerja algoritma-algoritma yang digunakan.

Download Full-text

Prediksi Kelulusan Mahasiswa Tepat Waktu Menggunakan Metode Naive Bayes di Program Studi Teknik Informatika UHAMKA

Prosiding Seminar Nasional Teknoka ◽

10.22236/teknoka.v5i.331 ◽

2020 ◽

Vol 5 ◽

pp. 34-40

Author(s):

Dwi Anugrah Putra ◽

Mia Kamayani

Keyword(s):

Data Mining ◽

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Fold Cross Validation ◽

F Measure

Berdasarkan pengamatan dan data yang ada pada Program Studi Teknik Informatika FT UHAMKA bahwa banyaknya mahasiswa yang tidak lulus tepat waktu (8 semester) pada setiap angkatannya akan menyebabkan penumpukan jumlah mahasiswa, kurangnya ruang kelas, dan kurangnya lahan parkir. Salah satu cara untuk meningkatkan kelulusan mahasiswa tepat waktu adalah memprediksi dari awal mahasiswa yang berpotensi untuk lulus tidak tepat waktu, sehingga dapat dilakukan tindakan pencegahan oleh pihak manajemen prodi atau fakultas. Prediksi dapat dilakukan menggunakan data mining dengan memanfaatkan data mahasiswa yang sudah lulus. Metode data mining yang digunakan pada penelitian ini adalah naive bayes dengan menggunakan atribut jenis kelamin, index prestasi semester satu sampai semester empat dan SKS semester satu sampai semester empat. Algoritma naive bayes ini akan dibuat beberapa model dan akan dicari nilai akurasi tertinggi dari model tersebut. Evaluasi model menggunakan K- fold Cross Validation dan hasil prediksi akan digunakan oleh dosen pembimbing akademik untuk mengevaluasi mahasiswa yang hasil prediksinya kurang memuaskan. Model dengan hasil terbaik yaitu model ke-3 dengan tingkat akurasi sebesar 80.19%, recall 80.26%, precision 92.75% dan F-Measure 86.05% yang nantinya akan digunakan untuk implementasi pada aplikasi prediksi kelulusan mahasiswa.

Download Full-text

Prediksi Kelulusan Tepat Waktu Mahasiswa STMIK YMI Tegal Menggunakan Algoritma Naïve Bayes

CSRID (Computer Science Research and Its Development Journal) ◽

10.22303/csrid.7.3.2015.145-154 ◽

2016 ◽

Vol 7 (3) ◽

pp. 145 ◽

Cited By ~ 1

Author(s):

Aang Alim Murtopo

Keyword(s):

Data Mining ◽

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Fold Cross Validation

<p>Kualitas perguruan tinggi, khususnya program studi di Indonesia diukur berdasarkan akreditasi yang dilaksanakan oleh Badan Akreditasi Nasional Perguruan Tinggi atau BAN PT.<br />Kualitas tersebut diukur berdasarkan 7 standar utama, salah satu nya adalah Mahasiswa dan Lulusan. Perguruan tinggi memiliki data akademik dan biodata mahasiswa sejak mereka mendaftar hingga lulus kuliah. Algoritma klasifikasi data mining Naïve Bayes dapat digunakan untuk prediksi kelulusan mahasiswa yang nantinya bisa di kategorikan tepat waktu atau tidak tepat waktu, dari hasil prediksi bisa di manfaatkan untuk dasar pengambilan keputusan sehingga dapat meningkatkan kualitas dari keputusan manajerial institusi. Banyak variabel yang mempengaruhi mahasiswa bisa lulus secara tepat waktu, sehingga dalam penelitian ini menggunakan faktor internal (faktor dari dalam diri sendiri) dan faktor eksternal (faktor dari luar diri sendiri). Faktor eksternal yang digunakan untuk menjadi penentu dalam model ini antara lain status kerja dan status perkawinan.Berdasar faktor tersebut apakah faktor eksternal berpengaruh pada kelulusan mahasiswa secara tepat waktu. Hasil dari penelitian ini adalah pengukuran akurasi, dimana sebelum didapatkan nilai akurasi dilakukan pengujian dengan memanfaatkan ROC Curva dan k-fold cross validation,pengujian dilakukan sebanyak 10 fold. Dari hasil pengujian didapat nilai akurasi rata-rata sebesar 91,29%, sedangkan nilai akurasi tertinggi dari hasil pengujian 10-fold cross validation sebesar 94,34%.</p>

Download Full-text