scholarly journals PERBANDINGAN TINGKAT AKURASI METODE KNN DAN DECISION TREE DALAM MEMPREDIKSI LAMA STUDI MAHASISWA

2021 ◽  
Vol 3 (1) ◽  
pp. 6-14
Author(s):  
Endang Etriyanti

Kualitas lulusan dari sebuah Perguruan Tinggi salah satunya dapat dilihat dari lama studi mahasiswa. Selain itu lama studi mahasiswa menggambarkan tingkat capaian mahasiswa dalam pendidikannya. Lama studi juga sangat berpengaruh pada kualitas program studi karena lama studi mahasiswa merupakan salah satu kriteria penilaian akreditasi. Seringkali masalah yang dihadapi oleh suatu Perguruan Tinggi adalah banyaknya mahasiswa yang menyelesaikan pendidikannya lebih dari jangka waktu yang ditetapkan. STMIK Bina Nusantara Jaya Lubuklinggau juga mengalami hal tersebut. Untuk mengantisipasi hal tersebut perlu adanya prediksi lama studi mahasiswa karena lama studi mahasiswa menjadi salah satu hal yang penting yang perlu diperhatikan bagian program studi dalam suatu Perguruan Tinggi. Penelitian ini berkontribusi secara teoretis dalam implementasi data mining untuk memprediksi lama studi mahasiswa.Penelitian ini menerapkan preprocessing data untuk memperoleh data dengan kualitas baik sebelum dilakukan proses mining menggunakan metode K-Nearest Neighbor dan Decision Tree pada Tools RapidMiner, kedua metode divalidasi menggunakan K-Fold Cross Validation (dengan 10 kali iterasi/pengulangan) dan Confusion Matrix digunakan untuk memvalidasi nilai akurasi hasil prediksi. Nilai akurasi yang paling tinggi dari hasil penerapan kedua metode akan direkomendasikan untuk menyelesaikan masalah prediksi lama studi mahasiswa. Dari hasil penelitian diperoleh nilai akurasi metode Decision Tree (60,38%) lebih baik jika dibandingkan dengan nilai akurasi metode K-Nearest Neighbor (53,08%).

2016 ◽  
Vol 7 (4) ◽  
Author(s):  
Mochammad Yusa ◽  
Ema Utami ◽  
Emha T. Luthfi

Abstract. Readmission is associated with quality measures on patients in hospitals. Different attributes related to diabetic patients such as medication, ethnicity, race, lifestyle, age, and others result in the calculation of quality care that tends to be complicated. Classification techniques of data mining can solve this problem. In this paper, the evaluation on three different classifiers, i.e. Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes with various settingparameter, is developed by using 10-Fold Cross Validation technique. The targets of parameter performance evaluated is based on term of Accuracy, Mean Absolute Error (MAE), dan Kappa Statistic. The selected dataset consists of 47 attributes and 49.735 records. The result shows that k-NN classifier with k=100 has a better performance in term of accuracy and Kappa Statistic, but Naive Bayes outperforms in term of MAE among other classifiers. Keywords: k-NN, naive bayes, diabetes, readmissionAbstrak. Proses Readmisi dikaitkan dengan perhitungan kualitas penanganan pasien di rumah sakit. Perbedaan atribut-atribut yang berhubungan dengan pasien diabetes proses medikasi, etnis, ras, gaya hidup, umur, dan lain-lain, mengakibatkan perhitungan kualitas cenderung rumit. Teknik klasifikasi data mining dapat menjadi solusi dalam perhitungan kualitas ini. Teknik klasifikasi merupakan salah satu teknik data mining yang perkembangannya cukup signifikan. Di dalam penelitian ini, model algoritma klasifikasi Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes dengan berbagai parameter setting akan dievaluasi performanya berdasarkan nilai performa Accuracy, Mean AbsoluteError (MAE), dan Kappa Statistik dengan metode 10-Fold Cross Validation. Dataset yang dievaluasi memiliki 47 atribut dengan 49.735 records. Hasil penelitian menunjukan bahwa performa accuracy, MAE, dan Kappa Statistik terbaik didapatkan dari Model Algoritma Naive Bayes.Kata Kunci: k-NN, naive bayes, diabetes, readmisi


Author(s):  
Rahma Aulia Siahaan ◽  
Marnis Nasution ◽  
Mila Nirmala Sari Hasibuan

Hati merupakan organ vital bagi manusia. Penyakit hati adalah gangguan pada setiap fungsi hati.Diagnosis dini penyakit hati sangat penting agar dapat diobati dan diobati dengan cepat. Di bidang medis, mendiagnosis penyakit radang hati menjadi hal yang agak sulit dilakukan. Namun, ada catatan medis yang menyimpan gejala pasien. Hal ini tentunya sangat menguntungkan bagi tenaga medis atau dokter. Mereka dapat menggunakan catatan medis sebelumnya sebagai bahan untuk membuat keputusan tentang diagnosis penyakit pasien. Teknik analisis manual konvensional yang selama ini digunakan sudah tidak efektif lagi untuk diagnosis. Seiring dengan perkembangan sistem berbasis pengetahuan medis, tuntutan penggunaan sistem pengetahuan berbasis komputer sebagai teknik analisis dalam mendiagnosis penyakit menjadi semakin penting. Dalam studi ini, peneliti akan menerapkan dan membandingkan beberapa metode klasifikasi data mining, antara lain algoritma C4.5, Naïve Bayes, dan k-Nearest Neighbor untuk mendiagnosis penyakit radang hati, kemudian membandingkan mana dari ketiga metode tersebut yang paling akurat. Berdasarkan hasil pengukuran performansi ketiga model menggunakan metode Cross Validation, Confusion Matrix dan ROC Curve, diketahui bahwa metode C4.5 merupakan metode terbaik dengan akurasi 70,99% dan under the curva (AUC). ) nilai 0,950, kemudian metode k-Nearest Neighbor dengan akurasi 67,19% dan nilai under the curve (AUC) 0,873, kemudian metode nave Bayes dengan tingkat akurasi 66,14% dan nilai under the curve (AUC) sebesar 0,742. kemudian bandingkan mana dari ketiga metode tersebut yang paling akurat. Berdasarkan hasil pengukuran performansi ketiga model menggunakan metode Cross Validation, Confusion Matrix dan ROC Curve, diketahui bahwa metode C4.5 merupakan metode terbaik dengan akurasi 70,99% dan under the curva (AUC). ) nilai 0,950, kemudian metode k-Nearest Neighbor dengan akurasi 67,19% dan nilai under the curve (AUC) 0,873, kemudian metode nave Bayes dengan tingkat akurasi 66,14% dan nilai under the curve (AUC) sebesar 0,742. kemudian bandingkan mana dari ketiga metode tersebut yang paling akurat. Berdasarkan hasil pengukuran performansi ketiga model menggunakan metode Cross Validation, Confusion Matrix dan ROC Curve, diketahui bahwa metode C4.5 merupakan metode terbaik dengan akurasi 70,99% dan under the curva (AUC). ) nilai 0,950, kemudian metode k-Nearest Neighbor dengan akurasi 67,19% dan nilai under the curve (AUC) 0,873, kemudian metode nave Bayes dengan tingkat akurasi 66,14% dan nilai under the curve (AUC) sebesar 0,742.


2019 ◽  
Vol 3 (1) ◽  
pp. 54-62
Author(s):  
Razi Aziz Syahputro ◽  
Widodo ◽  
Hamidillah Ajie

Penelitian ini dilatarbelakangi dengan dibutuhkannya sistem pengklasifikasian untuk memudahkan pihak Jurusan Teknik Elektro khususnya Program Studi PTIK untuk mengklasifikasikan judul skripsi berdasarkan peminatan. Sebelum sistem dibuat diperlukan pertimbangan dari beberapa algoritma klasifikasi yang ada, maka dari itu penelitian ini memilih 3 algoritma dari 10 algoritma terbaik menurut ICDM tahun 2006. Klasifikasi terhadap dokumen teks pendek seperti judul skripsi mahasiswa memiliki kesulitan tersendiri daripada dokumen teks panjang karena semakin sedikit kata semakin sulit diklasifikasi. Sehingga tujuan dari penelitian ini adalah untuk mengetahui algoritma yang paling efektif untuk mengklasifikasi judul skripsi. Penelitian ini terdiri dari beberapa tahap yaitu pengumpulan data, pengelompokan data melalui angket oleh dosen ahli, pre-processing text, pembobotan kata menggunakan vector space model dan tf-idf, evaluasi dengan k-fold cross validation, klasifikasi menggunakan k-nearest neighbor, naïve bayes classifier, dan support vector machine, dan analisis dengan confusion matrix. Percobaan dilakukan dengan menggunakan 266 data judul skripsi mahasiswa PTIK UNJ dari angkatan 2010-2013, dengan data terakhir berasal dari sidang skripsi pada semester 105(semester ganjil 2016/2017). Hasil dari klasifikasi menggunakan algoritma tersebut didapatkan algoritma yang paling efisien yaitu support vector machine dengan akurasi 82% dari 10 kali percobaan.


2018 ◽  
Vol 4 (2) ◽  
pp. 83
Author(s):  
Tutus Praningki ◽  
Indra Budi

Tersedianya data histori rekam medis pasien kanker serviks pada institusi pelayanan kesehatan, tidak disertai dengan proses ekstraksi menjadi sebuah pengetahuan atau informasi. Penggunaan teknik data mining sangat berpotensi untuk diimplementasikan kedalam sistem yang dapat melakukan prediksi penyakit kanker serviks. Pada penelitian ini berfokus pada dataset diagnosa medis pasien yang akan melakukan tes Pap Smear. Algoritma yang digunakan untuk melakukan klasifikasi penyakit kanker serviks adalah Classification And Regression Trees (CART), Naive Bayes, dan k-Nearest Neighbor (k-NN). Pengujian yang dilakukan terhadap algoritma CART Decision Tree, Naive Bayes, dan k-NN, menggunakan formula Confusion Matrix, dengan menggunakan teknik pemecahan dataset Holdout. Hasil pengujian terhadap algoritma yang digunakan, menunjukkan algoritma Naive Bayes memiliki akurasi terbaik sebesar 94,44%, sedangkan tingkat akurasi yang dihasilkan algoritma CART dan k-NN adalah 88,89%, 85,04%. Performa yang didapatkan oleh masing-masing algoritma yang digunakan, memungkinkan penggunaan sistem prediksi penyakit kanker serviks untuk mendukung keputusan klinis pada pasien baru. 


2020 ◽  
Vol 6 (1) ◽  
pp. 101
Author(s):  
Tursina Tursina ◽  
Hafiz Muhardi ◽  
Dian Aulia Sari

Narkoba merupakan bahan yang sangat bermanfaat untuk pengobatan, namun jika disalahgunakan akan memberikan dampak buruk yang luar biasa seperti gangguan kesehatan, gangguan kejiwaan hingga kematian. Seorang pengguna narkoba cenderung tertutup dan tidak ingin berkonsultasi langsung ke dokter maupun rehabilitasi dikarenakan pengguna malu dengan kondisinya, biaya yang relatif mahal, jarak dan waktu yang ditempuh, takut dilaporkan dan tanggapan negatif dari masyarakat. Tujuan dilakukannya penelitian ini adalah untuk membantu seorang pengguna narkoba ataupun bagi seseorang yang dicurigai sebagai pengguna narkoba dalam mendiagnosis tahapan pengguna narkoba dan memberikan solusi serta saran terhadap pengguna narkoba tersebut. Case based reasoning merupakan penalaran yang digunakan untuk menyelesaikan kasus baru dengan cara mengadaptasi solusi yang terdapat pada kasus-kasus sebelumnya, yang mempunyai permasalahan yang mirip dengan kasus baru. Pada tahapan retrieve, terjadi proses menghitung similaritas antara kasus baru dan kasus lama. Perhitungan similaritas kasus pada penelitian ini menggunakan metode k-nearest neighbor. Pengujian hasil akhir sistem menggunakan pengujian tahapan CBR dan pengujian kinerja metode k-nearest neighbor. Hasil pengujian mengukur kinerja dari metode k-nearest neighbor dengan nilai k=7, tingkat akurasi untuk 10-fold cross validation sebesar 98,333%, confusion matrix sebesar 100% dan termasuk excellent classification karena memiliki nilai AUC 1,000.


Author(s):  
Noviyanti Sagala ◽  
Hendrik Tampubolon

Data mining melakukan proses ekstraksi pengetahuan yang diperoleh dari sekumpulan data dalam jumlah besar. Penelitian ini bertujuan untuk menerapkan dan melakukan analisis kinerja algoritma data mining untuk memprediksi konsumsi alkohol dan menganalisis faktor-faktor yang terkait pada siswa tingkat menengah. Adapun tahapan yang dilakukan ialah pra-proses data, seleksi fitur, klasifikasi, dan evaluasi model. Pada tahap praproses, beberapa fitur diubah menjadi bentuk yang sesuai untuk memudahkan proses klasifikasi. Selanjutnya, algoritma Gain Ratio dan Feature Correlation-Based Filter (FCBF) digunakan untuk memilih fitur-fitur yang relevan dan penting untuk digunakan dalam tahapan klasifikasi. Decision Tree C5.0, Support Vector Machine (SVM), K-Nearest Neighbor (KNN), dan Naive Bayes (NB) dieksekusi pada kelompok fitur yang terpilih. Akurasi model yang dibangun dievaluasi menggunakan 10-fold Cross-Validation (CV). Hasil penelitian menunjukkan bahwa model klasifikasi yang dibangun menggunakan Naïve Bayes memiliki nilai akurasi tertinggi dengan menggunakan 5 fitur terbaik dari Gain Ratio. Selain itu, penggunaan metode pemilihan fitur mampu meningkatkan performa dari seluruh klasifier secara umum. Pengujian lebih lanjut pada data yang sama maupun berbeda perlu dilakukan untuk mendapatkan gambaran lebih mendalam mengenai kinerja algoritma-algoritma yang digunakan.


Author(s):  
Grassella Gunsyang ◽  
Ika Purnamasari ◽  
Fidia Deny Tisna Amijaya

Algoritma Neighbor Weighted K-Nearest Neighbor (NWKNN) merupakan pengembangan dari algoritma K-Nearest Neighbor (KNN), dengan memberikan bobot pada setiap kelas yang akan diklasifikasikan. Penelitian ini membahas tentang klasifikasi menggunakan algoritma NWKNN yang diaplikasikan pada data status pembayaran premi. Tujuannya untuk mengetahui nilai eksponen (E) dan nilai ketetanggaan (K) yang optimal, serta nilai akurasi dari klasifikasi data status pembayaran Premi di PT. Bumiputera Kota Samarinda. Tahapan dalam penelitian ini yaitu menentukan nilai E dan nilai K menggunakan k-fold cross validation, menghitung jarak euclidean, menghitung bobot dan skor setiap kelas, melihat nilai skor terbesar untuk menentukan hasil klasifikasi, kemudian menghitung nilai akurasi klasifikasi. Hasil penelitian menunjukkan bahwa nilai K dan nilai E yang optimal untuk klasifikasi status pembayaran premi di PT. Bumiputera Kota Samarinda menggunakan NWKNN sebesar K=3 dan E=6 dengan nilai akurasi sebesar 75%.


2020 ◽  
Vol 37 (4) ◽  
pp. 563-569
Author(s):  
Dželila Mehanović ◽  
Jasmin Kevrić

Security is one of the most actual topics in the online world. Lists of security threats are constantly updated. One of those threats are phishing websites. In this work, we address the problem of phishing websites classification. Three classifiers were used: K-Nearest Neighbor, Decision Tree and Random Forest with the feature selection methods from Weka. Achieved accuracy was 100% and number of features was decreased to seven. Moreover, when we decreased the number of features, we decreased time to build models too. Time for Random Forest was decreased from the initial 2.88s and 3.05s for percentage split and 10-fold cross validation to 0.02s and 0.16s respectively.


2020 ◽  
Vol 6 (1) ◽  
pp. 1
Author(s):  
Irkham Widhi Saputro ◽  
Bety Wulan Sari

Universitas AMIKOM Yogyakarta adalah salah satu perguruan tinggi yang memiliki ribuan mahasiswa baru khususnya pada prodi Informatika. Pada tahun 2012 tercatat ada 1009 mahasiswa baru, dan pada tahun 2013 juga tercatat ada sebanyak 859 mahasiswa baru. Namun sayangnya, dari sekian banyak mahasiswa hanya sekitar 50% saja yang dapat lulus dengan tepat waktu. Data tersebut untuk membuat sistem klasifikasi menggunakan teknik data mining dengan metode Naïve Bayes. Dataset yang akan digunakan sebanyak 300 data yang bersumber dari data alumni angkatan 2012, dan 2013 dengan masing-masing data sebanyak 150. Data yang diperoleh memiliki 144 mahasiswa dengan keterangan lulus tepat waktu, dan 156 mahasiswa dengan keterangan lulus tidak tepat waktu. Proses pengujian akan dilakukan menggunakan metode 10-Fold Cross Validation, dan Confusion Matrix. Hasil pengujian menunjukkan bahwa rata-rata performa dari model Naïve Bayes mempunyai nilai akurasi sebesar 68%, nilai precision sebesar 61.3%, nilai recall sebesar 65.3%, dan nilai f1-score sebesar 61%. Nilai performa dari model dapat dipengaruhi oleh dataset yang digunakan untuk pembuatan model.Kata Kunci — data mining, Naïve Bayes, K-Fold Cross Validation, Confusion MatrixAMIKOM Yogyakarta University is one of the colleges that has thousands of new students, especially in the Informatics study program. In 2012 there were 1009 new students, and in 2013 there were 859 new students. But unfortunately, of the many students only around 50% can graduate on time. The data is to make the classification system using data mining techniques with the Naïve Bayes method. The dataset will be used as much as 300 data sourced from alumni data of 2012, and 2013 with each data as much as 150. The data obtained has 144 students with information passed on time, and 156 students with graduation information not on time. The testing process will be carried out using the 10-Fold Cross Validation, and Confusion Matrix method. The test results show that the average performance of the Naïve Bayes model has an accuracy value of 68%, precision value is 61.3%, recall value is 65.3%, and f1-score is 61%. The performance value of the model can be influenced by the dataset used for modeling.Keywords — data mining, classification, Naïve Bayes, graduation time


Sign in / Sign up

Export Citation Format

Share Document