Perbandingan Algoritma K-Nearest Neighbor dan Decision Tree untuk Penentuan Risiko Kredit Kepemilikan Mobil

Devi Yunita

doi:10.32493/informatika.v2i2.1512

Perbandingan Algoritma K-Nearest Neighbor dan Decision Tree untuk Penentuan Risiko Kredit Kepemilikan Mobil

Jurnal Informatika Universitas Pamulang ◽

10.32493/informatika.v2i2.1512 ◽

2017 ◽

Vol 2 (2) ◽

pp. 103

Author(s):

Devi Yunita

Keyword(s):

Data Mining ◽

Decision Tree ◽

Nearest Neighbor ◽

K Nearest Neighbor

Perbandingan Algoritma K-Nearest Neighbor Dan Decision Tree untuk Risiko Kredit Kepemilikan Mobil Kredit adalah sarana agar orang atau perusahaan dapat meminjam modal atau uang dan membayarnya dalam tempo yang sudah ditentukan. Agar kredit yang diberikan sesuai tujuan atau sasaran; yaitu aman; maka perlu diakukan analisis kredit. Analisis kredit adalah kajian yang dilakukan untuk mengetahui kelayakan dari suatu permasalahan kredit. Dalam penelitian analisa kredit ini menggunakan perbandingan Algoitma K-nearest neighbor (K-NN) yang merupakan penelitian menggunakan metode dengan mencari kedekatan antara kriteria kasus baru dengan kriteria kasus lama berdasarkan kriteria kasus yang paling mendekati; dan menggunakan Metode Decision tree yang merupakan metode yang ada pada teknik klasifikasidalam data mining. Hasil penelitian dengan menggunakan aplikasi Rapid Miner menunjukan bahwa Algoritma K-Nearest Neighbor (K-NN) memiliki nilai akurasi yang lebih baik

Download Full-text

Appraisal of the Classification Technique in Data Mining of Student Performance using J48 Decision Tree, K-Nearest Neighbor and Multilayer Perceptron Algorithms

International Journal of Computer Applications ◽

10.5120/ijca2018916751 ◽

2018 ◽

Vol 179 (33) ◽

pp. 39-46 ◽

Cited By ~ 1

Author(s):

Faiza Umar ◽

Najim Ussiph

Keyword(s):

Data Mining ◽

Decision Tree ◽

Student Performance ◽

Multilayer Perceptron ◽

Nearest Neighbor ◽

K Nearest Neighbor ◽

Classification Technique ◽

J48 Decision Tree

Download Full-text

Analisis Komparatif Evaluasi Performa Algoritma Klasifikasi pada Readmisi Pasien Diabetes

Jurnal Buana Informatika ◽

10.24002/jbi.v7i4.770 ◽

2016 ◽

Vol 7 (4) ◽

Author(s):

Mochammad Yusa ◽

Ema Utami ◽

Emha T. Luthfi

Keyword(s):

Data Mining ◽

Decision Tree ◽

Cross Validation ◽

Nearest Neighbor ◽

Naive Bayes ◽

Kappa Statistic ◽

Naïve Bayes ◽

Validation Dataset ◽

K Nearest Neighbor ◽

Fold Cross Validation

Abstract. Readmission is associated with quality measures on patients in hospitals. Different attributes related to diabetic patients such as medication, ethnicity, race, lifestyle, age, and others result in the calculation of quality care that tends to be complicated. Classification techniques of data mining can solve this problem. In this paper, the evaluation on three different classifiers, i.e. Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes with various settingparameter, is developed by using 10-Fold Cross Validation technique. The targets of parameter performance evaluated is based on term of Accuracy, Mean Absolute Error (MAE), dan Kappa Statistic. The selected dataset consists of 47 attributes and 49.735 records. The result shows that k-NN classifier with k=100 has a better performance in term of accuracy and Kappa Statistic, but Naive Bayes outperforms in term of MAE among other classifiers. Keywords: k-NN, naive bayes, diabetes, readmissionAbstrak. Proses Readmisi dikaitkan dengan perhitungan kualitas penanganan pasien di rumah sakit. Perbedaan atribut-atribut yang berhubungan dengan pasien diabetes proses medikasi, etnis, ras, gaya hidup, umur, dan lain-lain, mengakibatkan perhitungan kualitas cenderung rumit. Teknik klasifikasi data mining dapat menjadi solusi dalam perhitungan kualitas ini. Teknik klasifikasi merupakan salah satu teknik data mining yang perkembangannya cukup signifikan. Di dalam penelitian ini, model algoritma klasifikasi Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes dengan berbagai parameter setting akan dievaluasi performanya berdasarkan nilai performa Accuracy, Mean AbsoluteError (MAE), dan Kappa Statistik dengan metode 10-Fold Cross Validation. Dataset yang dievaluasi memiliki 47 atribut dengan 49.735 records. Hasil penelitian menunjukan bahwa performa accuracy, MAE, dan Kappa Statistik terbaik didapatkan dari Model Algoritma Naive Bayes.Kata Kunci: k-NN, naive bayes, diabetes, readmisi

Download Full-text

Sistem Prediksi Penyakit Kanker Serviks Menggunakan CART, Naive Bayes, dan k-NN

Creative Information Technology Journal ◽

10.24076/citec.2017v4i2.100 ◽

2018 ◽

Vol 4 (2) ◽

pp. 83

Author(s):

Tutus Praningki ◽

Indra Budi

Keyword(s):

Data Mining ◽

Decision Tree ◽

Pap Smear ◽

Nearest Neighbor ◽

Naive Bayes ◽

Confusion Matrix ◽

Regression Trees ◽

Naïve Bayes ◽

K Nearest Neighbor ◽

Classification And Regression

Tersedianya data histori rekam medis pasien kanker serviks pada institusi pelayanan kesehatan, tidak disertai dengan proses ekstraksi menjadi sebuah pengetahuan atau informasi. Penggunaan teknik data mining sangat berpotensi untuk diimplementasikan kedalam sistem yang dapat melakukan prediksi penyakit kanker serviks. Pada penelitian ini berfokus pada dataset diagnosa medis pasien yang akan melakukan tes Pap Smear. Algoritma yang digunakan untuk melakukan klasifikasi penyakit kanker serviks adalah Classification And Regression Trees (CART), Naive Bayes, dan k-Nearest Neighbor (k-NN). Pengujian yang dilakukan terhadap algoritma CART Decision Tree, Naive Bayes, dan k-NN, menggunakan formula Confusion Matrix, dengan menggunakan teknik pemecahan dataset Holdout. Hasil pengujian terhadap algoritma yang digunakan, menunjukkan algoritma Naive Bayes memiliki akurasi terbaik sebesar 94,44%, sedangkan tingkat akurasi yang dihasilkan algoritma CART dan k-NN adalah 88,89%, 85,04%. Performa yang didapatkan oleh masing-masing algoritma yang digunakan, memungkinkan penggunaan sistem prediksi penyakit kanker serviks untuk mendukung keputusan klinis pada pasien baru.

Download Full-text

Komparasi Algoritma Nonparametrik untuk Klasifikasi Citra Wajah Berdasarkan Suku di Indonesia

Jurnal Edukasi dan Penelitian Informatika (JEPIN) ◽

10.26418/jp.v6i3.43268 ◽

2020 ◽

Vol 6 (3) ◽

pp. 337

Author(s):

Seno Hartono ◽

Anggi Perwitasari ◽

Herry Sujaini

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Decision Tree ◽

Nearest Neighbor ◽

Support Vector ◽

K Nearest Neighbor ◽

Data Mining Tool ◽

Mining Tool

Klasifikasi merupakan metode data mining yang berfungsi untuk mengatur dan mengkategorikan data pada kelas yang berbeda-beda. Penelitian ini bertujuan untuk membandingkan dan menentukan algoritma nonparametrik terbaik dalam pengklasifikasian citra wajah. Dalam proses pengklasifikasian, penelitian ini menggunakan algoritma klasifikasi nonparametrik yaitu k-Nearest Neighbor (kNN), Support Vector Machine (SVM), Decision Tree, dan AdaBoost Untuk mengklasifikasikan citra wajah penduduk Indonesia yang berasal dari suku Batak, Dayak, Jawa, Melayu, dan Tionghoa. Penelitian ini menggunakan Orange Data Mining Tool sebagai alat bantu untuk melakukan proses data mining. Dari hasil pengklasifikasian dengan menerapkan algoritma k-Nearest Neigbor, Support Vector Machine, Decision Tree, dan AdaBoost, SVM memberikan nilai akurasi yang lebih baik dibanding algoritma lainnya. Rata-rata nilai precision keempat algoritma tersebut berturut-turut adalah Support Vector Machine 37.5%, diikuti oleh algoritma k-Nearest Neighbor 31.55%, AdaBoost 30.25%, dan untuk Decision Tree 29.75%.

Download Full-text

Penerapan Na ̈ıve Bayes Classifier, K-Nearest Neighbor (KNN) dan Decision Tree untuk Menganalisis Sentimen pada Interaksi Netizen danPemeritah

Matrik Jurnal Manajemen Teknik Informatika dan Rekayasa Komputer ◽

10.30812/matrik.v21i1.1092 ◽

2021 ◽

Vol 21 (1) ◽

pp. 139-150

Author(s):

M. Khairul Anam ◽

Bunga Nanti Pikir ◽

Muhammad Bambang Firdaus

Keyword(s):

Data Mining ◽

Decision Tree ◽

Nearest Neighbor ◽

Naive Bayes ◽

Naïve Bayes ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

K Nearest Neighbor ◽

Naïve Bayes Classifier ◽

Command Center

Pemerintah Pekanbaru saat ini sudah menerapkan teknologi dalam sistem pemerintahan, penerapannya saat ini masih mendapat keluhan dari masyarakat seperti layanan publik command center yang hanya sebagian masyarakat mengetahuinya dan penerapan cctv yang ada di Alat Pemberi Isyarat Lalu Lintas (APILL) yang belum berfungsi dengan baik. Penerapan teknologi lainnya oleh Pemerintah Pekanbaru dapat kita lihat dari keberadaan portal-portal web situs resmi Pemerintah. Sedangkan untuk melihat beragam komentar netizen dari twitter. Twitter menjadi tempat untuk mendapatkan data yang diungkapkan masyarakat melalui tweets yang diposting ke timeline. Analisa sentimen dilakukan untuk melihat pendapat atau kecenderungan opini netizen terhadap pemerintah Pekanbaru yang mengandung sentimen positif, negatif, dan netral. Data yang digunakan adalah tweet dengan jumlah dataset sebanyak 150 tweets. Data tersebut kemudian di analisa agar menjadi informasi. Analisa dilakukan menggunakan metode data mining yaitu Naïve Bayes Classifier, K-Nearest Neighbor (KNN), dan Decision tree. Penggunaan ketiga pendekatan ini berupaya untuk mengkategorikan hasil komentar netizen terkait penggunaan teknologi yang telah melalui proses analisis sentimen dan membandingkan keakuratan ketiga cara tersebut. Hasil akurasi yang didapatkan cukup beragam yaitu dari metode Naïve Bayes akurasi 100%, metode KKN akurasi 98,25%, dan metode decision tree akurasi 62,28%.

Download Full-text

Penanganan Ketidakseimbangan Data pada Prediksi Customer Churn Menggunakan Kombinasi SMOTE dan Boosting

IJCIT (Indonesian Journal on Computer and Information Technology) ◽

10.31294/ijcit.v6i1.9545 ◽

2021 ◽

Vol 6 (1) ◽

Author(s):

Nana Suryana ◽

Pratiwi Pratiwi ◽

Rizki Tri Prasetio

Keyword(s):

Data Mining ◽

Deep Learning ◽

Random Forest ◽

Decision Tree ◽

Nearest Neighbor ◽

Naive Bayes ◽

Naïve Bayes ◽

K Nearest Neighbor ◽

Customer Churn ◽

Number Of Customers

Industri telekomunikasi menghadapi persaingan yang ketat antara penyedia layanan (service provider). Persaingan ini mengakibatkan customer churn atau berpindahnya pelanggan dari satu layanan ke layanan lain. Customer churn menjadi masalah utama karena dapat mempengaruhi pendapatan perusahaan, profitabilitas, serta kelangsungan hidup perusahaan. Oleh karena itu, mengetahui pelanggan yang akan melakukan churn secara dini menjadi salah satu cara yang cukup efektif dilakukan, karena dapat membantu perusahaan dalam membuat rencana yang efektif untuk tetap mempertahankan pelanggannya. Jumlah pelanggan yang mengundurkan diri dari layanannya saat ini biasanya dimiliki perusahaan dalam jumlah yang sedikit. Kondisi kekurangan data ini menyebabkan kesulitan dalam memprediksi customer churn. Tujuan umum dari penelitian ini adalah memprediksi pelanggan yang akan berpindah ke layanan lain atau mengundurkan diri dari layanannya saat ini. Sementara tujuan khusus penelitian Penelitian ini berusaha menangani ketidakseimbangan data dalam prediksi customer churn menggunakan optimasi pada level data melalui metode sampling yaitu Synthetic Minority Over Sampling. Kemudian dikombinasikan dengan optimasi level algoritma melalui pendekatan teknik Boosting. Pada penelitian beberapa algoritma prediksi seperti random forest, naïve bayes, decision tree, k-nearest neighbor dan deep learning yang akan diimplementasikan untuk mengetahui algoritma yang paling baik setelah dilakukan optimasi menggunakan SMOTE dan Boosting. Metode penelitian yang digunakan pada penelitian ini adalah CRISP-DM, yang merupakan kerangka penelitian data mining untuk penelitian lintas industri. Hasil penelitian ini menunjukan bahwa algoritma random forest merupakan algoritma yang menghasilkan akurasi paling optimal setelah dioptimasi menggunakan SMOTE dan Boosting dengan hasil akurasi 89,19%. The telecommunications industry faces stiff competition between service providers. This competition results in customer churn. Customer churn is a major problem because it can affect company revenue, profitability, survival, and service quality of the company. Therefore, knowing which customers will churn in the future early is one of the most effective ways to do it, because it can help companies make an effective plan to keep their customers. The number of customers who withdrew from its current services is usually owned by a small number. This lack of data causes difficulties in predicting customer churn. This problem then becomes a challenging issue in machine learning. The general purpose of this research is to predict customers who will churn. While the specific purpose of this research is to try to deal with data imbalances in predicting customer churn using optimization at the data level through the sampling method, namely Synthetic Minority Over Sampling (SMOTE). Then combined with algorithm level optimization through the Boosting technique approach. In this study, several prediction algorithms like the random forest, naïve Bayes, decision tree, k-nearest neighbor, and deep learning will be implemented to find out the best algorithm after optimization using SMOTE and Boosting. The method used in this study is CRISP-DM, which is a data mining research framework for cross-industry research. The results of this study indicate that the random forest algorithm is an algorithm that produces the most optimal accuracy after being optimized using SMOTE and Boosting with an accuracy of 89.19%.

Download Full-text

Perbandingan Metode Klasifikasi Multiclass untuk Pemetaan Zona Risiko COVID-19 di Pulau Jawa

Jurnal Komputer dan Informatika ◽

10.35508/jicon.v9i1.3602 ◽

2021 ◽

Vol 9 (1) ◽

pp. 98-107

Author(s):

Jesica Nauli Br. Siringo Ringo ◽

Wahyu Joko Mursalin ◽

Nisrina Citra Nurfadilah ◽

Dwiky Rachmat Ramadhan ◽

Wa Ode Zuhayeni Madjida

Keyword(s):

Neural Network ◽

Data Mining ◽

Decision Tree ◽

Nearest Neighbor ◽

Naive Bayes ◽

Imbalanced Data ◽

Naïve Bayes ◽

K Nearest Neighbor ◽

Missing Value

Penambahan kasus COVID-19 yang besar di Indonesia, khususnya Pulau Jawa, membutuhkan berbagai upaya untuk mengendalikannya. Salah satu upaya efektif yang dapat dilakukan adalah tindakan preventif dengan memberi informasi mengenai kondisi suatu wilayah. Sebagai peringatan kepada masyarakat dan sebagai upaya pengambilan kebijakan daerah, Indonesia mengeluarkan zona risiko sampai pada tingkat kabupaten/kota melalui Satgas Penanganan COVID-19. Pembentukan level zona risiko tersebut menggunakan teknik konvensional yaitu pembobotan skor menggunakan informasi dari tiga jenis indikator. Dengan mempertimbangkan bahwa zona risiko merupakan hal yang penting dalam penentuan kebijakan terkait COVID-19, penelitian ini bertujuan untuk membangun model klasifikasi zona risiko kabupaten/kota di Pulau Jawa menggunakan beberapa teknik klasifikasi data mining dan menentukan model klasifikasi terbaik berdasarkan hasil evaluasi. Teknik klasifikasi yang digunakan sebagai perbandingan dalam penelitian ini adalah naive Bayes, decision tree, k-nearest-neighbor, dan neural network. Sebelum dilakukan pemodelan, data disesuaikan terlebih dahulu pada tahap preprocessing di mana pada tahap tersebut teridentifikasi terdapat permasalahan missing value dan imbalanced data. Permasalahan tersebut diatasi dengan imputasi data dan teknik oversampling. Hasil penelitian menunjukkan bahwa model k-nearest-neighbor merupakan model terbaik dibandingkan tiga model lainnya. Hasil tersebut didasarkan pada ukuran evaluasi keempat model di mana model k-NN memiliki nilai acccuracy, nilai rata-rata makro untuk sensitivitas, spesifisitas, dan ukuran F1 paling tinggi dibandingkan model lainnya.

Download Full-text

Predictive Data Mining Models for Novel Coronavirus (COVID-19) Infected Patients Recovery

10.21203/rs.3.rs-33247/v1 ◽

2020 ◽

Author(s):

L. J. Muhammad ◽

Md. Milon Islam ◽

Usman Sani Sharif ◽

Safial Islam Ayon

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Logistic Regression ◽

Random Forest ◽

Decision Tree ◽

Nearest Neighbor ◽

Support Vector ◽

K Nearest Neighbor ◽

The World ◽

Novel Coronavirus

Abstract Novel coronavirus (COVID-19 or 2019-nCoV) pandemic has neither clinically proven vaccine nor drugs; however, its patients are recovering with the aid of antibiotics medications, anti-viral drugs, and chloroquine as well as vitamin C supplementation. It is now evident that the world needs a speedy and quicker solution to contain and tackle the further spread of COVID-19 across the world with the aid of non-clinical approaches such as data mining approaches, augmented intelligence and other artificial intelligence techniques so as to mitigate the huge burden on the healthcare system while providing the best possible means for patients' diagnosis and prognosis of the 2019-nCoV pandemic effectively. In this study, data mining models were developed for the prediction of COVID-19 infected patients’ recovery using epidemiological dataset of COVID-19 patients of South Korea. The decision tree, support vector machine, naive Bayes, logistic regression, random forest, and K-nearest neighbor algorithms were applied directly on the dataset using python programming language to develop the models. The model predicted a minimum and maximum number of days for COVID-19 patients to recover from the virus, the age group of patients who are of high risk not to recover from the COVID-19 pandemic, those who are likely to recover and those who might be likely to recover quickly from COVID-19 pandemic. The results of the present study have shown that the model developed with decision tree data mining algorithm is more efficient to predict the possibility of recovery of the infected patients from COVID-19 pandemic with the overall accuracy of 99.85 % which stands to be the best model developed among the models developed with other algorithms including support vector machine, naive Bayes, logistic regression, random forest, and K-nearest neighbor.

Download Full-text

KOMPARASI ALGORITMA DECISION TREE, NAIVE BAYES DAN K-NEAREST NEIGHBOR UNTUK MEMPREDIKSI MAHASISWA LULUS TEPAT WAKTU

JITK (Jurnal Ilmu Pengetahuan dan Teknologi Komputer) ◽

10.33480/jitk.v5i2.1214 ◽

2020 ◽

Vol 5 (2) ◽

pp. 265-270 ◽

Cited By ~ 1

Author(s):

Agus Budiyantara ◽

Irwansyah Irwansyah ◽

Egi Prengki ◽

Pandi Ahmad Pratama ◽

Ninuk Wiliani

Keyword(s):

Data Mining ◽

Decision Tree ◽

Nearest Neighbor ◽

Naive Bayes ◽

Naïve Bayes ◽

Drop Out ◽

University Management ◽

K Nearest Neighbor ◽

Academic Factors ◽

The University

Private Universities (PTS) compete so tight in providing performance in producing quality graduates. In addition, the number of universities in Indonesia which counts a lot both PTN and PTS makes the higher competition between universities as well. So the university strives to improve quality and provide the best education for service recipients, namely students, where one of the problems if there are some students who are late graduating or not on time so that it becomes an obstacle to the progress of the college. Prediction of students graduating on time is needed by university management in determining preventive policies related to early prevention of Drop Out (DO) cases. This prediction aims to determine the academic factors that influence the period of study and build the best prediction model with Data Mining techniques. There are 11 attributes used for Data Mining Classification, namely NPM, Gender, Age, Department, Class, Occupation, Semester 1 Achievement Index, Semester 2 Achievement Index, Semester 3 Achievement Index, Semester 4 Achievement Index and Information as result attributes. From the results of evaluations and validations that have been carried out using the RapidMiner tools the accuracy of the Decision Tree (C4.5) method is 98.04% in the 3rd test. The accuracy of the Naïve Bayes Method is 96.00% in the 4th test. And the accuracy of the K-Nearest Neighbor Method (K-NN) of 90.00% in the second test.

Download Full-text

A Recommendation System of Highway ETC Card Based on Decision Tree Theory

Applied Mechanics and Materials ◽

10.4028/www.scientific.net/amm.644-650.2411 ◽

2014 ◽

Vol 644-650 ◽

pp. 2411-2415

Author(s):

Yu Ling Ma

Keyword(s):

Data Mining ◽

Decision Tree ◽

Recommendation System ◽

Nearest Neighbor ◽

Real Life ◽

Historical Background ◽

Support Vector ◽

Bayesian Decision ◽

K Nearest Neighbor ◽

Vehicle Information

With the promotion of social information construction and the rapid update and replacement of large capacity storage equipment, the amount of data from every field grows exponentially. Reportedly, the amount of the data accumulated by Shandong Hi-speed Group is very large. These data can satisfy us some daily usefulness, such as query, retrieval, statistics, statements etc. But what is more important is that how can we discover some useful information from the information ocean. This information can be used in real life such as auxiliary decision. This paper is proposed in this historical background. Data mining is a powerful tool for acquiring knowledge from massive data. Some methods of data mining, such as decision tree, support vector machine, Bayesian decision theory, artificial neural network, k-nearest neighbor, association rule mining etc, are commonly used. In this paper, we design a recommendation system of highway ETC card by using the theory of decision tree. The recommendation system can predict whether a car owner is a potential ETC customer or not through the analysis of the vehicle information. Experiments proved that the accuracy rate of the recommendation system is larger than 90%, so it can provide effective information for the extension of China's ETC card.

Download Full-text