scholarly journals Komparasi Algoritma Klasifikasi Data Mining untuk Memprediksi Tingkat Kematian Dini Kanker dengan Dataset Early Death Cancer

Author(s):  
Panny Agustia Rahayuningsih

Penyakit Kanker merupakan sepuluh besar penyakit pembunuh di dunia. Kanker merupakan penyakit yang ganas dan sulit disembuhkan jika penyebarannya sudah terlalu luas. Akan tetapi, pendeteksian sel kanker sedini mungkin dapat mengurangi resiko kematian. Penelitian ini bertujuan untuk memprediksikan tingkat kematian dini kanker pada penduduk Eropa dengan menggunakan 5algoritma klasifikasi yaitu: Desecion Tree, Naïve Bayes, k-Nearset Neighbour, Random Forest dan Neural Network dari algoritma tersebut algoritma mana yang dianggap paling baik untuk penelitian ini. Pengujian dilakukan dengan beberapa tahapan penelitian antara lain: dataset (pengumpulan data), pengolahan data awal, metode yang diusulkan, pengujian metode menggunakan 10-fold cross validation, evaluasi hasil dan uji beda t-test. Nilai alpha yang digunakan adalah 0.05. jika probabilitasnya >0.05 maka H0 diterima. Sedangkan jika probabilitasnya <0.05 maka Ho ditolak.Hasil dari penelitian yang mendapatkan performe terbaik dengan nilai akurasi sebesar 98,35% adalah algoritma Neural Network. Sedangkan, hasil penelitian menggunakan uji t-test algoritma dengan model terbaik yaitu: algoritma Random Forest dan Neural Network, algoritma Naïve Bayes lumanyan baik, algoritma Desecion Tree cukup baik dan algoritma yang kurang baik adalah algoritma K-Nearset Neighbour (K-NN).

2021 ◽  
Vol 11 (2) ◽  
pp. 626-636
Author(s):  
Tanthy Tawaqalia Widowati ◽  
Mujiono Sadikin

Salah satu media sosial yang berkembang adalah Twitter. Media sosial Twitter mempermudah masyarakat untuk bebas berpendapat melalui cuitan atau biasa disebut dengan tweets. Netizen dengan bebas menyampaikan opini pribadinya untuk topik apapun, termasuk persepsi terhadap tokoh publik. Artikel ini menyajikan hasil penelitian dan analisis sentimen masyarakat (netizen) terhadap tokoh publik, Nadiem Makariem sebagai Menteri Kementerian Pendidikan dan Kebudayaan baru. Penelitian ini menggunakan teknik data mining yang bertujuan untuk membandingkan hasil klasifikasi dari opini masyarakat yang dituliskan di Twitter. Dataset yang digunakan berasal dari tweets dengan kata kunci ”nadiem makariem”, ”kemendikbud” dan ”pak nadiem”. Tools RapidMiner digunakan untuk membantu tahap pre-processing dan klasifikasi menggunakan dua metode yaitu, Naive Bayes dan Support Vector Machine dengan evaluasi k-fold cross-validation. Dari hasil ujicoba diketahui bahwa untuk kasus yang diteliti, metode Naive Bayes menghasilkan kinerja yang lebih baik dengan accuracy 91.48%,  precision 89.28%  dan recall 91.58%.


2020 ◽  
Vol 6 (1) ◽  
pp. 1
Author(s):  
Irkham Widhi Saputro ◽  
Bety Wulan Sari

Universitas AMIKOM Yogyakarta adalah salah satu perguruan tinggi yang memiliki ribuan mahasiswa baru khususnya pada prodi Informatika. Pada tahun 2012 tercatat ada 1009 mahasiswa baru, dan pada tahun 2013 juga tercatat ada sebanyak 859 mahasiswa baru. Namun sayangnya, dari sekian banyak mahasiswa hanya sekitar 50% saja yang dapat lulus dengan tepat waktu. Data tersebut untuk membuat sistem klasifikasi menggunakan teknik data mining dengan metode Naïve Bayes. Dataset yang akan digunakan sebanyak 300 data yang bersumber dari data alumni angkatan 2012, dan 2013 dengan masing-masing data sebanyak 150. Data yang diperoleh memiliki 144 mahasiswa dengan keterangan lulus tepat waktu, dan 156 mahasiswa dengan keterangan lulus tidak tepat waktu. Proses pengujian akan dilakukan menggunakan metode 10-Fold Cross Validation, dan Confusion Matrix. Hasil pengujian menunjukkan bahwa rata-rata performa dari model Naïve Bayes mempunyai nilai akurasi sebesar 68%, nilai precision sebesar 61.3%, nilai recall sebesar 65.3%, dan nilai f1-score sebesar 61%. Nilai performa dari model dapat dipengaruhi oleh dataset yang digunakan untuk pembuatan model.Kata Kunci — data mining, Naïve Bayes, K-Fold Cross Validation, Confusion MatrixAMIKOM Yogyakarta University is one of the colleges that has thousands of new students, especially in the Informatics study program. In 2012 there were 1009 new students, and in 2013 there were 859 new students. But unfortunately, of the many students only around 50% can graduate on time. The data is to make the classification system using data mining techniques with the Naïve Bayes method. The dataset will be used as much as 300 data sourced from alumni data of 2012, and 2013 with each data as much as 150. The data obtained has 144 students with information passed on time, and 156 students with graduation information not on time. The testing process will be carried out using the 10-Fold Cross Validation, and Confusion Matrix method. The test results show that the average performance of the Naïve Bayes model has an accuracy value of 68%, precision value is 61.3%, recall value is 65.3%, and f1-score is 61%. The performance value of the model can be influenced by the dataset used for modeling.Keywords — data mining, classification, Naïve Bayes, graduation time


2016 ◽  
Vol 7 (4) ◽  
Author(s):  
Mochammad Yusa ◽  
Ema Utami ◽  
Emha T. Luthfi

Abstract. Readmission is associated with quality measures on patients in hospitals. Different attributes related to diabetic patients such as medication, ethnicity, race, lifestyle, age, and others result in the calculation of quality care that tends to be complicated. Classification techniques of data mining can solve this problem. In this paper, the evaluation on three different classifiers, i.e. Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes with various settingparameter, is developed by using 10-Fold Cross Validation technique. The targets of parameter performance evaluated is based on term of Accuracy, Mean Absolute Error (MAE), dan Kappa Statistic. The selected dataset consists of 47 attributes and 49.735 records. The result shows that k-NN classifier with k=100 has a better performance in term of accuracy and Kappa Statistic, but Naive Bayes outperforms in term of MAE among other classifiers. Keywords: k-NN, naive bayes, diabetes, readmissionAbstrak. Proses Readmisi dikaitkan dengan perhitungan kualitas penanganan pasien di rumah sakit. Perbedaan atribut-atribut yang berhubungan dengan pasien diabetes proses medikasi, etnis, ras, gaya hidup, umur, dan lain-lain, mengakibatkan perhitungan kualitas cenderung rumit. Teknik klasifikasi data mining dapat menjadi solusi dalam perhitungan kualitas ini. Teknik klasifikasi merupakan salah satu teknik data mining yang perkembangannya cukup signifikan. Di dalam penelitian ini, model algoritma klasifikasi Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes dengan berbagai parameter setting akan dievaluasi performanya berdasarkan nilai performa Accuracy, Mean AbsoluteError (MAE), dan Kappa Statistik dengan metode 10-Fold Cross Validation. Dataset yang dievaluasi memiliki 47 atribut dengan 49.735 records. Hasil penelitian menunjukan bahwa performa accuracy, MAE, dan Kappa Statistik terbaik didapatkan dari Model Algoritma Naive Bayes.Kata Kunci: k-NN, naive bayes, diabetes, readmisi


2019 ◽  
Vol 6 (4) ◽  
pp. 444
Author(s):  
Iqbal Taufiq Ahmad Nur ◽  
Nanang Yudi Setiawan ◽  
Fitra Abdurrachman Bachtiar

<p>Mendeteksi kualitas kredit sejak dini merupakan satu tahapan penting yang wajib dilakukan oleh koperasi simpan pinjam guna meminimalisir adanya risiko kredit. Dalam penelitian ini, kami menggunakan tiga metode klasifikasi yaitu SVM, <em>Neural Network</em>, dan <em>Naïve Bayes</em> untuk menemukan metode dengan performa yang paling baik dan optimal pada kasus pendeteksian kualitas kredit di koperasi simpan pinjam. Proses yang dilakukan adalah dengan mengimplementasikan data hasil <em>pre processing</em> menggunakan algoritme SVM, <em>Neural Network</em>, dan <em>Naïve Bayes</em> dengan proses evaluasi menggunakan <em>5-fold cross validation</em>. Hasil yang didapatkan adalah metode <em>Neural Network</em> menjadi metode dengan performa paling baik. Rerata tingkat akurasi yang dihasilkan sebesar 86,81%, rerata <em>precision</em> sebesar 0,8194, rerata <em>recall</em> sebesar 0,8236, dan rerata nilai AUC sebesar 0,9158. Namun, waktu eksekusi yang dihasilkan algoritme <em>Neural Network</em> menjadikan algoritme ini sebagai algoritme paling lambat dibandingkan dengan dua metode lain. Nilai rerata waktu eksekusi dari metode <em>Neural Network</em> sebesar 3,058 detik, jauh lebih lama dibandingkan dua algoritme lain yang hanya berkisar pada nilai 0 – 1 detik.</p><p> <strong><em>Abstract</em></strong></p><p><em>Detecting credit quality at the early stage is an important step that must be done by koperasi simpan pinjam in order to minimize the credit risk. In this research, we use three classification methods i.e. SVM, Neural Network, and Naïve Bayes to find the best performance and optimal method to be used in credit quality detection for koperasi simpan pinjam. The process conducted by implementing pre-processing data using an SVM, Neural Network, and Naïve Bayes algorithm with the evaluation process using 5-fold cross validation. As the result, The Neural Network method was the best performing method. The average level of accuracy produced was 86.81%, mean precision was 0.8194, average recall was 0.8236, and the average AUC value was 0.9158. However, the execution time generated by the Neural Network algorithm made this algorithm the slowest algorithm compared to the other two methods. The average execution time of the Neural Network method was 3.058 seconds, longer than the other two algorithms which only range from 0 - 1 second.</em></p>


2019 ◽  
Vol 7 (3) ◽  
pp. 202
Author(s):  
Muhammad Sony Maulana ◽  
Raja Sabarudin ◽  
Wahyu Nugraha

AMIK BSI Pontianak merupakan salah satu perguruan tinggi swasta yang memiliki jumlah mahasiswa yang banyak, namun dalam perjalanannya masih terdapat permasalahan yang setiap tahun nya terjadi yaitu permasalahan jumlah kelulusan mahasiswa yang tepat waktu dan terlambat. Jumlah mahasiswa yang lulus tepat waktu menjadi indikator efektifitas dari sebuah perguruan tinggi baik negeri dan swasta. Perguruan tinggi perlu mendeteksi perilaku  dari mahasiswa aktif sehingga dapat dilihat faktor yang menyebabkan mahasiswa tidak lulus tepat waktu. Pada penelitian ini, akan mengkomparasikan atau membandingkan 5 metode data mining untuk menentukan metode mana yang paling optimal dalam menentukan ketepatan kelulusan mahasiswa dengan teknik pengujian T-Test, metode yang dibandingkan adalah metode Decision Tree, Naive Bayes, K-NN, Rule Induction, dan Random Forest. Hasil dari penelitian ini menghasilkan bahwa algoritma Rule Induction dan C4.5 adalah metode yang paling optimal performanya dalam menentukan ketepatan kelulusan mahasiswa diploma AMIK BSI Pontianak


Techno Com ◽  
2020 ◽  
Vol 19 (4) ◽  
pp. 353-363
Author(s):  
Mayanda Mega Santoni ◽  
Nurul Chamidah ◽  
Nurhafifah Matondang

Hipertensi merupakan salah satu penyakit tidak menular yang dapat menyebabkan kematian karena meningkatkan resiko munculnya berbagai penyakit seperti gagal ginjal, gagal jantung, bahkan stroke. Resiko hipertensi disebabkan oleh beberapa faktor penyebab seperti usia, keturunan, pola makan dan olahraga, dan merokok. Teknologi artificial intelligence yakni machine learning dimanfaatkan di bidang kesehatan khususnya prediksi penyakit hipertensi. Pada penelitian ini diimplementasi tiga algoritma machine learning yakni decision tree, naïve bayes dan artificial neural networks. Data yang digunakan pada penelitian ini sebanyak 274 data yang diperoleh dari hasil kuesioner dengan 26 pertanyaan, dimana 25 pertanyaan adalah variabel faktor resiko dan satu pertanyaan merupakan kelas yang menyatakan responden memiliki riwayat hipertensi atau tidak. Data diolah menggunakan platform analisis data yakni KNIME. Sebelum data diolah untuk membangun model klasifikasi menggunakan decision tree, naïve bayes dan artificial neural network, data dipraproses terlebih dahulu dengan melakukan imputasi missing value, oversampling dan normalisasi data. Selanjutnya pembagian data menggunakan 5-fold cross validation. Model klasifikasi yang diperoleh dievaluasi menggunakan nilai akurasi, recall dan precision. Hasil evaluasi dari eksperimen yang dilakukan diperoleh bahwa algoritma artificial neural network memiliki tingkat performa lebih baik dibandingkan decision tree dan naïve bayes dengan nilai akurasi sebesar 94.7%, recall sebesar 91.5% dan precision sebesar 97.7%.


2019 ◽  
Vol 4 (1) ◽  
Author(s):  
Diky Djafar Sidik ◽  
Tjong Wan Sen

Curah hujan sebagai bentuk informasi dari data meteorologis, penting dalam segala kegiatan manusia yang berhubungan dengan alam, oleh karena itu prediksi atas curah hujan dengan hasil yang akurat merupakan hal yang sangat penting. Salah satu metode yang digunakan untuk prediksi/klasifikasi curah hujan adalah data mining dengan berbagai algoritma dan parameter data yang berbeda. Pada penelitian ini digunakan penggabungan metode klasifikasi dengan Teknik Ensemble Stacking/Stacked Generalization yang menggunakan Naïve Bayes dan C4.5 sebagai base learner dan KNN sebagai meta learner untuk klasifikasi curah hujan. Dataset yang dipergunakan adalah data klimatologi harian yang diambil dari website resmi BMKG (Badan Meteorologi, Klimatologi, Dan Geofisika) untuk stasiun UPT Bandung, Bogor, Citeko dan Jatiwangi dari periode 01 Januari 2000 sampai dengan 31 Desember 2018. Dengan menggunakan tiga skenario pengujian dan validasi menggunakan 10 fold cross validation diperoleh bahwa metode stacking dapat meningkatkan akurasi dari base classifier.


2020 ◽  
Vol 4 (2) ◽  
pp. 1-9
Author(s):  
Veronica Sari ◽  
◽  
Feranandah Firdausi ◽  
Yufis Azhar ◽  
◽  
...  

Classification is one of the techniques that exist in data mining and is useful for grouping a data based on the attachment of the data with the sample data. The dataset that is used in this study is the coffee dataset taken from Dataset Coffee Quality Institute on the GitHub platform. The attributes that contained in the dataset are Aroma, Aftertaste, Flavor, Acidity, Balance, Body, Uniformity, Sweetness, Clean Cup, and Copper points. There are 3 classification methods that are used in this study, Stochastic Gradient Descent, Random Forest and Naive Bayes. The aim of this study is to find out which algorithm is the most effective to predict the coffee quality in the dataset. After that, the prediction results will be tested using K-Fold Cross Validation and Area Under the Curve (AUC) method. The results show that Stochastic Gradient Descent obtained the best accuracy results compared to the other two methods with an accuracy of 98% and increased to 99% after tested using K-fold Cross Validation and AUC method.


2017 ◽  
Vol 11 (1) ◽  
Author(s):  
Mongan winny Amelia ◽  
Arie S.M Lumenta ◽  
Agustinus Jacobus

  Data mining adalah teknik yang memanfaatkan data dalam jumlah yang besar untuk memperoleh informasi berharga yang dapat dimanfaatkan untuk pengambilan keputusan penting. Data kelulusan mahasiswa Universitas Sam Ratulangi menghasilkan data akademik mahasiswa yang berpengaruh pada kualitas perguruan tinggi lewat akreditas yang dilaksanakan oleh Badan Akreditasi Nasional atau BAN-PT. Naïve Bayes merupakan algoritma yang dapat digunakan untuk prediksi masa studi mahasiswa yang bisa dikategorikan tepat waktu, terlambat dan tidak lulus. Dengan menggunakan data mining khususnya klasifikasi untuk prediksi dengan algoritma naïve bayes dapat dilakukan prediksi terhadap ketepatan waktu studi dari mahasiswa berdasarkan data training yang ada.. Pengujian yang dipakai yaitu k-fold cross validation 10-fold. Hasil pengujian didapat nilai akurasi rata-rata sebesar 85.17 % sedangkan nilai akurasi tertinggi sebesar 88.96 %. Kata kunci : Naïve Bayes, K-Fold Cross Validation, Data Mining, Prediksi.


2021 ◽  
Vol 3 (1) ◽  
pp. 12-19
Author(s):  
Bambang Tri Rahmat Doni ◽  
Sari Susanti ◽  
Ade Mubarok

Hepatocellular Carcinoma merupakan tumor ganas hati primer yang berasal dari hepatosit. Dalam dasawarsa terakhir terjadi perkembangan yang cukup berarti menyangkut penyakit Hepatocellular Carcinoma. Penelitian ini bertujuan untuk mengklasifikasikan tingkat kemungkinan hidup pasien yang telah di diagnosis menderita penyakit Hepatocellular Carcinoma dengan menggunakan penerapan metode data mining serta melakukan pengukuran terhadap performa algoritma Naïve Bayes dengan mengacu kepada Confusion Matrix dan Kurva ROC. Data sekunder yang digunakan merupakan data publik yang bernama HCC Survival Data Set yang dirilis pada tahun 2017 dan diperoleh dari website UCI Machine Learning Repository. Algortima Naïve Bayes merupakan salah satu algoritma yang terdapat dalam metode data mining yang menerapkan Teori Keputusan Bayes pada teknik klasifikasi dengan menggunakan cara pendekatan statistik yang bersifat fundamental dalam pengenalan pola. Teknik validasi yang digunakan menggunakan teknik 10-Fold Cross-Validation dengan rasio pembagian data sebesar 90:10. Perangkat lunak yang digunakan adalah RapidMiner Studio v9.5. Hasil penelitian menunjukkan bahwa hasil performa algoritma Naïve Bayes yang diukur menggunakan Confussion Matrix dengan nilai yang dihasilkan berupa nilai Akurasi sebesar 70,30%, Presisi sebesar 73,53% dan Recall sebesar 77,32% serta hasil performa yang diukur menggunakan Kurva ROC (Receiver Operating Characteristic) dengan nilai yang dihasilkan berupa nilai AUC sebesar 0.783 yang termasuk dalam kategori Fair Classification atau kategori Klasifikasi Cukup.


Sign in / Sign up

Export Citation Format

Share Document