scholarly journals ANALISA 4 ALGORITMA DALAM KLASIFIKASI LIVER MENGGUNAKAN RAPIDMINER

2020 ◽  
Vol 6 (2) ◽  
pp. 1-9
Author(s):  
Annisa Putri Ayudhitama ◽  
Utomo Pujianto

Hati merupakan salah satu organ penting dalam tubuh manusia yang berfungsi untuk detoksifikasi racun atau penetral racun dari segala sesuatu yang masuk ke dalam tubuh kita, sehingga tubuh menjadi lebih sehat. Hati dapat terserang suatu penyakit yang mampu mengganggu tugasnya, apabila penyakit hati sudah menyerang maka racun akan tersebar ke seluruh tubuh dan membuat tubuh menjadi tidak sehat. Penyakit liver merupakan penyakit hati yang disebabkan oleh virus, alkohol, pola hidup dan lainnya. Menurut data WHO (World Health Organization) menunjukkan hampir 1,2 juta orang per tahun khususnya di Asia Tenggara dan Afrika mengalami kematian akibat terserang penyakit liver. Seseorang sering tidak menyadari atau terlambat mengetahui penyakit liver sehingga ketika diperiksa penyakit liver sudah parah, akan lebih baik apabila dilakukan penanganan lebih awal dengan mengetahui gejala-gejala yang diderita. Data mining mampu membantu diagnosa penyakit liver dengan lebih mudah terutama untuk membantu para dokter dalam menentukan apakah pasien menderita penyakit liver atau tidak, dengan gejala hampir mendekati penyakit liver. Proses diagnosa penyakit liver dilakukan dengan proses klasifikasi dan hasilnya berupa pasien tersebut menderita liver atau tidak. Penelitian ini menggunakan 4 algoritma data mining yaitu Naïve Bayes, K-Nearest Neighbor (KNN), Decision Tree dan Neural Network. Dataset yang digunakan yaitu Indian Liver Patient Dataset (ILPD) dari website UCI Machine Learning Repository. Keempat algoritma tersebut dibandingkan manakah yang lebih baik akurasinya untuk kasus diagnosa penyakit liver. Hasilnya menunjukkan bahwa algoritma Naïve Bayes memiliki akurasi 55,75%, algoritma K-Nearest Neigbor memiliki akurasi 66,36%, algoritma Decision Tree memiliki akurasi 67,04%, dan algoritma Neural Network memiliki akurasi 70,50%. Akurasi tersebut tergolong rendah karena kelas atau label antara pasien penyakit liver dan pasien tidak memiliki liver tidaklah seimbang, kelas pasien penyakit liver lebih banyak dibandingkan pasien tidak memiliki liver, sehingga banyak data yang diklasifikasikan sebagai pasien penyakit liver. Keywords— Data Mining, Decision Tree, Klasifikasi, KNN, Liver, Naïve Bayes, Neural Network

2021 ◽  
Vol 9 (1) ◽  
pp. 98-107
Author(s):  
Jesica Nauli Br. Siringo Ringo ◽  
Wahyu Joko Mursalin ◽  
Nisrina Citra Nurfadilah ◽  
Dwiky Rachmat Ramadhan ◽  
Wa Ode Zuhayeni Madjida

Penambahan kasus COVID-19 yang besar di Indonesia, khususnya Pulau Jawa, membutuhkan berbagai upaya untuk mengendalikannya. Salah satu upaya efektif yang dapat dilakukan adalah tindakan preventif dengan memberi informasi mengenai kondisi suatu wilayah. Sebagai peringatan kepada masyarakat dan sebagai upaya pengambilan kebijakan daerah, Indonesia mengeluarkan zona risiko sampai pada tingkat kabupaten/kota melalui Satgas Penanganan COVID-19. Pembentukan level zona risiko tersebut menggunakan teknik konvensional yaitu pembobotan skor menggunakan informasi dari tiga jenis indikator. Dengan mempertimbangkan bahwa zona risiko merupakan hal yang penting dalam penentuan kebijakan terkait COVID-19, penelitian ini bertujuan untuk membangun model klasifikasi zona risiko kabupaten/kota di Pulau Jawa menggunakan beberapa teknik klasifikasi data mining dan menentukan model klasifikasi terbaik berdasarkan hasil evaluasi. Teknik klasifikasi yang digunakan sebagai perbandingan dalam penelitian ini adalah naive Bayes, decision tree, k-nearest-neighbor, dan neural network. Sebelum dilakukan pemodelan, data disesuaikan terlebih dahulu pada tahap preprocessing di mana pada tahap tersebut teridentifikasi terdapat permasalahan missing value dan imbalanced data. Permasalahan tersebut diatasi dengan imputasi data dan teknik oversampling. Hasil penelitian menunjukkan bahwa model k-nearest-neighbor merupakan model terbaik dibandingkan tiga model lainnya. Hasil tersebut didasarkan pada ukuran evaluasi keempat model di mana model k-NN memiliki nilai acccuracy, nilai rata-rata makro untuk sensitivitas, spesifisitas, dan ukuran F1 paling tinggi dibandingkan model lainnya.


2016 ◽  
Vol 7 (4) ◽  
Author(s):  
Mochammad Yusa ◽  
Ema Utami ◽  
Emha T. Luthfi

Abstract. Readmission is associated with quality measures on patients in hospitals. Different attributes related to diabetic patients such as medication, ethnicity, race, lifestyle, age, and others result in the calculation of quality care that tends to be complicated. Classification techniques of data mining can solve this problem. In this paper, the evaluation on three different classifiers, i.e. Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes with various settingparameter, is developed by using 10-Fold Cross Validation technique. The targets of parameter performance evaluated is based on term of Accuracy, Mean Absolute Error (MAE), dan Kappa Statistic. The selected dataset consists of 47 attributes and 49.735 records. The result shows that k-NN classifier with k=100 has a better performance in term of accuracy and Kappa Statistic, but Naive Bayes outperforms in term of MAE among other classifiers. Keywords: k-NN, naive bayes, diabetes, readmissionAbstrak. Proses Readmisi dikaitkan dengan perhitungan kualitas penanganan pasien di rumah sakit. Perbedaan atribut-atribut yang berhubungan dengan pasien diabetes proses medikasi, etnis, ras, gaya hidup, umur, dan lain-lain, mengakibatkan perhitungan kualitas cenderung rumit. Teknik klasifikasi data mining dapat menjadi solusi dalam perhitungan kualitas ini. Teknik klasifikasi merupakan salah satu teknik data mining yang perkembangannya cukup signifikan. Di dalam penelitian ini, model algoritma klasifikasi Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes dengan berbagai parameter setting akan dievaluasi performanya berdasarkan nilai performa Accuracy, Mean AbsoluteError (MAE), dan Kappa Statistik dengan metode 10-Fold Cross Validation. Dataset yang dievaluasi memiliki 47 atribut dengan 49.735 records. Hasil penelitian menunjukan bahwa performa accuracy, MAE, dan Kappa Statistik terbaik didapatkan dari Model Algoritma Naive Bayes.Kata Kunci: k-NN, naive bayes, diabetes, readmisi


2019 ◽  
Vol 15 (2) ◽  
pp. 267-274
Author(s):  
Tati Mardiana ◽  
Hafiz Syahreva ◽  
Tuslaela Tuslaela

Saat ini usaha waralaba di Indonesia memiliki daya tarik yang relatif tinggi. Namun, para pelaku usaha banyak juga yang mengalami kegagalan. Bagi seseorang yang ingin memulai usaha perlu mempertimbangkan sentimen masyarakat terhadap usaha waralaba. Meskipun demikian, tidak mudah untuk melakukan analisis sentimen karena banyaknya jumlah percakapan di Twitter terkait usaha waralaba dan tidak terstruktur. Tujuan penelitian ini adalah melakukan komparasi akurasi metode Neural Network, K-Nearest Neighbor, Naïve Bayes, Support Vector Machine, dan Decision Tree dalam mengekstraksi atribut pada dokumen atau teks yang berisi komentar untuk mengetahui ekspresi didalamnya dan mengklasifikasikan menjadi komentar positif dan negatif.  Penelitian ini menggunakan data realtime dari  tweets pada Twitter. Selanjutnya mengolah data tersebut dengan terlebih dulu membersihkannya dari noise dengan menggunakan Phyton. Hasil  pengujian  dengan  confusion  matrix  diperoleh  nilai akurasi Neural Network sebesar 83%, K-Nearest Neighbor sebesar 52%, Support Vector Machine  sebesar 83%, dan Decision Tree sebesar 81%. Penelitian ini menunjukkan metode Support Vector Machine  dan Neural Network paling baik untuk mengklasifikasikan komentar positif dan negatif terkait usaha waralaba.  


2018 ◽  
Vol 4 (2) ◽  
pp. 83
Author(s):  
Tutus Praningki ◽  
Indra Budi

Tersedianya data histori rekam medis pasien kanker serviks pada institusi pelayanan kesehatan, tidak disertai dengan proses ekstraksi menjadi sebuah pengetahuan atau informasi. Penggunaan teknik data mining sangat berpotensi untuk diimplementasikan kedalam sistem yang dapat melakukan prediksi penyakit kanker serviks. Pada penelitian ini berfokus pada dataset diagnosa medis pasien yang akan melakukan tes Pap Smear. Algoritma yang digunakan untuk melakukan klasifikasi penyakit kanker serviks adalah Classification And Regression Trees (CART), Naive Bayes, dan k-Nearest Neighbor (k-NN). Pengujian yang dilakukan terhadap algoritma CART Decision Tree, Naive Bayes, dan k-NN, menggunakan formula Confusion Matrix, dengan menggunakan teknik pemecahan dataset Holdout. Hasil pengujian terhadap algoritma yang digunakan, menunjukkan algoritma Naive Bayes memiliki akurasi terbaik sebesar 94,44%, sedangkan tingkat akurasi yang dihasilkan algoritma CART dan k-NN adalah 88,89%, 85,04%. Performa yang didapatkan oleh masing-masing algoritma yang digunakan, memungkinkan penggunaan sistem prediksi penyakit kanker serviks untuk mendukung keputusan klinis pada pasien baru. 


2021 ◽  
Vol 7 (2) ◽  
pp. 117-126
Author(s):  
Nurtriana Hidayati ◽  
Joko Suntoro ◽  
Galet Guntoro Setiaji

Bagian terpenting dalam software quality adalah prediksi cacat software. Prediksi cacat software memanfaatkan pengukuran matriks pengujian software untuk dilakukan klasifikasi yang dapat memperkirakan kualitas modul program, secara umum hasil pengujian software dibagi menjadi dua kelas, yaitu software rentan cacat dan software tidak rentan cacat. Metode machine learning mempunyai kinerja lebih baik untuk menemukan cacat software daripada metode manual. Algoritme klasifikasi dalam machine learning yang pernah digunakan untuk prediksi cacat software antara lain k-Nearest Neighbor (k-NN), Naïve Bayes (NB) dan Decision Tree (CART). Dalam penelitian ini akan dibandingkan kinerja antara algoritme-algoritme klasifikiasi yaitu k-NN, NB, dan CART untuk prediksi cacat software. Software Matrix yang digunakan pada penelitian ini adalah tujuh dataset dari NASA MDP. Hasil penelitian menunjukkan bahwa nilai rata-rata akurasi algoritme CART lebih baik daripada algoritme k-NN dan NB dengan nilai 0,867. Sedangkan nilai rata-rata akurasi algoritme k-NN dan NB masing-masing 0,859 dan 0,778.


Author(s):  
M. Khairul Anam ◽  
Bunga Nanti Pikir ◽  
Muhammad Bambang Firdaus

Pemerintah Pekanbaru saat ini sudah menerapkan teknologi dalam sistem pemerintahan, penerapannya saat ini masih mendapat keluhan dari masyarakat seperti layanan publik command center yang hanya sebagian masyarakat mengetahuinya dan penerapan cctv yang ada di Alat Pemberi Isyarat Lalu Lintas (APILL) yang belum berfungsi dengan baik. Penerapan teknologi lainnya oleh Pemerintah Pekanbaru dapat kita lihat dari keberadaan portal-portal web situs resmi Pemerintah. Sedangkan untuk melihat beragam komentar netizen dari twitter. Twitter menjadi tempat untuk mendapatkan data yang diungkapkan masyarakat melalui tweets yang diposting ke timeline. Analisa sentimen dilakukan untuk melihat pendapat atau kecenderungan opini netizen terhadap pemerintah Pekanbaru yang mengandung sentimen positif, negatif, dan netral. Data yang digunakan adalah tweet dengan jumlah dataset sebanyak 150 tweets. Data tersebut kemudian di analisa agar menjadi informasi. Analisa dilakukan menggunakan metode data mining yaitu Naïve Bayes Classifier, K-Nearest Neighbor (KNN), dan Decision tree. Penggunaan ketiga pendekatan ini berupaya untuk mengkategorikan hasil komentar netizen terkait penggunaan teknologi yang telah melalui proses analisis sentimen dan membandingkan keakuratan ketiga cara tersebut. Hasil akurasi yang didapatkan cukup beragam yaitu dari metode Naïve Bayes akurasi 100%, metode KKN akurasi 98,25%, dan metode decision tree akurasi 62,28%.


Author(s):  
Nana Suryana ◽  
Pratiwi Pratiwi ◽  
Rizki Tri Prasetio

Industri telekomunikasi menghadapi persaingan yang ketat antara penyedia layanan (service provider). Persaingan ini mengakibatkan customer churn atau berpindahnya pelanggan dari satu layanan ke layanan lain. Customer churn menjadi masalah utama karena dapat mempengaruhi pendapatan perusahaan, profitabilitas, serta kelangsungan hidup perusahaan. Oleh karena itu, mengetahui pelanggan yang akan melakukan churn secara dini menjadi salah satu cara yang cukup efektif dilakukan, karena dapat membantu perusahaan dalam membuat rencana yang efektif untuk tetap mempertahankan pelanggannya. Jumlah pelanggan yang mengundurkan diri dari layanannya saat ini biasanya dimiliki perusahaan dalam jumlah yang sedikit. Kondisi kekurangan data ini menyebabkan kesulitan dalam memprediksi customer churn. Tujuan umum dari penelitian ini adalah memprediksi pelanggan yang akan berpindah ke layanan lain atau mengundurkan diri dari layanannya saat ini. Sementara tujuan khusus penelitian Penelitian ini berusaha menangani ketidakseimbangan data dalam prediksi customer churn menggunakan optimasi pada level data melalui metode sampling yaitu Synthetic Minority Over Sampling. Kemudian dikombinasikan dengan optimasi level algoritma melalui pendekatan teknik Boosting. Pada penelitian beberapa algoritma prediksi seperti random forest, naïve bayes, decision tree, k-nearest neighbor dan deep learning yang akan diimplementasikan untuk mengetahui algoritma yang paling baik setelah dilakukan optimasi menggunakan SMOTE dan Boosting. Metode penelitian yang digunakan pada penelitian ini adalah CRISP-DM, yang merupakan kerangka penelitian data mining untuk penelitian lintas industri. Hasil penelitian ini menunjukan bahwa algoritma random forest merupakan algoritma yang menghasilkan akurasi paling optimal setelah dioptimasi menggunakan SMOTE dan Boosting dengan hasil akurasi 89,19%. The telecommunications industry faces stiff competition between service providers. This competition results in customer churn. Customer churn is a major problem because it can affect company revenue, profitability, survival, and service quality of the company. Therefore, knowing which customers will churn in the future early is one of the most effective ways to do it, because it can help companies make an effective plan to keep their customers. The number of customers who withdrew from its current services is usually owned by a small number. This lack of data causes difficulties in predicting customer churn. This problem then becomes a challenging issue in machine learning. The general purpose of this research is to predict customers who will churn. While the specific purpose of this research is to try to deal with data imbalances in predicting customer churn using optimization at the data level through the sampling method, namely Synthetic Minority Over Sampling (SMOTE). Then combined with algorithm level optimization through the Boosting technique approach. In this study, several prediction algorithms like the random forest, naïve Bayes, decision tree, k-nearest neighbor, and deep learning will be implemented to find out the best algorithm after optimization using SMOTE and Boosting. The method used in this study is CRISP-DM, which is a data mining research framework for cross-industry research. The results of this study indicate that the random forest algorithm is an algorithm that produces the most optimal accuracy after being optimized using SMOTE and Boosting with an accuracy of 89.19%.


2020 ◽  
Vol 5 (2) ◽  
pp. 265-270 ◽  
Author(s):  
Agus Budiyantara ◽  
Irwansyah Irwansyah ◽  
Egi Prengki ◽  
Pandi Ahmad Pratama ◽  
Ninuk Wiliani

Private Universities (PTS) compete so tight in providing performance in producing quality graduates. In addition, the number of universities in Indonesia which counts a lot both PTN and PTS makes the higher competition between universities as well. So the university strives to improve quality and provide the best education for service recipients, namely students, where one of the problems if there are some students who are late graduating or not on time so that it becomes an obstacle to the progress of the college. Prediction of students graduating on time is needed by university management in determining preventive policies related to early prevention of Drop Out (DO) cases. This prediction aims to determine the academic factors that influence the period of study and build the best prediction model with Data Mining techniques. There are 11 attributes used for Data Mining Classification, namely NPM, Gender, Age, Department, Class, Occupation, Semester 1 Achievement Index, Semester 2 Achievement Index, Semester 3 Achievement Index, Semester 4 Achievement Index and Information as result attributes. From the results of evaluations and validations that have been carried out using the RapidMiner tools the accuracy of the Decision Tree (C4.5) method is 98.04% in the 3rd test. The accuracy of the Naïve Bayes Method is 96.00% in the 4th test. And the accuracy of the K-Nearest Neighbor Method (K-NN) of 90.00% in the second test.


2021 ◽  
Vol 2 (7) ◽  
pp. 970-1007
Author(s):  
Muhammad Rizki Fahdia ◽  
Dwiza Riana ◽  
Fachri Amsury ◽  
Irwansyah Saputra ◽  
Nanang Ruhyana

Politeknik Tri Mitra Karya Mandiri adalah salah satu perguruan tinggi vokasi yang berada di wilayah Cikampek Kabupaten Karawang yang pada tahun akademik 2017/2018 mempunyai jumlah mahasiswa mencapai 987 orang mahasiswa.Namun sayangnya dari total jumlah mahasiswa tidak seluruhnya mempunyai orientasi minat yang sesungguhnya untuk kuliah, banyak factor yang mempengaruhinya. Tinginya tingkat orientasi minat mahasiswa yang tidak memilih kuliah, inilah yang membuat diadakan penelitian tentang sebab-sebab mengapa mahasiswa berkuliah dikampus ini serta mecari solusi guna mengurangi jumlah mahasiswa yang menjadi non aktif ketika diketahui mempunyai orientasi minat yang bukan untuk kuliah. Dengan melakukan komparasi menggunakan 3 algoritma yang termasuk dalam metode klasifikasi data mining yaitu; Decision Tree C4.5, Naïve Bayes dan K-Nearest Neighbor penelitian ini mencari nilai akurasi dan Area Under Curve (AUC) yang terbaik dari ketiga algoritma yang dikomparasi guna ditentukan model yang digunakan pada penentuan orientasi minat mahasiswa. Hasil dari komparasi yang dilakukan dalam penelitian ini adalah; algoritma Decision Tree C4.5 mempunyai nilai akurasi sebesar 91,75% dan AUC sebesar 0,969, Naïve Bayes mempunyai nilai akurasi sebesar 86,77% dan AUC sebesar 0,930 sedangngkan K-Nearest Neighbor mempunyai nilai akurasi sebesar 88,61% dan AUC sebesar 0,500. Melalui uji beda yang dilakukan menggunakan operator T-test pada Rapid Miner ditemukan hasil bahwa algoritma Decision Tree C4.5 merupakan algoritma terbaik dari 3 buah algoritma yang digunakan, maka dalam penelitian ini digunakan rule Decision Tree C4.5 untuk diterapkan pada deployment yang dilakukan.


2019 ◽  
Vol 7 (1) ◽  
pp. 37-42
Author(s):  
Miftah Farid Adiwisastra

Program Keluarga Berencana (KB) adalah salahsatu program pemerintah yang sekarang ini banyak sekali digunakan untuk wanita untuk berbagai kebutuhannya. Badan Pengolahan Statistik (BPS) membuat suatu data persentase untuk wanita yang sudah menikah dan sedang menggunakan alat KB setiap tahunnya (Upated terakhir: 21 Februari 2018). Penelitian ini bertujuan untuk mendapatkan model algoritma yang baik untuk penerapan persentasenya berdasarkan keterangan bahwa setiap tahun dapat mengalami peningkatan/penurunan. Metode data mining yang digunakan adalah klasifikasi, terdiri dari 5 model algoritma yaitu Decision Tree (C4.5), k-Nearest Neighbor (k-NN), Logistis Regression, Naïve Bayes, dan Gradient Boosted Tree, setelah dilakukan uji hasil maka didapat bahwa dari komparasi kelima algoritma tersebut yang menunjukan baik dan akurasinya lebih besar adalah model algoritma C45 dengan nilai accuracy 87.50%.  


Sign in / Sign up

Export Citation Format

Share Document