scholarly journals Model Data Mining untuk Perancangan Aplikasi Diagnostik Inflammatory Liver Disease

Author(s):  
Rahma Aulia Siahaan ◽  
Marnis Nasution ◽  
Mila Nirmala Sari Hasibuan

Hati merupakan organ vital bagi manusia. Penyakit hati adalah gangguan pada setiap fungsi hati.Diagnosis dini penyakit hati sangat penting agar dapat diobati dan diobati dengan cepat. Di bidang medis, mendiagnosis penyakit radang hati menjadi hal yang agak sulit dilakukan. Namun, ada catatan medis yang menyimpan gejala pasien. Hal ini tentunya sangat menguntungkan bagi tenaga medis atau dokter. Mereka dapat menggunakan catatan medis sebelumnya sebagai bahan untuk membuat keputusan tentang diagnosis penyakit pasien. Teknik analisis manual konvensional yang selama ini digunakan sudah tidak efektif lagi untuk diagnosis. Seiring dengan perkembangan sistem berbasis pengetahuan medis, tuntutan penggunaan sistem pengetahuan berbasis komputer sebagai teknik analisis dalam mendiagnosis penyakit menjadi semakin penting. Dalam studi ini, peneliti akan menerapkan dan membandingkan beberapa metode klasifikasi data mining, antara lain algoritma C4.5, Naïve Bayes, dan k-Nearest Neighbor untuk mendiagnosis penyakit radang hati, kemudian membandingkan mana dari ketiga metode tersebut yang paling akurat. Berdasarkan hasil pengukuran performansi ketiga model menggunakan metode Cross Validation, Confusion Matrix dan ROC Curve, diketahui bahwa metode C4.5 merupakan metode terbaik dengan akurasi 70,99% dan under the curva (AUC). ) nilai 0,950, kemudian metode k-Nearest Neighbor dengan akurasi 67,19% dan nilai under the curve (AUC) 0,873, kemudian metode nave Bayes dengan tingkat akurasi 66,14% dan nilai under the curve (AUC) sebesar 0,742. kemudian bandingkan mana dari ketiga metode tersebut yang paling akurat. Berdasarkan hasil pengukuran performansi ketiga model menggunakan metode Cross Validation, Confusion Matrix dan ROC Curve, diketahui bahwa metode C4.5 merupakan metode terbaik dengan akurasi 70,99% dan under the curva (AUC). ) nilai 0,950, kemudian metode k-Nearest Neighbor dengan akurasi 67,19% dan nilai under the curve (AUC) 0,873, kemudian metode nave Bayes dengan tingkat akurasi 66,14% dan nilai under the curve (AUC) sebesar 0,742. kemudian bandingkan mana dari ketiga metode tersebut yang paling akurat. Berdasarkan hasil pengukuran performansi ketiga model menggunakan metode Cross Validation, Confusion Matrix dan ROC Curve, diketahui bahwa metode C4.5 merupakan metode terbaik dengan akurasi 70,99% dan under the curva (AUC). ) nilai 0,950, kemudian metode k-Nearest Neighbor dengan akurasi 67,19% dan nilai under the curve (AUC) 0,873, kemudian metode nave Bayes dengan tingkat akurasi 66,14% dan nilai under the curve (AUC) sebesar 0,742.

2021 ◽  
Vol 3 (1) ◽  
pp. 6-14
Author(s):  
Endang Etriyanti

Kualitas lulusan dari sebuah Perguruan Tinggi salah satunya dapat dilihat dari lama studi mahasiswa. Selain itu lama studi mahasiswa menggambarkan tingkat capaian mahasiswa dalam pendidikannya. Lama studi juga sangat berpengaruh pada kualitas program studi karena lama studi mahasiswa merupakan salah satu kriteria penilaian akreditasi. Seringkali masalah yang dihadapi oleh suatu Perguruan Tinggi adalah banyaknya mahasiswa yang menyelesaikan pendidikannya lebih dari jangka waktu yang ditetapkan. STMIK Bina Nusantara Jaya Lubuklinggau juga mengalami hal tersebut. Untuk mengantisipasi hal tersebut perlu adanya prediksi lama studi mahasiswa karena lama studi mahasiswa menjadi salah satu hal yang penting yang perlu diperhatikan bagian program studi dalam suatu Perguruan Tinggi. Penelitian ini berkontribusi secara teoretis dalam implementasi data mining untuk memprediksi lama studi mahasiswa.Penelitian ini menerapkan preprocessing data untuk memperoleh data dengan kualitas baik sebelum dilakukan proses mining menggunakan metode K-Nearest Neighbor dan Decision Tree pada Tools RapidMiner, kedua metode divalidasi menggunakan K-Fold Cross Validation (dengan 10 kali iterasi/pengulangan) dan Confusion Matrix digunakan untuk memvalidasi nilai akurasi hasil prediksi. Nilai akurasi yang paling tinggi dari hasil penerapan kedua metode akan direkomendasikan untuk menyelesaikan masalah prediksi lama studi mahasiswa. Dari hasil penelitian diperoleh nilai akurasi metode Decision Tree (60,38%) lebih baik jika dibandingkan dengan nilai akurasi metode K-Nearest Neighbor (53,08%).


2016 ◽  
Vol 7 (4) ◽  
Author(s):  
Mochammad Yusa ◽  
Ema Utami ◽  
Emha T. Luthfi

Abstract. Readmission is associated with quality measures on patients in hospitals. Different attributes related to diabetic patients such as medication, ethnicity, race, lifestyle, age, and others result in the calculation of quality care that tends to be complicated. Classification techniques of data mining can solve this problem. In this paper, the evaluation on three different classifiers, i.e. Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes with various settingparameter, is developed by using 10-Fold Cross Validation technique. The targets of parameter performance evaluated is based on term of Accuracy, Mean Absolute Error (MAE), dan Kappa Statistic. The selected dataset consists of 47 attributes and 49.735 records. The result shows that k-NN classifier with k=100 has a better performance in term of accuracy and Kappa Statistic, but Naive Bayes outperforms in term of MAE among other classifiers. Keywords: k-NN, naive bayes, diabetes, readmissionAbstrak. Proses Readmisi dikaitkan dengan perhitungan kualitas penanganan pasien di rumah sakit. Perbedaan atribut-atribut yang berhubungan dengan pasien diabetes proses medikasi, etnis, ras, gaya hidup, umur, dan lain-lain, mengakibatkan perhitungan kualitas cenderung rumit. Teknik klasifikasi data mining dapat menjadi solusi dalam perhitungan kualitas ini. Teknik klasifikasi merupakan salah satu teknik data mining yang perkembangannya cukup signifikan. Di dalam penelitian ini, model algoritma klasifikasi Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes dengan berbagai parameter setting akan dievaluasi performanya berdasarkan nilai performa Accuracy, Mean AbsoluteError (MAE), dan Kappa Statistik dengan metode 10-Fold Cross Validation. Dataset yang dievaluasi memiliki 47 atribut dengan 49.735 records. Hasil penelitian menunjukan bahwa performa accuracy, MAE, dan Kappa Statistik terbaik didapatkan dari Model Algoritma Naive Bayes.Kata Kunci: k-NN, naive bayes, diabetes, readmisi


2019 ◽  
Vol 3 (1) ◽  
pp. 54-62
Author(s):  
Razi Aziz Syahputro ◽  
Widodo ◽  
Hamidillah Ajie

Penelitian ini dilatarbelakangi dengan dibutuhkannya sistem pengklasifikasian untuk memudahkan pihak Jurusan Teknik Elektro khususnya Program Studi PTIK untuk mengklasifikasikan judul skripsi berdasarkan peminatan. Sebelum sistem dibuat diperlukan pertimbangan dari beberapa algoritma klasifikasi yang ada, maka dari itu penelitian ini memilih 3 algoritma dari 10 algoritma terbaik menurut ICDM tahun 2006. Klasifikasi terhadap dokumen teks pendek seperti judul skripsi mahasiswa memiliki kesulitan tersendiri daripada dokumen teks panjang karena semakin sedikit kata semakin sulit diklasifikasi. Sehingga tujuan dari penelitian ini adalah untuk mengetahui algoritma yang paling efektif untuk mengklasifikasi judul skripsi. Penelitian ini terdiri dari beberapa tahap yaitu pengumpulan data, pengelompokan data melalui angket oleh dosen ahli, pre-processing text, pembobotan kata menggunakan vector space model dan tf-idf, evaluasi dengan k-fold cross validation, klasifikasi menggunakan k-nearest neighbor, naïve bayes classifier, dan support vector machine, dan analisis dengan confusion matrix. Percobaan dilakukan dengan menggunakan 266 data judul skripsi mahasiswa PTIK UNJ dari angkatan 2010-2013, dengan data terakhir berasal dari sidang skripsi pada semester 105(semester ganjil 2016/2017). Hasil dari klasifikasi menggunakan algoritma tersebut didapatkan algoritma yang paling efisien yaitu support vector machine dengan akurasi 82% dari 10 kali percobaan.


2018 ◽  
Vol 4 (2) ◽  
pp. 83
Author(s):  
Tutus Praningki ◽  
Indra Budi

Tersedianya data histori rekam medis pasien kanker serviks pada institusi pelayanan kesehatan, tidak disertai dengan proses ekstraksi menjadi sebuah pengetahuan atau informasi. Penggunaan teknik data mining sangat berpotensi untuk diimplementasikan kedalam sistem yang dapat melakukan prediksi penyakit kanker serviks. Pada penelitian ini berfokus pada dataset diagnosa medis pasien yang akan melakukan tes Pap Smear. Algoritma yang digunakan untuk melakukan klasifikasi penyakit kanker serviks adalah Classification And Regression Trees (CART), Naive Bayes, dan k-Nearest Neighbor (k-NN). Pengujian yang dilakukan terhadap algoritma CART Decision Tree, Naive Bayes, dan k-NN, menggunakan formula Confusion Matrix, dengan menggunakan teknik pemecahan dataset Holdout. Hasil pengujian terhadap algoritma yang digunakan, menunjukkan algoritma Naive Bayes memiliki akurasi terbaik sebesar 94,44%, sedangkan tingkat akurasi yang dihasilkan algoritma CART dan k-NN adalah 88,89%, 85,04%. Performa yang didapatkan oleh masing-masing algoritma yang digunakan, memungkinkan penggunaan sistem prediksi penyakit kanker serviks untuk mendukung keputusan klinis pada pasien baru. 


Author(s):  
Sumarlin Sumarlin ◽  
Dewi Anggraini

Data on graduate students is an important part in determining the quality of a private and public university. Graduate data is included in important assessments in the accreditation process. Data from Uyelindo Kupang STIKOM graduates every year will continue to grow and accumulate like neglected data because it is rarely used. To maximize student data into information that can be used by universities, the data must be processed in this case used as training data in a study using data mining to obtain information in the form of predictions of graduation from Kupang Uyelindo STIKOM students. The method used in this study is K-Nearest Neighbor using rapidminer software to measure K-Nearest Neighbor's accuracy against student graduate data. The criteria used were in the form of student names, gender, cumulative achievement index (GPA) from semester 1 to 6. In applying the K-Nearest Neighbor algorithm can be used to produce predictions of student graduation. To measure the performance of the k-nearest neighbor algorithm, the Cross Validation, Confusion Matrix and ROC Curves methods are used, in this study using a 5-fold cross validation to predict student graduation. From 100 student dataset records Uyelindo Kupang STIKOM graduates obtained accuracy rate reached 82% and included a very good classification because it has an AUC value between 0.90-1.00, which is 0.971, so it can be concluded that the accuracy of testing of student graduation models using K-Nearest Neighbor (K-NN) algorithm is influenced by the number of data clusters. Accuracy and the highest AUC value of 5-fold validation is to cluster data k = 4 with the accuracy value of 90%.


2021 ◽  
Vol 26 (1) ◽  
pp. 65-77
Author(s):  
Muhammad Azis Suprayogi

Laras Online adalah fasilitas pada Pemkab Bogor yang diperuntukkan bagi masyarakat terutama warga Kabupaten Bogor sebagai wadah aspirasi dan pengaduan. Seiring dengan jumlah pengaduan yang masuk sangat banyak sehingga mengakibatkan waktu yang lebih lama yang digunakan oleh petugas admin dalam memilah kemudian menentukan unit tujuan pengaduan. Penelitian ini bertujuan untuk membandingkan performansi klasifikasi dokumen pengaduan pada situs Laras Online menggunakan algoritma K-Nearest Neighbor (KNN) dan Naïve Bayes Classifier (NBC). Penelitian dilakukan dengan cara mengumpulkan dokumen pengaduan, melakukan preprocessing, pembobotan kata, klasifikasi, dan pengujian. Pengujian menggunakan cross validation dengan parameter k-fold=10 dan confusion matrix berdasarkan nilai accuracy, precission, recall, dan score-f1. Hasil pengujian terhadap 360 dataset menunjukkan bahwa algoritma NBC lebih baik dari algoritma KNN dengan nilai k=3, k=5, k=7, dan k=9 untuk mengklasifikasikan dokumen pengaduan ke dalam 6 kategori. Hasil klasifikasi menggunakan algoritma NBC memberikan nilai accuracy sebesar 79,16% dengan nilai precission tertinggi pada 2 kategori yaitu Dinsos 91,30% dan SatpolPP 66,80%, nilai recall tertinggi pada 4 kategori yaitu Disdukcapil 89,90%, Dislinghidup 88,40%, Dispupr 93,20%, dan Dishub 76,50%, serta nilai score-f1 tertinggi pada 4 kategori yaitu Disdukcapil sebesar 82,10%, Dislinghidup 82,90%, Dinsos 88,90%, dan Dishub 81,20%.


SinkrOn ◽  
2020 ◽  
Vol 5 (1) ◽  
pp. 51
Author(s):  
Omar Pahlevi ◽  
Amrin Amrin

Hepatitis is an infectious disease that is a public health problem that affects morbidity, mortality, public health status, life expectancy, and other socio-economic impacts. Early diagnosis of hepatitis is very important so that it can be treated and treated quickly. In this study, the authors will apply and compare several data mining classification methods, including the C4.5 algorithm, Naïve Bayes, and k-Nearest Neighbor to diagnose hepatitis, then compare which of the three methods is the most accurate. Based on the results of measuring the performance of the three models using the Cross Validation, Confusion Matrix and ROC Curve methods, it is known that the C4.5 method is the best method with an accuracy of 70.99% and an under the curva (AUC) value of 0.950, then the k-Nearest Neighbor method with accuracy of 67.19% and the value under the curve (AUC) 0.873, then the naïve Bayes method with an accuracy rate of 66.14% and a value under the curve (AUC) of 0.742.    


2018 ◽  
Vol 4 (2) ◽  
pp. 84
Author(s):  
Achmad Shoddiq Bayu Asmoro ◽  
Wahyu Sakti Gunawan Irianto ◽  
Utomo Pujianto

Sistem manajemen E-learning merupakan bentuk kemajuan teknologi dalam bidang pendidikan dan telah banyak menghasilkan kumpulan data-data pendidikan yang salah satunya adalah data aktivitas pembelajaran siswa dalam sistem manajemen E-learning. Banyaknya data pendidikan yang belum tereksplorasi dengan baik dapat di manfaatkan dengan menggunakan teknik data mining. Pada penelitian ini akan dilakukan perbandingan 3 model data berbeda yaitu data awal tanpa preprocessing dan data yang di preprocessing menggunakan seleksi fitur correlation-based feature selection dan Information Gain. Data yang digunakan adalah data aktivitas pembelajaran siswa dalam sistem manajemen E-learning. Selanjutnya proses pengujian data dengan menggunakan 10 folds cross validation dengan metode C4.5 dan evaluasi data menggunakan confusion matrix. Hasil dari pengujian data menggunakan algoritma C4.5 yang dikombinasikan dengan seleksi fitur correlation-based feature selection menghasilkan nilai akurasi yang lebih tinggi dengan nilai akurasi sebesar 76.92%. Sementara itu hasil dari pengujian data awal tanpa selesksi fitur dan data yang di seleksi fitur menggunakan information gain memiliki nilai akrasi yang sama dengan nilai akurasi sebesar 76.19%. Hal ini dikarenakan data yang diproses menggunakan algoritma C4.5 tanpa preprocessing dan data yang telah di preprocessing menggunakan information gain sama-sama menghitung nilai gain untuk membuat model pohon keputusan, dan menghasilkan model pohon keputusan yang sama. Sehingga hasil dari proses pengujian data memiliki nilai akurasi yang sama.


2020 ◽  
Vol 6 (1) ◽  
pp. 101
Author(s):  
Tursina Tursina ◽  
Hafiz Muhardi ◽  
Dian Aulia Sari

Narkoba merupakan bahan yang sangat bermanfaat untuk pengobatan, namun jika disalahgunakan akan memberikan dampak buruk yang luar biasa seperti gangguan kesehatan, gangguan kejiwaan hingga kematian. Seorang pengguna narkoba cenderung tertutup dan tidak ingin berkonsultasi langsung ke dokter maupun rehabilitasi dikarenakan pengguna malu dengan kondisinya, biaya yang relatif mahal, jarak dan waktu yang ditempuh, takut dilaporkan dan tanggapan negatif dari masyarakat. Tujuan dilakukannya penelitian ini adalah untuk membantu seorang pengguna narkoba ataupun bagi seseorang yang dicurigai sebagai pengguna narkoba dalam mendiagnosis tahapan pengguna narkoba dan memberikan solusi serta saran terhadap pengguna narkoba tersebut. Case based reasoning merupakan penalaran yang digunakan untuk menyelesaikan kasus baru dengan cara mengadaptasi solusi yang terdapat pada kasus-kasus sebelumnya, yang mempunyai permasalahan yang mirip dengan kasus baru. Pada tahapan retrieve, terjadi proses menghitung similaritas antara kasus baru dan kasus lama. Perhitungan similaritas kasus pada penelitian ini menggunakan metode k-nearest neighbor. Pengujian hasil akhir sistem menggunakan pengujian tahapan CBR dan pengujian kinerja metode k-nearest neighbor. Hasil pengujian mengukur kinerja dari metode k-nearest neighbor dengan nilai k=7, tingkat akurasi untuk 10-fold cross validation sebesar 98,333%, confusion matrix sebesar 100% dan termasuk excellent classification karena memiliki nilai AUC 1,000.


Author(s):  
Noviyanti Sagala ◽  
Hendrik Tampubolon

Data mining melakukan proses ekstraksi pengetahuan yang diperoleh dari sekumpulan data dalam jumlah besar. Penelitian ini bertujuan untuk menerapkan dan melakukan analisis kinerja algoritma data mining untuk memprediksi konsumsi alkohol dan menganalisis faktor-faktor yang terkait pada siswa tingkat menengah. Adapun tahapan yang dilakukan ialah pra-proses data, seleksi fitur, klasifikasi, dan evaluasi model. Pada tahap praproses, beberapa fitur diubah menjadi bentuk yang sesuai untuk memudahkan proses klasifikasi. Selanjutnya, algoritma Gain Ratio dan Feature Correlation-Based Filter (FCBF) digunakan untuk memilih fitur-fitur yang relevan dan penting untuk digunakan dalam tahapan klasifikasi. Decision Tree C5.0, Support Vector Machine (SVM), K-Nearest Neighbor (KNN), dan Naive Bayes (NB) dieksekusi pada kelompok fitur yang terpilih. Akurasi model yang dibangun dievaluasi menggunakan 10-fold Cross-Validation (CV). Hasil penelitian menunjukkan bahwa model klasifikasi yang dibangun menggunakan Naïve Bayes memiliki nilai akurasi tertinggi dengan menggunakan 5 fitur terbaik dari Gain Ratio. Selain itu, penggunaan metode pemilihan fitur mampu meningkatkan performa dari seluruh klasifier secara umum. Pengujian lebih lanjut pada data yang sama maupun berbeda perlu dilakukan untuk mendapatkan gambaran lebih mendalam mengenai kinerja algoritma-algoritma yang digunakan.


Sign in / Sign up

Export Citation Format

Share Document