scholarly journals Perbandingan Metode Naïve Bayes Dan Support Vector Machine Dalam Klasifikasi Penyakit Diabetes Melitus

Author(s):  
Hilda Apriyani ◽  
Kurniati Kurniati

Diabetes melitus merupakan penyakit kronis yang terjadi akibat kadar glukosa didalam darah yang terlalu tinggi sehingga tidak adanya insulin. Dalam kurun waktu data di Rumah Sakit Islam Siti Khadijah Palembang yang dipengaruhi oleh jumlah dari pasien yang melakukan pemeriksaan kesehatan seperti penyakit diabetes melitus sehingga berpengaruh dalam hal klasifikasi data yang akan menyulitkan pihak rumah sakit. Maka dengan memanfaatkan data mining, pengklasifikasian untuk menentukan pasien yang telah melakukan pemeriksaan termasuk penderita penyakit diabetes atau tidak. Dengan adanya permasalahan tersebut maka penulis melakukan analisis perbandingan dari dua algoritma yaitu algoritma naïve bayes dan algoritma support vector machine untuk klasifikasi penyakit diabetes dengan menggunakan alat bantu WEKA dengan tools options Cross Validation dan Confussion Matrix dengan hasil akurasi tertinggi yaitu algoritma support vector machine dengan kernel polynomial yang hasilnya 96.2704% dan tingkat error sebanyak 3.7296% dapat disimpulkan algoritma yang akurat dalam klasifikasi penyakit diabetes yaitu algoritma support vector machine dengan kernel polynomial.

2021 ◽  
Vol 11 (2) ◽  
pp. 626-636
Author(s):  
Tanthy Tawaqalia Widowati ◽  
Mujiono Sadikin

Salah satu media sosial yang berkembang adalah Twitter. Media sosial Twitter mempermudah masyarakat untuk bebas berpendapat melalui cuitan atau biasa disebut dengan tweets. Netizen dengan bebas menyampaikan opini pribadinya untuk topik apapun, termasuk persepsi terhadap tokoh publik. Artikel ini menyajikan hasil penelitian dan analisis sentimen masyarakat (netizen) terhadap tokoh publik, Nadiem Makariem sebagai Menteri Kementerian Pendidikan dan Kebudayaan baru. Penelitian ini menggunakan teknik data mining yang bertujuan untuk membandingkan hasil klasifikasi dari opini masyarakat yang dituliskan di Twitter. Dataset yang digunakan berasal dari tweets dengan kata kunci ”nadiem makariem”, ”kemendikbud” dan ”pak nadiem”. Tools RapidMiner digunakan untuk membantu tahap pre-processing dan klasifikasi menggunakan dua metode yaitu, Naive Bayes dan Support Vector Machine dengan evaluasi k-fold cross-validation. Dari hasil ujicoba diketahui bahwa untuk kasus yang diteliti, metode Naive Bayes menghasilkan kinerja yang lebih baik dengan accuracy 91.48%,  precision 89.28%  dan recall 91.58%.


2019 ◽  
Vol 2 (2) ◽  
Author(s):  
Umbar Riyanto

PT. Linktone Indonesia merupakan salah satu perusahaan yang bergerak dalam bidang portal berita online. Semakin banyaknya portal berita online di Indonesia, para penulis yang ada di PT. Linktone Indonesia harus dapat bersaing, agar artikel yang mereka publish mendapatkan jumlah pembaca yang maksimal. Jumlah pembaca pada sebuah artikel tidaklah menentu, dan sulit untuk diprediksi. Banyaknya jumlah artikel yang dimiliki, maka dapat dilakukan penelitian data mining untuk mengklasifikasi jumlah pembaca artikel. Terdapat beberapa algoritma dalam teknik klasifikasi, akan tetapi tidak semua algoritma memiliki kinerja dan tingkat keakuratan yang baik dalam mengklasifikasi jumlah pembaca artikel. Penelitian ini membandingkan dua algoritma klasifikasi antara Naive Bayes,  Support Vector Machine dan Bagging pada tiap algoritma. Peneliti membagi menjadi 5 dataset dan menggunakan tools WEKA dengan tools options K-Folds Cross Validation dan Confussion Matrix. Hasil penelitian ini, dengan jumlah dataset 7111 record. Bagging kurang memperbaiki hasil klasifikasi dengan jumlah dataset yang besar dan memerlukan waktu pembuatan model yang sangat lama dengan klasifikasi Support Vector Machine. Sementara itu Naive Bayes dalam segi waktu pembuatan model mendapatkan waktu yang paling cepat.


2018 ◽  
Vol 2 (2) ◽  
pp. 108-115
Author(s):  
Fakhriyani ◽  
Widodo ◽  
Bambang Prasetya Adhi

Beasiswa merupakan salah satu program untuk membantu meringankan mahasiswa dalam membayar uang kuliah, namun sering terjadi kesalahan dalam pemberian beasiswa tersebut karena masih dilakukan secara manual dan tidak adanya kriteria yang jelas bagaimana seorang mahasiswa dapat memperoleh beasiswa. Untuk mengantisipasi agar tidak terjadinya kesalahan dalam pemberian beasiswa maka dibutuhkan sebuah Sistem Pendukung Keputusan, namun sebelum dilakukan pembuatan sistem tersebut dirasa perlu untuk mengetahui algoritma terbaik untuk menyeleksi berkas beasiswa tersebut. Penelitian ini menggunakan duaalgoritma Data Mining yaitu algoritma Naïve Bayes dan Support Vector Machine. Naïve Bayes merupakan metode pengklasifikasian yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class berdasarkan pengalaman di masa sebelumnya dengan kondisi antar atribut saling bebas. Support Vector Machine adalah sebuah metode prediksi dalam klasifikasi yang dapat dilakukan pada kasus yang secara linier dapat dipisahkan, maupun non-linier dengan menggunakan konsep kernel pada ruang kerja berdimensi tinggi.Data mahasiswa yang lulus dan tidak lulus seleksi berkas beasiswa BPP-PPA akan diolah menggunakan algoritma Naïve Bayes dan Support Vector Machine. Setelah diklasifikasi kedua algoritma tersebut akan dihitung hasil akurasinya menggunakan K-fold Cross Validation. Berdasarkan hasil contoh kasus seleksi menunjukan bahwa hasil perhitungan akurasi algoritma Naïve Bayes adalah 0.7542, sedangkan hasil akurasi algoritma Support Vector Machine adalah 0.99. Kedua sistem telah mampu menangani proses penyeleksiankelulusan pemberkasan beasiswa BPP-PPA Fakultas Teknik Universitas Negeri Jakarta. Algoritma Support Vector Machine menghasilkan rata-rata akurasi 0.99 yang mendekati 1, maka algoritma tersebut dinilai lebih akurat dan direkomendasikan untuk penelitian selanjutnya.


2019 ◽  
Vol 15 (2) ◽  
pp. 275-280
Author(s):  
Agus Setiyono ◽  
Hilman F Pardede

It is now common for a cellphone to receive spam messages. Great number of received messages making it difficult for human to classify those messages to Spam or no Spam.  One way to overcome this problem is to use Data Mining for automatic classifications. In this paper, we investigate various data mining techniques, named Support Vector Machine, Multinomial Naïve Bayes and Decision Tree for automatic spam detection. Our experimental results show that Support Vector Machine algorithm is the best algorithm over three evaluated algorithms. Support Vector Machine achieves 98.33%, while Multinomial Naïve Bayes achieves 98.13% and Decision Tree is at 97.10 % accuracy.


JURTEKSI ◽  
2021 ◽  
Vol 8 (1) ◽  
pp. 11-18
Author(s):  
Chika Enggar Puspita ◽  
Oktariani Nurul Pratiwi ◽  
Edi Sutoyo

Abstract: Question classification is a computer science system, which aims to analyze questions and can label each question based on existing categories. Questions can be collected from several materials or topics that are many and different. Therefore, the researcher intends to create a classification system for quiz questions Data Warehouse and Business Intelligence which can be grouped into topics Data Warehouse, Business Intelligence, Data Analytics, and Performance Measurement. One way to solve this problem is by approach machine learning. In this study, researchers used a comparison of machine learning algorithms, namely the algorithm NaïveBayes and SupportVectorMachine using SMOTE and methods Cross-Validation The results of this study show the best accuracy results and are very helpful. The results obtained in the method cross-validation before SMOTE resulted in an accuracy rate of 82.02% for the results after going through the SMOTE stage of 94.79% on the algorithm Naïve Bayes, while the algorithm SupportVectorMachine get accuracy of 81.39% in the process before SMOTE for the results after going through SMOTE of 96.52%.  Keywords: Cross-Validation; Machine Learning; Naive Bayes; Support Vector Machine; Question Classification  Abstrak: Klasifikasi pertanyaan merupakan sebuah sistem ilmu komputer, yang bertujuan untuk menganalisis pertanyaan serta dapat memberi label pada setiap pertanyaan berdasarkan kategori yang ada. Pertanyaan soal dapat dikumpulkan dari beberapa materi atau topik yang banyak dan berbeda. Oleh karena itu, bermaksud untuk membuat sistem klasifikasi pertanyaan soal kuis Data Warehouse dan Business Intelligence yang dapat dikelompokkan menjadi topik Data Warehouse, Business Intelligence, Data Analitik, dan Pengukuran Kinerja. Cara  yang dapat dilakukan untuk permasalahan ini dengan menggunakan pendekatan MachineLearning. Pada penelitian kali ini menggunakan perbandingan algoritma MachineLearning yaitu algoritma NaïveBayes dan SupportVectorMachine menggunakan metode SMOTE dan Cross-Validation. Hasil penelitian ini menunjukkan hasil akurasi yang terbaik dan sangat membantu. Hasil yang diperoleh pada metode cross-validation sebelum SMOTE menghasilkan tingkat akurasi sebesar 82.02% untuk hasil sesudah melalui tahap SMOTE sebesar 94.79 %  pada algoritma Naïve Bayes, sedangkan pada algoritma Support Vector Machine menghasilkan akurasi sebesar pada proses sebelum SMOTE 81.39% untuk hasil sesudah melalui SMOTE sebesar 96.52%. Kata kunci: Klasifikasi Pertanyaan; Pembelajaran Mesin; Naive Bayes; Support Vector Machine; Cross-Validation


2020 ◽  
Vol 7 (1) ◽  
pp. 53
Author(s):  
Derisma Derisma ◽  
Fajri Febrian

Abstrak: Kanker payudara merupakan jenis kanker yang sering ditemukan oleh kebanyakan wanita. Di Indonesia Kanker payudara menempati urutan pertama pada pasien rawat inap di seluruh rumah sakit. Tujuan dari penelitian ini adalah melakukan diagnosis penyakit kanker payudara berbasis komputasi yang dapat menghasilkan bagaimana kondisi kanker seseorang berdasarkan akurasi algoritma. Penelitian ini menggunakan pemrograman orange python dan dataset Wisconsin Breast Cancer untuk pemodelan klasifikasi kanker payudara. Metode data mining yang diterapkan yaitu Neural Network, Support Vector Machine, dan Naive Bayes. Dalam penelitian ini didapat algoritma klasifikasi terbaik yaitu algoritma Kernel SVM dengan tingkat akurasi sebesar  98.9 % dan algoritma terendah yaitu Naive Bayes senilai 96.1 %.   Kata kunci: kanker payudara, neural network, support vector machine, naive bayes   Abstract: Breast cancer is a type of cancer that mostly found in many women. In Indonesia, breast cancer ranks first in hospitalized patients at every hospital. This study aimed to conduct a computation-based diagnose of breast cancer disease that could produce the state of cancer of an individual based on the accuracy of algorithm. This study used python orange programming and Wisconsin Breast Cancer dataset for a modeling and application of breast cancer classification. The data mining methods that were applied in this study were Neural Network, Support Vector Machine, dan Naive Bayes. In this study, Kernel SVM’s algorithm was the best classification algorithm of breast cancer disease with 98.9 % accuracy rate and Naïve Beyes was the lowest with 96.1 % of accuracy rate.   Keywords: breast cancer, neural network, support vector machine, naive bayes


2021 ◽  
Author(s):  
Ιωάννης Μήνου

Η μεγαλύτερη πρόκληση των σύγχρονων υπολογιστικών συστημάτων είναι αναμφισβήτητα η αποδοτική αποθήκευση και ανάκτηση πολύ μεγάλου όγκου δεδομένων. Η ανάγκη αυτή έκανε την εμφάνισή της τα τελευταία χρόνια λόγω της έκρηξης δεδομένων που παρατηρείται στο διαδίκτυο και αποκτά ολοένα και μεγαλύτερη σημασία λόγω του πολύ μεγάλου εύρους πληροφοριών που μπορούμε να αντλήσουμε. Ο τομέας της υγειονομικής περίθαλψης και των ιατρικών δεδομένων είναι συνεχώς και ταχέως εξελισσόμενος. Η αξιοποίηση των Big Data στο χώρο της υγείας προσφέρει πολύτιμη πληροφόρηση καθώς παρουσιάζουν απεριόριστες δυνατότητες για αποτελεσματική αποθήκευση, επεξεργασία, sql queries και ανάλυση ιατρικών δεδομένων.Σκοπός της παρούσας διατριβής είναι η μελέτη τεχνικών εξόρυξης γνώσης για δεδομένα μεγάλου όγκου, που αφορούν το πεδίο της Υγείας. Παράλληλα σκοπός της έρευνας είναι η μελέτη στατιστικών και υπολογιστικών αλγορίθμων ανάλυσης μεγάλου όγκου δεδομένων υγείας που έχουν ως αποτέλεσμα την παραγωγή νέας γνώσης καθώς και την εξαγωγή στατιστικά σημαντικής πληροφορίας για τους επαγγελματίες υγείας. Τέλος, η παρούσα διατριβή διερευνά τις γνώσεις των επιστημόνων της Πληροφορικής Υγείας και των επαγγελματιών υγείας σχετικά με τα Big Data.Στην παρούσα διδακτορική διατριβή έγινε βιβλιογραφική ανασκόπηση της έννοιας των Big Data. Η ανασκόπηση αυτή περιλαμβάνει τον ορισμό των Big Data ,τα χαρακτηριστικά τους, τα πλεονεκτήματα και τα μειονεκτήματά τους στο χώρο της υγείας. Στη συνέχεια γίνεται αναφορά στην υλοποίηση και στους μηχανισμούς αποθήκευσης των Big Data. Επιπλέον γίνεται αναφορά στα συστήματα ανάλυσης και επεξεργασίας μεγάλου όγκου δεδομένων, στις γλώσσες προγραμματισμού για Big Data, στην εξόρυξη γνώσης δεδομένων στο χώρο της υγείας. Ακόμη γίνεται αναφορά στη χρήση των Big Data στην Ευρώπη και στον κόσμο. Τέλος παρουσιάζονται οι βασικές αρχές του GDPR καθώς και το πώς σχετίζεται με τα Big Data στο χώρο της υγείας. Επίσης διεξήχθησαν δύο εμπειρικές μελέτες.Η πρώτη μελέτη είχε σαν στόχο την καταγραφή της άποψης των επιστημόνων της Πληροφορικής Υγείας σχετικά με την τεχνολογία των Big Data. Η συλλογή των δεδομένων έγινε με χρήση ερωτηματολογίου. Η στατιστική ανάλυση έδειξε τη θετική ανταπόκριση του δείγματος σχετικά με την τεχνολογία των Big Data.Η δεύτερη μελέτη είχε σαν στόχο την καταγραφή της άποψης των Επαγγελματιών Υγείας σχετικά με την τεχνολογία των Big Data. Η συλλογή των δεδομένων έγινε με χρήση ερωτηματολογίου. Η στατιστική ανάλυση δεν έδωσε επαρκείς απαντήσεις καθώς οι ερωτηθέντες έδειξαν θετική στάση απέναντι στα Big Data ενώ απάντησαν ότι δεν γνωρίζουν πολλά για τη συγκεκριμένη τεχνολογία.Το τελευταίο κομμάτι της διατριβής περιλαμβάνει την ανάπτυξη μεθόδων πρόβλεψης για την δυνατότητα διάγνωσης των ασθενών με καρδιαγγειακά νοσήματα. Οι μέθοδοι πρόβλεψης που χρησιμοποιήθηκαν είναι: Λογιστική Παλινδρόμηση, Naive Bayes Classifier, Δένδρα αποφάσεων, Αλγόριθμος Κ κοντινότερων γειτόνων, Αλγόριθμος SVM (Support Vector Machine) και Random Forest. Η ανάπτυξη περιλάμβανε όλα τα στάδια προεπεξεργασίας των δεδομένων ενώ χρησιμοποιήθηκαν συγκεκριμένες μετρικές για τη μέτρηση της απόδοσης των κατηγοριοποιητών. Τέλος έγιναν βελτιώσεις της απόδοσης των κατηγοριοποιητών χρησιμοποιώντας διασταυρωτική επαλήθευση με την μέθοδο cross-validation ενώ επιλύθηκε και το πρόβλημα της ανισορροπίας των κλάσεων χρησιμοποιώντας τη μέθοδο SMOTE.


2020 ◽  
Vol 8 (2) ◽  
pp. 91-100
Author(s):  
Muhamad Azhar ◽  
Noor Hafidz ◽  
Biktra Rudianto ◽  
Windu Gata

Abstract   Technology implementation in the marketplace world has attracted the attention of researchers to analyze the reviews from customers. The Klik Indomaret application page on GooglePlay is one application that can be used to get information on review data collection. However, getting information on consumer’s opinion or review is not an easy task and need a specific method in categorizing or grouping these reviews into certain groups, i.e. positive or negative reviews. The sentiment analysis study of a review application in GooglePlay is still rare. Therefore, this paper analysis the customer’s sentiment from klikindomaret app using Naive Bayes Classifier (NB) algorithm that is compared to Support Vector Machine (SVM) as well as optimizing the Feature Selection (FS) using the Particle Swarm Optimization method. The results for NB without using FS optimization were 69.74% for accuracy and 0.518 for Area Under Curve (AUC) and for SVM without using FS optimization were 81.21% for accuracy and 0.896 for AUC. While the results of cross-validation NB with FS are 75.21% for accuracy and 0.598 for AUC and cross-validation of SVM with FS is 81.84% for accuracy and 0.898 for AUC, while there is an increase when using the Feature Selection (FS) Particle Swarm Optimization and also the modeling algorithm SVM has a higher value compared to NB for the dataset used in this study.   Keywords: Naive Bayes, Particle Swarm Optimization, Support Vector Machine, Feature Selection, Consumer Review.


2020 ◽  
Vol 5 ◽  
pp. 19-24
Author(s):  
Dyah Retno Utari ◽  
Arief Wibowo

Asuransi kendaraan bermotor merupakan jenis usaha pertanggungan terhadap kerugian atau risiko kerusakan yang dapat timbul dari berbagai macam potensi kejadian yang menimpa kendaraan. Persaingan dalam bisnis asuransi khususnya untuk kendaraan bermotor menuntut inovasi dan strategi agar keberlangsungan bisnis tetap terjamin. Salah satu upaya yang dapat dilakukan perusahaan adalah memprediksi status keberlanjutan polis asuransi kendaraan dengan menganalisis data-data profil dan transaksi nasabah. Prediksi terhadap keputusan pemegang polis menjadi sangat penting bagi perusahaan, karena dapat menentukan strategi pemasaran yang mempengaruhi keputusan pelanggan untuk pembaharuan polis asuransi. Penelitian ini telah mengusulkan suatu model prediksi status keberlanjutan polis asuransi kendaraan dengan teknik pemilihan mayoritas dari hasil klasifikasi menggunakan algoritma- algoritma data mining seperti Naive Bayes, Support Vector Machine dan Decision Tree. Hasil pengujian menggunakan confusion matrix menunjukkan nilai akurasi terbaik diperoleh sebesar 93,57%, apapun untuk nilai precision mencapai 97,20%, dan nilai recall sebesar 95,20% serta nilai F-Measure sebesar 95,30%. Nilai evaluasi model terbaik dihasilkan menggunakan pendekatan pemilihan mayoritas (majority voting), mengungguli kinerja model prediksi berbasis pengklasifikasi tunggal.


2018 ◽  
Vol 5 (5) ◽  
pp. 567 ◽  
Author(s):  
Irvi Oktanisa ◽  
Ahmad Afif Supianto

<p class="Abstrak">Klasifikasi merupakan teknik dalam <em>data mining</em> untuk mengelompokkan data berdasarkan keterikatan data terhadap  data sampel. Pada penelitian ini, kami melakukan perbandingan 9 teknik klasifikasi untuk mengklasifikasi respon pelanggan pada <em>dataset Bank Direct Marketing</em>. Perbandingan teknik klasifikasi ini dilakukan untuk mengetahui model dalam teknik klasfikasi yang paling efektif untuk mengklasifikasi target pada <em>dataset Bank Direct Marketing</em>. Teknik klasifikasi yang digunakan yaitu <em>Support Vector Machine</em>, <em>AdaBoost</em>, <em>Naïve Bayes</em>, <em>Constant, KNN, Tree, Random Forest, Stochastic Gradient Descent</em>, dan <em>CN2 Rule</em>. Proses klasifikasi diawali dengan <em>preprocessing</em> data untuk melakukan penghilangan <em>missing value</em> dan pemilihan fitur pada <em>dataset</em>. Pada tahap evaluasi digunakan teknik <em>10 fold cross validation</em>. Setelah dilakukan pengujian, didapatkan bahwa hasil klasifikasi menunjukkan akurasi terbaik diperoleh oleh model <em>Tree, Constant</em>, <em>Naive Bayes</em>, dan <em>Stochastic Gardient Descent</em>. Kemudian diikuti oleh model <em>Random Forest</em>, <em>K-Nearest Neighbor</em>, <em>CN-2 Rule</em>, <em>AdaBoost</em> dan <em>Support Vector Machine</em>. Dari keempat model yang menunjukkan hasil akurasi terbaik, untuk kasus ini <em>Stochastic Gradient Descent</em> terpilih sebagai model yang memiliki akurasi terbaik dengan nilai akurasi sebesar 0,972 dan hasil visualisasi yang dihasilkan lebih jelas untuk mengklasifikasi target pada <em>dataset Bank Direct Marketing</em>.</p><p class="Abstrak"><em><strong><br /></strong></em></p><p class="Abstrak"><em><strong>Abstract</strong></em></p>Classification is a technique in data mining to classify data based on the attachment of data to the sample data.. In this paper, we present the comparison of  9 classification techniques performed to classify customer response on the dataset of Bank Direct Marketing. The techniques performed to find out the effectiveness model in the classification technique used to classify targets on the dataset of Bank Direct Marketing. The techniques used are Support Vector Machine, AdaBoost, Naïve Bayes, Constant, KNN, Tree, Random Forest, Stochastic Gradient Descent, and CN2 Rule. The classification process begins with preprocessing data to perform missing value omissions and feature selection on the dataset. Cross validation technique, with k value is 10, used in the evaluation stage. After testing, it was found that the classification results showed the best accuracy obtained when using the Tree model, Constant, Naive Bayes and Stochastic Gradient Descent. Afterwards the Random Forest model, K-Nearest Neighbor, CN-2 Rule, AdaBoost, and Support Vector Machine are followed. Of the four models with the high accuracy results, in this case Stochastic Gradient Descent was selected as the best accuracy model with an accuracy value of 0.972 and resulting visualization more clearly to classify targets on the dataset of Bank Direct Marketing.


Sign in / Sign up

Export Citation Format

Share Document