Analysis of Decision Tree and Smooth Support Vector Machine Methods on Data Mining

It is now common for a cellphone to receive spam messages. Great number of received messages making it difficult for human to classify those messages to Spam or no Spam. One way to overcome this problem is to use Data Mining for automatic classifications. In this paper, we investigate various data mining techniques, named Support Vector Machine, Multinomial Naïve Bayes and Decision Tree for automatic spam detection. Our experimental results show that Support Vector Machine algorithm is the best algorithm over three evaluated algorithms. Support Vector Machine achieves 98.33%, while Multinomial Naïve Bayes achieves 98.13% and Decision Tree is at 97.10 % accuracy.

Download Full-text

Data Mining Technique for Medical Diagnosis Using a New Smooth Support Vector Machine

Networked Digital Technologies - Communications in Computer and Information Science ◽

10.1007/978-3-642-14306-9_3 ◽

2010 ◽

pp. 15-27 ◽

Cited By ~ 3

Author(s):

Santi Wulan Purnami ◽

Jasni Mohamad Zain ◽

Abdullah Embong

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Medical Diagnosis ◽

Support Vector ◽

Data Mining Technique ◽

Mining Technique ◽

Smooth Support Vector Machine

Download Full-text

Analisis Trend Topik Penelitian pada Web Of Science dan SINTA untuk Penentuan Tema Tugas Akhir Mahasiswa AMIK Indonesia Banda Aceh

Jurnal SAINTEKOM ◽

10.33020/saintekom.v10i1.91 ◽

2020 ◽

Vol 10 (1) ◽

pp. 13

Author(s):

Bahruni Bahruni ◽

Fathurrahmad Fathurrahmad

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Deep Learning ◽

Decision Tree ◽

Linear Model ◽

Generalized Linear Model ◽

Core Collection ◽

Web Of Science ◽

Support Vector ◽

Large Margin

Penelitian ini mencoba melakukan penambangan dengan menggunakan teknologi web untuk mengumpulkan data informasi yang berasal dari Web of Science dan SINTA yang dikumpulkan. Metodologi Cross Industry Standard Process for Data Mining (CRISP–DM) digunakan sebagai standard proses data mining sekaligus sebagai metode penelitian. Peneliti mengumpulkan data melalui daftar jurnal Web of Science dan SINTA. Untuk melacak trend topik penelitian, peneliti memilih rentang waktu dari tahun 2018 sampai dengan 2019 dan mengekspor data dari Web of Science Core Collection pada April 2019. Ada 38.162 publikasi yang berhasil diambil di Web-Science-defined kategori Ilmu Komputer dan Sistem Informasi dan 230 diambil dari website SINTA. Tetapi, penulis hanya mengambil 20 Jurnal dengan H-Index Tertinggi di Web of Science Core Collection. Sedangkan pada SINTA, penulis juga mengambil 20 Jurnal dengan rangking SINTA 1 dan 2. penelitian ini menyimpulkan topik penelitian dalam jurnal Web of Science dan dikaitkan dengan dengan tren topik penelitian dan yang muncul terbanyak adalah learning, network, analysis, system, control, data, image, optimization, systems, dan neural. Adapun untuk klasifikasi menggunakan model Naive Bayes, Generalized Linear Model, Logistic Regression, Fast Large Margin, Deep Learning, Decision Tree, Random Forest, Gradient Boosted Trees, dan Support Vector Machine. Berdasarkan hasil akurasi, model Generalized Linear Model dan Decision Tree memiliki akurasi sebesar 94.3%, sedangkan Gradient Boosted Trees memiliki persentase akurasi sebesar 93.8%. Naive Bayes menunjukkan tingkat akurasi sebesar 91.4%, diikuti dengan model Fast Large Margin, Deep Learning, Random Forest, dan Support Vector Machine memiliki akurasi sebesar 91.4%. Nilai dengan akurasi terendah menggunakan model Logistic Regression sebesar 65.2%. Hal ini menunjukan bahwa tingkat akurasi tertinggi yaitu dengan menggunakan model Generalized Linear Model dan Decision Tree sehingga hasilnya dapat memprediksi cukup akurat.

Download Full-text

Pemodelan Prediksi Status Keberlanjutan Polis Asuransi Kendaraan dengan Teknik Pemilihan Mayoritas Menggunakan Algoritma-Algoritma Klasifikasi Data Mining

Prosiding Seminar Nasional Teknoka ◽

10.22236/teknoka.v5i.391 ◽

2020 ◽

Vol 5 ◽

pp. 19-24

Author(s):

Dyah Retno Utari ◽

Arief Wibowo

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Decision Tree ◽

Naive Bayes ◽

Confusion Matrix ◽

Naïve Bayes ◽

Majority Voting ◽

Support Vector ◽

F Measure

Asuransi kendaraan bermotor merupakan jenis usaha pertanggungan terhadap kerugian atau risiko kerusakan yang dapat timbul dari berbagai macam potensi kejadian yang menimpa kendaraan. Persaingan dalam bisnis asuransi khususnya untuk kendaraan bermotor menuntut inovasi dan strategi agar keberlangsungan bisnis tetap terjamin. Salah satu upaya yang dapat dilakukan perusahaan adalah memprediksi status keberlanjutan polis asuransi kendaraan dengan menganalisis data-data profil dan transaksi nasabah. Prediksi terhadap keputusan pemegang polis menjadi sangat penting bagi perusahaan, karena dapat menentukan strategi pemasaran yang mempengaruhi keputusan pelanggan untuk pembaharuan polis asuransi. Penelitian ini telah mengusulkan suatu model prediksi status keberlanjutan polis asuransi kendaraan dengan teknik pemilihan mayoritas dari hasil klasifikasi menggunakan algoritma- algoritma data mining seperti Naive Bayes, Support Vector Machine dan Decision Tree. Hasil pengujian menggunakan confusion matrix menunjukkan nilai akurasi terbaik diperoleh sebesar 93,57%, apapun untuk nilai precision mencapai 97,20%, dan nilai recall sebesar 95,20% serta nilai F-Measure sebesar 95,30%. Nilai evaluasi model terbaik dihasilkan menggunakan pendekatan pemilihan mayoritas (majority voting), mengungguli kinerja model prediksi berbasis pengklasifikasi tunggal.

Download Full-text

Prediction of active debt in the State of Pernambuco, Brazil

Revista de Engenharia e Pesquisa Aplicada ◽

10.25286/repa.v5i1.1299 ◽

2020 ◽

Vol 5 (1) ◽

pp. 88-95

Author(s):

Álvaro Farias Pinheiro ◽

João Alberto Da Silva Amaral ◽

Geraldo Torres Galindo Neto ◽

José Nilo Martins Sampaio ◽

Wedson Lino Soares

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Logistic Regression ◽

Random Forest ◽

Decision Tree ◽

The State ◽

Support Vector ◽

Data Mining Techniques ◽

Collection Process ◽

Mining Model

Application of data mining (DM) techniques to optimize the process of collection of Active Debt (AD) of the State of Pernambuco, Brazil. We apply the following data mining techniques: Decision Tree (DT), Logistic regression (LR), Nayve bayes (NB), Support vector machine (SVM), also applied to the Random Forest technique which is considered an essemble method. We observed that the RF technique obtained better results than all the techniques of classification, reaching higher values in all metrics analyzed. We note that the creation of a data mining model to choose which debts can succeed in the collection process can bring benefits to the pernambuco government. With the application of RF technique, we obtained indexes above 85% in the evaluation of the metrics.

Download Full-text

Komparasi Algoritma Nonparametrik untuk Klasifikasi Citra Wajah Berdasarkan Suku di Indonesia

Jurnal Edukasi dan Penelitian Informatika (JEPIN) ◽

10.26418/jp.v6i3.43268 ◽

2020 ◽

Vol 6 (3) ◽

pp. 337

Author(s):

Seno Hartono ◽

Anggi Perwitasari ◽

Herry Sujaini

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Decision Tree ◽

Nearest Neighbor ◽

Support Vector ◽

K Nearest Neighbor ◽

Data Mining Tool ◽

Mining Tool

Klasifikasi merupakan metode data mining yang berfungsi untuk mengatur dan mengkategorikan data pada kelas yang berbeda-beda. Penelitian ini bertujuan untuk membandingkan dan menentukan algoritma nonparametrik terbaik dalam pengklasifikasian citra wajah. Dalam proses pengklasifikasian, penelitian ini menggunakan algoritma klasifikasi nonparametrik yaitu k-Nearest Neighbor (kNN), Support Vector Machine (SVM), Decision Tree, dan AdaBoost Untuk mengklasifikasikan citra wajah penduduk Indonesia yang berasal dari suku Batak, Dayak, Jawa, Melayu, dan Tionghoa. Penelitian ini menggunakan Orange Data Mining Tool sebagai alat bantu untuk melakukan proses data mining. Dari hasil pengklasifikasian dengan menerapkan algoritma k-Nearest Neigbor, Support Vector Machine, Decision Tree, dan AdaBoost, SVM memberikan nilai akurasi yang lebih baik dibanding algoritma lainnya. Rata-rata nilai precision keempat algoritma tersebut berturut-turut adalah Support Vector Machine 37.5%, diikuti oleh algoritma k-Nearest Neighbor 31.55%, AdaBoost 30.25%, dan untuk Decision Tree 29.75%.

Download Full-text

The Decision Tree and Support Vector Machine for the Data Mining

Journal of Applied Sciences ◽

10.3923/jas.2010.1336.1340 ◽

2010 ◽

Vol 10 (13) ◽

pp. 1336-1340 ◽

Cited By ~ 2

Author(s):

D. Benhaddouc ◽

A. Benyettou

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Decision Tree ◽

Support Vector

Download Full-text

Predicting preeclampsia and related risk factors using data mining approaches: A cross-sectional study

International Journal of Reproductive BioMedicine ◽

10.18502/ijrm.v19i11.9911 ◽

2021 ◽

Author(s):

Zohreh Manoochehri ◽

Sara Manoochehri ◽

Farzaneh Soltani ◽

Majid Sadeghifar

Keyword(s):

Risk Factors ◽

Data Mining ◽

Support Vector Machine ◽

Logistic Regression ◽

Random Forest ◽

Decision Tree ◽

Cross Sectional Study ◽

Support Vector ◽

Cross Sectional ◽

C5.0 Decision Tree

Background: Preeclampsia is a type of pregnancy hypertension disorder that has adverse effects on both the mother and the fetus. Despite recent advances in the etiology of preeclampsia, no adequate clinical screening tests have been identified to diagnose the disorder. Objective: We aimed to provide a model based on data mining approaches that can be used as a screening tool to identify patients with this syndrome and also to identify the risk factors associated with it. Materials and Methods: The data used to perform this cross-sectional study were extracted from the clinical records of 726 mothers with preeclampsia and 726 mothers without preeclampsia who were referred to Fatemieh Hospital in Hamadan City during April 2005–March 2015. In this study, six data mining methods were adopted, including logistic regression, k-nearest neighborhood, C5.0 decision tree, discriminant analysis, random forest, and support vector machine, and their performance was compared using the criteria of accuracy, sensitivity, and specificity. Results: Underlying condition, age, pregnancy season and the number of pregnancies were the most important risk factors for diagnosing preeclampsia. The accuracy of the models were as follows: logistic regression (0.713), k-nearest neighborhood (0.742), C5.0 decision tree (0.788), discriminant analysis (0.687), random forest (0.758) and support vector machine (0.791). Conclusion: Among the data mining methods employed in this study, support vector machine was the most accurate in predicting preeclampsia. Therefore, this model can be considered as a screening tool to diagnose this disorder. Key words: Preeclampsia, Random forest, C5.0 decision tree, Support vector machine, Logistic regression.

Download Full-text

Pemanfaatan Teknik Data Mining Dalam Menentukan Standar Mutu Jagung

CogITo Smart Journal ◽

10.31154/cogito.v5i2.172.171-180 ◽

2019 ◽

Vol 5 (2) ◽

pp. 171

Author(s):

Alfa Saleh ◽

Meilinda Maryam

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Decision Tree ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector

Sebagai salah satu perusahaan pengolahan pakan teknak berbahan dasar jagung, PT. Indojaya Agrinusa berusaha untuk menjaga kualitas produk-produk terbaik yang akan dipasarkan. tentu hal tersebut tidak terlepas dari usaha untuk meningkatkan mutu ataupun kualitas yang menjadi tolak ukur pelanggan dalam memilih barang atau produk mana yang akan digunakan untuk keperluan masing-masing. Belum adanya penentuan standar mutu jagung yang tersistem sehingga perusahaan lambat dalam menentukan standar mutu jagung serta cukup menghambat proses produksi pakan ternak pada perusahaan tersebut. Pada Penelitian terdahulu, telah dilakukan pengujian menggunakan teknik data mining khususnya metode Naive Bayes dalam menentukan standar mutu jagung, di mana penerapan metode tersebut menghasilkan tingkat akurasi rata-rata sebesar 83.33 %. sementara pada penelitian ini, pengujian dilakukan dengan menggunakan metode Decision Tree (C 4.5) dan Support Vector Machine (SVM) untuk menemukan metode yang lebih efektif dan akurat dalam menentukan mutu jagung sehingga layak untuk diproduksi. Hasil akurasi yang didapatkan oleh metode Decision Tree (C 4.5) meningkat dari hasil pengujian sebelumnya menjadi 86.17%, sementara hasil akurasi yang didapatkan dari penerapan metode Support Vector Machine (SVM) juga meningkat dari hasi pengujian sebelumnya yang menggunakan metode Naïve Bayes menjadi 94.03%. Sehingga dapat disimpulkan bahwa penggunaan metode Support Vector Machine (SVM) lebih baik dibandingkan metode Naïve Bayes dan Decision Tree (C 4.5). Kata kunci—Mutu Jagung, Data Mining, Naïve Bayes, Decision Tree, Support Vector Machine

Download Full-text

Komparasi Algoritma Naive Bayes, Decision Tree dan Support Vector Machine untuk Prediksi Penyakit Kanker Payudara

Jurnal Teknik Komputer ◽

10.31294/jtk.v7i1.9191 ◽

2021 ◽

Vol 7 (1) ◽

pp. 51-54

Author(s):

Lusa Indah Prahartiwi ◽

Wulan Dari

Keyword(s):

Breast Cancer ◽

Data Mining ◽

Support Vector Machine ◽

Decision Tree ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector

Kanker payudara merupakan kanker paling umum pada wanita di seluruh dunia dengan menyumbang 25,4% dari total jumlah kasus baru yang didiagnosis pada tahun 2018. Kanker adalah sekelompok besar penyakit yang dapat dimulai di hampir semua organ atau jaringan tubuh ketika sel abnormal tumbuh tak terkendali, melampaui batas biasanya untuk menyerang bagian tubuh yang berdekatan dan/atau menyebar ke organ lain. Penyakit kanker payudara dapat diprediksi dengan pengetahuan data mining. Data mining dapat menemukan korelasi, pola, dan tren baru yang bermakna dengan memilah-milah data dalam jumlah besar yang disimpan dalam repositori, menggunakan teknologi pengenalan pola serta teknik statistik dan matematika. Penelitian ini membandingkan performa Algoritma Naive Bayes, Decision Tree dan Support Vector Machine untuk memprediksi penyakit kanker payudara. Dataset yang digunakan adalah data sekunder Breast Cancer Coimbra yang diambil dari UCI Repository. Hasil dari penelitian ini menunjukan bahwa Algoritma Support Vector Machine menghasilkan tingkat Accuracy tertinggi yaitu sebesar 74,29% dibandingkan dengan Algoritma Naive Bayes dan Decision Tree

Download Full-text