Identifying Key Fraud Indicators in the Automobile Insurance Industry Using SQL Server Analysis Services

Botond Benedek; Ede László

doi:10.2478/subboec-2019-0009

Identifying Key Fraud Indicators in the Automobile Insurance Industry Using SQL Server Analysis Services

Studia Universitatis Babe-Bolyai Oeconomica ◽

10.2478/subboec-2019-0009 ◽

2019 ◽

Vol 64 (2) ◽

pp. 53-71

Author(s):

Botond Benedek ◽

Ede László

Keyword(s):

Neural Network ◽

Decision Tree ◽

Naive Bayes ◽

Insurance Industry ◽

Naïve Bayes ◽

Sql Server ◽

Categorical Variables ◽

Automobile Insurance ◽

Price Determination ◽

Mining Tool

Abstract Customer segmentation represents a true challenge in the automobile insurance industry, as datasets are large, multidimensional, unbalanced and it also requires a unique price determination based on the risk profile of the customer. Furthermore, the price determination of an insurance policy or the validity of the compensation claim, in most cases must be an instant decision. Therefore, the purpose of this research is to identify an easily usable data mining tool that is capable to identify key automobile insurance fraud indicators, facilitating the segmentation. In addition, the methods used by the tool, should be based primarily on numerical and categorical variables, as there is no well-functioning text mining tool for Central Eastern European languages. Hence, we decided on the SQL Server Analysis Services (SSAS) tool and to compare the performance of the decision tree, neural network and Naïve Bayes methods. The results suggest that decision tree and neural network are more suitable than Naïve Bayes, however the best conclusion can be drawn if we use the decision tree and neural network together.

Get full-text (via PubEx)

Komparasi Algoritma Kasifikasi dengan Pendekatan Level Data Untuk Menangani Data Kelas Tidak Seimbang

JURNAL ILMIAH ILMU KOMPUTER ◽

10.35329/jiik.v3i1.60 ◽

2017 ◽

Vol 3 (1) ◽

pp. 1-6

Author(s):

Ahmad Ilham

Keyword(s):

Neural Network ◽

Support Vector Machine ◽

Linear Regression ◽

Decision Tree ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector ◽

Level Data ◽

Under Sampling

Masalah data kelas tidak seimbang memiliki efek buruk pada ketepatan prediksi data. Untuk menangani masalah ini, telah banyak penelitian sebelumnya menggunakan algoritma klasifikasi menangani masalah data kelas tidak seimbang. Pada penelitian ini akan menyajikan teknik under-sampling dan over-sampling untuk menangani data kelas tidak seimbang. Teknik ini akan digunakan pada tingkat preprocessing untuk menyeimbangkan kondisi kelas pada data. Hasil eksperimen menunjukkan neural network (NN) lebih unggul dari decision tree (DT), linear regression (LR), naïve bayes (NB) dan support vector machine (SVM).

Get full-text (via PubEx)

Komparasi Algoritma Klasifikasi dengan Pendekatan Level Data untuk Menangani Data Kelas Tidak Seimbang

10.31227/osf.io/xwefp ◽

2018 ◽

Author(s):

Ahmad Ilham

Keyword(s):

Neural Network ◽

Support Vector Machine ◽

Linear Regression ◽

Decision Tree ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector ◽

Level Data ◽

Under Sampling

Saat ini data real dari berbagai sumber sangat banyak mengandung data dengan kelas tidak seimbang. Masalah data kelas tidak seimbang dapat menimbulkan efek buruk pada metode klasifikasi untuk ketepatan prediksi pada data. Untuk menangani masalah ini, telah banyak penelitian sebelumnya menggunakan algoritma klasifikasi menangani masalah data kelas tidak seimbang. Pada penelitian ini akan menyajikan teknik under-sampling dan over-sampling untuk menangani data kelas tidak seimbang. Teknik ini akan digunakan pada tingkat preprocessing untuk menyeimbangkan kondisi kelas pada data. Hasil eksperimen menunjukkan neural network (NN) lebih unggul dari decision tree (DT), linear regression (LR), naïve bayes (NB) dan support vector machine (SVM).

Get full-text (via PubEx)

KOMPARASI METODE KLASIFIKASI PADA ANALISIS SENTIMEN USAHA WARALABA BERDASARKAN DATA TWITTER

Jurnal Pilar Nusa Mandiri ◽

10.33480/pilar.v15i2.752 ◽

2019 ◽

Vol 15 (2) ◽

pp. 267-274

Author(s):

Tati Mardiana ◽

Hafiz Syahreva ◽

Tuslaela Tuslaela

Keyword(s):

Neural Network ◽

Support Vector Machine ◽

Decision Tree ◽

Nearest Neighbor ◽

Naive Bayes ◽

Confusion Matrix ◽

Naïve Bayes ◽

Support Vector ◽

K Nearest Neighbor

Saat ini usaha waralaba di Indonesia memiliki daya tarik yang relatif tinggi. Namun, para pelaku usaha banyak juga yang mengalami kegagalan. Bagi seseorang yang ingin memulai usaha perlu mempertimbangkan sentimen masyarakat terhadap usaha waralaba. Meskipun demikian, tidak mudah untuk melakukan analisis sentimen karena banyaknya jumlah percakapan di Twitter terkait usaha waralaba dan tidak terstruktur. Tujuan penelitian ini adalah melakukan komparasi akurasi metode Neural Network, K-Nearest Neighbor, Naïve Bayes, Support Vector Machine, dan Decision Tree dalam mengekstraksi atribut pada dokumen atau teks yang berisi komentar untuk mengetahui ekspresi didalamnya dan mengklasifikasikan menjadi komentar positif dan negatif. Penelitian ini menggunakan data realtime dari tweets pada Twitter. Selanjutnya mengolah data tersebut dengan terlebih dulu membersihkannya dari noise dengan menggunakan Phyton. Hasil pengujian dengan confusion matrix diperoleh nilai akurasi Neural Network sebesar 83%, K-Nearest Neighbor sebesar 52%, Support Vector Machine sebesar 83%, dan Decision Tree sebesar 81%. Penelitian ini menunjukkan metode Support Vector Machine dan Neural Network paling baik untuk mengklasifikasikan komentar positif dan negatif terkait usaha waralaba.

Get full-text (via PubEx)

COMPARISON OF DECISION TREE, NAÏVE BAYES, AND NEURAL NETWORK ALGORITHM FOR EARLY DETECTION OF DIABETES

Jurnal Pilar Nusa Mandiri ◽

10.33480/pilar.v17i1.2213 ◽

2021 ◽

Vol 17 (1) ◽

pp. 73-78

Author(s):

Wisti Dwi Septiani ◽

Marlina Marlina

Keyword(s):

Neural Network ◽

Decision Making ◽

Early Detection ◽

Decision Tree ◽

Naive Bayes ◽

Health Sector ◽

Naïve Bayes ◽

Glucose Levels ◽

Normal Limits ◽

Neural Network Algorithm

Diabetes mellitus is included in the top 3 most deadly diseases in Indonesia. Based on WHO data in 2013, diabetes contributed 6.5% to the death of the Indonesian population. Diabetes is a chronic disease characterized by high blood sugar (glucose) levels that exceed normal limits. In the health sector, historical medical data can be processed to extract new information and can be used for decision-making processes such as disease prediction. This study aims to classify predictions for early detection of diabetes in order to obtain accurate results for decision making. The data used are historical data on hospital disease patients in Sylhet, Bangladesh in the form of a diabetes dataset from the UCI Repository. The algorithms used are Decision Tree, Naive Bayes, and Neural Network. Then the three methods are compared using the Rapidminer tools. The measurement results are 90% accuracy with Decision Tree, 80% with Naive Bayes, and 70% with Neural Network. So that the best algorithm is obtained, namely the Decision Tree for predicting early detection of diabetes. Rule in the form of a decision tree generated from the Decision Tree is used for input or ideas for decision making in the health sector for diabetes.

Get full-text (via PubEx)

Prediksi Hipertensi menggunakan Decision Tree, Naïve Bayes dan Artificial Neural Network pada software KNIME

Techno Com ◽

10.33633/tc.v19i4.3872 ◽

2020 ◽

Vol 19 (4) ◽

pp. 353-363

Author(s):

Mayanda Mega Santoni ◽

Nurul Chamidah ◽

Nurhafifah Matondang

Keyword(s):

Neural Network ◽

Machine Learning ◽

Artificial Neural Network ◽

Decision Tree ◽

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Network Data ◽

Artificial Neural ◽

Fold Cross Validation

Hipertensi merupakan salah satu penyakit tidak menular yang dapat menyebabkan kematian karena meningkatkan resiko munculnya berbagai penyakit seperti gagal ginjal, gagal jantung, bahkan stroke. Resiko hipertensi disebabkan oleh beberapa faktor penyebab seperti usia, keturunan, pola makan dan olahraga, dan merokok. Teknologi artificial intelligence yakni machine learning dimanfaatkan di bidang kesehatan khususnya prediksi penyakit hipertensi. Pada penelitian ini diimplementasi tiga algoritma machine learning yakni decision tree, naïve bayes dan artificial neural networks. Data yang digunakan pada penelitian ini sebanyak 274 data yang diperoleh dari hasil kuesioner dengan 26 pertanyaan, dimana 25 pertanyaan adalah variabel faktor resiko dan satu pertanyaan merupakan kelas yang menyatakan responden memiliki riwayat hipertensi atau tidak. Data diolah menggunakan platform analisis data yakni KNIME. Sebelum data diolah untuk membangun model klasifikasi menggunakan decision tree, naïve bayes dan artificial neural network, data dipraproses terlebih dahulu dengan melakukan imputasi missing value, oversampling dan normalisasi data. Selanjutnya pembagian data menggunakan 5-fold cross validation. Model klasifikasi yang diperoleh dievaluasi menggunakan nilai akurasi, recall dan precision. Hasil evaluasi dari eksperimen yang dilakukan diperoleh bahwa algoritma artificial neural network memiliki tingkat performa lebih baik dibandingkan decision tree dan naïve bayes dengan nilai akurasi sebesar 94.7%, recall sebesar 91.5% dan precision sebesar 97.7%.

Get full-text (via PubEx)

Oversampling Method on Classifying Hypertension Using Naive Bayes, Decision Tree, and Artificial Neural Network

Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) ◽

10.29207/resti.v4i4.2015 ◽

2020 ◽

Vol 4 (4) ◽

pp. 635-641

Author(s):

Nurul Chamidah ◽

Mayanda Mega Santoni ◽

Nurhafifah Matondang

Keyword(s):

Neural Network ◽

Artificial Neural Network ◽

Decision Tree ◽

Missing Values ◽

Naive Bayes ◽

Classification Performance ◽

Naïve Bayes ◽

Training Data ◽

Validation Data ◽

Artificial Neural

Oversampling is a technique to balance the number of data records for each class by generating data with a small number of records in a class, so that the amount is balanced with data with a class with a large number of records. Oversampling in this study is applied to hypertension dataset where hypertensive class has a small number of records when compared to the number of records for non-hypertensive classes. This study aims to evaluate the effect of oversampling on the classification of hypertension dataset consisting of hypertensive and non-hypertensive classes by utilizing the Naïve Bayes, Decision Tree, and Artificial Neural Network (ANN) as well as finding the best model of the three algorithms. Evaluation of the use of oversampling on hypertension dataset is done by processing the data by imputing missing values, oversampling, and transforming data into the same range, then using the Naïve Bayes, Decision Tree, and ANN to build classification models. By dividing 80% of data as training data to build models and 20% as validation data for testing models, we had an increase in classification performance in the form of accuracy, precision, and recall of the oversampled data when compared without oversampling. The best performance in this study resulted in the highest accuracy using ANN with 0.91, precision 0.86 and recall 0.99.

Get full-text (via PubEx)

Perbandingan Metode Klasifikasi Multiclass untuk Pemetaan Zona Risiko COVID-19 di Pulau Jawa

Jurnal Komputer dan Informatika ◽

10.35508/jicon.v9i1.3602 ◽

2021 ◽

Vol 9 (1) ◽

pp. 98-107

Author(s):

Jesica Nauli Br. Siringo Ringo ◽

Wahyu Joko Mursalin ◽

Nisrina Citra Nurfadilah ◽

Dwiky Rachmat Ramadhan ◽

Wa Ode Zuhayeni Madjida

Keyword(s):

Neural Network ◽

Data Mining ◽

Decision Tree ◽

Nearest Neighbor ◽

Naive Bayes ◽

Imbalanced Data ◽

Naïve Bayes ◽

K Nearest Neighbor ◽

Missing Value

Penambahan kasus COVID-19 yang besar di Indonesia, khususnya Pulau Jawa, membutuhkan berbagai upaya untuk mengendalikannya. Salah satu upaya efektif yang dapat dilakukan adalah tindakan preventif dengan memberi informasi mengenai kondisi suatu wilayah. Sebagai peringatan kepada masyarakat dan sebagai upaya pengambilan kebijakan daerah, Indonesia mengeluarkan zona risiko sampai pada tingkat kabupaten/kota melalui Satgas Penanganan COVID-19. Pembentukan level zona risiko tersebut menggunakan teknik konvensional yaitu pembobotan skor menggunakan informasi dari tiga jenis indikator. Dengan mempertimbangkan bahwa zona risiko merupakan hal yang penting dalam penentuan kebijakan terkait COVID-19, penelitian ini bertujuan untuk membangun model klasifikasi zona risiko kabupaten/kota di Pulau Jawa menggunakan beberapa teknik klasifikasi data mining dan menentukan model klasifikasi terbaik berdasarkan hasil evaluasi. Teknik klasifikasi yang digunakan sebagai perbandingan dalam penelitian ini adalah naive Bayes, decision tree, k-nearest-neighbor, dan neural network. Sebelum dilakukan pemodelan, data disesuaikan terlebih dahulu pada tahap preprocessing di mana pada tahap tersebut teridentifikasi terdapat permasalahan missing value dan imbalanced data. Permasalahan tersebut diatasi dengan imputasi data dan teknik oversampling. Hasil penelitian menunjukkan bahwa model k-nearest-neighbor merupakan model terbaik dibandingkan tiga model lainnya. Hasil tersebut didasarkan pada ukuran evaluasi keempat model di mana model k-NN memiliki nilai acccuracy, nilai rata-rata makro untuk sensitivitas, spesifisitas, dan ukuran F1 paling tinggi dibandingkan model lainnya.

Get full-text (via PubEx)

ANALISA 4 ALGORITMA DALAM KLASIFIKASI LIVER MENGGUNAKAN RAPIDMINER

Jurnal Informatika Polinema ◽

10.33795/jip.v6i2.274 ◽

2020 ◽

Vol 6 (2) ◽

pp. 1-9

Author(s):

Annisa Putri Ayudhitama ◽

Utomo Pujianto

Keyword(s):

Neural Network ◽

Machine Learning ◽

Data Mining ◽

Decision Tree ◽

Nearest Neighbor ◽

Naive Bayes ◽

Naïve Bayes ◽

World Health ◽

K Nearest Neighbor ◽

Health Organization

Hati merupakan salah satu organ penting dalam tubuh manusia yang berfungsi untuk detoksifikasi racun atau penetral racun dari segala sesuatu yang masuk ke dalam tubuh kita, sehingga tubuh menjadi lebih sehat. Hati dapat terserang suatu penyakit yang mampu mengganggu tugasnya, apabila penyakit hati sudah menyerang maka racun akan tersebar ke seluruh tubuh dan membuat tubuh menjadi tidak sehat. Penyakit liver merupakan penyakit hati yang disebabkan oleh virus, alkohol, pola hidup dan lainnya. Menurut data WHO (World Health Organization) menunjukkan hampir 1,2 juta orang per tahun khususnya di Asia Tenggara dan Afrika mengalami kematian akibat terserang penyakit liver. Seseorang sering tidak menyadari atau terlambat mengetahui penyakit liver sehingga ketika diperiksa penyakit liver sudah parah, akan lebih baik apabila dilakukan penanganan lebih awal dengan mengetahui gejala-gejala yang diderita. Data mining mampu membantu diagnosa penyakit liver dengan lebih mudah terutama untuk membantu para dokter dalam menentukan apakah pasien menderita penyakit liver atau tidak, dengan gejala hampir mendekati penyakit liver. Proses diagnosa penyakit liver dilakukan dengan proses klasifikasi dan hasilnya berupa pasien tersebut menderita liver atau tidak. Penelitian ini menggunakan 4 algoritma data mining yaitu Naïve Bayes, K-Nearest Neighbor (KNN), Decision Tree dan Neural Network. Dataset yang digunakan yaitu Indian Liver Patient Dataset (ILPD) dari website UCI Machine Learning Repository. Keempat algoritma tersebut dibandingkan manakah yang lebih baik akurasinya untuk kasus diagnosa penyakit liver. Hasilnya menunjukkan bahwa algoritma Naïve Bayes memiliki akurasi 55,75%, algoritma K-Nearest Neigbor memiliki akurasi 66,36%, algoritma Decision Tree memiliki akurasi 67,04%, dan algoritma Neural Network memiliki akurasi 70,50%. Akurasi tersebut tergolong rendah karena kelas atau label antara pasien penyakit liver dan pasien tidak memiliki liver tidaklah seimbang, kelas pasien penyakit liver lebih banyak dibandingkan pasien tidak memiliki liver, sehingga banyak data yang diklasifikasikan sebagai pasien penyakit liver. Keywords— Data Mining, Decision Tree, Klasifikasi, KNN, Liver, Naïve Bayes, Neural Network

Get full-text (via PubEx)

ALGORITMA NAÏVE BAYES UNTUK PREDIKSI JUMLAH PENDAFTAR ULANG PADA PENERIMAAN MAHASISWA BARU

Jurnal Multi Media dan IT ◽

10.46961/jommit.v3i2.338 ◽

2019 ◽

Vol 5 (1) ◽

Author(s):

Ariesta Damayanti

Keyword(s):

Neural Network ◽

Decision Tree ◽

Naive Bayes ◽

Naïve Bayes

STMIK AKAKOM Yogyakarta setiap tahunnya melakukan penerimaan mahasiswa baru yang dilakukan oleh bagian marketing dan admisi, penerimaan mahasiswa baru sangat penting untuk STMIK AKAKOM Yogyakarta karena operasional kampus dibiayai oleh pemasukan yang berasal dari SPP mahasiswa. Sehingga diperlukan suatu sistem untuk bisa melakukan prediksi jumlah mhasiswa baru setiap tahunnya, sebagai informasi bagi manajemen sebagai dasar pengelolaan kegiatan kampus.Naïve Bayes adalah pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class. Naïve Bayes didasarkan pada teorema Bayes yang memiliki kemampuan klasifikasi seperti decision tree dan neural network. Naïve Bayes digunakan untuk memprediksi jumlah mahasiswa baru dengan menggunakan data pendaftar ulang di tahun sebelumnya yang memiliki atribut yaitu asal kota, gelombang, program studi, penghasilan orang tua, nilai U N dan status registrasi, sehingga pihak marketing dan admisi STMIK AKAKOM Yogyakarta mendapat gambaran jumlah mahasiswa baru ditahun depan.Hasil dari penelitian ini adalah sistem yang dapat memprediksi data dengan kelas yaitu registrasi dan tidak registrasi. Dari 1704 data testing yang di proses menggunakan sistem didapatkan hasil prediksi registrasi sebanyak 1226 data dan tidak registrasi 478 data. Untuk pengujian dari 731 data didapatkan hasil prediksi 679 data terprediksi benar dan 52 data salah prediksi. Tingkat akurasi probabilitas yang didapatkan sebesar 92,88%.

Get full-text (via PubEx)

KLASIFIKASI SMS SPAM MENGGUNAKAN SUPPORT VECTOR MACHINE

Jurnal Pilar Nusa Mandiri ◽

10.33480/pilar.v15i2.693 ◽

2019 ◽

Vol 15 (2) ◽

pp. 275-280

Author(s):

Agus Setiyono ◽

Hilman F Pardede

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Decision Tree ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector ◽

Spam Detection ◽

Support Vector Machine Algorithm ◽

Data Mining Techniques ◽

To Receive

It is now common for a cellphone to receive spam messages. Great number of received messages making it difficult for human to classify those messages to Spam or no Spam. One way to overcome this problem is to use Data Mining for automatic classifications. In this paper, we investigate various data mining techniques, named Support Vector Machine, Multinomial Naïve Bayes and Decision Tree for automatic spam detection. Our experimental results show that Support Vector Machine algorithm is the best algorithm over three evaluated algorithms. Support Vector Machine achieves 98.33%, while Multinomial Naïve Bayes achieves 98.13% and Decision Tree is at 97.10 % accuracy.

Get full-text (via PubEx)