Data Balancing untuk Mengatasi Imbalance Dataset pada Prediksi Produksi Padi

Khafid Akbar; Mardhiya Hayaty

doi:10.46772/intech.v2i02.283

Data Balancing untuk Mengatasi Imbalance Dataset pada Prediksi Produksi Padi

Jurnal Ilmiah Intech : Information Technology Journal of UMUS ◽

10.46772/intech.v2i02.283 ◽

2020 ◽

Vol 2 (02) ◽

Author(s):

Khafid Akbar ◽

Mardhiya Hayaty

Keyword(s):

Naive Bayes ◽

Data Preprocessing ◽

Naïve Bayes ◽

Imbalance Dataset

Padi adalah salah satu hasil tanaman pangan di Indonesia yang merupakan salah satu makanan pokok. Tingginya permintaan untuk produksi beras telah mengakibatkan sejumlah daerah di Indonesia membuat lumbung padi dengan setidaknya delapan daerah, yang salah satunya di Jawa Timur. Kebutuhan untuk memproses data terkait pasokan makanan, terutama beras, merupakan salah satu faktor penting untuk mengantisipasi tingkat permintaan di masa depan. Langkah yang dilakukan dalam penelitian ini untuk mencapai hasil yang diharapkan adalah dengan melakukan proses penambangan data yaitu mengumpulkan data, preprocessing data, mengimplementasikan algoritma pada data yang ada, dan mengevaluasi hasil. Dalam penelitian ini, peneliti menggunakan dua algoritma klasifikasi untuk menguji keakuratan data balancing, yaitu Naive Bayes dan CART. Proses balancing yang dilakukan oleh peneliti menggunakan metode balancing data dengan algoritma SMOTE. Dengan langkah-langkah yang peneliti lakukan di atas menghasilkan akurasi algoritma Naive Bayes dengan data sebelum menyeimbangkan 43,8% dengan nilai AUC 0,373 dan setelah menyeimbangkan data menghasilkan akurasi 39,06% dengan nilai AUC 0,475. Untuk algoritma CART, nilai akurasi sebelum menyeimbangkan data adalah 47,67% dengan nilai AUC 0,391, kemudian akurasi yang dihasilkan setelah saldo data untuk algoritma CART mencapai 55,73% dengan nilai AUC 0,492. dengan demikian menunjukkan pengaruh keseimbangan dan ketidakseimbangan data terhadap kinerja algoritma klasifikasi Naive Bayes dan CART.

Download Full-text

The Impact of Data Preprocessing on the Performance of a Naive Bayes Classifier

2016 IEEE 40th Annual Computer Software and Applications Conference (COMPSAC) ◽

10.1109/compsac.2016.205 ◽

2016 ◽

Cited By ~ 7

Author(s):

Priyanga Chandrasekar ◽

Kai Qian

Keyword(s):

Naive Bayes ◽

Data Preprocessing ◽

Naïve Bayes ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier ◽

The Impact

Download Full-text

IMPLEMENTASI LEXICON BASED DAN NAIVE BAYES PADA ANALISIS SENTIMEN PENGGUNA TWITTER TOPIK PEMILIHAN PRESIDEN 2019

Jurnal Ilmiah Informatika Komputer ◽

10.35760/ik.2019.v24i2.2369 ◽

2019 ◽

Vol 24 (2) ◽

pp. 140-153

Author(s):

Gusti Nur Aulia ◽

Eka Patriya

Keyword(s):

Naive Bayes ◽

Confusion Matrix ◽

Web Server ◽

Data Preprocessing ◽

Naïve Bayes ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Data Filtering ◽

Naïve Bayes Classifier ◽

Twitter Data

Pilpres saat ini cukup menyita perhatian, karena berbagai rumor yang beredar. Masyarakat juga menjadi sasaran elit politik, dimana suara mereka merupakan penentu keberlangsungan arah politik untuk lima tahun kedepan. Opini-opini positif, netral maupun negatif dapat menimbulkan ancaman munculnya berita bohong (hoax). Salah satu sarana yang digunakan masyarakat dalam mengekspresikan pilihan politiknya adalah melalui media sosial salah satunya twitter. Data seperti opini publik dapat diolah menjadi sebuah informasi yang bermanfaat, salah satunya melalui analisis sentimen. Pada penelitian ini, akan dilakukan analisis sentimen pada Twitter tentang pemilihan presiden 2019. Tahapan analisis sentimen pada penelitian ini terdiri dari akuisisi data, pre-processing, klasifikasi data, evaluasi data dan visualisasi data. Preprocessing dilakukan dengan case folding, normalisasi data, filtering, ubah kata baku, stopword dan stemming. Penelitian ini melakukan 2 metode yaitu dengan metode Lexicon Based dan Naïve Bayes Classifier. Hasil akhir dari analisis kemudian dihitung nilai akurasi menggunakan confusion matrix dan di visualisasikan menggunakan web server. Penentuan sentimen prediksi dilakukan menggunakan metode Lexicon Based dan Labelisasi dengan perhitungan secara manual. Data latih dan data uji akan digunakan dalam proses pelatihan dan pengujian menggunakan Naive Bayes Classiﬁer. Hasil klasiﬁkasi yang dilakukan oleh metode Naive Bayes Classiﬁer disebut sentimen aktual. Perhitungan tingkat keakurasian antara sentimen prediksi terhadap sentimen aktual menggunakan pengujian confusion matrix. Hasil yang didapatkan adalah tingkat akurasi antara sentimen prediksi dan sentimen aktual dengan Lexicon Based sebesar 64,49% pada data uji dan pada data latih sebanyak 94,2% serta dengan menggunakan Labelisasi dan Naive Bayes Classiﬁer sebesar 86,53% pada data uji dan data latih sebesar 94,08%. Hasil penelitian ini diharapkan dapat membantu melakukan riset atas opini masyarakat pada Twitter mengenai Pilpres 2019 yang mengandung sentimen positif, negatif atau netral.

Download Full-text

Klasifikasi Malicious Websites Menggunakan Algoritma K-NN Berdasarkan Application Layers dan Network Characteristics

CogITo Smart Journal ◽

10.31154/cogito.v4i1.100.37-45 ◽

2018 ◽

Vol 4 (1) ◽

pp. 37

Author(s):

Green Arther Sandag ◽

Jonathan Leopold ◽

Vinky Fransiscus Ong

Keyword(s):

Feature Selection ◽

Data Reduction ◽

Nearest Neighbor ◽

Naive Bayes ◽

Data Cleaning ◽

Data Preprocessing ◽

Naïve Bayes ◽

Application Layer ◽

K Nearest Neighbor ◽

Network Characteristics

Dalam kehidupan di era teknologi sekarang ini semua aktivitas manusia telah dipengaruhi oleh internet. Berbagi informasi, komunikasi, sosialisasi, berbelanja, berbisnis, pendidikan dan banyak hal lainnya yang dapat dilakukan menggunakan internet. Seiring dengan berkembangnya internet berbagai macam ancaman keamanan menjadi lebih beragam. Virus adalah musuh nomor satu di internet. Virus memanfaatkan berbagai metode untuk dapat menghindari anti-virus, salah satunya adalah Malware. Malware adalah salah satu kode berbahaya yang dapat mengubah, merusak dan mencuri data pribadi yang dapat merugikan individual ataupun kelompok. Penelitian ini akan memprediksi malicious website berdasarkan application layer dan network characteristics menggunakan metode K-Nearest Neighbor. Penelitian ini menggunakan metode data cleaning dan data reduction untuk data preprocessing, dan feature selection untuk pemilihan attribut yang paling berpengaruh pada malicious website. Untuk memprediksi malicious website penulis menggunakan algoritma K-NN dengan hasil 2,42% precision lebih tinggi dibandingkan dengan penelitian sebelumnya yang menggunakan algoritma Naïve Bayes. Keywords : Klasifikasi, Network Characteristics, Malicious Websites, Application Layers, K-NN, Naïve Bayes

Download Full-text

Sampling imbalance dataset for software defect prediction using hybrid neuro-fuzzy systems with Naive Bayes classifier

Tehnicki vjesnik - Technical Gazette ◽

10.17559/tv-20151219112129 ◽

2016 ◽

Vol 23 (6) ◽

Cited By ~ 1

Keyword(s):

Fuzzy Systems ◽

Naive Bayes ◽

Naïve Bayes ◽

Defect Prediction ◽

Software Defect Prediction ◽

Bayes Classifier ◽

Naïve Bayes Classifier ◽

Software Defect ◽

Neuro Fuzzy ◽

Imbalance Dataset

Download Full-text

Ekstraksi Informasi Kesehatan Masyarakat Dari Tweet Berbahasa Indonesia Berbasis Klasifikasi Dengan Algoritma Naive Bayes

Repositor ◽

10.22219/repositor.v2i2.237 ◽

2020 ◽

Vol 2 (2) ◽

pp. 193

Author(s):

Khoirir Rosikin ◽

Setio Basuki ◽

Yufis Azhar

Keyword(s):

Data Mining ◽

Big Data ◽

Text Mining ◽

Information Extraction ◽

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Disease Information ◽

Bayes Algorithm ◽

Imbalance Dataset

AbstrakKesehatan merupakan kebutuhan utama manusia. Di Indonesia terdapat permasalahan tentang kesehatan, yaitu meningkatnya penyakit menular dan penyakit tidak menular. Untuk mengatasinya perlu dilakukan tidakan pencegahan. Salah satu usaha untuk melakukan pencegahan penyakit, adalah dengan mengetahui informasi penyakit tersebut, temasuk tentang penyebab dan akibat yang ditimbulkan, sehingga bisa melakukan pencegahan. Informasi bisa didapatkan dengan berbagai macam cara, salah satunya diambil dari media sosial, terutama twitter. Twitter digunakan karena banyaknya tweet yang dihasilkan sehingga memunculkan fenomena big data. Karena hal itulah, penelitian ini bermaksud untuk melakukan suatu metode ekstraksi informasi. Ekstraksi informasi merupakan metode penerapan data mining terutama bidang text mining yang digunakan untuk mendapatkan informasi dari kumpulan banyak data. Informasi yang dimaksud adalah penyakit, akibat, dan penyebab. Penelitian ini menggunakan pendekatan ekstraksi informasi berbasis klasifikasi dengan algoritma Naive Bayes. Penelitian ini menggunakan 7 set fitur dan sebuah model algoritma klasifikasi yaitu Naive Bayes. Dalam ekstraksi fitur terjadi imbalance dataset, sehingga dilakukan resample filtering data. Pengujian dilakukan dengan 2 metode, yaitu pengujian model dengan menggunakan 10-folds cross-validation dan pengujian klasifikasi dengan menggunakan 100 data uji. Hasil dari pengujian model mendapatkan nilai akurasi 77,27% dan pengujian klasifikasi mendapatkan nilai akurasi 74,07%. AbstractHealth is a primary human need. In Indonesia there are health problems, namely the increase of infectious diseases and non-communicable diseases. To overcome this need to do precautionary measures. One effort to prevent disease, is to know the disease information, including about the causes and effects caused, so it can do prevention. Information can be obtained in various ways, one of which is taken from social media, especially twitter. Twitter is used because of the number of tweets produced resulting in big data phenomenon. Because of that, this research intends to perform an information extraction method. Information extraction is a method of application of data mining, especially the text mining field used to obtain information from a large collection of data. The information in question is a disease, effect, and cause. This research uses a classification-based information extraction approach with Naive Bayes algorithm. This research uses 7 feature sets and a model of classification algorithm that is Naive Bayes. In feature extraction there is imbalance dataset, so it is done resample filtering data. The test is done by 2 methods, namely model testing using 10-folds cross-validation and classification testing using 100 test data. The result of model test get the accuracy value 77,27% and the classification test get the accuracy value 74,07%.

Download Full-text

KLASIFIKASI PEMBAGIAN ARUS LALU LINTAS MENGGUNAKAN ALOGARITMA NAÏVE BAYES DAN MODEL LINEAR

Technologia: Jurnal Ilmiah ◽

10.31602/tji.v12i4.5626 ◽

2021 ◽

Vol 12 (4) ◽

pp. 203

Author(s):

Muhammad Firdaus Abdi ◽

Sri Yanto Qodarbaskoro ◽

Aisha Alfani ◽

Kusrini Kusrini ◽

Dina Maulina

Keyword(s):

Linear Model ◽

Traffic Flow ◽

Input Data ◽

Naive Bayes ◽

Data Preprocessing ◽

Naïve Bayes ◽

Flow Data ◽

Bayes Method ◽

The Road ◽

Naive Bayes Method

AbstractThe density of traffic flow is a problem for every big city, especially as it is easy to have a private vehicle, causing the flow to increase every year. So to overcome traffic flow, a system that can make optimal traffic performance is needed is needed. The purpose of this study is to determine whether the road conditions are empty, smooth, dense and very congested so as to produce a prediction of road options whether to continue passing the road or find another way, as well as to test the accuracy of traffic flow using the naive bayes method and the liner model. The classification stages carried out are data input, data preprocessing, classification, and the results of accuracy, precision, and recall. And the results of this study the naive bayes method obtained higher accuracy than the linear model, namely for naive bayes accuracy 95.70%, precision 95.67%, and recall 100%, while for naive bayes accuracy 92.10%, precision 95.68%, and recall 96.20%. then the result is the naive bayes method is superior in the traffic flow data classification process. And the results of decision making obtained results from traffic flow data obtained that the road is empty so that the road can be passed without having to find another way. Keywords - Classification, Naive Bayes, Traffic, Linear Model, Flow Density AbstrakKepadatan arus lalu lintas menjadi masalah setiap kota-kota besar, apalagi seiring mudah nya dalam memiliki kendaraan pribadi sehingga menimbulkan arus yang meningkat pada setiap tahunnya. Maka untuk penanggulangan arus lalu lintas dibutuhkan sistem yang bisa membuat kinerja lalu lintas yang optimal. Tujuan penelitian ini adalah mengetahui kondisi jalan apakah lengang, lancar, padat dan sangat padat sehingga menghasilkan prediksi opsi jalan apakah tetap melewati jalan tersebut atau mencari jalan lain, serta menguji tingkat akurasi arus lalu lintas menggunakan metode naive bayes dan model liner. Dengan tahapan klasifikasi yang dilakukan yaitu input data, preprocessing data, klasifikasi, dan hasil accuracy, precision, dan recall. Dan hasil penelitian ini metode naive bayes mendapatkan accuracy lebih tinggi dari model linier yaitu untuk naive bayes accuracy 95.70%, precision 95.67%, dan recall 100%, sedangkan untuk naive bayes accuracy 92.10%, precision 95.68%, dan recall 96.20%. maka hasilnya metode naive bayes lebih unggul dalam proses klasifikasi data arus lalu lintas. Dan hasil dari pengambilan keputusan didapat hasil dari data arus lalu lintas didapatkan jalan tersebut lengang sehingga jalan tersebut dapat dilalui tanpa harus mencari jalan lain. Kata Kunci - Klasifikasi, Naive Bayes, Lalu Lintas, Model Linier, Kepadatan Arus

Download Full-text

Penerapan Algoritma Naïve Bayes Untuk Klasifikasi Penyakit Diabetes Mellitus

Jurnal SISKOM-KB (Sistem Komputer dan Kecerdasan Buatan) ◽

10.47970/siskom-kb.v4i1.169 ◽

2020 ◽

Vol 4 (1) ◽

pp. 15-21

Author(s):

Achmad Ridwan

Keyword(s):

Diabetes Mellitus ◽

Machine Learning ◽

Naive Bayes ◽

Early Stage ◽

Data Preprocessing ◽

Naïve Bayes ◽

Diabetes Risk ◽

Naive Bayes Classification ◽

Naïve Bayes Classification

Diabetes Mellitus atau kencing manis adalah penyakit metabolisme disebabkan oleh kadar gula tinggi didalam darah. Gula darah disimpan atau digunakan untuk energi yang berasal dari darah yang dipindahkan ke sel manusia oleh hormon insulin . ketika terserang Diabetes, pada tubuh manusia insulin tidak biasa dihasilkan secara cukup bahkan tubuh tidak dapat menggunakan insulin tersebut secara benar sesuai kebutuhan. Diabetes Mellitus terdaftar sebagai penyakit penyumbang kematian terbesar terbesar didunia. Diabetes Mellitus dapat diklasifikasikan berdasarkan kemungkinan terkenanya dari atribut gejala diawal fasenya. penyakit ini bisa dideteksi karena banyak gejala yang terdeteksi. Data yang digunakan pada analisis ini merupakan data dari dataset UCI Machine Learning yaitu Early Stage Diabetes Risk tahun 2020 dan terdiri 17 attribut. Analisis yang dilakukan meliputi data preprocessing, model, dan evaluasi. Pengujian Metode klasifikasi pada riset adalah Naïve Bayes Classification. Hasil klasifikasi menunjukkan akurasi sebesar 90.20% dan nilai AUCnya yaitu 0,95

Download Full-text

Study of Sentiment of Governor's Election Opinion in 2018

International Journal of Scientific Research in Science Engineering and Technology ◽

10.32628/ijsrset21841124 ◽

2018 ◽

pp. 231-238

Author(s):

Agung Eddy Suryo Saputro ◽

Khairil Anwar Notodiputro ◽

Indahwati A

Keyword(s):

Sentiment Analysis ◽

Naive Bayes ◽

Naïve Bayes ◽

Addition Method ◽

Sentiment Mining ◽

Positive Sentiment ◽

KLASIFIKASI SMS SPAM MENGGUNAKAN SUPPORT VECTOR MACHINE

Jurnal Pilar Nusa Mandiri ◽

10.33480/pilar.v15i2.693 ◽

2019 ◽

Vol 15 (2) ◽

pp. 275-280

Author(s):

Agus Setiyono ◽

Hilman F Pardede

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Decision Tree ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector ◽

Spam Detection ◽

Support Vector Machine Algorithm ◽

Data Mining Techniques ◽

To Receive

It is now common for a cellphone to receive spam messages. Great number of received messages making it difficult for human to classify those messages to Spam or no Spam. One way to overcome this problem is to use Data Mining for automatic classifications. In this paper, we investigate various data mining techniques, named Support Vector Machine, Multinomial Naïve Bayes and Decision Tree for automatic spam detection. Our experimental results show that Support Vector Machine algorithm is the best algorithm over three evaluated algorithms. Support Vector Machine achieves 98.33%, while Multinomial Naïve Bayes achieves 98.13% and Decision Tree is at 97.10 % accuracy.

Download Full-text

Klasifikasi Tahap Kematangan Pisang Ambon Berdasarkan Warna Menggunakan Naive Bayes

PIKSEL : Penelitian Ilmu Komputer Sistem Embedded and Logic ◽

10.33558/piksel.v5i2.268 ◽

2018 ◽

Vol 5 (2) ◽

pp. 60-67 ◽

Cited By ~ 1

Author(s):

Dwi Yulianto ◽

Retno Nugroho Whidhiasih ◽

Maimunah Maimunah

Keyword(s):

Naive Bayes ◽

Fruit Production ◽

Naïve Bayes ◽

Primary Data ◽

Banana Fruit ◽

Bayes Method ◽

Classification Image ◽

Average Accuracy ◽

The Government

ABSTRACT Banana fruit is a commodity that contributes a great value to both national and international fruit production achievement. The government through the National Standardization Agency establishes standards to maintain the quality of bananas. The purpose of this Project is to classify the stages of maturity of Ambon banana base on the color index using Naïve Bayes method in accordance with the regulations of SNI 7422:2009. Naive Bayes is used as a method in the classification process by comparing the probability values generated from the variable value of each model to determine the stage of Ambon banana maturity. The data used is the primary data image of 105 pieces of Ambon banana. By using 3 models which consists of different variables obtained the same greatest average accuracy by using the 2nd model which has 9 variable values (r, g, b, v, * a, * b, entropy, energy, and homogeneity) and the 3rd model has 7 variable values (r, g, b, v , * a, entropy and homogeneity) that is 90.48%. Keywords: banana maturity, classification, image processing ABSTRAK Buah pisang merupakan komoditas yang memberikan kontribusi besar terhadap angka produksi buah nasional maupun internasional. Pemerintah melalui Badan Standarisasi Nasional menetapkan standar untuk buah pisang, menjaga mutu buah pisang. Tujuan dari penelitian ini adalah klasifikasi tahapan kematangan dari buah pisang ambon berdasarkan indeks warna menggunakan metode Naïve Bayes sesuai dengan SNI 7422:2009. Naive bayes digunakan sebagai metode dalam proses pengklasifikasian dengan cara membandingkan nilai probabilitas yang dihasilkan dari nilai variabel penduga setiap model untuk menentukan tahap kematangan pisang ambon. Data yang digunakan adalah data primer citra pisang ambon sebanyak 105. Dengan menggunakan 3 buah model yang terdiri dari variabel penduga yang berbeda didapatkan akurasi rata-rata terbesar yang sama yaitu dengan menggunakan model ke-2 yang mempunyai 9 nilai variabel (r, g, b, v, *a, *b, entropi, energi, dan homogenitas) dan model ke-3 yang mempunyai 7 nilai variabel (r, g, b, v, *a, entropi dan homogenitas) yaitu sebesar 90.48%. Kata Kunci : kematangan pisang, klasifikasi, pengolahan citra

Download Full-text