scholarly journals Data Balancing untuk Mengatasi Imbalance Dataset pada Prediksi Produksi Padi

Author(s):  
Khafid Akbar ◽  
Mardhiya Hayaty

Padi adalah salah satu hasil tanaman pangan di Indonesia yang merupakan salah satu makanan pokok. Tingginya permintaan untuk produksi beras telah mengakibatkan sejumlah daerah di Indonesia membuat lumbung padi dengan setidaknya delapan daerah, yang salah satunya di Jawa Timur. Kebutuhan untuk memproses data terkait pasokan makanan, terutama beras, merupakan salah satu faktor penting untuk mengantisipasi tingkat permintaan di masa depan. Langkah yang dilakukan dalam penelitian ini untuk mencapai hasil yang diharapkan adalah dengan melakukan proses penambangan data yaitu mengumpulkan data, preprocessing data, mengimplementasikan algoritma pada data yang ada, dan mengevaluasi hasil. Dalam penelitian ini, peneliti menggunakan dua algoritma klasifikasi untuk menguji keakuratan data balancing, yaitu Naive Bayes dan CART. Proses balancing yang dilakukan oleh peneliti menggunakan metode balancing data dengan algoritma SMOTE. Dengan langkah-langkah yang peneliti lakukan di atas menghasilkan akurasi algoritma Naive Bayes dengan data sebelum menyeimbangkan 43,8% dengan nilai AUC 0,373 dan setelah menyeimbangkan data menghasilkan akurasi 39,06% dengan nilai AUC 0,475. Untuk algoritma CART, nilai akurasi sebelum menyeimbangkan data adalah 47,67% dengan nilai AUC 0,391, kemudian akurasi yang dihasilkan setelah saldo data untuk algoritma CART mencapai 55,73% dengan nilai AUC 0,492. dengan demikian menunjukkan pengaruh keseimbangan dan ketidakseimbangan data terhadap kinerja algoritma klasifikasi Naive Bayes dan CART.    

2019 ◽  
Vol 24 (2) ◽  
pp. 140-153
Author(s):  
Gusti Nur Aulia ◽  
Eka Patriya

Pilpres saat ini cukup menyita perhatian, karena berbagai rumor yang beredar. Masyarakat juga menjadi sasaran elit politik, dimana suara mereka merupakan penentu keberlangsungan arah politik untuk lima tahun kedepan. Opini-opini positif, netral maupun negatif dapat menimbulkan ancaman munculnya berita bohong (hoax). Salah satu sarana yang digunakan masyarakat dalam mengekspresikan pilihan politiknya adalah melalui media sosial salah satunya twitter. Data seperti opini publik dapat diolah menjadi sebuah informasi yang bermanfaat, salah satunya melalui analisis sentimen. Pada penelitian ini, akan dilakukan analisis sentimen pada Twitter tentang pemilihan presiden 2019. Tahapan analisis sentimen pada penelitian ini terdiri dari akuisisi data, pre-processing, klasifikasi data, evaluasi data dan visualisasi data. Preprocessing dilakukan dengan case folding, normalisasi data, filtering, ubah kata baku, stopword dan stemming. Penelitian ini melakukan 2 metode yaitu dengan metode Lexicon Based dan Naïve Bayes Classifier. Hasil akhir dari analisis kemudian dihitung nilai akurasi menggunakan confusion matrix dan di visualisasikan menggunakan web server. Penentuan sentimen prediksi dilakukan menggunakan metode Lexicon Based dan Labelisasi dengan perhitungan secara manual. Data latih dan data uji akan digunakan dalam proses pelatihan dan pengujian menggunakan Naive Bayes Classifier. Hasil klasifikasi yang dilakukan oleh metode Naive Bayes Classifier disebut sentimen aktual. Perhitungan tingkat keakurasian antara sentimen prediksi terhadap sentimen aktual menggunakan pengujian confusion matrix. Hasil yang didapatkan adalah tingkat akurasi antara sentimen prediksi dan sentimen aktual dengan Lexicon Based sebesar 64,49% pada data uji dan pada data latih sebanyak 94,2% serta dengan menggunakan Labelisasi dan Naive Bayes Classifier sebesar 86,53% pada data uji dan data latih sebesar 94,08%. Hasil penelitian ini diharapkan dapat membantu melakukan riset atas opini masyarakat pada Twitter mengenai Pilpres 2019 yang mengandung sentimen positif, negatif atau netral.


2018 ◽  
Vol 4 (1) ◽  
pp. 37
Author(s):  
Green Arther Sandag ◽  
Jonathan Leopold ◽  
Vinky Fransiscus Ong

Dalam kehidupan di era teknologi sekarang ini semua aktivitas manusia telah dipengaruhi oleh internet. Berbagi informasi, komunikasi, sosialisasi, berbelanja, berbisnis, pendidikan dan banyak hal lainnya yang dapat dilakukan menggunakan internet. Seiring dengan berkembangnya internet berbagai macam ancaman keamanan menjadi lebih beragam. Virus adalah musuh nomor satu di internet. Virus memanfaatkan berbagai metode untuk dapat menghindari anti-virus, salah satunya adalah Malware. Malware adalah salah satu kode berbahaya yang dapat mengubah, merusak dan mencuri data pribadi yang dapat merugikan individual ataupun kelompok. Penelitian ini akan memprediksi malicious website berdasarkan application layer dan network characteristics menggunakan metode K-Nearest Neighbor. Penelitian ini menggunakan metode data cleaning dan data reduction untuk data preprocessing, dan feature selection untuk pemilihan attribut yang paling berpengaruh pada malicious website. Untuk memprediksi malicious website penulis menggunakan algoritma K-NN dengan hasil 2,42% precision lebih tinggi dibandingkan dengan penelitian sebelumnya yang menggunakan algoritma Naïve Bayes.  Keywords : Klasifikasi, Network Characteristics, Malicious Websites, Application Layers, K-NN, Naïve Bayes


Repositor ◽  
2020 ◽  
Vol 2 (2) ◽  
pp. 193
Author(s):  
Khoirir Rosikin ◽  
Setio Basuki ◽  
Yufis Azhar

AbstrakKesehatan merupakan kebutuhan utama manusia. Di Indonesia terdapat  permasalahan tentang kesehatan, yaitu meningkatnya penyakit menular dan penyakit tidak menular. Untuk mengatasinya perlu dilakukan tidakan pencegahan. Salah satu usaha untuk melakukan pencegahan penyakit, adalah dengan mengetahui informasi penyakit tersebut, temasuk tentang penyebab dan akibat yang ditimbulkan, sehingga bisa melakukan pencegahan. Informasi bisa didapatkan dengan berbagai macam cara, salah satunya diambil dari media sosial, terutama twitter. Twitter digunakan karena banyaknya tweet yang dihasilkan sehingga memunculkan fenomena big data. Karena hal itulah, penelitian ini bermaksud untuk melakukan suatu metode ekstraksi informasi. Ekstraksi informasi merupakan metode penerapan data mining terutama bidang text mining yang digunakan untuk mendapatkan informasi dari kumpulan banyak data. Informasi yang dimaksud adalah penyakit, akibat, dan penyebab. Penelitian ini menggunakan pendekatan ekstraksi informasi berbasis klasifikasi dengan algoritma Naive Bayes. Penelitian ini menggunakan 7 set fitur dan sebuah model algoritma klasifikasi yaitu Naive Bayes. Dalam ekstraksi fitur terjadi imbalance dataset, sehingga dilakukan resample filtering data. Pengujian dilakukan dengan 2 metode, yaitu pengujian model dengan menggunakan 10-folds cross-validation dan pengujian klasifikasi dengan menggunakan 100 data uji. Hasil dari pengujian model mendapatkan nilai akurasi 77,27% dan pengujian klasifikasi mendapatkan nilai akurasi 74,07%. AbstractHealth is a primary human need. In Indonesia there are health problems, namely the increase of infectious diseases and non-communicable diseases. To overcome this need to do precautionary measures. One effort to prevent disease, is to know the disease information, including about the causes and effects caused, so it can do prevention. Information can be obtained in various ways, one of which is taken from social media, especially twitter. Twitter is used because of the number of tweets produced resulting in big data phenomenon. Because of that, this research intends to perform an information extraction method. Information extraction is a method of application of data mining, especially the text mining field used to obtain information from a large collection of data. The information in question is a disease, effect, and cause. This research uses a classification-based information extraction approach with Naive Bayes algorithm. This research uses 7 feature sets and a model of classification algorithm that is Naive Bayes. In feature extraction there is imbalance dataset, so it is done resample filtering data. The test is done by 2 methods, namely model testing using 10-folds cross-validation and classification testing using 100 test data. The result of model test get the accuracy value 77,27% and the classification test get the accuracy value 74,07%.


2021 ◽  
Vol 12 (4) ◽  
pp. 203
Author(s):  
Muhammad Firdaus Abdi ◽  
Sri Yanto Qodarbaskoro ◽  
Aisha Alfani ◽  
Kusrini Kusrini ◽  
Dina Maulina

AbstractThe density of traffic flow is a problem for every big city, especially as it is easy to have a private vehicle, causing the flow to increase every year. So to overcome traffic flow, a system that can make optimal traffic performance is needed is needed. The purpose of this study is to determine whether the road conditions are empty, smooth, dense and very congested so as to produce a prediction of road options whether to continue passing the road or find another way, as well as to test the accuracy of traffic flow using the naive bayes method and the liner model. The classification stages carried out are data input, data preprocessing, classification, and the results of accuracy, precision, and recall. And the results of this study the naive bayes method obtained higher accuracy than the linear model, namely for naive bayes accuracy 95.70%, precision 95.67%, and recall 100%, while for naive bayes accuracy 92.10%, precision 95.68%, and recall 96.20%. then the result is the naive bayes method is superior in the traffic flow data classification process. And the results of decision making obtained results from traffic flow data obtained that the road is empty so that the road can be passed without having to find another way.  Keywords  - Classification, Naive Bayes, Traffic, Linear Model, Flow Density AbstrakKepadatan arus lalu lintas menjadi masalah setiap kota-kota besar, apalagi seiring mudah nya dalam memiliki kendaraan pribadi sehingga menimbulkan arus yang meningkat pada setiap tahunnya. Maka untuk penanggulangan arus lalu lintas dibutuhkan sistem yang bisa membuat kinerja lalu lintas yang optimal. Tujuan penelitian ini adalah mengetahui kondisi jalan apakah lengang, lancar, padat dan sangat padat sehingga menghasilkan prediksi opsi jalan apakah tetap melewati jalan tersebut atau mencari jalan lain, serta menguji tingkat akurasi arus lalu lintas menggunakan metode naive bayes dan model liner. Dengan tahapan klasifikasi yang dilakukan yaitu input data, preprocessing data, klasifikasi, dan hasil accuracy, precision, dan recall. Dan hasil penelitian ini metode naive bayes mendapatkan accuracy lebih tinggi dari model linier yaitu untuk naive bayes accuracy 95.70%, precision 95.67%, dan recall 100%, sedangkan untuk naive bayes accuracy 92.10%, precision 95.68%, dan recall 96.20%. maka hasilnya metode naive bayes lebih unggul dalam proses klasifikasi data arus lalu lintas. Dan hasil dari pengambilan keputusan didapat hasil dari data arus lalu lintas didapatkan jalan tersebut lengang sehingga jalan tersebut dapat dilalui tanpa harus mencari jalan lain. Kata Kunci -    Klasifikasi, Naive Bayes, Lalu Lintas, Model Linier, Kepadatan Arus


2020 ◽  
Vol 4 (1) ◽  
pp. 15-21
Author(s):  
Achmad Ridwan

Diabetes Mellitus atau kencing manis adalah penyakit metabolisme disebabkan oleh kadar gula tinggi didalam darah. Gula darah disimpan atau digunakan untuk energi yang berasal dari darah yang dipindahkan ke sel manusia oleh hormon insulin . ketika terserang Diabetes, pada tubuh manusia insulin tidak biasa dihasilkan secara cukup bahkan tubuh tidak dapat menggunakan insulin tersebut secara benar sesuai kebutuhan. Diabetes Mellitus terdaftar sebagai penyakit penyumbang kematian terbesar terbesar didunia. Diabetes Mellitus dapat diklasifikasikan berdasarkan kemungkinan terkenanya dari atribut gejala diawal fasenya. penyakit ini bisa dideteksi karena banyak gejala yang terdeteksi. Data yang digunakan pada analisis ini merupakan data dari dataset UCI Machine Learning yaitu Early Stage Diabetes Risk tahun 2020 dan terdiri 17 attribut. Analisis yang dilakukan meliputi data preprocessing, model, dan evaluasi. Pengujian Metode klasifikasi pada riset adalah Naïve Bayes Classification. Hasil klasifikasi menunjukkan akurasi sebesar 90.20% dan nilai AUCnya yaitu 0,95


Author(s):  
Agung Eddy Suryo Saputro ◽  
Khairil Anwar Notodiputro ◽  
Indahwati A

In 2018, Indonesia implemented a Governor's Election which included 17 provinces. For several months before the Election, news and opinions regarding the Governor's Election were often trending topics on Twitter. This study aims to describe the results of sentiment mining and determine the best method for predicting sentiment classes. Sentiment mining is based on Lexicon. While the methods used for sentiment analysis are Naive Bayes and C5.0. The results showed that the percentage of positive sentiment in 17 provinces was greater than the negative and neutral sentiments. In addition, method C5.0 produces a better prediction than Naive Bayes.


2019 ◽  
Vol 15 (2) ◽  
pp. 275-280
Author(s):  
Agus Setiyono ◽  
Hilman F Pardede

It is now common for a cellphone to receive spam messages. Great number of received messages making it difficult for human to classify those messages to Spam or no Spam.  One way to overcome this problem is to use Data Mining for automatic classifications. In this paper, we investigate various data mining techniques, named Support Vector Machine, Multinomial Naïve Bayes and Decision Tree for automatic spam detection. Our experimental results show that Support Vector Machine algorithm is the best algorithm over three evaluated algorithms. Support Vector Machine achieves 98.33%, while Multinomial Naïve Bayes achieves 98.13% and Decision Tree is at 97.10 % accuracy.


2018 ◽  
Vol 5 (2) ◽  
pp. 60-67 ◽  
Author(s):  
Dwi Yulianto ◽  
Retno Nugroho Whidhiasih ◽  
Maimunah Maimunah

ABSTRACT   Banana fruit is a commodity that contributes a great value to both national and international fruit production achievement. The government through the National Standardization Agency establishes standards to maintain the quality of bananas. The purpose of this Project is to classify the stages of maturity of Ambon banana base on the color index using Naïve Bayes method in accordance with the regulations of SNI 7422:2009. Naive Bayes is used as a method in the classification process by comparing the probability values generated from the variable value of each model to determine the stage of Ambon banana maturity. The data used is the primary data image of 105 pieces of Ambon banana. By using 3 models which consists of different variables obtained the same greatest average accuracy by using the 2nd model which has 9 variable values (r, g, b, v, * a, * b, entropy, energy, and homogeneity) and the 3rd model has 7 variable values (r, g, b, v , * a, entropy and homogeneity) that is 90.48%.   Keywords: banana maturity, classification, image processing     ABSTRAK   Buah pisang merupakan komoditas yang memberikan kontribusi besar terhadap angka produksi buah nasional maupun internasional. Pemerintah melalui Badan Standarisasi Nasional menetapkan standar untuk buah pisang, menjaga mutu  buah pisang. Tujuan dari penelitian ini adalah klasifikasi tahapan kematangan dari buah pisang ambon berdasarkan indeks warna menggunakan metode Naïve Bayes  sesuai dengan SNI 7422:2009. Naive bayes digunakan sebagai metode dalam proses pengklasifikasian dengan cara membandingkan nilai probabilitas yang dihasilkan dari nilai variabel penduga setiap model untuk menentukan tahap kematangan pisang ambon. Data yang digunakan adalah data primer citra pisang ambon sebanyak 105. Dengan menggunakan 3 buah model yang terdiri dari variabel penduga yang berbeda didapatkan akurasi rata-rata terbesar yang sama yaitu dengan menggunakan model ke-2 yang mempunyai 9 nilai variabel (r, g, b, v, *a, *b, entropi, energi, dan homogenitas) dan model ke-3 yang mempunyai 7 nilai variabel (r, g, b, v, *a, entropi dan homogenitas) yaitu sebesar 90.48%.   Kata Kunci : kematangan pisang,  klasifikasi, pengolahan citra


Sign in / Sign up

Export Citation Format

Share Document