The Impact of Data Preprocessing on the Performance of a Naive Bayes Classifier

Author(s):  
Priyanga Chandrasekar ◽  
Kai Qian
2021 ◽  
Vol 12 (03) ◽  
pp. 15-24
Author(s):  
Swetha Sree Cheeti ◽  
Yanyan Li ◽  
Ahmad Hadaegh

Education system has been gravely affected due to widespread of Covid-19 across the globe. In this paper we present a thorough sentiment analysis of tweets related to education available on twitter platform and deduce conclusions about its impact on people’s emotions as the pandemic advanced over the months. Through twitter over ninety thousand tweets have been gathered related to the circumstances involving the change in education system over the world. Using Natural language tool kit (NLTK) functionalities and Naive Bayes Classifier a sentiment analysis has been performed on the gathered dataset. Based on the results of this analysis we infer to exhibit the impact of covid-19 on education and how people’s sentiment altered due to the changes with regard to the education system. Thus, we would like to present a better understanding of people’s sentiment on education while trying to cope with the pandemic in such unprecedented times.


2019 ◽  
Vol 24 (2) ◽  
pp. 140-153
Author(s):  
Gusti Nur Aulia ◽  
Eka Patriya

Pilpres saat ini cukup menyita perhatian, karena berbagai rumor yang beredar. Masyarakat juga menjadi sasaran elit politik, dimana suara mereka merupakan penentu keberlangsungan arah politik untuk lima tahun kedepan. Opini-opini positif, netral maupun negatif dapat menimbulkan ancaman munculnya berita bohong (hoax). Salah satu sarana yang digunakan masyarakat dalam mengekspresikan pilihan politiknya adalah melalui media sosial salah satunya twitter. Data seperti opini publik dapat diolah menjadi sebuah informasi yang bermanfaat, salah satunya melalui analisis sentimen. Pada penelitian ini, akan dilakukan analisis sentimen pada Twitter tentang pemilihan presiden 2019. Tahapan analisis sentimen pada penelitian ini terdiri dari akuisisi data, pre-processing, klasifikasi data, evaluasi data dan visualisasi data. Preprocessing dilakukan dengan case folding, normalisasi data, filtering, ubah kata baku, stopword dan stemming. Penelitian ini melakukan 2 metode yaitu dengan metode Lexicon Based dan Naïve Bayes Classifier. Hasil akhir dari analisis kemudian dihitung nilai akurasi menggunakan confusion matrix dan di visualisasikan menggunakan web server. Penentuan sentimen prediksi dilakukan menggunakan metode Lexicon Based dan Labelisasi dengan perhitungan secara manual. Data latih dan data uji akan digunakan dalam proses pelatihan dan pengujian menggunakan Naive Bayes Classifier. Hasil klasifikasi yang dilakukan oleh metode Naive Bayes Classifier disebut sentimen aktual. Perhitungan tingkat keakurasian antara sentimen prediksi terhadap sentimen aktual menggunakan pengujian confusion matrix. Hasil yang didapatkan adalah tingkat akurasi antara sentimen prediksi dan sentimen aktual dengan Lexicon Based sebesar 64,49% pada data uji dan pada data latih sebanyak 94,2% serta dengan menggunakan Labelisasi dan Naive Bayes Classifier sebesar 86,53% pada data uji dan data latih sebesar 94,08%. Hasil penelitian ini diharapkan dapat membantu melakukan riset atas opini masyarakat pada Twitter mengenai Pilpres 2019 yang mengandung sentimen positif, negatif atau netral.


2021 ◽  
Author(s):  
Deniz Ertuncay ◽  
Giovanni Costa

AbstractNear-fault ground motions may contain impulse behavior on velocity records. To calculate the probability of occurrence of the impulsive signals, a large dataset is collected from various national data providers and strong motion databases. The dataset has a large number of parameters which carry information on the earthquake physics, ruptured faults, ground motion parameters, distance between the station and several parts of the ruptured fault. Relation between the parameters and impulsive signals is calculated. It is found that fault type, moment magnitude, distance and azimuth between a site of interest and the surface projection of the ruptured fault are correlated with the impulsiveness of the signals. Separate models are created for strike-slip faults and non-strike-slip faults by using multivariate naïve Bayes classifier method. Naïve Bayes classifier allows us to have the probability of observing impulsive signals. The models have comparable accuracy rates, and they are more consistent on different fault types with respect to previous studies.


Sign in / Sign up

Export Citation Format

Share Document