Hybrid feature selection approach using bacterial foraging algorithm guided by Naive Bayes classification

Author(s):  
Divya Mittal ◽  
Manju Bala
2020 ◽  
Vol 7 (1) ◽  
pp. 46-54
Author(s):  
Jasman Pardede

Pesatnya perkembangan teknologi dan media sosial dapat memudahkan pengguna untuk menyampaikan informasi. Selain itu, media sosial juga memberikan dampak negatif dengan cara memposting tulisan kejam atau berkomentar semena-mena tanpa memikirkan akibat pada orang lain. Hal inilah yang menjadikan salah satu terjadinya tindak kekerasan dalam dunia maya (Cyberbullying). Tahapan awal yang dilakukan dalam penelitian ini adalah pengolahan bahasa atau yang disebut dengan text preprocessing meliputi tokenizing,casefolding, stopword removal dan stemming. Kemudian feature selection yaitu mengubah dokument teks menjadi matriks dengan tujuan untuk mendapatkan fitur pada setiap kata untuk dijadikan parameter atau kriteria klasifikasi. Untuk pengambilan keputusan apakah komentar mengandung makna bully atau nonbully menggunakan algoritma Naïve Bayes Classification dengan model multinomial naïve bayes. Perhitungan yang dilakukan adalah menghitung nilai probabilitas setiap kata yang muncul berdasarkan classdan nilai perkalian class conditional probability. Berdasarkan hasil eksperimen menggunakan dataset “cyberbullying comments” yang diambil dari Kaggle  akurasi yang didapat sebesar 80%, precission 81% dan recall 80%.


2009 ◽  
Vol 179 (19) ◽  
pp. 3218-3229 ◽  
Author(s):  
Min-Ling Zhang ◽  
José M. Peña ◽  
Victor Robles

Author(s):  
Lungan Zhang ◽  
Liangxiao Jiang ◽  
Chaoqun Li

Handling text data is a challenge for machine learning because text data is high dimensional in many cases. Feature selection has been approved to be an effective approach to handle high-dimensional data. Feature selection approaches can be broadly divided into two categories: filter approaches and wrapper approaches. Generally, wrapper approaches have superior accuracy compared to filters, but filters always run faster than wrapper approaches. In order to integrate the advantages of filter approaches and wrapper approaches, we propose a gain ratio-based hybrid feature selection approach to naive Bayes text classifiers. The hybrid feature selection approach uses base classifiers to evaluate feature subsets like wrapper approaches, but it need not repeatedly search feature subsets and build base classifiers. The experimental results on large suite of benchmark text datasets show that the proposed hybrid feature selection approach significantly improves the classification accuracy of the original naive Bayes text classifiers while does not incur the high time complexity that characterizes wrapper approaches.


Sign in / Sign up

Export Citation Format

Share Document