Feature selection for chemical compound extraction using wrapper approach with Naive Bayes classifier

Author(s):  
Basel Alshaikhdeeb ◽  
Kamsuriah Ahmad
SinkrOn ◽  
2020 ◽  
Vol 5 (1) ◽  
Author(s):  
Miftahul Kahfi Al Fath ◽  
Arini Arini ◽  
Nasrul Hakiem

Sentiment analysis is an important and emerging research topic today. Sentiment analysis is done to see opinion or tendency of opinion to a problem or object by someone, whether it tends to have a negative or positive view. The main purpose of this study is to find out public sentiment on Full Day school's policy comment from Facebook Page of Kemendikbud RI and to find out the performance of the Naïve Bayes Classifier Algorithm. In this study, the authors used the Naïve Bayes Classifier algorithm with trigram and quad ram character feature selection with two different training data models and labeling of training data using Lexicon Based method in the classification of public sentiment toward the Full day school policy. The result of this research shows that public negative sentiment toward Full Day School policy is more than positive or neutral sentiment. The highest accuracy value is the Naïve Bayes Classifier algorithm with trigram feature selection of 300 data training models with a value of 80%. The greater of training data and feature selection used on the Naïve Bayes Classifier Algorithm affected the accurate result.


Author(s):  
Maria Arista Ulfa ◽  
Budi Irmawati ◽  
Ario Yudo Husodo

Analisis sentimen merupakan suatu teknik idetifikasi terhadap emosi yangdiekspresikan melalui teks. Tujuan analisis sentimen adalah menentukan apakah suatupendapat dalam kalimat atau dokumen termasuk kategori positif ataunegatif. Twitter merupakan salah satu media sosial yang sering digunakan dalammenyampaikan pendapat. Twitter memungkinkan penggunanya (user) untuk menulispendapat mereka mengenai berbagai topik dalam sebuah tweet. Data twitter dalampenelitian ini didownload melalui twitter Application Programming Interface (API).Data twitter tersebut terdiri dari 500 tweet tentang pariwisata Lombok dengan hashtag#lombok dan #woderfullombok. Fitur informasi dari setiap tweet diseleksimenggunakan metode Mutual Information dan dianalisis menggunakan modelklasifikasi Naïve Bayes (Naïve Bayes Classifier). Hasil pengujian klasifikasisentimen twitter pada kategori positif dan negatif menggunakan 10-fold crossvalidation memperoleh akurasi rata-rata sebesar 97,9%.Kata kunci : Analisis Sentimen, Twitter, Naïve Bayes Classifier, Mutual Information


2017 ◽  
Vol 2 (1) ◽  
pp. 14
Author(s):  
Yono Cahyono

Pengguna media sosial saat ini sangat besar; dimana setiap orang mengungkapkan pendapat; komentar; kritik dan lain-lain. Data tersebut memberikan informasi yang berharga untuk dapat membantu orang atau organisasi dalam pengambilan keputusan. Jumlah data yang sangat besar tidak mungkin bagi manusia untuk membaca dan menganalisis secara manual. Ansalisis Sentiment merupakan proses dalam menganalisis; memahami; dan mengklasifikasi pendapat; evaluasi; penilaian; sikap; dan emosi terhadap suatu entitas tertentu seperti produk; jasa; organisasi; individu; peristiwa; topik; guna mendapatkan informasi. Penelitian ini bertujuan untuk memisahkan tweets berbahasa Indonesia pada media sosial twitter kedalam kategori positif; negatif dan netral. Metode naїve bayes Classifier (NBC) dengan feature selection Particle Swarm Optimization (PSO) diterapkan pada dataset untuk mengurangi atribut yang kurang relevan pada saat proses klasifikasi. Hasil pengujian menunjukan bahwa algoritma Naïve Bayes Classifier dengan feature selection Particle Swarm Optimization (PSO) menggunakan parameter term frequency (TF) dengan akurasi 97;48%.


2021 ◽  
Vol 5 (1) ◽  
pp. 49-56
Author(s):  
Ristasari Dwi Septiana ◽  
Agung Budi Susanto ◽  
Tukiyat Tukiyat

Tingginya penyebaran Covid-19 semakin berdampak pada bidang kesehatan, ekonomi, bahkan bidang pendidikan di Indonesia, sehingga pemerintah Indonesia melakukan tindakan vaksinasi Covid-19 guna menekan tingkat penyebaran Covid-19 di Indonesia. Namun hal tersebut dinilai kotroversial sehingga menarik perhatian masyarakat untuk memberikan opini di berbagai media seperti media sosial twitter. Sehingga membutuhkan analisa sentimen masyarakat terhadap upaya pemerintah pada tindakan vaksinasi Covid-19 untuk mencapai hasil prediksi dengan nilai akurasi paling optimal. Proses crawling secara otomatis menggunakan tools Rapidminer akan mengambil data tweets yang mengandung 5 (lima) kata kunci, yaitu “Vaksin Sinovac”, “Vaksin Astrazeneca”, “Vaksin Moderna”, “Vaksin Merah Putih”, dan “Vaksinasi Covid-19”. Dataset tweets didapatkan dari tanggal 4 Agustus 2021 sampai 12 Agustus 2021. Dataset diperoleh sejumlah 2060 tweets dan diberi label secara manual didapatkan jumlah tweet sebanyak 1193 sentimen positif, 73 negatif, dan 794 netral. Data tersebut dianalisa dengan menggunakan Metode Feature Selection Chi-Squared Statistic dan Particle Swarm Optimization (PSO) untuk mengurangi atribut yang kurang relevan pada saat proses klasifikasi dengan algoritma Naive Bayes Classifier (NBC). Hasil pengujian menunjukan bahwa Algoritma Naive Bayes Classifier (NBC) tanpa Feature Selection mendapatkan nilai akurasi 63,69%. Hasil penelitian menunjukkan bahwa Algoritma Naive Bayes Classifier (NBC) dengan Feature Selection Chi-Squared Statistic mempunyai tingkat akurasi 69,13%. Sedangkan hasil pengujian algoritma Naive Bayes Classifier (NBC) dengan Particle Swarm Optimization mempunyai tingkat akurasi 66,02%. Dengan demikian hasil seleksi fitur Chi-Squared Statistic mendapatkan nilai akurasi yang lebih baik jika dibandingkan dengan Particle Swarm Optimization untuk proses klasifikasi algoritma Naive Bayes Classifier (NBC) dengan selisih akurasi 3,11%.


Kilat ◽  
2020 ◽  
Vol 9 (1) ◽  
pp. 103-114
Author(s):  
Arini - Arini ◽  
Luh Kesuma Wardhani ◽  
Dimas - Octaviano

Towards an election year (elections) in 2019 to come, many mass campaign conducted through social media networks one of them on twitter. One online campaign is very popular among the people of the current campaign with the hashtag #2019GantiPresiden. In studies sentiment analysis required hashtag 2019GantiPresiden classifier and the selection of robust functionality that mendaptkan high accuracy values. One of the classifier and feature selection algorithms are Naive Bayes classifier (NBC) with Tri-Gram feature selection Character & Term-Frequency which previous research has resulted in a fairly high accuracy. The purpose of this study was to determine the implementation of Algorithm Naive Bayes classifier (NBC) with each selection and compare features and get accurate results from Algorithm Naive Bayes classifier (NBC) with both the selection of the feature. The author uses the method of observation to collect data and do the simulation. By using the data of 1,000 tweets originating from hashtag # 2019GantiPresiden taken on 15 September 2018, the author divides into two categories: 950 tweets as training data and 50 tweets as test data where the labeling process using methods Lexicon Based sentiment. From this study showed Naïve Bayes classifier algorithm accuracy (NBC) with feature selection Character Tri-Gram by 76% and Term-Frequency by 74%,the result show that the feature selection Character Tri-Gram better than Term-Frequency.


2019 ◽  
Vol 13 (3) ◽  
pp. 187-197 ◽  
Author(s):  
Gnaneswara Rao Nitta ◽  
B. Yogeshwara Rao ◽  
T. Sravani ◽  
N. Ramakrishiah ◽  
M. BalaAnand

Sign in / Sign up

Export Citation Format

Share Document