Deteksi Spam pada Twitter Menggunakan Algoritme Naïve Bayes

Andita Wahyuningtyas; Imas Sukaesih Sitanggang; Husnul Khotimah

doi:10.29244/jika.7.1.31-40

Deteksi Spam pada Twitter Menggunakan Algoritme Naïve Bayes

Jurnal Ilmu Komputer dan Agri-Informatika ◽

10.29244/jika.7.1.31-40 ◽

2020 ◽

Vol 7 (1) ◽

pp. 31-40

Author(s):

Andita Wahyuningtyas ◽

Imas Sukaesih Sitanggang ◽

Husnul Khotimah

Keyword(s):

Data Mining ◽

Text Mining ◽

Naive Bayes ◽

Naïve Bayes

Di era berkembangnya penggunaan Internet, Twitter merupakan salah satu layanan jejaring sosial yang sering digunakan sebagai alat komunikasi yang saling menghubungkan antar pengguna. Selain itu Twitter juga dimanfaatkan sebagai media untuk promosi, kampanye politik, dan sarana protes. Twitter dihadapkan pada berbagai masalah seperti gangguan privasi pengguna dan spam pada Twitter. Dengan adanya masalah spam, perlu dilakukan klasifikasi untuk tweet spam dan bukan spam. Penelitian ini bertujuan untuk mendeteksi tweet spam dan bukan spam. Hal tersebut dapat dilakukan dengan klasifikasi, terdapat berbagai macam metode klasifikasi, salah satu metode dalam data mining untuk mengklasifikasikan spam dan bukan spam adalah Naïve Bayes. Naïve Bayes banyak digunakan karena kesederhanaan algoritme dan mudah untuk diimplementasikan. Penelitian ini mengumpulkan data spam dari Twitter dengan mengidentifikasi terlebih dahulu akun yang diduga sebagai spammer. Penelitian ini menggunakan 70% data latih dan 30% data uji dengan metode klasifikasi Naïve Bayes. Data Twitter yang diperoleh merupakan data teks yang masih banyak mengandung kata-kata yang tidak baku, sehingga dibutuhkan tahap praproses, tahap yang dilakukan adalah tokenizing, filtering, normalisasi kata, stemming. Akurasi hasil klasifikasi tweet spam dan bukan spam adalah 95.57%. Kata Kunci: klasifikasi spam, Naïve Bayes, text mining, Twitter.

Download Full-text

Analisa Pola Penyalahgunaan Facebook Sebagai Alat Kejahatan Trafficking Menggunakan Data Mining

Jurnal Teknik Informatika ◽

10.35793/jti.8.1.2016.12231 ◽

2016 ◽

Vol 8 (1) ◽

Author(s):

Linda Jayanti ◽

Steven R. Sentinuwo ◽

Oktavian A. Lantang ◽

Agustinus Jacobus

Keyword(s):

Data Mining ◽

Text Mining ◽

Naive Bayes ◽

Naïve Bayes ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier

Abstrak - Facebook memungkinkan penggunanya berinteraksi dengan orang yang kita kenal maupun orang yang tidak kita kenal, dimana hal tersebut dapat membuka peluang bagi kejahatan dunia maya seperti, penculikan, perdagangan manusia (trafficking), hingga pembunuhan. IOM mecatat bahwa korban perdagangan orang atau trafficking di Indonesia mencapai 74.616 hingga I juta per tahun, dimana tindak kejahatan teersebut banyak dilakukan melalui facebook sebagai medianya. Data teks (status) yang berada di halaman facebook sangat besar. Dengan menggunakan Teknik pengolahan data dari ilmu Data Mining, terutama di bidangtext mining, penulis memanfaatkannya untuk mengidentifikasi data teks (status facebook) yang terindikasi sebagai proses kejahatan trafficking dengan memakai salah satu teknik klasifikasi dengan teorema naïve bayes classifier (NBC). Kata kunci : facebook, trafficking, data mining, text mining, klasifikasi, naïve bayes classifier.

Download Full-text

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

InfoTekJar (Jurnal Nasional Informatika dan Teknologi Jaringan) ◽

10.30743/infotekjar.v1i2.70 ◽

2017 ◽

Vol 1 (2) ◽

pp. 100-105 ◽

Cited By ~ 3

Author(s):

Fauziah Nur ◽

M. Zarlis ◽

Benny Benyamin Nasution

Keyword(s):

Data Mining ◽

Text Mining ◽

Knowledge Discovery ◽

Naive Bayes ◽

Naïve Bayes ◽

Nearest Neighbour ◽

Knowledge Discovery In Database ◽

Cluster 2

Data mining merupakan teknik pengolahan data dalam jumlah besar untuk pengelompokan.Teknik ini digunakan dalam proses Knowledge Discovery in Database (KDD). Teknik tersebut mempunyai beberapa metode dalam pengelompokannya Naïve-Bayes dan Nearest Neighbour, pohon keputusan (KD-Tree), ID3, K-Means, text mining dan dbscan. Dalam hal ini penulis mengelompokan data siswa baru sekolah menengah kejuruan tahun ajaran 2014/2015. Pengelompokan tersebut berdasarkan kriteria – kriteria data siswa. Pada penelitian ini, penulis menerapkan algoritma K-Means Clustering untuk pengelompokan data siswa baru sekolah menengah kejuruan. Dalam hal ini, pada umumnya untuk memamasuki jurusan hanya disesuaikan dengan nilai siswa saja namun dalam penelitian ini pengelompokan disesuaikan kriteria – kriteria siswa seperti penghasilan orang tua, tanggungan anak orang tua dan nilai tes siswa. Penulis menggunakan beberapa kriteria tersebut agar pengelompokan yang dihasilkan menjadi lebih optimal. Tujuan dari pengelompokan ini adalah terbentuknya kelompok jurusan pada siswa yang menggunakan algoritma K-Means clustering. Hasil dari pengelompokan tersebut diperoleh tiga kelompok yaitu kelompok tidak lulus, kelompok rekayasa perangkat lunak dan kelompok teknik komputer jaringan. Terdapat pusat cluster dengan Cluster-1=1.4;2.2;2.2, Cluster-2= 2.28;1.64;4 dan Cluster-3=5;2;6. Pusat cluster tersebut didapat dari beberapa iterasi sehingga mengahasilakan pusat cluster yang optimal.

Download Full-text

Ekstraksi Informasi Kesehatan Masyarakat Dari Tweet Berbahasa Indonesia Berbasis Klasifikasi Dengan Algoritma Naive Bayes

Repositor ◽

10.22219/repositor.v2i2.237 ◽

2020 ◽

Vol 2 (2) ◽

pp. 193

Author(s):

Khoirir Rosikin ◽

Setio Basuki ◽

Yufis Azhar

Keyword(s):

Data Mining ◽

Big Data ◽

Text Mining ◽

Information Extraction ◽

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Disease Information ◽

Bayes Algorithm ◽

Imbalance Dataset

AbstrakKesehatan merupakan kebutuhan utama manusia. Di Indonesia terdapat permasalahan tentang kesehatan, yaitu meningkatnya penyakit menular dan penyakit tidak menular. Untuk mengatasinya perlu dilakukan tidakan pencegahan. Salah satu usaha untuk melakukan pencegahan penyakit, adalah dengan mengetahui informasi penyakit tersebut, temasuk tentang penyebab dan akibat yang ditimbulkan, sehingga bisa melakukan pencegahan. Informasi bisa didapatkan dengan berbagai macam cara, salah satunya diambil dari media sosial, terutama twitter. Twitter digunakan karena banyaknya tweet yang dihasilkan sehingga memunculkan fenomena big data. Karena hal itulah, penelitian ini bermaksud untuk melakukan suatu metode ekstraksi informasi. Ekstraksi informasi merupakan metode penerapan data mining terutama bidang text mining yang digunakan untuk mendapatkan informasi dari kumpulan banyak data. Informasi yang dimaksud adalah penyakit, akibat, dan penyebab. Penelitian ini menggunakan pendekatan ekstraksi informasi berbasis klasifikasi dengan algoritma Naive Bayes. Penelitian ini menggunakan 7 set fitur dan sebuah model algoritma klasifikasi yaitu Naive Bayes. Dalam ekstraksi fitur terjadi imbalance dataset, sehingga dilakukan resample filtering data. Pengujian dilakukan dengan 2 metode, yaitu pengujian model dengan menggunakan 10-folds cross-validation dan pengujian klasifikasi dengan menggunakan 100 data uji. Hasil dari pengujian model mendapatkan nilai akurasi 77,27% dan pengujian klasifikasi mendapatkan nilai akurasi 74,07%. AbstractHealth is a primary human need. In Indonesia there are health problems, namely the increase of infectious diseases and non-communicable diseases. To overcome this need to do precautionary measures. One effort to prevent disease, is to know the disease information, including about the causes and effects caused, so it can do prevention. Information can be obtained in various ways, one of which is taken from social media, especially twitter. Twitter is used because of the number of tweets produced resulting in big data phenomenon. Because of that, this research intends to perform an information extraction method. Information extraction is a method of application of data mining, especially the text mining field used to obtain information from a large collection of data. The information in question is a disease, effect, and cause. This research uses a classification-based information extraction approach with Naive Bayes algorithm. This research uses 7 feature sets and a model of classification algorithm that is Naive Bayes. In feature extraction there is imbalance dataset, so it is done resample filtering data. The test is done by 2 methods, namely model testing using 10-folds cross-validation and classification testing using 100 test data. The result of model test get the accuracy value 77,27% and the classification test get the accuracy value 74,07%.

Download Full-text

KLASIFIKASI PERMASALAHAN AGENSTOK MENGGUNAKAN ALGORITMA NAIVE BAYES CLASSIFIER PADA PT. HPAI-PEKANBARU

Jurnal Ilmiah Rekayasa dan Manajemen Sistem Informasi ◽

10.24014/rmsi.v5i2.7611 ◽

2019 ◽

Vol 5 (2) ◽

pp. 208

Author(s):

Zarnelly Zarnelly

Keyword(s):

Data Mining ◽

Text Mining ◽

Naive Bayes ◽

Naïve Bayes ◽

Black Box ◽

Database Management System ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier ◽

F Measure

Abstrak—Kecendrungan seseorang untuk mengakses informasi khususnya permasalahan agenstok melalui dunia maya pun menjadi semakin tinggi. Informasi merupakan hal yang sangat penting dalam kehidupan masyarakat. Salah satu sumber infomasi adalah media sosial. Klasifikasi ini ditekankan untuk data permasalahan agenstok. Pada umumnya permasalahan yang disampaikan terdiri dari beberapa kategori seperti permasalahan mengenai kesehatan, konsultasi produk dan marketing. Namun dalam membagi permasalahan kedalan kategori-kategori tersebut untuk saat ini masih dilakukan secara manual.hal ini sangat merepotkan apabila permasalahan yang ingin di unggah berjumlah banyak. Oleh karena itu, perlu adanya sistem yang bisa mengklasifikasikan permasalahan secara otomatis. Text mining merupakan metode klasifikasi yang merupakan variasi dari data mining yang berusaha menemukan pola menarik dari sekumpulan data tekstual yang berjumlah banyak. Sedangkan algoritma naive bayes classsifier merupakan logartitma pendukung utuk melakukan klasifikasi. Kategori memiliki jumlah data permasalahan yang sama dan terdiri dari 400 data permasalahan; 360 data permasalahan digunakan untuk proses training dan 40 data permasalahan digunakan untuk proses testing. Pada penelitian ini metode yang digunakan yaitu waterfall dan pengujian perfomance measure, uji black box, dan uji sistem oleh pengguna. Adapun pengujian perfomance measure memperoleh nilai akurasi 97,5%, precision 97,6%, recall 97,5% dan f-measure 97,4%. Dari hasil-hasil tersebut dapat disimpulkan bahwa sistem yang menerapkan algoritma naive bayes classifier dapat digunakan untuk mengklasifikasikan permasalahan agenstok berbasis web, dengan menggunakan bahasa pemrograman PHP dan Database Management System (DBMS) menunjukkan bahwa klasifikasi permasalahan agenstok bisa terklasifikasi secara otomatis.Kata Kunci: agenstok, akurasi, klasifikasi, naïve bayes, text mining

Download Full-text

KLASIFIKASI SMS SPAM MENGGUNAKAN SUPPORT VECTOR MACHINE

Jurnal Pilar Nusa Mandiri ◽

10.33480/pilar.v15i2.693 ◽

2019 ◽

Vol 15 (2) ◽

pp. 275-280

Author(s):

Agus Setiyono ◽

Hilman F Pardede

Keyword(s):

Data Mining ◽

Support Vector Machine ◽

Decision Tree ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector ◽

Spam Detection ◽

Support Vector Machine Algorithm ◽

Data Mining Techniques ◽

To Receive

It is now common for a cellphone to receive spam messages. Great number of received messages making it difficult for human to classify those messages to Spam or no Spam. One way to overcome this problem is to use Data Mining for automatic classifications. In this paper, we investigate various data mining techniques, named Support Vector Machine, Multinomial Naïve Bayes and Decision Tree for automatic spam detection. Our experimental results show that Support Vector Machine algorithm is the best algorithm over three evaluated algorithms. Support Vector Machine achieves 98.33%, while Multinomial Naïve Bayes achieves 98.13% and Decision Tree is at 97.10 % accuracy.

Download Full-text

Evaluasi Telemarketing Kartu Kredit Bank Menggunakan Algoritma Genetika untuk Seleksi Fitur dan Naive Bayes

Jurnal Aplikasi Pelayaran dan Kepelabuhanan ◽

10.30649/japk.v10i1.71 ◽

2020 ◽

Vol 10 (1) ◽

pp. 12

Author(s):

Ekka Pujo Ariesanto Akhmad

Keyword(s):

Data Mining ◽

Naive Bayes ◽

Naïve Bayes ◽

Standard Process ◽

Industry Standard

Bagian pemasaran bank sudah menampung data dari nasabah atau pelanggan bank dengan cara memasarkan atau mensosialisasikan kartu kredit lewat telepon (telemarketing). Evaluasi telemarketing kartu kredit yang sudah dilakukan bank masih kurang membawa hasil dan berdaya guna. Salah satu cara yang tepat untuk evaluasi laporan telemarketing kartu kredit bank adalah menggunakan teknik data mining. Tujuan penggunaan data mining untuk mengetahui kecenderungan dan pola nasabah yang berpeluang untuk berlangganan kartu kredit yang ditawarkan bank. Metode penelitian menggunakan Cross Industry Standard Process for Data Mining (CRISP-DM) dengan Algoritma Genetika untuk Seleksi Fitur (GAFS) dan Naive Bayes (NB). Hasil penelitian menunjukkan jumlah atribut pada dataset telemarketing kartu kredit bank sejumlah 15 atribut terdiri dari 14 atribut biasa dan 1 atribut spesial. Dataset telemarketing bank mengandung data berdimensi tinggi, sehingga diterapkan metode GAFS. Setelah menerapkan metode GAFS diperoleh 7 atribut optimal terdiri dari 6 atribut biasa dan 1 atribut spesial. Enam atribut biasa meliputi pekerjaan, balance, rumah, pinjaman, durasi, poutcome. Sedangkan atribut spesial adalah target. Hasil penelitian menunjukkan algoritma NB mempunyai nilai akurasi 86,71%. Algoritma GAFS dan NB meningkatkan nilai akurasi menjadi 90,27% untuk prediksi nasabah bank yang mengambil kartu kredit.

Download Full-text

Prediction of benign and malignant breast cancer using data mining techniques

Journal of Algorithms & Computational Technology ◽

10.1177/1748301818756225 ◽

2018 ◽

Vol 12 (2) ◽

pp. 119-126 ◽

Cited By ~ 43

Author(s):

Vikas Chaurasia ◽

Saurabh Pal ◽

BB Tiwari

Keyword(s):

Breast Cancer ◽

Data Mining ◽

Low Income ◽

Prediction Models ◽

Naive Bayes ◽

Naïve Bayes ◽

Low Income Countries ◽

Breast Cancer Dataset ◽

Cancer Dataset ◽

Rbf Network

Breast cancer is the second most leading cancer occurring in women compared to all other cancers. Around 1.1 million cases were recorded in 2004. Observed rates of this cancer increase with industrialization and urbanization and also with facilities for early detection. It remains much more common in high-income countries but is now increasing rapidly in middle- and low-income countries including within Africa, much of Asia, and Latin America. Breast cancer is fatal in under half of all cases and is the leading cause of death from cancer in women, accounting for 16% of all cancer deaths worldwide. The objective of this research paper is to present a report on breast cancer where we took advantage of those available technological advancements to develop prediction models for breast cancer survivability. We used three popular data mining algorithms (Naïve Bayes, RBF Network, J48) to develop the prediction models using a large dataset (683 breast cancer cases). We also used 10-fold cross-validation methods to measure the unbiased estimate of the three prediction models for performance comparison purposes. The results (based on average accuracy Breast Cancer dataset) indicated that the Naïve Bayes is the best predictor with 97.36% accuracy on the holdout sample (this prediction accuracy is better than any reported in the literature), RBF Network came out to be the second with 96.77% accuracy, J48 came out third with 93.41% accuracy.

Download Full-text

Analisa Komparasi Algoritma Decision Tree C4.5 dan Naïve Bayes untuk Prediksi Churn Berdasarkan Kelas Pelanggan Retail

International Journal of Natural Science and Engineering ◽

10.23887/ijnse.v3i3.23113 ◽

2019 ◽

Vol 3 (3) ◽

pp. 103

Author(s):

Ni Wayan Wardani ◽

Ni Kadek Ariasih

Keyword(s):

Data Mining ◽

Decision Tree ◽

Naive Bayes ◽

Naïve Bayes

Pelanggan adalah salah satu aset utama bagi perusahaan ritel. Perusahaan harus dapat mengenali bagaimana karakter pelanggan mereka sehingga mereka dapat mempertahankan pelanggan yang sudah ada agar tidak berhenti membeli dan pindah ke perusahaan ritel yang bersaing (churn). Salah satu model yang tepat untuk mengenali karakter pelanggan adalah model RFM (Recency, Frekuensi, Moneter). Model RFM mampu menghasilkan kelas pelanggan dan di setiap kelas pelanggan dapat dianalisis atau diprediksi dengan konsep data mining apakah pelanggan tetap sebagai pelanggan atau churn. Data yang digunakan berasal dari data pelanggan dan data penjualan di UD. Mawar Sari. Kelas pelanggan UD Mawar Sari yang dihasilkan dari model RFM adalah Dormant, Everyday, Golden dan Superstar. Konsep data mining dengan membangun model prediksi dalam penelitian ini menggunakan algoritma Decision Tree C4.5 dan Naïve Bayes. Di semua kelas pelanggan kinerja Algoritma Naïve Bayes lebih baik daripada Algoritma Decision Tree C4.5 dengan Recall 95,92%, Precision 84,15%, dan Accuracy 83,49% dan kelas pelanggan yang memiliki potensi churn tinggi adalah Dormant B, Dormant E, dan Dormant F.Kata Kunci: Prediksi Churn, RFM, C4.5, Naïve Bayes

Download Full-text

Algoritma Naïve Bayes Untuk Memprediksi Kredit Macet Pada Koperasi Simpan Pinjam

Jurnal Informatika Upgris ◽

10.26877/jiu.v4i2.2919 ◽

2019 ◽

Vol 4 (2) ◽

Author(s):

Diah Puspitasari ◽

Syifa Sintia Al Khautsar ◽

Wida Prima Mustika

Keyword(s):

Data Mining ◽

Predictive Value ◽

Naive Bayes ◽

False Negative ◽

False Negative Rate ◽

True Positive Rate ◽

Naïve Bayes ◽

Data Mining Technique ◽

Application Form ◽

Using Data

Cooperatives are a forum that can help people, especially small and medium-sized communities. Cooperatives play an important role in the economic growth of the community such as the price of basic commodities which are relatively cheap and there are also cooperatives that offer borrowing and storing money for the community. Constraints that have been felt by this cooperative are that borrowers find it difficult to repay loan installments, causing bad credit. Because the cooperative in conducting credit analysis is carried out in a personal manner, namely by filling out the loan application form along with the requirements and conducting a field survey. Therefore there is a need for an evaluation to be carried out in lending to borrowers. To minimize these problems, it is necessary to detect customer criteria that are used to predict bad loans and to determine whether or not the elites are eligible to take credit using data mining. The data mining technique used is classification with the Naive Bayes method. Based on testing the accuracy of the resulting model obtained accuracy level of 59%, sensitivity (True Positive Rate (TP Rate) or Recall) of 46.80%, specificity (False Negative Rate (FN Rate or Precision) of 69.81%, Positive Predictive Value (PPV) of 57.89%, and Negative Predictive Value (NPV) of 59.67%.

Download Full-text

APPLICATION OF NAIVE BAYES CLASSIFIER ALGORITHM IN DETERMINING NEW STUDENT ADMISSION PROMOTION STRATEGIES

Journal of Information Systems and Informatics ◽

10.33557/journal-isi.v1i1.2 ◽

2019 ◽

Vol 1 (1) ◽

pp. 14-28

Author(s):

Ahmad Haidar Mirza

Keyword(s):

Data Mining ◽

Naive Bayes ◽

Naïve Bayes ◽

Statistical Techniques ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier ◽

Promotion Strategies ◽

Effectiveness And Efficiency ◽

New Student

Data Mining is a process that uses statistical techniques, mathematics, artificial intelligence, machine learning to extract and identify useful information and related knowledge from large databases. Data mining is the process of finding new patterns in data by filtering large amounts of data. Data mining uses pattern recognition technology that is similar to statistical techniques and mathematical techniques. The patterns found can provide useful information for generating economic benefits, effectiveness and efficiency. Algorithm Naive Bayes Classifier is one method of data mining that can be used to support effective and efficient promotion strategies. The Naive Bayes Classifier algorithm is used to predict the interest of the study based on the calculations performed. The data used are new student registration data from 2014 until 2016 at Bina Darma University. The results of this study are new models that are expected to provide important information can be used to assist the Marketing Team of Bina Darma University Palembang in policy making and implementation of appropriate marketing strategy. The results obtained are expected to help to support the promotion strategies that impact on the effectiveness and efficiency of promotion and increase the number of new students who will register.

Download Full-text