Analisis Sentimen Pengguna Twitter Terhadap Polemik Persepakbolaan Indonesia Menggunakan Pembobotan TF-IDF dan K-Nearest Neighbor

Persepakbolaan Indonesia belakangan ini memiliki banyak polemik mulai dari kasus pengaturan skor, pergantian pelatih timnas senior hingga pergantian ketua umum Persatuan Sepak bola Seluruh Indonesia (PSSI). Polemik ini menimbulkan banyaknya opini maupun pendapat dari pengguna twitter terhadap persepakbolaan di Indonesia sehingga diperlukan sebuah sistem untuk memudahkan dalam mengetahui sentimen pada setiap kalimat. Tujuan dari penelitian ini adalah untuk menganalisis sentimen pada setiap kalimat dari pengguna twitter terhadap persepakbolaan Indonesia apakah memiliki sentimen negatif atau positif. Data yang digunakan dalam penelitian ini didapatkan dari hasil crawling dari media sosial twitter terkait persepakbolaan di Indonesia yang diambil dari akun twitter resmi PSSI. Setelah data dikumpulkan kemudian akan dilakukan beberapa tahapan yaitu preprocessing yang terdiri dari cleansing, tokenizing, stopword removal, dan stemming. Pembobotan kata menggunakan Term Frequency-Invers Document Frequency (TF-IDF). Pada tahap validasi data dilakukan pengujian silang sebanyak 10 kali menggunakan k-fold cross validation, kemudian diklasifikasikan dengan metode K-Nearest Neighbor dapat menghasilkan akurasi yang cukup baik. Dari 2000 data tweet berbahasa indonesia didapatkan hasil akurasi optimal pada nilai k=23 sebanyak 79.9%

Download Full-text

KLASIFIKASI STATUS PEMBAYARAN PREMI MENGGUNAKAN ALGORITMA NEIGHBOR WEIGHTED K-NEAREST NEIGHBOR (NWKNN) (STUDI KASUS: PT. BUMIPUTERA KOTA SAMARINDA)

VARIANCE : Journal of Statistics and Its Applications ◽

10.30598/variancevol1iss2page56-63 ◽

2020 ◽

Vol 1 (2) ◽

pp. 56-63

Author(s):

Grassella Gunsyang ◽

Ika Purnamasari ◽

Fidia Deny Tisna Amijaya

Keyword(s):

Cross Validation ◽

Nearest Neighbor ◽

K Nearest Neighbor ◽

Fold Cross Validation

Algoritma Neighbor Weighted K-Nearest Neighbor (NWKNN) merupakan pengembangan dari algoritma K-Nearest Neighbor (KNN), dengan memberikan bobot pada setiap kelas yang akan diklasifikasikan. Penelitian ini membahas tentang klasifikasi menggunakan algoritma NWKNN yang diaplikasikan pada data status pembayaran premi. Tujuannya untuk mengetahui nilai eksponen (E) dan nilai ketetanggaan (K) yang optimal, serta nilai akurasi dari klasifikasi data status pembayaran Premi di PT. Bumiputera Kota Samarinda. Tahapan dalam penelitian ini yaitu menentukan nilai E dan nilai K menggunakan k-fold cross validation, menghitung jarak euclidean, menghitung bobot dan skor setiap kelas, melihat nilai skor terbesar untuk menentukan hasil klasifikasi, kemudian menghitung nilai akurasi klasifikasi. Hasil penelitian menunjukkan bahwa nilai K dan nilai E yang optimal untuk klasifikasi status pembayaran premi di PT. Bumiputera Kota Samarinda menggunakan NWKNN sebesar K=3 dan E=6 dengan nilai akurasi sebesar 75%.

Download Full-text

Phishing Website Detection Using Machine Learning Classifiers Optimized by Feature Selection

Traitement du signal ◽

10.18280/ts.370403 ◽

2020 ◽

Vol 37 (4) ◽

pp. 563-569

Author(s):

Dželila Mehanović ◽

Jasmin Kevrić

Keyword(s):

Feature Selection ◽

Random Forest ◽

Cross Validation ◽

Nearest Neighbor ◽

Security Threats ◽

Selection Methods ◽

K Nearest Neighbor ◽

Machine Learning Classifiers ◽

Time To Build ◽

Fold Cross Validation

Security is one of the most actual topics in the online world. Lists of security threats are constantly updated. One of those threats are phishing websites. In this work, we address the problem of phishing websites classification. Three classifiers were used: K-Nearest Neighbor, Decision Tree and Random Forest with the feature selection methods from Weka. Achieved accuracy was 100% and number of features was decreased to seven. Moreover, when we decreased the number of features, we decreased time to build models too. Time for Random Forest was decreased from the initial 2.88s and 3.05s for percentage split and 10-fold cross validation to 0.02s and 0.16s respectively.

Download Full-text

Perbandingan Akurasi dan Waktu Proses Algoritma K-NN dan SVM dalam Analisis Sentimen Twitter

Jurnal Informatika ◽

10.31311/ji.v6i2.5129 ◽

2019 ◽

Vol 6 (2) ◽

pp. 226-235

Author(s):

Muhammad Rangga Aziz Nasution ◽

Mardhiya Hayaty

Keyword(s):

Machine Learning ◽

Support Vector Machine ◽

Unsupervised Learning ◽

Supervised Learning ◽

Cross Validation ◽

Nearest Neighbor ◽

Support Vector ◽

K Nearest Neighbor ◽

Fold Cross Validation

Salah satu cabang ilmu komputer yaitu pembelajaran mesin (machine learning) menjadi tren dalam beberapa waktu terakhir. Pembelajaran mesin bekerja dengan memanfaatkan data dan algoritma untuk membuat model dengan pola dari kumpulan data tersebut. Selain itu, pembelajaran mesin juga mempelajari bagaimama model yang telah dibuat dapat memprediksi keluaran (output) berdasarkan pola yang ada. Terdapat dua jenis metode pembelajaran mesin yang dapat digunakan untuk analisis sentimen: supervised learning dan unsupervised learning. Penelitian ini akan membandingkan dua algoritma klasifikasi yang termasuk dari supervised learning: algoritma K-Nearest Neighbor dan Support Vector Machine, dengan cara membuat model dari masing-masing algoritma dengan objek teks sentimen. Perbandingan dilakukan untuk mengetahui algoritma mana lebih baik dalam segi akurasi dan waktu proses. Hasil pada perhitungan akurasi menunjukkan bahwa metode Support Vector Machine lebih unggul dengan nilai 89,70% tanpa K-Fold Cross Validation dan 88,76% dengan K-Fold Cross Validation. Sedangkan pada perhitungan waktu proses metode K-Nearest Neighbor lebih unggul dengan waktu proses 0.0160s tanpa K-Fold Cross Validation dan 0.1505s dengan K-Fold Cross Validation.

Download Full-text

Analisis Komparatif Evaluasi Performa Algoritma Klasifikasi pada Readmisi Pasien Diabetes

Jurnal Buana Informatika ◽

10.24002/jbi.v7i4.770 ◽

2016 ◽

Vol 7 (4) ◽

Author(s):

Mochammad Yusa ◽

Ema Utami ◽

Emha T. Luthfi

Keyword(s):

Data Mining ◽

Decision Tree ◽

Cross Validation ◽

Nearest Neighbor ◽

Naive Bayes ◽

Kappa Statistic ◽

Naïve Bayes ◽

Validation Dataset ◽

K Nearest Neighbor ◽

Fold Cross Validation

Abstract. Readmission is associated with quality measures on patients in hospitals. Different attributes related to diabetic patients such as medication, ethnicity, race, lifestyle, age, and others result in the calculation of quality care that tends to be complicated. Classification techniques of data mining can solve this problem. In this paper, the evaluation on three different classifiers, i.e. Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes with various settingparameter, is developed by using 10-Fold Cross Validation technique. The targets of parameter performance evaluated is based on term of Accuracy, Mean Absolute Error (MAE), dan Kappa Statistic. The selected dataset consists of 47 attributes and 49.735 records. The result shows that k-NN classifier with k=100 has a better performance in term of accuracy and Kappa Statistic, but Naive Bayes outperforms in term of MAE among other classifiers. Keywords: k-NN, naive bayes, diabetes, readmissionAbstrak. Proses Readmisi dikaitkan dengan perhitungan kualitas penanganan pasien di rumah sakit. Perbedaan atribut-atribut yang berhubungan dengan pasien diabetes proses medikasi, etnis, ras, gaya hidup, umur, dan lain-lain, mengakibatkan perhitungan kualitas cenderung rumit. Teknik klasifikasi data mining dapat menjadi solusi dalam perhitungan kualitas ini. Teknik klasifikasi merupakan salah satu teknik data mining yang perkembangannya cukup signifikan. Di dalam penelitian ini, model algoritma klasifikasi Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes dengan berbagai parameter setting akan dievaluasi performanya berdasarkan nilai performa Accuracy, Mean AbsoluteError (MAE), dan Kappa Statistik dengan metode 10-Fold Cross Validation. Dataset yang dievaluasi memiliki 47 atribut dengan 49.735 records. Hasil penelitian menunjukan bahwa performa accuracy, MAE, dan Kappa Statistik terbaik didapatkan dari Model Algoritma Naive Bayes.Kata Kunci: k-NN, naive bayes, diabetes, readmisi

Download Full-text

Bayes Classifier dan Support Vector Machine dalam Klasifikasi Judul Karya Akhir Mahasiswa Program Studi PTIK UNJ

PINTER Jurnal Pendidikan Teknik Informatika dan Komputer ◽

10.21009/pinter.3.1.9 ◽

2019 ◽

Vol 3 (1) ◽

pp. 54-62

Author(s):

Razi Aziz Syahputro ◽

Widodo ◽

Hamidillah Ajie

Keyword(s):

Support Vector Machine ◽

Cross Validation ◽

Nearest Neighbor ◽

Confusion Matrix ◽

Vector Space Model ◽

Support Vector ◽

Bayes Classifier ◽

K Nearest Neighbor ◽

Space Model ◽

Fold Cross Validation

Penelitian ini dilatarbelakangi dengan dibutuhkannya sistem pengklasifikasian untuk memudahkan pihak Jurusan Teknik Elektro khususnya Program Studi PTIK untuk mengklasifikasikan judul skripsi berdasarkan peminatan. Sebelum sistem dibuat diperlukan pertimbangan dari beberapa algoritma klasifikasi yang ada, maka dari itu penelitian ini memilih 3 algoritma dari 10 algoritma terbaik menurut ICDM tahun 2006. Klasifikasi terhadap dokumen teks pendek seperti judul skripsi mahasiswa memiliki kesulitan tersendiri daripada dokumen teks panjang karena semakin sedikit kata semakin sulit diklasifikasi. Sehingga tujuan dari penelitian ini adalah untuk mengetahui algoritma yang paling efektif untuk mengklasifikasi judul skripsi. Penelitian ini terdiri dari beberapa tahap yaitu pengumpulan data, pengelompokan data melalui angket oleh dosen ahli, pre-processing text, pembobotan kata menggunakan vector space model dan tf-idf, evaluasi dengan k-fold cross validation, klasifikasi menggunakan k-nearest neighbor, naïve bayes classifier, dan support vector machine, dan analisis dengan confusion matrix. Percobaan dilakukan dengan menggunakan 266 data judul skripsi mahasiswa PTIK UNJ dari angkatan 2010-2013, dengan data terakhir berasal dari sidang skripsi pada semester 105(semester ganjil 2016/2017). Hasil dari klasifikasi menggunakan algoritma tersebut didapatkan algoritma yang paling efisien yaitu support vector machine dengan akurasi 82% dari 10 kali percobaan.

Download Full-text

Recommender System for Term Deposit Likelihood Prediction using Cross-validated Neural Network

South Asian Journal of Social Studies and Economics ◽

10.9734/sajsse/2021/v11i330286 ◽

2021 ◽

pp. 21-28

Author(s):

Shawni Dutta ◽

Samir Kumar Bandyopadhyay

Keyword(s):

Neural Network ◽

Cross Validation ◽

Nearest Neighbor ◽

Automated System ◽

K Nearest Neighbor ◽

Decision Tree Classifier ◽

Proposed Model ◽

Tree Classifier ◽

Customer Perspective ◽

Fold Cross Validation

For enhancing the maximized profit from bank as well as customer perspective, term deposit can accelerate finance fields. This paper focuses on likelihood of term deposit subscription taken by the customers. Bank campaign efforts and customer details are influential while considering possibilities of taking term deposit subscription. An automated system is provided in this paper that approaches towards prediction of term deposit investment possibilities in advance. Neural network along with stratified 10-fold cross-validation methodology is proposed as predictive model which is later compared with other benchmark classifiers such as k-Nearest Neighbor (k-NN), Decision tree classifier (DT), and Multi-layer perceptron classifier (MLP). Experimental study concluded that proposed model provides significant prediction results over other baseline models with an accuracy of 88.32% and MSE of 0.1168.

Download Full-text

Prediksi Banjir Lahar Dingin pada Lereng Merapi menggunakan Data Curah Hujan dari Satelit

Jurnal Informatika Polinema ◽

10.33795/jip.v7i2.494 ◽

2021 ◽

Vol 7 (2) ◽

pp. 35-42

Author(s):

Rosa Andrie Asmara ◽

Arief Prasetyo ◽

Siska Stevani ◽

Ratih Indri Hapsari

Keyword(s):

Cross Validation ◽

Nearest Neighbor ◽

K Nearest Neighbor ◽

Fold Cross Validation

Banjir lahar dingin merupakan sekumpulan lahar yang dimuntahkan oleh gunung berapi dan sampai ke permukaan yang lebih rendah dengan bantuan atau dorongan dari air hujan. Akibatnya, air hujan yang membawa serta material-material vulkanik dari lahar ini akan menerjang lahan yang berada di bawahnya ataupun pemukiman penduduk dan banyaknya kerusakan atapun dampak-dampak lain yang akan dihasilkan oleh banjir lahar dingin ini. Faktor yang menyebabkan banjir lahar adalah intensitas atau curah hujan (mm/jam) dan akumulasi hujan (mm/7hari). Terjadinya banjir lahar dapat dideteksi oleh beberapa alat salah satunya adalah Geofon. Alat sering rusak dan hanyut karena dipasang atau ditempatkan pada permukaan tanah disetiap stasiun sungai, dan pada saat terjadinya banjir lahar hingga sampai ke permukaan yang lebih rendah maka alat tersebut tidak dapat mengirimkan informasi getaran. Oleh karena itu pada penelitian ini di buat sebuah sistem untuk membantu sensor Geofon dalam memprediksi banjir lahar pada kawasan Lereng Merapi. Sistem akan mengeluarkan status getaran yang terdiri dari 4 kelas yaitu banjir rendah, banjir sedang, banjir tinggi dan tidak terjadi banjir lahar dengan memperhitungkan atribut curah hujan dan akumulasi hujan dari satelit menggunakan metode K-NN (K-Nearest Neighbor). Pemilihan nilai K pada algoritma K-NN menjadi hal yang penting karena akan mempengaruhi kinerja dari algoritma K-NN pada sistem prediksi banjir lahar, oleh karena itu perlu diketahui berapa nilai K dan tingkat akurasinya. Metode 10-Fold Cross Validation dan Uji Akurasi digunakan untuk mengetahui nilai K Optimal pada tiap lokasi penelitian yaitu Gendol, Putih 1 dan Putih 2. Berdasarkan hasil pengujian yang didapat adalah pada lokasi Gendol dan Putih 1 menggunakan 3-NN dengan akurasi rata-rata 72.307% dan 81.429%, lokasi Putih 2 menggunakan 1-NN dengan akurasi rata-rata 86.955%. Data pengujian pada lokasi Gendol menggunakan data 1-Fold Cross Validation dengan akurasi 3-NN 92.31%, Putih 1 data 8-Fold Cross Validation dengan akurasi 3-NN 95.24%, dan Putih 2 data 10-Fold Cross Validation dengan akurasi 1-NN 91.3%.

Download Full-text

MFCC dan KNN untuk Pengenalan Suara Artikulasi P

AVITEC ◽

10.28989/avitec.v2i1.605 ◽

2020 ◽

Vol 2 (1) ◽

Author(s):

Akhmad Anggoro ◽

Samiadji Herdjunanto ◽

Risanuri Hidayat

Keyword(s):

Pattern Recognition ◽

Cleft Lip ◽

Cross Validation ◽

Nearest Neighbor ◽

Cleft Lip And Palate ◽

Language Identification ◽

K Nearest Neighbor ◽

Mel Frequency Cepstral Coefficients ◽

Knn Classification ◽

Fold Cross Validation

Cleft lip and palate (CLP) is a term for patients who experience speech organ disorders, that disorder is caused by a gap found in the lip or palate. Patients will experience speech problems. Pattern recognition in CLP sound is still small in Indonesia. In this research in the language identification of CLP and standard sound patterns using the extraction of the Mel Frequency Cepstral Coefficients (MFCC) feature with K-Nearest Neighbor (KNN) classification and K-Fold cross-validation. By making words that have the letter /p/ as a reference, known as bilabial. The words used include Paku, Kapak, and Atap. The accuracy of recognition results reached more than 69%, with a minimum accuracy of 41%.

Download Full-text

K-Nearest Neighbor for Classification of Tomato Maturity Level Based on Hue, Saturation, and Value Colors

Indonesian Journal of Artificial Intelligence and Data Mining ◽

10.24014/ijaidm.v2i2.7975 ◽

2019 ◽

Vol 2 (2) ◽

pp. 101

Author(s):

Suwanto Sanjaya ◽

Morina Lisa Pura ◽

Siska Kurnia Gusti ◽

Febi Yanto ◽

Fadhilah Syafria

Keyword(s):

Cross Validation ◽

Nearest Neighbor ◽

Image Size ◽

K Nearest Neighbor ◽

Color Information ◽

Maturity Level ◽

Total Data ◽

Fold Cross Validation ◽

Selection Of

The selection of tomatoes can use several indicators. One of the indicators is the fruit color. In digital image processing, one of the color information that could be used in Hue, Saturation, and Value (HSV). In this research, HSV is proposed as a color model feature for information on the ripeness of tomatoes. The total data of tomato images used in this research were 400 images from four sides. The maturity level of tomatoes uses five levels, namely green, turning, pink, light red, and red. The process of divide data uses K-Fold Cross Validation with ten folds. The method used for classification is k-Nearest Neighbor (kNN). The scenario of the test performed is to combine the image size with the parameter value of the neighbor (k). The image sizes tested are 100x100 pixels, 300x300 pixels, 600x600 pixels and 1000x1000 pixels. The “k” values tested were 1, 3, 5, 7, 9, 11, and 13. The highest accuracy reached 92.5% in the image size 1000x1000 pixels with a parameter “k” is 3. The result of the experiment showed that the image size has a significant influence of accuracy, but the parameter value of neighbor (k) has an influence that is not too significant.

Download Full-text

KLASIFIKASI SENTIMENT ANALYSIS PADA KOMENTAR PESERTA DIKLAT MENGGUNAKAN METODE K-NEAREST NEIGHBOR

Kilat ◽

10.33322/kilat.v8i1.421 ◽

2019 ◽

Vol 8 (1) ◽

Author(s):

Riki Ruli A. Siregar ◽

Zuhdiyyah Ulfah Siregar ◽

Rakhmat Arianto

Keyword(s):

Sentiment Analysis ◽

Test Data ◽

Nearest Neighbor ◽

Cosine Similarity ◽

Training Data ◽

K Nearest Neighbor ◽

Term Frequency ◽

Document Frequency ◽

Negative Comments

The process of analyzing and classifying comment data done by reading and sorting one by one negative comments and classifying them one by one using Ms. Excel not effective if the data to be processed in large quantities. Therefore, this study aims to apply sentiment analysis on comment data using K-Nearest Neighbor (KNN) method. The comment data used is the comments of the participants of the training on Udiklat Jakarta filled by each participant who followed the training. Furthermore, the comment data is processed by pre-processing, weighting the word using Term Frequency-Invers Document Frequency, calculating the similarity level between the training data and test data with cosine similarity. The process of applying sentiment analysis is done to determine whether the comment is positive or negative. Furthermore, these comments will be classified into four categories, namely: instructors, materials, facilities and infrastructure. The results of this study resulted in a system that can classify comment data automatically with an accuracy of 94.23%

Download Full-text