scholarly journals Analisis Perbandingan Algoritma ID3 dan KNN Pada Klasifikasi Emosi Teks Berita Berbahasa Indonesia

METIK JURNAL ◽  
2021 ◽  
Vol 5 (1) ◽  
pp. 36-41
Author(s):  
Pramudya Insan ◽  
Kusrini

Penggunaan algoritma pada pembuktian proses klasifikasi berbasis teks atau text mining sangat jarang dilakukan perbandingan khususnya untuk sebuah klasifikasi emosi. Banyak yang melakukan penelitian dalam klasifikasi tanpa unsur perbandingan didalamnya serta tidak terdapat penggunaan sistem yang dibangun secara mandiri. Pada penelitian ini perbandingan dilakukan untuk mengukur kemampuan algoritma dalam perolehan tingkat akurasi pada proses klasifikasi menggunana ID3 dan KNN. Data yang digunakan sebanyak 220 data berbasis teks berita yang diambil pada sistus warta media online yaitu viva.co.id, proses pelatihan data dilakukan dengan perbedaan proses pembobotan pada masing-masing algoritma yaitu dengan term weighting tf-idf untuk ID3 sedangkan KNN dengan similarity dan vector space model. Klasifikasi yang dilakukan untuk memperoleh data berkategori emosi dengan hasil akurasi yang didapatkan dari klasifikasi testing dengan data perbandingan yang beragam didapatkan akurasi paling tinggi yaitu 71.25 yaitu dengan perbandingan data latih dengan data uji 75%- 25%. Demikian penggunaan algoritma ID3 lebih baik dalam pengklasifikasian emosi berbahasa Indonesia dimana sebuah metode yang sangat efisien dalam pengelompokkan data berdasarkan kategori baik secara manual ataupun sistem.

IEEE Access ◽  
2019 ◽  
Vol 7 ◽  
pp. 166578-166592
Author(s):  
Surender Singh Samant ◽  
N. L. Bhanu Murthy ◽  
Aruna Malapati

Author(s):  
Christopher D. Manning ◽  
Prabhakar Raghavan ◽  
Hinrich Schutze

2006 ◽  
Vol 05 (02) ◽  
pp. 97-105 ◽  
Author(s):  
S. Srinivas ◽  
Ch. AswaniKumar

Latent Semantic Indexing (LSI) is a famous Information Retrieval (IR) technique that tries to overcome the problems of lexical matching using conceptual indexing. LSI is a variant of vector space model and proved to be 30% more effective. Many studies have reported that good retrieval performance is related to the use of various retrieval heuristics. In this paper, we focus on optimising two LSI retrieval heuristics: term weighting and rank approximation. The results obtained demonstrate that the LSI performance improves significantly with the combination of optimised term weighting and rank approximation.


Term Weighting Scheme (TWS) is a key component of the matching mechanism when using the vector space model In the context of information retrieval (IR) from text documents, the this paper described a new approach of term weighting methods to improve the classification performance. In this study, we propose an effective term weighting scheme, which gives highest accuracy with compare to the text classification methods. We compared performance parameter of KNN and Naïve Bayes Classification with different Weighting Method, Weight information gain, SVM and proposed method.We have implemented many term-weighting methods (TWM) on Amazon data collections in combination with Information-Gain and SVM and KNN algorithm and Naïve Bayes Algorithm.


2020 ◽  
Vol 2 (2) ◽  
pp. 70
Author(s):  
Hidayatul Ma'rifah ◽  
Aji Prasetya Wibawa ◽  
Muhammad Iqbal Akbar

Penelitian ini bertujuan untuk menemukan kombinasi dan urutan preprocessing dalam text mining yang paling maksimal untuk klasifikasi bidang jurnal berbahasa Indonesia berdasarkan judul dan abstraknya. Tahap-tahap preprocessing yang akan diterapkan terdiri dari case folding, stemming, stopwords removal, transformasi VSM (Vector Space Model), dan SMOTE. Namun, pengamatan tiap skenario berfokus pada stemming dan dua teknik stopwords removal, yaitu stopwords removal berbasis kamus, dan berbasis document frequency setelah melewati proses transformasi ke dalam bentuk VSM dengan pembobotan TF-IDF (Term Trequency–Inverse Document Frequency). Proses klasifikasi mengadopsi algoritma k-NN (K-Nearest Neighbour), yang menentukan kelas suatu data tes dengan melihat tetangga terdekatnya. Dalam penelitian ini, metrik untuk menemukan jarak tetangga terdekat adalah Cosine Similarity. Pengujian klasifikasi menggunakan 10-Fold Cross Validation untuk menghasilkan confusion matrix sebagai hasil akhir. Kinerja klasifikasi terbaik dicapai dengan persentase accuracy sebesar 72.91% dan precision mencapai 73,36%.


Author(s):  
Riki Ruli A. Siregar ◽  
Fera Amelia Sinaga ◽  
Rakhmat Arianto

Pada Sekolah Tinggi Teknik PLN (STT-PLN) penentuan dosen penguji tugas akhir atau skripsimerupakan tugas dari sekretaris jurusan. Penelitian ini bertujuan untuk memberikan alternativeuntuk menentukan dosen penguji skripsi. Metode yang di terapkan untuk membangun system iniadalah text mining, TF-IDF dan Vector Space Model (VSM). Text mining untuk melakukanprocessing data, dimana data yang akan diproses adalah judul dan abstrak skripsi, sedangkanVSM untuk melakukan pengklasifikasian kompetensi, penelitian ini dapat merekomendasikantiga dosen untuk menjadi dosen penguji skripsi berdasarkan kecocokan antara judul danabstrak dengan klasifikasi Pada penelitian ini, penulis menggunakan Model pengembanganperangkat lunak CRISP-DM. Adapun fase yang dimiliki oleh CRISP-DM adalah fasepemahaman bisnis, fase pemahanman data, fase pengolahan data, fase permodelan, faseevaluasi dan fase penyebaran. Hasil dari penelitian ini memiliki akurasi 93,22%.


2018 ◽  
Vol 28 (2) ◽  
pp. 143
Author(s):  
Raghad M. Hadi

A quick growth of internet technology makes it easy to assemble a huge volume of data as text document; e. g., journals, blogs, network pages, articles, email letters. In text mining application, increasing text space of datasets represent excessive task which makes it hard to pre-processing documents in efficient way to prepare it for text mining application like document clustering. The proposed system focuses on pre-processing document and reduction document space technique to prepare it for clustering technique. The mutual method for text mining problematic is vector space model (VSM), each term represent a features. Thus the proposed system create vector-space mod-el by using pre-processing method to reduce of trivial data from dataset. While the hug dimen-sionality of VSM is resolved by using low-rank SVD. Experiment results show that the proposed system give better document representation results about 10% from previous approach to prepare it for document clustering


Author(s):  
Đorđe Petrović ◽  
Milena Stanković

Text mining to a great extent depends on the various text preprocessing techniques. The preprocessing methods and tools which are used to prepare texts for further mining can be divided into those which are and those which are not language-dependent. The subject matter of this research was the analysis of the influence of these methods and tools on further text mining. We first focused on the analysis of the influence on the reduction of the vector space model for the multidimensional represen-tation of text documents. We then analyzed the influence on calculating text similarity, which is the focus of this research. The conclusion we reached is that the implemen-tation of various text preprocessing methods in the Serbian language, which are used for the reduction of the vector space model for the multidimensional representation of text document, achieves the required results. But, the implementation of various text preprocessing methods specific to the Serbian language for the purpose of calculating text similarity can lead to great differences in the results.


2011 ◽  
Vol 4 (2) ◽  
Author(s):  
Amalia Indranandita ◽  
Budi Susanto ◽  
Antonius Rahmat

Kebutuhan konsumen terhadap informasi dalam bentuk jurnal atau artikel ilmiahsemakin meningkat, sehingga pengelompokan jurnal dibutuhkan untuk mempermudahpencarian informasi. Topik jurnal diharapkan dapat mewakili isi jurnal, tanpa harusmembaca secara keseluruhan. Dalam kenyataannya, pengelompokan jurnal yangmengacu topit</kategori tertentu sulit dilakukan jika hanya mengandalkan query biasa.-Sistem klasifikasi dan pencarian jurnal dengan metode Naive Bayes dan VectorSpace Model dengan pendekatan Cosine diharapkan membantu pengguna dalampenentuan topik/kategori dan menghasilkan daftar jurnal berdasarkan urutan tingkatkemiripan. Proses text mining dilakukan untuk mempersiapkan kebutuhan dasar sistem.Tahapan proses text mining adalah text preprocessrng dengan parsing, texttransformation dengan stemming dan sfoprazords removal, feature setection dan-patterndiscovery.Klasifikasi Naive Bayes menghasilkan prediksi baik jika vektor yang terbentukmewakili setiap kategori. Sedangkan pencarian Vector Space Uoabt denganpendekatan Cosrne menghasilkan recallsebesar 54.8% dan precision sebesar 60.7%.Oleh karena itu, dibangun sistem klasifikasi dan pencarian yang dapat membantupengguna, karena dilengkapi pencarian detil dengan pengetahuan label kategori hasilklasifikasi dan fitur metadata.


Sign in / Sign up

Export Citation Format

Share Document