scholarly journals A Comprehensive Comparative Study Using Vector Space Model with K-Nearest Neighbor on Text Categorization Data

2007 ◽  
Vol 2 (1) ◽  
pp. 14-22 ◽  
Author(s):  
Wa`el Musa Hadi ◽  
Fadi Thabtah ◽  
Salahideen Mousa ◽  
Samer Al Hawari ◽  
Ghassan Kanaan ◽  
...  
JOUTICA ◽  
2021 ◽  
Vol 6 (2) ◽  
pp. 506
Author(s):  
Mustain Mustain Mustain

Kesulitan untuk mengorganisir data kuesioner yang bersifat konvensional melatarbelakangi penelitian ini. Oleh karena itu dibuat sistem yang memudahkan pengelompokan data kuesioner secara otomatis yang lengkap dengan sentimen yang terkandung didalamnya. Dataset yang digunakan dalam penelitian ini adalah data kuesioner rumah sakit Muhammadiyah lamongan. Penelitian ini hanya menangani kuesioner yang berbentuk teks. Data dengan fisik kertas direkap kemudian diinput ke database lengkap dengan kategori unit kerja dan sentiment. Selanjutnya dataset tersebut di dilakukan pre-prosesing yang meliputi penanganan negasi case folding, tokenizing, filtering dan stemming. Sebagai data uji komentar dari kuesioner akan dilakukan pre-prosesing selanjutnya dihitung tingkat kemiripan document dengan menggunakan metode K- Nearest Neighbor dan Vector Space Model. Jumlah data yang ditangani mempengaruhi performa system terutama dari akurasi dan kecepatan pada saat proses klasifikasi. Hasil dari sistem yang dibuat berupa ranking dokumen yang paling mirip dengan dataset berdasarkan urutan nilai cosine similarity. Ujicoba klasifikasi berdasarkan kelas kategori menghasilkan nilai akurasi 91 %. Ujicoba berdasarkan Kelas Sentimen sebesar 94 %.dari kombinasi keduanya system berhasil mendapat akurasi sebesar 86 %


2021 ◽  
Author(s):  
Sukisno Sukisno

Kajian dalam buku ini bertujuan untuk membantu pengguna dalam melakukan kategorisasi dokumen yang dibutuhkan secara cepat dan akurat. Dengan adanya aplikasi untuk proses kategorisasi dokumen yang menerapkan algoritma stemming Nazief Adriani dan Algoritma K-Nearest Neighbor, maka diharapkan dapat memudahkan dalam mengkategorisasikan dokumen serta mempermudah pengguna dalam mencari dokumen berdasarkan tingkat kemiripan (similarity) antara dokumen uji dan learning document.


2020 ◽  
Vol 4 (2) ◽  
Author(s):  
Dewi Marini Umi Atmaja ◽  
Rila Mandala

Sulitnya menentukan klasifikasi judul skrpsi berdasarkan peminatan yang diambil oleh mahasiswa informatika unjani merupakan salah satu permasalahan penting yang dihadapi oleh pihak Jurusan. Tujuan dari penelitian ini yaitu memberikan sebuah penunjang keputusan bagi pihak Jurusan agar setiap judul skripsi yang diajukan oleh mahasiswa sesuai dengan peminatan. Berdasarkan hasil penelitian yang telah dilakukan, model yang dibangun menggunakan algoritma KNN menghasilkan tingkat akurasi yang lebih tinggi jika dibandingkan dengan model yang dibangun menggunakan algoritma VSM. Nilai akurasi tertinggi berdasarkan hasil pengujian pada penelitian ini adalah sebasar 96,85%.


Author(s):  
Makoto Suzuki ◽  
Naohide Yamagishi ◽  
Yi-Ching Tsai ◽  
Takashi Ishida ◽  
Masayuki Goto

2013 ◽  
Vol 427-429 ◽  
pp. 2449-2453
Author(s):  
Rong Ze Xia ◽  
Yan Jia ◽  
Hu Li

Traditional supervised classification method such as support vector machine (SVM) could achieve high performance in text categorization. However, we should first hand-labeled the samples before classifying. Its a time-consuming task. Unsupervised method such as k-means could also be used for handling the text categorization problem. However, Traditional k-means could easily be affected by several isolated observations. In this paper, we proposed a new text categorization method. First we improved the traditional k-means clustering algorithm. The improved k-means is used for clustering vectors in our vector space model. After that, we use the SVM to categorize vectors which are preprocessed by improved k-means. The experiments show that our algorithm could out-perform the traditional SVM text categorization method.


2009 ◽  
Vol 18 (02) ◽  
pp. 239-272 ◽  
Author(s):  
SUJEEVAN ASEERVATHAM

Kernels are widely used in Natural Language Processing as similarity measures within inner-product based learning methods like the Support Vector Machine. The Vector Space Model (VSM) is extensively used for the spatial representation of the documents. However, it is purely a statistical representation. In this paper, we present a Concept Vector Space Model (CVSM) representation which uses linguistic prior knowledge to capture the meanings of the documents. We also propose a linear kernel and a latent kernel for this space. The linear kernel takes advantage of the linguistic concepts whereas the latent kernel combines statistical and linguistic concepts. Indeed, the latter kernel uses latent concepts extracted by the Latent Semantic Analysis (LSA) in the CVSM. The kernels were evaluated on a text categorization task in the biomedical domain. The Ohsumed corpus, well known for being difficult to categorize, was used. The results have shown that the CVSM improves performance compared to the VSM.


2019 ◽  
Vol 3 (1) ◽  
pp. 54-62
Author(s):  
Razi Aziz Syahputro ◽  
Widodo ◽  
Hamidillah Ajie

Penelitian ini dilatarbelakangi dengan dibutuhkannya sistem pengklasifikasian untuk memudahkan pihak Jurusan Teknik Elektro khususnya Program Studi PTIK untuk mengklasifikasikan judul skripsi berdasarkan peminatan. Sebelum sistem dibuat diperlukan pertimbangan dari beberapa algoritma klasifikasi yang ada, maka dari itu penelitian ini memilih 3 algoritma dari 10 algoritma terbaik menurut ICDM tahun 2006. Klasifikasi terhadap dokumen teks pendek seperti judul skripsi mahasiswa memiliki kesulitan tersendiri daripada dokumen teks panjang karena semakin sedikit kata semakin sulit diklasifikasi. Sehingga tujuan dari penelitian ini adalah untuk mengetahui algoritma yang paling efektif untuk mengklasifikasi judul skripsi. Penelitian ini terdiri dari beberapa tahap yaitu pengumpulan data, pengelompokan data melalui angket oleh dosen ahli, pre-processing text, pembobotan kata menggunakan vector space model dan tf-idf, evaluasi dengan k-fold cross validation, klasifikasi menggunakan k-nearest neighbor, naïve bayes classifier, dan support vector machine, dan analisis dengan confusion matrix. Percobaan dilakukan dengan menggunakan 266 data judul skripsi mahasiswa PTIK UNJ dari angkatan 2010-2013, dengan data terakhir berasal dari sidang skripsi pada semester 105(semester ganjil 2016/2017). Hasil dari klasifikasi menggunakan algoritma tersebut didapatkan algoritma yang paling efisien yaitu support vector machine dengan akurasi 82% dari 10 kali percobaan.


Author(s):  
Makoto Suzuki ◽  
Naohide Yamagishi ◽  
Takashi Ishida ◽  
Masayuki Goto ◽  
Shigeichi Hirasawa

Sign in / Sign up

Export Citation Format

Share Document