MODDEL MESIN PENCARI DOKUMEN BAHASA INDONESIA, STUDI EFEKTIFITAS PADA VECTOR SPACE MODEL ALGORITMA STEMMING POTER PEMBOBOTAN FREKUENSI TERM BERBANDING FREKUENSI TERM DALAM PENCARIAN DAN FUNGSI KESAMAAN COSINE

2020 ◽  
Author(s):  
Lasarus Pelipus Malese

Seiring dengan semakin berharganya nilai sebuah informasi dan semakin banyak sumber-sumber informasi, maka semakin banyak pula kebutuhan manusia untuk dapat menemukan informasi yang sesuai keperluannya dengan cepat. Information Retrieval (Perolehan Informasi) merupakan suatu pencarian informasi(biasanya berupa dokumen) yang didasarkan pada suatu query (inputan user) yang diharapkan dapat memenuhi keinginan user dari dokumen yang ada. Dua aspek penting dalam konsep Information Retrieval yang diterapkan dalam sebuah perancangan mesin pencari yaitu repesentasi dari informasi dan pengukuran yang akan mengukur nilai kesamaan antara dua obyek. Informasi yang dapat direpresentasikan menjadi sebuah obyek yang direpresentasikan dalam berbagai bentuk dan model (heterogeneous). Keadaan ini mengakibatkan bahwa pencarian untuk suatu obyek informasi yang diinginkan akan dapat dipetakan kepada beberapa obyek informati yang dinilai relevan. Relevansi dua informasi di-ukur dari keberadaan kata kunci (keyword) dan bobotnya. Konsekuensi logis atas keadaan ini adalah bahwa dalam melakukan pencarian obyek yang diinginkan, ditemukan terdapat ketidakpastian (uncertainly) terhadap penggunaan keyword pada query oleh pengguna dengan keberadaan keyword pada dokumen. Pada penelitian ini akan difokuskan pada studi efektifitas vektor model dengan menggunakan algoritma steming poter untuk membentuk kata-kata menjadi sebuah kata baku serta pembobotan frekuwensi term untuk menentukan tingkat kepentingan setiap indeks term dalam sebuah dokumen dan fungsi kesamaan cosine dalam mengukur kemiripan queri dengan dokumen. Hasil pengujian nilai kualitas rata-rata precesion dan recall bahwa untuk semua bentuk query pencarian dokumen mempunyai nilai precesion 100% artinya baik pencarian berdasarkan bentuk query isi, judul dan dokumen mempunyai precesion yang baik sedangkan hasil pengujian recall menunjukkan hasil yang berbeda, dimana pencarian berdasarkan bentuk queri isi dokumen menempati recall tertinggi sebesar 90%, sedangkan pencarian berdasarkan bentuk queri judul dokumen dengan nilai recall 70% dan pencarian berdasarkan bentuk query dokumen menempati posisi terendah dengan recall 33%.

Author(s):  
Anthony Anggrawan ◽  
Azhari

Information searching based on users’ query, which is hopefully able to find the documents based on users’ need, is known as Information Retrieval. This research uses Vector Space Model method in determining the similarity percentage of each student’s assignment. This research uses PHP programming and MySQL database. The finding is represented by ranking the similarity of document with query, with mean average precision value of 0,874. It shows how accurate the application with the examination done by the experts, which is gained from the evaluation with 5 queries that is compared to 25 samples of documents. If the number of counted assignments has higher similarity, thus the process of similarity counting needs more time, it depends on the assignment’s number which is submitted.


1985 ◽  
Vol 8 (2) ◽  
pp. 253-267
Author(s):  
S.K.M. Wong ◽  
Wojciech Ziarko

In information retrieval, it is common to model index terms and documents as vectors in a suitably defined vector space. The main difficulty with this approach is that the explicit representation of term vectors is not known a priori. For this reason, the vector space model adopted by Salton for the SMART system treats the terms as a set of orthogonal vectors. In such a model it is often necessary to adopt a separate, corrective procedure to take into account the correlations between terms. In this paper, we propose a systematic method (the generalized vector space model) to compute term correlations directly from automatic indexing scheme. We also demonstrate how such correlations can be included with minimal modification in the existing vector based information retrieval systems.


Author(s):  
Budi Yulianto ◽  
Widodo Budiharto ◽  
Iman Herwidiana Kartowisastro

Boolean Retrieval (BR) and Vector Space Model (VSM) are very popular methods in information retrieval for creating an inverted index and querying terms. BR method searches the exact results of the textual information retrieval without ranking the results. VSM method searches and ranks the results. This study empirically compares the two methods. The research utilizes a sample of the corpus data obtained from Reuters. The experimental results show that the required times to produce an inverted index by the two methods are nearly the same. However, a difference exists on the querying index. The results also show that the numberof generated indexes, the sizes of the generated files, and the duration of reading and searching an index are proportional with the file number in the corpus and thefile size.


2019 ◽  
Vol 10 (1) ◽  
pp. 29
Author(s):  
Yulius Denny Prabowo ◽  
Tedi Lesmana Marselino ◽  
Meylisa Suryawiguna

Extracting information from a large amount of structured data requires expensive computing. The Vector Space Model method works by mapping words in continuous vector space where semantically similar words are mapped in adjacent vector spaces. The Vector Space Model model assumes words that appear in the same context, having the same semantic meaning. In the implementation, there are two different approaches: counting methods (eg: Latent Semantic Analysis) and predictive methods (eg Neural Probabilistic Language Model). This study aims to apply Word2Vec method using the Continuous Bag of Words approach in Indonesian language. Research data was obtained by crawling on several online news portals. The expected result of the research is the Indonesian words vector mapping based on the data used.Keywords: vector space model, word to vector, Indonesian vector space model.Ekstraksi informasi dari sekumpulan data terstruktur dalam jumlah yang besar membutuhkan komputasi yang mahal. Metode Vector Space Model bekerja dengan cara memetakan kata-kata dalam ruang vektor kontinu dimana kata-kata yang serupa secara semantis dipetakan dalam ruang vektor yang berdekatan. Metode Vector Space Model mengasumsikan kata-kata yang muncul pada konteks yang sama, memiliki makna semantik yang sama. Dalam penerapannya ada dua pendekatan yang berbeda yaitu: metode yang berbasis hitungan (misal: Latent Semantic Analysis) dan metode prediktif (misalnya Neural Probabilistic Language Model). Penelitian ini bertujuan untuk menerapkan metode Word2Vec menggunakan pendekatan Continuous Bag Of Words model dalam Bahasa Indonesia. Data penelitian yang digunakan didapatkan dengan cara crawling pada berberapa portal berita online. Hasil penelitian yang diharapkan adalah pemetaan vektor kata Bahasa Indonesia berdasarkan data yang digunakan.Kata Kunci: vector space model, word to vector, vektor kata bahasa Indonesia.


2012 ◽  
Vol 12 (1) ◽  
pp. 34-48 ◽  
Author(s):  
Ch. Aswani Kumar ◽  
M. Radvansky ◽  
J. Annapurna

Abstract Latent Semantic Indexing (LSI), a variant of classical Vector Space Model (VSM), is an Information Retrieval (IR) model that attempts to capture the latent semantic relationship between the data items. Mathematical lattices, under the framework of Formal Concept Analysis (FCA), represent conceptual hierarchies in data and retrieve the information. However, both LSI and FCA use the data represented in the form of matrices. The objective of this paper is to systematically analyze VSM, LSI and FCA for the task of IR using standard and real life datasets.


2021 ◽  
Vol 10 (2) ◽  
Author(s):  
Eka Sabna

Penyimpanan data judul skripsi mahasiswa semakin banyak dan akan terus bertambah.  Untuk mencari informasi dari judul skripsi tersebut akan menjadi sulit. Untuk itu dikembangkanlah metode pencarian yang disebut dengan temu-kembali informasi (information retrieval). Metode-metode temu-kembali informasi sudah dikenal sejak lama, salah satu dari metode tersebut yang paling banyak digunakan karena kemudahan implementasinya adalah Space Vector Model (SVM). Tujuan  penelitian  ini adalah memberikan paparan tentang proses pencarian  dokumen  digital dengan metode Vektor Space Model. Pada model ini dilakukan dengan proses  token dan    indexing   sehingga    ditemukan    hasil    dari maksimal  terdapat  dalam  data judul skripsi  menggunakan kata    kunci,    sehingga    di lakukan pencarian   sesuai   dengan   kata   kunci  dan   akan   dibandingkan dengan     data     yang     terdapat     pada     file dokumen judul skripsi, sehingga    dapat    menghasilkan    informasi    yang benar.


Sign in / Sign up

Export Citation Format

Share Document