N-gram approach for a URL similarity measure

Author(s):  
Neetu Singh ◽  
Narendra S. Chaudhari
Keyword(s):  
Sebatik ◽  
2018 ◽  
Vol 22 (2) ◽  
pp. 95-101
Author(s):  
Aida Indriani ◽  
Muhammad Muhammad ◽  
Suprianto Suprianto ◽  
Hadriansa Hadriansa

Banyaknya informasi diberbagai media, membuat pengguna harus jeli dalam mencari informasi yang benar. Informasi yang dikatakan benar bukan hanya dilihat dari sumber terpercaya, tetapi dalam penulisan tidak boleh terjadi kesalahan ejaan kata (typo) yang dapat mengakibatkan kesalahpahaman makna informasi yang dibaca. Untuk meminimalkan kesalahan ejaan kata dibutuhkan peran editor dengan melakukan koreksi kata secara satu per satu. Tujuan dari penelitian ini adalah untuk membuat aplikasi koreksi kata secara otomatis, dengan memanfaatkan teknik text mining yaitu set based similarity measure. Teknik yang digunakan yaitu jaccard index dan menggunakan bantuan fitur N-gram sebanyak 3 yaitu Bi-gram, Tri-gram dan Quad-gram. Selain itu, penelitian ini bertujuan untuk menentukan fitur N-gram yang tepat dalam melakukan koreksi kata. Dengan adanya aplikasi koreksi kata ini diharapkan dapat membantu tim editor dalam melakukan pengecekan kata sebelum dipubikasikan ke umum. Untuk analisa fitur N-gram yang tepat untuk melakukan koreksi kata adalah fitur Bi-gram.


Author(s):  
Mohana Priya K ◽  
Pooja Ragavi S ◽  
Krishna Priya G

Clustering is the process of grouping objects into subsets that have meaning in the context of a particular problem. It does not rely on predefined classes. It is referred to as an unsupervised learning method because no information is provided about the "right answer" for any of the objects. Many clustering algorithms have been proposed and are used based on different applications. Sentence clustering is one of best clustering technique. Hierarchical Clustering Algorithm is applied for multiple levels for accuracy. For tagging purpose POS tagger, porter stemmer is used. WordNet dictionary is utilized for determining the similarity by invoking the Jiang Conrath and Cosine similarity measure. Grouping is performed with respect to the highest similarity measure value with a mean threshold. This paper incorporates many parameters for finding similarity between words. In order to identify the disambiguated words, the sense identification is performed for the adjectives and comparison is performed. semcor and machine learning datasets are employed. On comparing with previous results for WSD, our work has improvised a lot which gives a percentage of 91.2%


Informatica ◽  
2018 ◽  
Vol 29 (3) ◽  
pp. 399-420
Author(s):  
Alessia Amelio ◽  
Darko Brodić ◽  
Radmila Janković

2012 ◽  
Vol 38 (2) ◽  
pp. 229-235 ◽  
Author(s):  
Wen-Qing LI ◽  
Xin SUN ◽  
Chang-You ZHANG ◽  
Ye FENG

2020 ◽  
Vol 10 (1) ◽  
pp. 193-197
Author(s):  
D. Stephen Dinagar ◽  
E. Fany Helena
Keyword(s):  

Sign in / Sign up

Export Citation Format

Share Document