Part-of-Speech Tagging and PP Attachment Disambiguation Using a Boosted Maximum Entropy Model

Abstract. Javanese language is one of the local languages in Indonesia, which is used by most of the population of Indonesia. The language has complex grammar to embrace the values of decency that is determined by the use of words containing courtesy known as Raos Alus. Every word in the Javanese belongs to a certain part of speech like what happens to other languages. Part of Speech (POS) tagging is a process to set syntactic category in a word such as nouns, verbs, or adjectives to every word in the document or text. This study examined the POS Tagging with Maximum Entropy and Rule Based for Javanese Krama—Higher Javanese--by using the Open NLP library to measure the maximum entropy. The results obtained are Maximum Entropy and Rule Based can be used for POS Tagging on Javanese Krama with the highest accuracy of 97.67%.Keywords: POS Tagging, NLP, Maximum Entropy, Rule Based, Javanese Krama LanguageAbstrak. Bahasa Jawa merupakan salah satu bahasa daerah di Indonesia yang dipakai oleh sebagian besar penduduk Indonesia. Bahasa Jawa memiliki tata bahasa yang kompleks karena menganut nilai-nilai kesopanan yang ditentukan berdasarkan penggunaan dengan kata-kata yang mengandung raos alus (rasa sopan). Setiap kata dalam Bahasa Jawa memiliki jenis kata atau part of speech tertentu seperti halnya dengan bahasa-bahasa lain. POS tagging merupakah bagian penting dari cakupan bidang ilmu Natural Languange Processing (NLP). Penelitian ini menguji POS Tagging dengan Berbasis Aturan dan distribusi probabilitas Maximum Entropy pada Bahasa Jawa Krama menggunakan library OpenNLP untuk mengukur maximum entropy. Hasil yang diperoleh adalah Maximum Entropy dan Rule Based dapat digunakan untuk POSTagging pada Bahasa Jawa Krama dengan akurasi tertinggi 97,67%.Kata Kunci: POS Tagging, NLP, Maximum Entropy, Rule Based, Bahasa Jawa Krama

Download Full-text

An English Part of Speech Tagging Method Based on Maximum Entropy

2015 International Conference on Intelligent Transportation, Big Data and Smart City ◽

10.1109/icitbs.2015.25 ◽

2015 ◽

Cited By ~ 2

Author(s):

Tao Jianchao

Keyword(s):

Maximum Entropy ◽

Part Of Speech Tagging ◽

Part Of Speech ◽

Speech Tagging

Download Full-text

Part-of-speech tagger based on maximum entropy model

2009 2nd IEEE International Conference on Computer Science and Information Technology ◽

10.1109/iccsit.2009.5234787 ◽

2009 ◽

Cited By ~ 3

Author(s):

Heyan Huang ◽

Xiaofei Zhang

Keyword(s):

Maximum Entropy ◽

Maximum Entropy Model ◽

Entropy Model ◽

Part Of Speech

Download Full-text

A Maximum Entropy Approach to Kannada Part Of Speech Tagging

International Journal of Computer Applications ◽

10.5120/5600-7852 ◽

2012 ◽

Vol 41 (13) ◽

pp. 9-12 ◽

Cited By ~ 1

Author(s):

Shambhavi.B. R ◽

Ramakanth Kumar P ◽

Revanth G

Keyword(s):

Maximum Entropy ◽

Part Of Speech Tagging ◽

Part Of Speech ◽

Speech Tagging

Download Full-text

Maximum Entropy Based Urdu Part of Speech Tagging

Communications in Computer and Information Science - Intelligent Technologies and Applications ◽

10.1007/978-981-15-5232-8_41 ◽

2020 ◽

pp. 484-492

Author(s):

Usman Mohy Ud Din ◽

Muhammad Waqas Anwar ◽

Ghulam Ali Mallah

Keyword(s):

Maximum Entropy ◽

Part Of Speech Tagging ◽

Part Of Speech ◽

Speech Tagging

Download Full-text

A New Method of the Automatically Marked Chinese Part of Speech Based on Gaussian Prior Smoothing Maximum Entropy Model

Fourth International Conference on Fuzzy Systems and Knowledge Discovery (FSKD 2007) ◽

10.1109/fskd.2007.86 ◽

2007 ◽

Cited By ~ 2

Author(s):

Wei Zhao ◽

Faxing Zhao ◽

Wenhui Li

Keyword(s):

Maximum Entropy ◽

New Method ◽

Maximum Entropy Model ◽

Entropy Model ◽

Part Of Speech ◽

Gaussian Prior

Download Full-text

Automatic Part-of-speech Tagging for Oromo Language Using Maximum Entropy Markov Model (MEMM)

Journal of Information and Computational Science ◽

10.12733/jics20103906 ◽

2014 ◽

Vol 11 (10) ◽

pp. 3319-3334 ◽

Cited By ~ 1

Author(s):

Abraham Tesso Nedjo

Keyword(s):

Markov Model ◽

Maximum Entropy ◽

Part Of Speech Tagging ◽

Part Of Speech ◽

Speech Tagging

Download Full-text

Chinese part of speech tagging based on maximum entropy method

Proceedings. International Conference on Machine Learning and Cybernetics ◽

10.1109/icmlc.2002.1167446 ◽

2003 ◽

Cited By ~ 1

Author(s):

Hong Ling ◽

Chun-Fa Yuan

Keyword(s):

Maximum Entropy ◽

Maximum Entropy Method ◽

Entropy Method ◽

Part Of Speech Tagging ◽

Part Of Speech ◽

Speech Tagging

Download Full-text

Lexical Rule and Lexicon Effect for Part of Speech Tagging Bahasa Madura

Matrik Jurnal Manajemen Teknik Informatika dan Rekayasa Komputer ◽

10.30812/matrik.v18i1.332 ◽

2018 ◽

Vol 18 (1) ◽

pp. 65-72

Author(s):

Nindian Puspa Dewi ◽

Ubaidi Ubaidi

Keyword(s):

Text Processing ◽

Part Of Speech Tagging ◽

Pos Tagging ◽

Part Of Speech ◽

Speech Tagging ◽

Bahasa Indonesia

POS Tagging adalah dasar untuk pengembangan Text Processing suatu bahasa. Dalam penelitian ini kita meneliti pengaruh penggunaan lexicon dan perubahan morfologi kata dalam penentuan tagset yang tepat untuk suatu kata. Aturan dengan pendekatan morfologi kata seperti awalan, akhiran, dan sisipan biasa disebut sebagai lexical rule. Penelitian ini menerapkan lexical rule hasil learner dengan menggunakan algoritma Brill Tagger. Bahasa Madura adalah bahasa daerah yang digunakan di Pulau Madura dan beberapa pulau lainnya di Jawa Timur. Objek penelitian ini menggunakan Bahasa Madura yang memiliki banyak sekali variasi afiksasi dibandingkan dengan Bahasa Indonesia. Pada penelitian ini, lexicon selain digunakan untuk pencarian kata dasar Bahasa Madura juga digunakan sebagai salah satu tahap pemberian POS Tagging. Hasil ujicoba dengan menggunakan lexicon mencapai akurasi yaitu 86.61% sedangkan jika tidak menggunakan lexicon hanya mencapai akurasi 28.95 %. Dari sini dapat disimpulkan bahwa ternyata lexicon sangat berpengaruh terhadap POS Tagging.

Download Full-text