Jurnal Linguistik Komputasional (JLK)
Latest Publications


TOTAL DOCUMENTS

10
(FIVE YEARS 7)

H-INDEX

1
(FIVE YEARS 1)

Published By Tanjungpura University

2621-9336

2020 ◽  
Vol 3 (1) ◽  
pp. 25
Author(s):  
Dewi Setiarini ◽  
Ria Hari Gusmita ◽  
Fenty Agustin
Keyword(s):  

2020 ◽  
Vol 3 (1) ◽  
pp. 12
Author(s):  
Arief Rahman ◽  
Ayu Purwarianti

Available Indonesian dependency parsers can be considered worse than other languages’ parsers that have been researched thoroughly. Currently, Indonesia dependency parsers can’t reliably parse sentences with gerund(s) and/or ellipsis correctly. This is because of the sparse feature representation that causes difficulty in parsing these types of sentences. In this research, dense representation is proposed for Indonesian dependency parser. The use of dense word representation may allow better generalization and gives more information regarding the words to be parsed, which allows a more accurate parsing. The scope of the dependency parsing in this research is limited to well-formed Indonesian sentences, using the local transition-based parsing. Based on our experiments, we found that using word embedding instead of sparse word representation increases parsing accuracy significantly.


2019 ◽  
Vol 2 (2) ◽  
pp. 56
Author(s):  
Naufal Rasyad ◽  
Moch. Arif Bijaksana ◽  
Kemas Muslim Lhaksmana

Al-Qur’an merupakan kitab suci utama bagi umat Islam yang ditulis menggunakan bahasa Arab. Seiring dengan perkembangan teknologi, telah dikembangkan sistem pencarian ayat Al-Qur'an berdasarkan kemiripan fonetis salah satunya adalah Lafzi. Namun untuk menangani perbedaan bunyi pada tanda berhenti di pertengahan ayat, sistem Lafzi belum bisa menanganinya dengan baik. Maka dari itu, dibutuhkan sistem yang dapat membantu pengguna dalam melakukan pencarian ayat Al-Qur’an, terutama untuk perbedaan bunyi pada tanda berhenti sehingga pencarian bisa menemukan kata yang berbeda pengucapan pada tanda berhenti. Berdasarkan permasalahan tersebut, dari sistem Lafzi, dilakukan pengembangan supaya dapat melakukan pencarian yang bisa menangani perbedaan bunyi pada tanda berhenti. Digunakan pengindeksan trigram untuk memperkirakan kecocokan string antara query dengan transliterasi ayat Al-Qur'an serta dibuat aturan pada input dengan huruf akhir 'T' menjadi 'H'. Sistem yang sudah ada mendapatkan nilai recall sebesar 81% dan nilai MAP sebesar 65%. Sedangkan hasil dari penelitian ini diperoleh nilai recall sebesar 100% dan nilai MAP sebesar 84%.


2019 ◽  
Vol 2 (2) ◽  
pp. 34
Author(s):  
Mia Kamayani

Tujuan dari artikel ini adalah membuat kajian literatur terhadap metode pelabelan part-of-speech (POS tagger) untuk Bahasa Indonesia yang telah dilakukan selama 11 tahun terakhir (sejak tahun 2008). Artikel ini dapat menjadi roadmap POS tagger Bahasa Indonesia dan juga dasar pertimbangan untuk pengembangan selanjutnya agar menggunakan dataset dan tagset yang standar sebagai benchmark metode. Terdapat 15 publikasi yang dibahas, pembahasan meliputi dataset, tagset dan metode yang digunakan untuk POS tag Bahasa Indonesia. Dataset yang paling banyak digunakan dan paling mungkin menjadi corpus standar adalah IDN Tagged Corpus terdiri dari lebih dari 250.000 token. Tagset Bahasa Indonesia hingga saat ini belum terstandarisasi dengan jumlah label bervariasi dari 16 tag hingga 37 tag. Metode yang paling banyak dikembangkan dan berpotensi menjadi state-of-the-art adalah neural network, dengan varian metode biLSTM dan CRF dan sejauh ini memberikan skor F1 dan akurasi tertinggi (>96%).


2019 ◽  
Vol 2 (2) ◽  
pp. 47
Author(s):  
Heri Heryono

Penelitian ini menitikberatkan pada studi kasus sederhana yang melibatkan dua orang pengujar, native dan non-native dalam mengucapkan kata-kata yang mengandung diftong. Bidang linguistik yang terkait adalah fonetik dan fonologi, dengan bantuan sebuah aplikasi PRAAT untuk menghitung frekuensi dan intensitas ujaran. Subjek pembahasan dalam penelitian ini adalah vokal rangkap/diftong (diphthong) yang terdapat dalam beberapa kata berbahasa Inggris. Yang difokuskan hanyalah unsur pitch dan intensity dari dua orang pengujar dalam mengujarkan kata-kata bervokal rangkap tersebut. Metode penelitian yang digunakan dalam mendapatkan perbandingan pitch dan intensity dari dua pengujar ini adalah deskriptif-analisis dengan penyuguhan data berupa tabel angka serta grafik. Penelitian ini melibatkan satu pengujar native dan satu pengujar non-native untuk mendapatkan hasil yang bisa diperbandingkan. Metode pengambilan data menggunakan PRAAT dengan file audio sebagai sumber data utama. Hasil dari penelitian ini menunjukkan bahwa pengujaran diftong dengan nilai pitch tertinggi baik dari pengujar native maupun non-native terlihat pada saat pengujaran kata dengan diftong /ɔɪ/; frekuensinya adalah 216.8 Hz untuk native dan 301.1 Hz untuk pengujar non-native. Sedangkan untuk intensity, diftong /ɪə/ memiliki angka intensitas terbesar yaitu 78.36 untuk pengujar native dan 80.52 untuk pengujar non-native. Berdasarkan pengambilan sampel data suara dari dua orang pengujar, maka dapat disimpulkan bahwa diftong /ɔɪ/ memiliki frekuensi yang tertinggi dibandingkan lainnya. Dan, diftongp /ɪə/ memiliki angka intensitas tertinggi dibandingkan dengan diftong lainnya. Penelitian menggunakan PRAAT dengan memperbandingkan pengujar native dan non-native secara fonetis memberikan ruang penelitian baru di ranah Bahasa dan teknologi.


2019 ◽  
Vol 2 (1) ◽  
pp. 28
Author(s):  
Irfan Afif ◽  
Ayu Purwarianti

We proposed the usage of dependency tree information to increase the accuracy of Indonesian factoid question answering. We employed MSTParser and Universal Dependency corpus to build the Indonesian dependency parser. The dependency tree information as the result of the Indonesian dependency parse is used in the answer finder component of Indonesian factoid question answering system. Here, we used dependency tree information in two ways: 1) as one of the features in machine learning based answer finder (classifying each term in the retrieved passage as part of a correct answer or not); 2) as an additional heuristic rule after conducting the machine learning technique. For the machine learning technique, we combined word based calculation, phrase based calculation and similarity dependency relation based calculation as the complete features. Using 203 data, we were able to enhance the accuracy for the Indonesian factoid QA system compared to related work by only using the phrase information. The best accuracy was 84.34% for the correct answer classification and the best MRR was 0.954.


2019 ◽  
Vol 2 (1) ◽  
pp. 6 ◽  
Author(s):  
Febyana Ramadhanti ◽  
Yudi Wibisono ◽  
Rosa Ariani Sukamto

Part-of-speech (PoS) tagger merupakan salah satu task dalam bidang natural language processing (NLP) sebagai proses penandaan kategori kata (part-of-speech) untuk setiap kata pada teks kalimat masukan. Hidden markov model (HMM) merupakan algoritma PoS tagger berbasis probabilistik, sehingga sangat tergantung pada train corpus. Terbatasnya komponen dalam train corpus dan luasnya kata dalam bahasa Indonesia menimbulkan masalah yang disebut out-of-vocabulary (OOV) words. Penelitian ini membandingkan PoS tagger yang menggunakan HMM+AM (analisis morfologi) dan PoS tagger HMM tanpa AM, dengan menggunakan train corpus dan testing corpus yang sama. Testing corpus mengandung 30% tingkat OOV dari 6.676 token atau 740 kalimat masukan. Hasil yang diperoleh dari sistem HMM saja memiliki akurasi 97.54%, sedangkan sistem HMM dengan metode analisis morfologi memiliki akurasi tertinggi 99.14%. 


2018 ◽  
Vol 1 (2) ◽  
pp. 65
Author(s):  
Muhammad Gerdy Asparilla ◽  
Herry Sujaini ◽  
Rudy Dwi Nyoto

Bahasa merupakan alat komunikasi yang dijadikan sarana untuk berinteraksi dengan masyarakat sekitar.Kemampuan akan penguasaan banyak bahasa tentunya akan mempermudah untuk berinteraksi dengan orang lain dari berbagai daerah yang berbeda. Oleh karena itu, diperlukan penerjemah untuk menambah pengetahuan akan berbagai bahasa yang ada. Mesin Penerjemah Statistik (Statistical Machine Translation) merupakan sebuah pendekatan mesin penerjemah dengan hasil terjemahan yang dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus paralel. Korpus paralel adalah pasangan korpus yang berisi kalimat-kalimat dalam suatu bahasa dan terjemahannya. Salah satu fitur yang digunakan untuk meningkatkan kualitas hasil terjemahan adalah dengan optimasi korpus. Tujuan yang ingin dicapai dalam penelitian ini adalah melakukan untuk melihat pengaruh kualitas korpus dengan memfilter pasangan kalimat-kalimat dengan terjemahan berkualitas. Filter yang digunakan adalah nilai minimal setiap kalimat yang di uji dengan metode Bilingual Evaluation Understudy (BLEU). Pengujian dilakukan dengan membandingkan nilai akurasi hasil terjemahan sebelum dan setelah optimasi korpus. Dari hasil penelitian, penggunaan optimasi korpus dapat meningkatkan kualitas terjemahan untuk mesin penerjemah bahasa Indonesia ke bahasa Jawa krama. Hal itu terlihat dari hasil pengujian dengan menambahkan optimasi korpus pada 15 kalimat uji diluar korpus terdapat peningkatan rata - rata nilai BLEU sebesar 10.53% dan dengan menggunakan 100 kalimat uji yang berasal dari korpus optimasi terdapat peningkatan rata-rata nilai BLEU sebesar 11.63%  pada pengujian otomatis serta 0.03% pada pengujian oleh ahli bahasa. Berdasarkan hal tersebut, mesin penerjemah statistik bahasa Indonesia ke bahasa Jawa krama dengan penggunaan fitur optimasi korpus dapat meningkatkan nilai akurasi hasil terjemahan.


2018 ◽  
Vol 1 (2) ◽  
pp. 51
Author(s):  
Galih Rizky Prabowo

Telah berabad-abad Al-Qur’an hadir di tengah-tengah peradaban dan pergaulan umat manusia yang terdiri dari 6236 ayat. Untuk mengukur kesamaan semantik antar terjemahan ayat Al-Quran yang bertujuan untuk memahami lebih dalam terhadap makna yang terkait pada ayat Al-Quran dibutuhkan suatu metode salah satunya dengan monolingual word alignment. Monolingual alignment adalah metode penyejajaran kata yang mengidentifikasi kesamaan antar kata dalam pasangan kalimat yang ada. Selain penggunaan metode monolingual alignment dalam pengukuran kesamaan kata yang ada, dibutuhkan pula sebuah dataset yang di align yang berfungsi sebagai kumpulan dari objek yang isinya adalah hubungan semantik antar sets yang ada. Namun dataset monolingual word alignment untuk bahasa Indonesia berformat MSR masih sangat terbatas volumenya. Dalam penelitian ini, diaplikasikan beberapa fitur dalam metode monolingual alignment dalam pembangunan dataset monolingual word alignment bahasa Indonesia berformat MSR yaitu align identical words, align PFA dan align word sequences dengan menghasilkan nilai F1 86.94 %. Untuk hasil F1 terbaik dihasilkan dari beberapa gabungan fitur alignment yaitu dengan fitur align identical words dan align PFA dengan hasil F1 sebesar 88.83 %. Kata kunci— Al-Quran, Monolingual Alignment, MSR


2018 ◽  
Vol 1 (1) ◽  
pp. 23
Author(s):  
Ikhwan Nizwar Akhmad ◽  
Anto Satriyo Nugroho ◽  
Bambang Harjito

Peningkatan jumlah informasi yang tersedia di internet disamping memberikan manfaat, juga memunculkan masalah tersendiri. Mesin pencarian modern sudah cukup baik untuk mendapatkan informasi tertentu. Namun jumlah informasi yang banyak terkadang menyebabkan pencari informasi kesulitan mendapatkan intisari dari informasi yang dicari. Kondisi ini dikenal sebagai information overload. Peringkasan multidokumen otomatis adalah salah satu solusi untuk masalah ini. Meskipun metode peringkasan multidokumen otomatis sudah dikembangkan sejak 20 tahun lalu, penerapannya dalam Bahasa Indonesia masih terbatas. Dalam tulisan ini, kami melaporkan hasil penelitian yang dilakukan pada peringkasan multidokumen berbahasa Indonesia. Artikel dengan topik penyakit menular merupakan salah satu studi kasus yang menarik untuk peringkasan multidokumen Bahasa Indonesia. Informasi mengenai penyakit menular dibutuhkan oleh masyarakat sehingga tersedia banyak informasi mengenai topik ini di internet. Kondisi ini menyebabkan kemungkinan information overload untuk pencarian dalam topik ini. Dalam penelitian ini, diterapkan peringkasan multidokumen otomatis dengan menggunakan Log-Likelihood Ratio (LLR) untuk mendapatkan topic signature, dan Maximal Marginal Relevance pada artikel dengan topik penyakit menular untuk mendapatkan ringkasan dengan sedikit perulangan informasi. Penelitian ini menghasilkan ringkasan dengan nilai akurasi sebesar 0,4 (dengan menggunakan ROUGE-S9). Selain itu, dalam penelitian ini didapatkan bahwa topic signature (beserta akurasinya) memegang peran penting dalam proses peringkasan dokumen otomatis.


Sign in / Sign up

Export Citation Format

Share Document