Pengembangan Modul Preprocessing Teks untuk Kasus Formalisasi dan Pengecekan Ejaan Bahasa Indonesia pada Aplikasi Web Mining Simple Solution (WMSS)

2018 ◽  
Vol 15 (2) ◽  
pp. 92
Author(s):  
Umi Chuzaimah Chuzaimah Zulkifli

Data media sosial saat ini telah banyak digunakan untuk melakukan analisis baik analisis sentimen maupun analisis terkait lainnya. Nyatanya, data yang diperoleh dari media sosial tersebut pada umumnya memiliki kesalahan yang akan mempengaruhi hasil analisis. Kesalahan tersebut berupa penggunaan kata yang tidak baku dan adanya kesalahan ejaan dalam penulisan kata. Solusi yang ditawarkan berupa formalisasi kata dan pengecekan ejaan. Berdasarkan masalah tersebut, akan dibangun modul preprocessing untuk mengatasi dua kesalahan di atas. Metode yang digunakan pada formalisasi adalah mengubah kata ke bentuk formal berdasarkan KBBI sedangkan metode yang digunakan pada pengecekan ejaan adalah spelling correction. Metode spelling correction tersebut terdiri dari tiga yaitu edit distance, bigram dan edit distance + rule. Pada penelitian ini, selain penerapan kedua metode juga akan dilakukan analisis untuk melihat perbandingan hasil pada metode spelling correction. Dari hasil analisis tersebut, diketahui bahwa metode edit distance + rule memiliki akurasi yang lebih tinggi yaitu sebesar 83,39% dibandingkan dengan kedua metode lainnya yaitu edit distance dan bigram. Selain itu, metode edit distance + rule juga memiliki performa tercepat dibandingkan kedua metode lainnya. Secara keseluruhan, metode mengubah kata ke bentuk formal berdasarkan KBBI dan spelling correction telah mampu mengatasi masalah pada dua kasus di atas sehingga dapat meningkatkan akurasi hasil analisis.

2018 ◽  
Vol 15 (2) ◽  
pp. 95
Author(s):  
Umi Chuzaimah Zulkifli

Abstract Data of social media currently has been much used to analyze both sentiment analysis and another analysis. In fact, data that is obtained from the social media in generally has some mistakes which can influence the spelling in writing of words. The solution offered is word formalization and spelling check. Based on the problem, it will be built a preprocessing model to overcome two the mistakes. The method that will be used in formalization is to change the words to be formal form based on KBBI, while the method  used  for spelling check is spelling correction. Spelling correction method consists of distance edit, bigram and distance edit rule. In this study, in addition the application of both methods, also it will be analyzed comparing the result of spelling correction. From the result of analysis shows that distance edit rule has higher accuracy, namely 83.39% than using both edit distance and bigram method. In addition, edit distance rule method also has faster performance than another both methods. Overall, method to change word to formal word were based on KBBI and spelling correction has been able to overcome the problem of two cases, such that it can increase accuracy of  the result of the analysis. Keywords: preprocessing, spelling correction, edit distance, bigram AbstrakData media sosial saat ini telah banyak digunakan untuk melakukan analisis baik analisis sentimen maupun analisis terkait lainnya. Nyatanya, data yang diperoleh dari media sosial tersebut pada umumnya memiliki kesalahan yang akan mempengaruhi hasil analisis. Kesalahan tersebut berupa penggunaan kata yang tidak baku dan adanya kesalahan ejaan dalam penulisan kata. Solusi yang ditawarkan berupa formalisasi kata dan pengecekan ejaan. Berdasarkan masalah tersebut, akan dibangun modul preprocessing untuk mengatasi dua kesalahan di atas. Metode yang digunakan pada formalisasi adalah mengubah kata ke bentuk formal berdasarkan KBBI sedangkan metode yang digunakan pada pengecekan ejaan adalah spelling correction. Metode spelling correction tersebut terdiri dari tiga yaitu edit distance, bigram dan edit distance + rule. Pada penelitian ini, selain penerapan kedua metode juga akan dilakukan analisis untuk melihat perbandingan hasil pada metode spelling correction. Dari hasil analisis tersebut, diketahui bahwa metode edit distance + rule memiliki akurasi yang lebih tinggi yaitu sebesar 83,39% dibandingkan dengan kedua metode lainnya yaitu edit distance dan bigram. Selain itu, metode edit distance + rule juga memiliki performa tercepat dibandingkan kedua metode lainnya. Secara keseluruhan, metode mengubah kata ke bentuk formal berdasarkan KBBI dan spelling correction telah mampu mengatasi masalah pada dua kasus di atas sehingga dapat meningkatkan akurasi hasil analisis. Kata Kunci:preprocessing, spelling correction, edit distance, bigram


Author(s):  
Mohammad Nur Cholis ◽  
Erni Yudaningtyas ◽  
Muhammad Aswin

aplikasi penilaian esai adalah harus menilai kemiripan makna dari jawaban yan diketik oleh peserta ujian dengan kunci jawaban yang digunakan sebagai patokan kebenaran jawaban. Dimana jawaban esai adalah data bahasa alami manusia yang bisa memiliki sinonim kata dan ada kemungkinan kesalahan input yang disebabkan karena kesalahan pengetikan (kesalahan ejaan). Untuk itu perlu ada sebuah penelitian yang dapat mengukur seberapa berpengaruhnya penggunan synonim recognition dan spelling correction pada hasil aplikasi penilaian esai. Pada penelitian ini data yang digunakan untuk melakukan pengujian adalah data ujian pada mata pelajaran bahasa indonesia, seni budaya dan IPA dengan jumlah soal masing-masing ujian adalah 5 soal yang masing-masing ujian tersebut diikuti oleh 24 pelajar. Sehingga dari setiap ujian akan terdapat sebanyak 120 jawaban. Hasil pengujian menunjukkan bahwa penggunaan synonym recognition dan spelling correction pada hasil aplikasi penilaian esai dapat meningkatkan akurasi dan memperkecil nilai root mean square error (rmse).


2020 ◽  
Author(s):  
Tae Hyeong Kim ◽  
Min Ji Kang ◽  
Se Ha Lee ◽  
Jong-Ho Kim ◽  
Hyung Joon Joo ◽  
...  

BACKGROUND Existing bacterial culture test results for infectious diseases are written in unrefined text, resulting in many problems including typographical errors and stop words. Effective spelling correction processes are needed to ensure the accuracy and reliability of data for the study of infectious diseases, including medical terminology extraction. If a dictionary is established, spelling algorithms using edit distance are efficient. However, in the absence of dictionaries, traditional spelling correction algorithms that utilize only edit distances have limitations. OBJECTIVE In this research, we proposed a similarity-based spelling correction algorithm using pre-trained word embedding with the BioWordVec technique. This method uses a character-level N-grams-based distributed representation through unsupervised learning rather than the existing rule-based method. In other words, we propose a framework that detects and corrects typographical errors when a dictionary is not in place. METHODS For detected typographical errors not mapped to SNOMED clinical terms, a correction candidate group with high similarity considering the edit distance was generated using pre-trained word embedding from the clinical database. From the embedding matrix in which the vocabulary is arranged in descending order according to frequency, the grid search is used to search for candidate groups of similar words. Then, the correction candidate words are ranked in consideration of the frequency of the words, and the typos are finally corrected according to the ranking. RESULTS Bacteria identification words were extracted from 27,544 bacteria culture reports, and 16 types of 914 spelling errors were found. The similarity-based spelling correction algorithm using BioWordVec proposed in this research corrected 12 types of typographical errors and showed very high performance in correcting 99.45% of all spelling errors. CONCLUSIONS This tool corrected spelling errors effectively in the absence of a dictionary based on bacterial identification words in the bacteria culture reports. This method will help build a high-quality refined database of vast text data for electronic health records.


2020 ◽  
Vol 7 (2) ◽  
pp. 105-113
Author(s):  
Mayanda Mega Santoni ◽  
Nurul Chamidah ◽  
Desta Sandya Prasvita ◽  
Reza Amarta Prayoga ◽  
Bayu Permana Sukma

Tri Gatra Bangun Bahasa yaitu utamakan Bahasa Indonesia, lestarikan bahasa daerah, dan kuasai bahasa asing. Melalui ini, maka bahasa daerah sebagai salah satu kekayaan bangsa Indonesia perlu dilestarikan. Selain itu, bahasa daerah juga berfungsi sebagai pendukung bahasa nasional yakni Bahasa Indonesia. Pemanfaatan teknologi dapat digunakan sebagai upaya dalam pelestarian bahasa daerah. Penelitian ini memanfaatkan teknologi kecerdasan buatan yakni mesin penerjemah yang menerjemahkan Bahasa Indonesia ke bahasa daerah berbasiskan citra teks. Bahasa daerah yang digunakan yakni bahasa daerah Minang. Fokus penelitian ini pada proses penerjemahan hasil optical character recognition (OCR) dari citra teks Bahasa Indonesia menggunakan algoritma edit distance, yakni hamming distance, Leveinshtein distance dan Jaro-Winkler. Hasil penelitian ini menunjukkan bahwa algoritma edit distance dapat memperbaiki hasil OCR dalam melakukan penerjemahan ke bahasa daerah. Hasil OCR pada citra teks memiliki akurasi awal yakni 50.72%. Setelah diterapkan algoritma edit distance, akurasi penerjemahan meningkat menjadi 68.34% untuk algoritma hamming distance, 70.5% untuk algoritma Leveinshtein distance dan 70.2% untuk algoritma Jaro-Winkler. Dari ketiga algoritma ini, Leveinshtein distance memiliki performasi akurasi penerjemahan paling tinggi. Kata Kunci: penerjemahan, bahasa Indonesia, bahasa Minang, hamming distance, leveinshtein distance, jaro-winkler, optical character recognition


2018 ◽  
Vol 10 (1) ◽  
pp. 1-8
Author(s):  
Ichsan Taufik ◽  
Izma Dewi Aishia ◽  
Jumadi Jumadi

ABSTRAK Pendeteksian kata-kata asing ini dimaksudkan untuk membantu dalam mengurangi kesalahan dalam penulisan karya ilmiah dan pernyataan tesis sebagai pengerjaan. Ada aturan dalam penulisan karya ilmiah bahwa dokumen harus memenuhi peraturan penulisan bahasa Indonesia yang baik dan salah satunya adalah penggunaan huruf miring dalam bahasa asing (bahasa Inggris). Oleh karena itu, dibuat sebuah aplikasi untuk membantu dalam pendeteksian kata-kata asing sehingga bisa memiringkan huruf-huruf yang tidak ada dalam tata kelola bahasa Indonesia. Dalam pembuatan aplikasi digunakan metode pencarian fuzzy untuk mendeteksi kata asing dengan menggunakan matriks jarak jauh levenshtein untuk menghitung jarak kemiripan sebuah kata. Pencarian fuzzy dilakukan dengan fuzzymatching yang mengembalikan daftar hasil berdasarkan variabel yang telah ditentukan. Pencarian fuzzy menggunakan matriks dengan levenshtein mewakili jarak untuk menghitung jarak kemiripan kata, sehingga akan menghasilkan kata yang memiliki huruf miring dan tidak berhuruf miring jika ada dalam tata bahasa Indonesia. Dari hasil pengujian, penggunaan algoritma pencarian fuzzy untuk mendeteksi kata-kata asing dalam sebuah dokumen kata dengan jumlah kata yang berbeda menghasilkan nilai akurasi rata-rata 89,6%. Hasil dari proses ini membuat aplikasi ini bisa membantu tatabahasa asing dalam penulisan karya ilmiah. ABSTRACT Detection of foreign words is intended to help in reducing errors in the writing of scientific papers and thesis statements as of workmanship. There are rules in writing scientific papers that document must meet the rules of Indonesian rule of good writing and really one of them is use of italics in the word foreign languages (English). Therefore, made an application to aid in the detection of foreign words so as to tilt the letters that do not exist in the governance of the Indonesian word. In the making of the application, the fuzzy search method used for detecting foreign word using levenshtein edit distance matrix to calculate the distance semblance of a word. Fuzzy search conducted with fuzzy matching which returns a list of results based on the variables that have been determined. A fuzzy search using a matrix with levenshtein represented distance to calculate the distance of the similarity of the word, so will produce a word that has italic style and not if there is in Indonesian grammar. From the test results, the use of fuzzy search algorithms to detect foreign words in a word document with a different number of words resulted in an average accuracy value of 89.6%. The results of this process makes this application can help foreign grammar in writing scientific papers.How to Cite : Taufik, I. Aishia,I.D. Jumadi.J. (2017). IMPLEMENTASI FUZZY SEARCH UNTUK PENDETEKSI KATA ASING PADA DOKUMEN MICROSOFT WORD. Jurnal Teknik Informatika, 10(1), 1-8. doi:10.15408/jti.v10i1.6804Permalink/DOI: http://dx.doi.org/10.15408/jti.v10i1.6804  


10.2196/25530 ◽  
2021 ◽  
Vol 9 (2) ◽  
pp. e25530
Author(s):  
Taehyeong Kim ◽  
Sung Won Han ◽  
Minji Kang ◽  
Se Ha Lee ◽  
Jong-Ho Kim ◽  
...  

Background Existing bacterial culture test results for infectious diseases are written in unrefined text, resulting in many problems, including typographical errors and stop words. Effective spelling correction processes are needed to ensure the accuracy and reliability of data for the study of infectious diseases, including medical terminology extraction. If a dictionary is established, spelling algorithms using edit distance are efficient. However, in the absence of a dictionary, traditional spelling correction algorithms that utilize only edit distances have limitations. Objective In this research, we proposed a similarity-based spelling correction algorithm using pretrained word embedding with the BioWordVec technique. This method uses a character-level N-grams–based distributed representation through unsupervised learning rather than the existing rule-based method. In other words, we propose a framework that detects and corrects typographical errors when a dictionary is not in place. Methods For detected typographical errors not mapped to Systematized Nomenclature of Medicine (SNOMED) clinical terms, a correction candidate group with high similarity considering the edit distance was generated using pretrained word embedding from the clinical database. From the embedding matrix in which the vocabulary is arranged in descending order according to frequency, a grid search was used to search for candidate groups of similar words. Thereafter, the correction candidate words were ranked in consideration of the frequency of the words, and the typographical errors were finally corrected according to the ranking. Results Bacterial identification words were extracted from 27,544 bacterial culture and antimicrobial susceptibility reports, and 16 types of spelling errors and 914 misspelled words were found. The similarity-based spelling correction algorithm using BioWordVec proposed in this research corrected 12 types of typographical errors and showed very high performance in correcting 97.48% (based on F1 score) of all spelling errors. Conclusions This tool corrected spelling errors effectively in the absence of a dictionary based on bacterial identification words in bacterial culture and antimicrobial susceptibility reports. This method will help build a high-quality refined database of vast text data for electronic health records.


Author(s):  
Viny Christanti Mawardi ◽  
Zyad Rusdi ◽  
Bagus Mulyawan

Setiap guru kelas wajib untuk memberikan soal secara rutin baik untuk latihan sehari-hari, penilaian harian, tengah semester atau akhir semester.Pada saat menyiapkan naskah soal dan mengetiknya, secara tidak sadar kesalahan pengetikan dapat terjadi.Walaupun pihak guru sudah berusaha untuk memeriksa ulang dan memperbaiki naskah soal, masih juga terdapat beberapa kesalahan pengetikan yang dapat saja terjadi.Beberapa kesalahan kurang huruf, kelebihan huruf atau huruf yang tertukar adalah kesalahan yang umum terjadi. SD. Tiara Kasih adalah salah satu sekolah yang cukup ketat dalam proses memeriksa soal. Kepala sekolah selalu memeriksa kembali setiap naskah soal yang akan diberikan kepada siswa. Namun banyaknya soal dan surat lainnya yang bertumpuk membuat ketelitian pemeriksaan kurang maksimal. Saat ini aplikasi word processing sudah memiliki auto spelling correction yang dapat digunakan untuk membantu memberikan koreksi pada ejaan yang salah.Namun biasanya tersedia untuk Bahasa Inggris dan langsung memeriksa setiap kata yang diketik dan mengkoreksi kata tersebut.Sekolah membutuhkan aplikasi yang dapat memeriksa dan memberikan koreksi setelah naskah selesai dibuat.Sehingga setelah naskah dibuat, naskah dapat diperiksa kembali oleh guru lainnya sebagai peningkatan kualitas soal agar bebas dari kesalahan pengetikan.Tim PKM membuat aplikasi Sistem Koreksi Ejaan Bahasa Indonesia (SKEBI) sesuai kebutuhan sekolah untuk memeriksa naskah soal.


Sign in / Sign up

Export Citation Format

Share Document