PENYUSUNAN STRONG’S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA

. Gunawan; Devi Dwi Purwanto; Herman Budianto; Indra Maryati

doi:10.21609/jsi.v5i2.265

PENYUSUNAN STRONG’S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA

Jurnal Sistem Informasi ◽

10.21609/jsi.v5i2.265 ◽

2012 ◽

Vol 5 (2) ◽

pp. 74

Author(s):

. Gunawan ◽

Devi Dwi Purwanto ◽

Herman Budianto ◽

Indra Maryati

Keyword(s):

Natural Language Processing ◽

Mutual Information ◽

Natural Language ◽

Language Processing ◽

Web Mining ◽

Word Alignment ◽

Phase Alignment ◽

Proper Name ◽

N Gram ◽

Bahasa Indonesia

Sampai saat ini belum pernah ditemukan Alkitab Perjanjian Baru Bahasa Indonesia secara online yang dilengkapi dengan Strong’s Concordance. Oleh karena itu penelitian ini melakukan penyusunan Strong’s Concordance ke dalam Alkitab Perjanjian Baru Bahasa Indonesia. Penyusunan Strong’s Concordance dilakukan dengan menggunakan pedoman teori yang ada pada Natural Language Processing (NLP) dan teori Web Mining. Penyusunan nomor strong tersebut dimulai dengan melakukan pendekatan nomor strong berdasarkan kemunculan katanya. Kemudian pada tahap selanjutnya digunakan pendekatan alignment antara kata yang ada pada Alkitab Bahasa Indonesia dengan nomor strong yang terdapat pada Alkitab Bahasa Inggris dengan menggunakan word alignment. Pendekatan ketiga menggunakan pendekatan n-gram dengan perhitungan mutual information untuk mencari arti kata yang terdiri lebih dari satu kata. Pendekatan keempat dilakukan dengan cara melakukan stemming pada corpus Alkitab Perjanjian Baru Bahasa Indonesia yang mana nantinya digunakan sebagai corpus baru untuk melakukan pencarian pada tahap satu sampai dengan tahap tiga. Dilakukan juga pendekatan lain seperti pencarian proper name, pencarian nomor strong yang hanya memiliki satu frekuensi dan pendataan nomor strong yang termasuk dalam conjuction, preposition, dan pronoun. Hasil penelitian adalah adanya Alkitab Perjanjian Baru Bahasa Indonesia yang dilengkapi dengan nomor strong, pembelajaran Alkitab menjadi lebih mudah. Until now have not found a New Bible Testamen in Bahasa online which is equipped with a Strong's Concordance. Therefore, this study prepare a Strong's Concordance to the New Bible Testament Indonesian. Preparation of Strong's Concordance is done using the existing guidelines on the theory of Natural Language Processing (NLP) and the theory of Web Mining. The preparation of these strong numbers begins with based on the word strong numbers aproach. Then on the next phase alignment approach between existing words in the Bible Bahasa with strong numbers contained in the English Bible using the word alignment. The third approach uses n-gram approach with the calculation of mutual information to find the meaning of words consisting in more than one word. The fourth approach is performed by stemming the New Bible Testament corpus Bahasa which will be used as a new corpus to perform a search in stage one up to stage three. There is also another approach such as the proper name search, the search for strong numbers that have only one frequency, and data collection that included strong numbers in conjuction, preposition, and pronoun. The result is the New Bible Testament Bahasa which comes with a number of strong more easier to learn.

Download Full-text

Penerapan Convolutional Long Short-Term Memory untuk Klasifikasi Teks Berita Bahasa Indonesia

Jurnal Nasional Teknik Elektro dan Teknologi Informasi (JNTETI) ◽

10.22146/jnteti.v10i4.2438 ◽

2021 ◽

Vol 10 (4) ◽

pp. 354-361

Author(s):

Yudi Widhiyasana ◽

Transmissia Semiawan ◽

Ilham Gibran Achmad Mudzakir ◽

Muhammad Randi Noor

Keyword(s):

Deep Learning ◽

Natural Language Processing ◽

Natural Language ◽

Language Processing ◽

Short Term Memory ◽

Learning Rate ◽

Short Term ◽

Term Memory ◽

Long Short Term Memory ◽

Bahasa Indonesia

Klasifikasi teks saat ini telah menjadi sebuah bidang yang banyak diteliti, khususnya terkait Natural Language Processing (NLP). Terdapat banyak metode yang dapat dimanfaatkan untuk melakukan klasifikasi teks, salah satunya adalah metode deep learning. RNN, CNN, dan LSTM merupakan beberapa metode deep learning yang umum digunakan untuk mengklasifikasikan teks. Makalah ini bertujuan menganalisis penerapan kombinasi dua buah metode deep learning, yaitu CNN dan LSTM (C-LSTM). Kombinasi kedua metode tersebut dimanfaatkan untuk melakukan klasifikasi teks berita bahasa Indonesia. Data yang digunakan adalah teks berita bahasa Indonesia yang dikumpulkan dari portal-portal berita berbahasa Indonesia. Data yang dikumpulkan dikelompokkan menjadi tiga kategori berita berdasarkan lingkupnya, yaitu “Nasional”, “Internasional”, dan “Regional”. Dalam makalah ini dilakukan eksperimen pada tiga buah variabel penelitian, yaitu jumlah dokumen, ukuran batch, dan nilai learning rate dari C-LSTM yang dibangun. Hasil eksperimen menunjukkan bahwa nilai F1-score yang diperoleh dari hasil klasifikasi menggunakan metode C-LSTM adalah sebesar 93,27%. Nilai F1-score yang dihasilkan oleh metode C-LSTM lebih besar dibandingkan dengan CNN, dengan nilai 89,85%, dan LSTM, dengan nilai 90,87%. Dengan demikian, dapat disimpulkan bahwa kombinasi dua metode deep learning, yaitu CNN dan LSTM (C-LSTM),memiliki kinerja yang lebih baik dibandingkan dengan CNN dan LSTM.

Download Full-text

ANALISIS DAN IMPLEMENTASI CROSS-LINGUAL SEMANTIC SIMILARITY ANTAR KATA DENGAN METODE POINTWISE MUTUAL INFORMATION

Jurnal Penelitian Pendidikan ◽

10.17509/jpp.v18i1.11056 ◽

2018 ◽

Vol 18 (1) ◽

pp. 18-24

Author(s):

Sri Reski Anita Muhsini

Keyword(s):

Natural Language Processing ◽

Mutual Information ◽

Natural Language ◽

Semantic Similarity ◽

Language Processing ◽

Parallel Corpus ◽

Cross Lingual ◽

Pointwise Mutual Information

Implementasi pengukuran kesamaan semantik memiliki peran yang sangat penting dalam beberapa bidang Natural Language Processing (NLP), dimana hasilnya seringkali dijadikan dasar dalam melakukan task NLP yang lebih lanjut. Salah satu penerapannya yaitu dengan melakukan pengukuran kesamaan semantik multibahasa antar kata. Pengukuran ini dilatarbelakangi oleh suatu masalah dimana saat ini banyak sistem pencarian informasi yang harus berurusan dengan teks atau dokumen multibahasa. Sepasang kata dinyatakan memiliki kesamaan semantik jika pasangan kata tersebut memiliki kesamaan dari sisi makna atau konsep. Pada penelitian ini, diimplementasikan perhitungan kesamaan semantik antar kata pada bahasa yang berbeda yaitu bahasa Inggris dan bahasa Spanyol. Korpus yang digunakan pada penelitian ini yakni Europarl Parallel Corpus pada bahasa Inggris dan bahasa Spanyol. Konteks kata bersumber dari Swadesh list, serta hasil dari kesamaan semantiknya dibandingkan dengan datasetGold Standard SemEval 2017 Crosslingual Semantic Similarity untuk diukur nilai korelasinya. Hasil pengujian yang didapat terlihat bahwa pengukuran metode PMI mampu menghasilkan korelasi sebesar 0,5781 untuk korelasi Pearson dan 0.5762 untuk korelasi Spearman. Dari hasil penelitian dapat disimpulkan bahwa Implementasi pengukuran Crosslingual Semantic Similarity menggunakan metode Pointwise Mutual Information (PMI) mampu menghasilkan korelasi terbaik. Peneliti merekomendasikan pada penelitian selanjutnya dapat dilakukan dengan menggunakan dataset lain untuk membuktikan seberapa efektif metode pengukuran Poitnwise Mutual Information (PMI) dalam mengukur Crosslingual Semantic Similarity antar kata.

Download Full-text

Web Mining System in a Natural Language Processing Based for Social Media Analysis

Asian Journal of Computer Science and Technology ◽

10.51983/ajcst-2019.8.s3.2083 ◽

2019 ◽

Vol 8 (S3) ◽

pp. 72-75

Author(s):

Gadamsetty Vasavi ◽

T. Sudha

Keyword(s):

Social Media ◽

Natural Language Processing ◽

Natural Language ◽

Language Processing ◽

Web Mining ◽

Free Form ◽

Mining System ◽

Processing Methods ◽

Social Media Monitoring ◽

Media Monitoring

Social Media Monitoring and Analysis are the new trends in technology business. The challenge is to extract correct information from free-form texts of social media communication. Natural Language Processing methods are sometimes used in social media monitoring to improve accuracy in extracting information. This paper discusses a web mining system that is based on Natural Language Processing to analyze social media information. In that process, this research examines Natural Language methods that are important for such analysis. Then the traditional web mining steps are discussed along with proposed use of Natural Language Processing methods.

Download Full-text

Automatic classification of the emotional content of web documents

10.32920/ryerson.14653809.v1 ◽

2021 ◽

Author(s):

Alaa Hussainalsaid

Keyword(s):

Natural Language Processing ◽

Natural Language ◽

Sentiment Analysis ◽

Language Processing ◽

Automatic Classification ◽

Emotional Content ◽

Web Pages ◽

Web Documents ◽

N Gram

This thesis proposes automatic classification of the emotional content of web documents using Natural Language Processing (NLP) algorithms. We used online articles and general documents to verify the performance of the algorithm, such as general web pages and news articles. The experiments used sentiment analysis that extracts sentiment of web documents. We used unigram and bigram approaches that are known as special types of N-gram, where N=1 and N=2, respectively. The unigram model analyses the probability to hit each word in the corpus independently; however, the bigram model analyses the probability of a word occurring depending on the previous word. Our results show that the unigram model has a better performance compared to the bigram model in terms of automatic classification of the emotional content of web documents.

Download Full-text

Automatic classification of the emotional content of web documents

10.32920/ryerson.14653809 ◽

2021 ◽

Author(s):

Alaa Hussainalsaid

Keyword(s):

Natural Language Processing ◽

Natural Language ◽

Sentiment Analysis ◽

Language Processing ◽

Automatic Classification ◽

Emotional Content ◽

Web Pages ◽

Web Documents ◽

N Gram

Download Full-text

Lexical Knowledge Acquisition

10.1093/oxfordhb/9780199276349.013.0021 ◽

2012 ◽

Author(s):

Yuji Matsumoto

Keyword(s):

Natural Language Processing ◽

Mutual Information ◽

Natural Language ◽

Language Processing ◽

Lexical Knowledge ◽

Lexical Representations ◽

Domain Specific ◽

Text Corpora ◽

Corpus Data ◽

Machine Readable

This article deals with the acquisition of lexical knowledge, instrumental in complementing the ambiguous process of NLP (natural language processing). Imprecise in nature, lexical representations are mostly simple and superficial. The thesaurus would be an apt example. Two primary tools for acquiring lexical knowledge are ‘corpora’ and ‘machine-readable dictionary’ (MRD). The former are mostly domain specific, monolingual, while the definitions in MRD are generally described by a ‘genus term’ followed by a set of differentiae. Auxiliary technical nuances of the acquisition process, find mention as well, such as ‘lexical collocation’ and ‘association’, referring to the deliberate co-occurrence of words that form a new meaning altogether and loses it whenever a synonym replaces either of the words. The first seminal work on collocation extraction from large text corpora, was compiled around the early 1990s, using inter-word mutual information to locate collocation. Abundant corpus data would be obtainable from the Linguistic Data Consortium (LDC).

Download Full-text

Splitting-merging model of Chinese word tokenization and segmentation

Natural Language Engineering ◽

10.1017/s1351324998002058 ◽

1998 ◽

Vol 4 (4) ◽

pp. 309-324 ◽

Cited By ~ 1

Author(s):

YUAN YAO ◽

KIM TEN LUA

Keyword(s):

Natural Language Processing ◽

Mutual Information ◽

Natural Language ◽

Language Processing ◽

Word Segmentation ◽

Chinese Characters ◽

Chinese Word ◽

Blank Space ◽

New Words ◽

Segmentation Methods

Currently, word tokenization and segmentation are still a hot topic in natural language processing, especially for languages like Chinese in which there is no blank space for word delimitation. Three major problems are faced: (1) tokenizing direction and efficiency; (2) insufficient tokenization dictionary and new words; and (3) ambiguity of tokenization and segmentation. Most existing tokenization and segmentation methods have not dealt with the above problems together. To tackle the three problems in one basket, this paper presents a novel dictionary-based method called the Splitting-Merging Model (SMM) for Chinese word tokenization and segmentation. It uses the mutual information of Chinese characters to find the boundaries and the non-boundaries of Chinese words, and finally leads to a word segmentation by resolving ambiguities and detecting new words.

Download Full-text

Enriching Word Vectors with Subword Information

Transactions of the Association for Computational Linguistics ◽

10.1162/tacl_a_00051 ◽

2017 ◽

Vol 5 ◽

pp. 135-146 ◽

Cited By ~ 1156

Author(s):

Piotr Bojanowski ◽

Edouard Grave ◽

Armand Joulin ◽

Tomas Mikolov

Keyword(s):

Natural Language Processing ◽

Natural Language ◽

Language Processing ◽

State Of The Art ◽

Training Data ◽

Vector Representation ◽

New Approach ◽

Word Similarity ◽

Art Performance ◽

N Gram

Continuous word representations, trained on large unlabeled corpora are useful for many natural language processing tasks. Popular models that learn such representations ignore the morphology of words, by assigning a distinct vector to each word. This is a limitation, especially for languages with large vocabularies and many rare words. In this paper, we propose a new approach based on the skipgram model, where each word is represented as a bag of character n-grams. A vector representation is associated to each character n-gram; words being represented as the sum of these representations. Our method is fast, allowing to train models on large corpora quickly and allows us to compute word representations for words that did not appear in the training data. We evaluate our word representations on nine different languages, both on word similarity and analogy tasks. By comparing to recently proposed morphological word representations, we show that our vectors achieve state-of-the-art performance on these tasks.

Download Full-text

IMPLEMENTASI NATURAL LANGUAGE PROCESSING (NLP) UNTUK APLIKASI PENCARIAN LOKASI

Jurnal Nasional Teknologi Terapan (JNTT) ◽

10.22146/jntt.35036 ◽

2021 ◽

Vol 3 (2) ◽

pp. 15

Author(s):

Irkham Huda

Keyword(s):

Natural Language Processing ◽

Natural Language ◽

Language Processing ◽

Pos Tagging ◽

Bahasa Indonesia

Pencarian lokasi menjadi salah satu kebutuhan masyarakat dewasa ini terbukti dengan banyaknya penyedia layanan pemetaan. Untuk mencari lokasi dengan referensi relasi spasial tertentu, pengguna mendeskripsikannya dengan bahasa natural. Maka untuk membuat sistem pencarian lokasi yang mampu memahami masukan pengguna diperlukan implementasi Natural Language Processing (NLP). Penelitian terkait implementasi NLP untuk aplikasi pencarian lokasi masih dirasa perlu terutama karena belum adanya implementasi penelitian tersebut yang mendukung Bahasa Indonesia, sedangkan penelitian terkait yang sudah ada hanya mendukung Bahasa Inggris dengan cakupan terbatas.Dalam penelitian ini dikembangkan Sistem NLP untuk Aplikasi Pencarian Lokasi dikenal dengan NaLaMap. Basis data lokasi yang dimanfaatkan adalah Open Street Map (OSM) dan digunakan aplikasi web sebagai client untuk studi kasus. Dalam mentransformasikan kalimat masukan pencarian lokasi menjadi query spasial, Sistem NLP yang dibangun melalui lima tahapan utama yaitu Tokenisasi, POS Tagging, NER Tagging, Normalisasi Entitas, dan Penyusunan Query. Kemudian query yang berhasil disusun dijalankan pada basis data lokasi berbasis OSM sehingga diperoleh hasil pencarian yang akan ditampilkan melalui peta pada aplikasi client.Hasil uji coba sistem secara keseluruhan menggunakan 45 kalimat masukan dari responden, diperoleh hasil yang cukup bagus dengan nilai precision 0,97 dan recall 0,91.

Download Full-text

PEMBANGKIT ENTITY RELATIONSHIP DIAGRAM DARI SPESIFIKASI KEBUTUHAN MENGGUNAKAN NATURAL LANGUAGE PROCESSING UNTUK BAHASA INDONESIA

Jurnal Komputer dan Informatika ◽

10.35508/jicon.v9i2.5051 ◽

2021 ◽

Vol 9 (2) ◽

pp. 196-206

Author(s):

Parmonangan R. Togatorop ◽

Rezky Prayitno Simanjuntak ◽

Siti Berliana Manurung ◽

Mega Christy Silalahi

Keyword(s):

Natural Language Processing ◽

Natural Language ◽

Language Processing ◽

Rule Based ◽

Pos Tagging ◽

Sentence Segmentation ◽

Primary Key ◽

Entity Relationship ◽

Entity Relationship Diagram ◽

Bahasa Indonesia

Memodelkan Entity Relationship Diagram (ERD) dapat dilakukan secara manual, namun umumnya memperoleh pemodelan ERD secara manual membutuhkan waktu yang lama. Maka, dibutuhkan pembangkit ERD dari spesifikasi kebutuhan untuk mempermudah dalam melakukan pemodelan ERD. Penelitian ini bertujuan untuk mengembangkan sebuah sistem pembangkit ERD dari spesifikasi kebutuhan dalam Bahasa Indonesia dengan menerapkan beberapa tahapan-tahapan dari Natural Language Processing (NLP) sesuai kebutuhan penelitian. Spesifikasi kebutuhan yang digunakan tim peneliti menggunakan teknik document analysis. Untuk tahapan-tahapan dari NLP yang digunakan oleh peneliti yaitu: case folding, sentence segmentation, tokenization, POS tagging, chunking dan parsing. Kemudian peneliti melakukan identifikasi terhadap kata-kata dari teks yang sudah diproses pada tahapan-tahapan dari NLP dengan metode rule-based untuk menemukan daftar kata-kata yang memenuhi dalam komponen ERD seperti: entitas, atribut, primary key dan relasi. ERD kemudian digambarkan menggunakan Graphviz berdasarkan komponen ERD yang telah diperoleh Evaluasi hasil ERD yang berhasil dibangkitkan kemudian di evaluasi menggunakan metode evaluasi expert judgement. Dari hasil evaluasi berdasarkan beberapa studi kasus diperoleh hasil rata-rata precision, recall, F1 score berturut-turut dari tiap ahli yaitu: pada ahli 1 diperoleh 91%, 90%, 90%; pada ahli 2 diperoleh 90%, 90%, 90%; pada ahli 3 diperoleh 98%, 94%, 96%; pada ahli 4 diperoleh 93%, 93%, 93%; dan pada ahli 5 diperoleh 98%, 83%, 90%.

Download Full-text