scholarly journals Ekstraksi Event Berbasis Paragraf dari Artikel Berita Bahasa Indonesia

2018 ◽  
Author(s):  
Masayu Leylia Khodra ◽  
Yudi Wibisono

Dengan banyaknya artikel berita online yang terbit setiap saat, sistem ekstraksi event dapat membantu pembaca berita dengan memberikan informasi terstruktur dari setiap artikel berita. Ekstraksi event dari artikel berita merupakan proses mendapatkan informasi terstruktur 5W1H yaitu siapa (who) melakukan apa (what), kapan (when), dimana (where), mengapa (why), dan bagaimana (how). Ekstraksi 5W1H ini merupakan salah satu jenis ekstraksi informasi. Model ekstraksi 5W1H dibangun dengan pendekatan berbasis sequence labeling berbasis skema BIO (Begin Inside Outside). Karena setiap paragraf berisi satu pokok pikiran, idealnya satu instans frame 5W1H dihasilkan dari satu paragraf, dan satu artikel berita direpresentasikan dengan sejumlah instans frame 5W1H. Oleh karena itu, makalah ini membahas pembangunan model ekstraksi event 5W1H berbasis paragraf. Pemodelan dilakukan dengan menggunakan korpus 610 teks paragraf yang diambil dari 57 artikel berita yang telah dianotasi secara manual dengan informasi 5W1H. Pemodelan memanfaatkan arsitektur bidirectional LSTMs (long short term memory) dan CRF (conditional random fields). Pada tahap evaluasi, kinerja model yang dicapai adalah F1 0.62

IEEE Access ◽  
2020 ◽  
Vol 8 ◽  
pp. 154984-154996
Author(s):  
Abdulmohsen Al-Thubaity ◽  
Atheer Alkhalifa ◽  
Abdulrahman Almuhareb ◽  
Waleed Alsanie

Author(s):  
Yudi Widhiyasana ◽  
Transmissia Semiawan ◽  
Ilham Gibran Achmad Mudzakir ◽  
Muhammad Randi Noor

Klasifikasi teks saat ini telah menjadi sebuah bidang yang banyak diteliti, khususnya terkait Natural Language Processing (NLP). Terdapat banyak metode yang dapat dimanfaatkan untuk melakukan klasifikasi teks, salah satunya adalah metode deep learning. RNN, CNN, dan LSTM merupakan beberapa metode deep learning yang umum digunakan untuk mengklasifikasikan teks. Makalah ini bertujuan menganalisis penerapan kombinasi dua buah metode deep learning, yaitu CNN dan LSTM (C-LSTM). Kombinasi kedua metode tersebut dimanfaatkan untuk melakukan klasifikasi teks berita bahasa Indonesia. Data yang digunakan adalah teks berita bahasa Indonesia yang dikumpulkan dari portal-portal berita berbahasa Indonesia. Data yang dikumpulkan dikelompokkan menjadi tiga kategori berita berdasarkan lingkupnya, yaitu “Nasional”, “Internasional”, dan “Regional”. Dalam makalah ini dilakukan eksperimen pada tiga buah variabel penelitian, yaitu jumlah dokumen, ukuran batch, dan nilai learning rate dari C-LSTM yang dibangun. Hasil eksperimen menunjukkan bahwa nilai F1-score yang diperoleh dari hasil klasifikasi menggunakan metode C-LSTM adalah sebesar 93,27%. Nilai F1-score yang dihasilkan oleh metode C-LSTM lebih besar dibandingkan dengan CNN, dengan nilai 89,85%, dan LSTM, dengan nilai 90,87%. Dengan demikian, dapat disimpulkan bahwa kombinasi dua metode deep learning, yaitu CNN dan LSTM (C-LSTM),memiliki kinerja yang lebih baik dibandingkan dengan CNN dan LSTM.


2018 ◽  
Author(s):  
Yudi Wibisono ◽  
Masayu Leylia Khodra

Pengenalan entitas bernama (named-entity recognition atau NER) adalah proses otomatis mengekstraksi entitas bernama yang dianggap penting di dalam sebuah teks dan menentukan kategorinya ke dalam kategori terdefinisi. Sebagai contoh, untuk teks berita, NER dapat mengekstraksi nama orang, nama organisasi, dan nama lokasi. NER bermanfaat dalam berbagai aplikasi analisis teks, misalnya pencarian, sistem tanya jawab, peringkasan teks dan mesin penerjemah. Tantangan utama NER adalah penanganan ambiguitas makna karena konteks kata pada kalimat, misalnya kata “Cendana” dapat merupakan nama lokasi (Jalan Cendana), atau nama organisasi (Keluarga Cendana), atau nama tanaman. Tantangan lainnya adalah penentuan batas entitas, misalnya “[Istora Senayan] [Jakarta]”. Berbagai kakas NER telah dikembangkan untuk berbagai bahasa terutama Bahasa Inggris dengan kinerja yang baik, tetapi kakas NER bahasa Indonesia masih memiliki kinerja yang belum baik. Makalah ini membahas pendekatan berbasis pembelajaran mesin untuk menghasilkan model NER bahasa Indonesia. Pendekatan ini sangat bergantung pada korpus yang menjadi sumber belajar, dan teknik pembelajaran mesin yang digunakan. Teknik yang akan digunakan adalah LSTM - CRF (Long Short Term Memory – Conditional Random Field). Hasil terbaik (F-measure = 0.72) didapatkan dengan menggunakan word embedding GloVe Wikipedia Bahasa Indonesia.


Sign in / Sign up

Export Citation Format

Share Document