scholarly journals An Automatic Multidocument Text Summarization Approach Based on Naïve Bayesian Classifier Using Timestamp Strategy

2016 ◽  
Vol 2016 ◽  
pp. 1-10 ◽  
Author(s):  
Nedunchelian Ramanujam ◽  
Manivannan Kaliappan

Nowadays, automatic multidocument text summarization systems can successfully retrieve the summary sentences from the input documents. But, it has many limitations such as inaccurate extraction to essential sentences, low coverage, poor coherence among the sentences, and redundancy. This paper introduces a new concept of timestamp approach with Naïve Bayesian Classification approach for multidocument text summarization. The timestamp provides the summary an ordered look, which achieves the coherent looking summary. It extracts the more relevant information from the multiple documents. Here, scoring strategy is also used to calculate the score for the words to obtain the word frequency. The higher linguistic quality is estimated in terms of readability and comprehensibility. In order to show the efficiency of the proposed method, this paper presents the comparison between the proposed methods with the existing MEAD algorithm. The timestamp procedure is also applied on the MEAD algorithm and the results are examined with the proposed method. The results show that the proposed method results in lesser time than the existing MEAD algorithm to execute the summarization process. Moreover, the proposed method results in better precision, recall, andF-score than the existing clustering with lexical chaining approach.

2016 ◽  
Vol 25 (03) ◽  
pp. 1650012 ◽  
Author(s):  
Hongmei Chen ◽  
Weiyi Liu ◽  
Lizhen Wang

The potential applications and challenges of uncertain data mining have recently attracted interests from researchers. Most uncertain data mining algorithms consider aleatory (random) uncertainty of data, i.e. these algorithms require that exact probability distributions or confidence values are attached to uncertain data. However, knowledge about uncertainty may be incomplete in the case of epistemic (incomplete) uncertainty of data, i.e. probabilities of uncertain data may be imprecise, coarse, or missing in some applications. The paper focuses on uncertain data which miss probabilities, specially, value-uncertain discrete objects which miss probabilities (for short uncertain objects). On the other hand, classification is one of the most important tasks in data mining. But, to the best of our knowledge, there is no method to learn Naïve Bayesian classifier from uncertain objects. So the paper studies Naïve Bayesian classification of uncertain objects. Firstly, the paper defines interval probabilities of uncertain objects from probabilistic cardinality point of view, and bridges the gap between uncertain objects and the theory of interval probability by proving that interval probabilities are F-probabilities. Secondly, based on the theory of interval probability, the paper defines conditional interval probabilities including the intuitive concept and the canonical concept, and the conditional independence of the intuitive concept. Further, the paper gives a formula to effectively compute the intuitive concept. Thirdly, the paper presents a Naïve Bayesian classifier with interval probability parameters which can handle both uncertain objects and certain objects. Finally, experiments with uncertain objects based on UCI data show satisfactory performances.


TeIKa ◽  
2019 ◽  
Vol 9 (02) ◽  
pp. 115-127
Author(s):  
Wiranto Horsen Silitonga ◽  
Jay Idoan Sihotang

Pemilihan Presiden Indonesia 2019 ramai diperbincangkan di dunia nyata maupun dunia maya, khususnya di media sosial Twitter. Semua orang bebas berpendapat tentang pasangan calon Presiden Indonesia 2019 tersebut. Sehingga memunculkan banyak opini, tidak hanya opini yang positif atau netral, ada pula opini negatif. Media sosial khususnya Twitter sekarang ini menjadi salah satu tempat promosi atau kampanye yang efektif dan efisien untuk menggait para pendukung. Dalam hal ini peneliti akan melakukan riset terhadap tokoh publik yang mencalonkan diri menjadi Presiden Indonesia. Metode penelitian yang digunakan dalam riset kali ini adalah algoritma klasifikasi Naïve Bayesian Classifer. Data yang digunakan adalah tweet berbahasa Indonesia dengan kata kunci Jokowi (#Jokowi2Periode) dan Prabowo (#PrabowoSandi) sebanyak 1009 data tweet selama 5 bulan dimulai dari 1 September 2019 sampai 31 Januar1 2019. Yang di mana data tweet tersebut diambil dari empat daerah terbesar di Indonesia, yaitu Jakarta, Bandung, Medan, dan Surabaya. Setiap data akan diambil secara manual menggunakan Geolocation API yang telah di sediakan oleh Twitter melalui Twitter search. Hasil dari klasifikasi menggunakan algoritma Naïve Bayesian Classifier didapat 839 tweet positif, 32 tweet negatif, dan 67 tweet netral dari 938 tweet keseluruhan, atau dalam bentuk persentase ada  90% merupakan sentimen positif, 3% sentimen negatif, dan 7% sentimen netral terhadap bapak Joko Widodo. Dan 56 tweet positif, 6 tweet negatif, dan 8 tweet netral dari 70 tweet keseluruhan, atau dalam bentuk persentase ada  80% merupakan sentimen positif, 9% sentimen negatif, dan 11% sentimen netral terhadap bapak Prabowo. Tingkat akurasi yang dihasilkan dari algoritma Naïve Bayesian Classifier sendiri terhadap penelitian ini sebesar 77,62%.


TeIKa ◽  
2018 ◽  
Vol 8 (1) ◽  
pp. 99-105
Author(s):  
Yusran Tarihoran ◽  
Kevin Jeremy Manurip

Pemilihan Gubernur Jawa Barat 2018 ramai diperbincangkan di dunia nyata maupun dunia maya, khususnya di media sosial Twitter. Semua orang bebas berpendapat atau beropini  tentang  calon  Gubernur  Jawa  Barat  2018  sehingga  memunculkan banyak opini, tidak hanya opini yang positif atau netral, adapula opini negatif. Media sosial khususnya Twitter sekarang ini menjadi salah satu tempat promosi atau kampanye yang efektif  dan  efisien  untuk  menggait  para  pendukung.  Dalam  hal  ini  peneliti  akan melakukan  riset  terhadap  salah  satu  tokoh  publik  yang  mencalonkan  diri  gubernur Jawa Barat. Metode penelitian  yang digunakan dalam riset kali ini adalah algoritma  klasifikasi  Naïve  Bayesian  Classifer.  Data  yang  digunakan  adalah  tweet berbahasa Indonesia dengan kata kunci Ridwan Kamil (#RidwanKamil) sebanyak 1031 data tweet  selamat setiap hari dimulai dari 15 Januari 2018 sampai 15 April 2018. Hasil dari klasifikasi menggunakan algoritma Naïve Bayesian Classifier didapat 690 jumlah tweet atau 67% dari jumlah keseluruhan data  tweet  yang mendukung bapak Ridwan Kamil atau bersifat positif khususnya terhadap program kerja yang akan dilakukan dan ini  memberikan  statistik  probabilitas  sebesar  73,13%  tingkat  akurasi  Correctly Classified Instances.


Sign in / Sign up

Export Citation Format

Share Document