Using Contextual Topic Model for a Query-Focused Multi-Document Summarizer

2016 ◽  
Vol 25 (01) ◽  
pp. 1660002 ◽  
Author(s):  
Guangbing Yang

Oft-decried information overload is a serious problem that negatively impacts the comprehension of information in the digital age. Text summarization is a helpful process that can be used to alleviate this problem. With the aim of seeking a novel method to enhance the performance of multi-document summarization, this study proposes a novel approach to analyze the problem of multi-document summarization based on a mixture model, consisting of a contextual topic model from a Bayesian hierarchical topic modeling family for selecting candidate summary sentences, and a regression model in machine learning for generating the summary. By investigating hierarchical topics and their correlations with respect to the lexical co-occurrences of words, the proposed contextual topic model can determine the relevance of sentences more effectively, recognize latent topics, and arrange them hierarchically. The quantitative evaluation results from a practical application demonstrates that a system implementing this model can significantly improve the performance of summarization and make it comparable to state-of-the-art summarization systems.

2018 ◽  
Vol 28 (11n12) ◽  
pp. 1559-1574 ◽  
Author(s):  
Zheng Liu ◽  
Chiyu Liu ◽  
Bin Xia ◽  
Tao Li

Understanding contents in social networks by inferring high-quality latent topics from short texts is a significant task in social analysis, which is challenging because social network contents are usually extremely short, noisy and full of informal vocabularies. Due to the lack of sufficient word co-occurrence instances, well-known topic modeling methods such as LDA and LSA cannot uncover high-quality topic structures. Existing research works seek to pool short texts from social networks into pseudo documents or utilize the explicit relations among these short texts such as hashtags in tweets to make classic topic modeling methods work. In this paper, we explore this problem by proposing a topic model for noisy short texts with multiple relations called MRTM (Multiple Relational Topic Modeling). MRTM exploits both explicit and implicit relations by introducing a document-attribute distribution and a two-step random sampling strategy. Extensive experiments, compared with the state-of-the-art topic modeling approaches, demonstrate that MRTM can alleviate the word co-occurrence sparsity and uncover high-quality latent topics from noisy short texts.


Symmetry ◽  
2019 ◽  
Vol 11 (12) ◽  
pp. 1486
Author(s):  
Zhinan Gou ◽  
Zheng Huo ◽  
Yuanzhen Liu ◽  
Yi Yang

Supervised topic modeling has been successfully applied in the fields of document classification and tag recommendation in recent years. However, most existing models neglect the fact that topic terms have the ability to distinguish topics. In this paper, we propose a term frequency-inverse topic frequency (TF-ITF) method for constructing a supervised topic model, in which the weight of each topic term indicates the ability to distinguish topics. We conduct a series of experiments with not only the symmetric Dirichlet prior parameters but also the asymmetric Dirichlet prior parameters. Experimental results demonstrate that the result of introducing TF-ITF into a supervised topic model outperforms several state-of-the-art supervised topic models.


2019 ◽  
Author(s):  
Νεκταρία Πόθα

Η περιοχή της ανάλυσης συγγραφέα (Authorship Analysis) αποσκοπεί στην άντληση πληροφοριών σχετικά με τους συγγραφείς ψηφιακών κειμένων. Συνδέεται άμεσα με πολλές εφαρμογές καθώς είναι εφικτό να χρησιμοποιηθεί για την ανάλυση οποιουδήποτε είδους(genre) κειμένων: λογοτεχνικών έργων, άρθρων εφημερίδων, αναρτήσεις σε κοινωνικά δίκτυα κλπ. Οι περιοχές εφαρμογών της τεχνολογίας αυτής διακρίνονται σε φιλολογικές (humanities),(π.χ. ποιος είναι ο συγγραφέας ενός λογοτεχνικού έργου που εκδόθηκε ανώνυμα, ποιος είναι ο συγγραφέας έργων που έχουν εκδοθεί με ψευδώνυμο, επαλήθευση της πατρότητας λογοτεχνικών έργων γνωστών συγγραφέων κτλ.), εγκληματολογικές (forensics) (π.χ. εύρεση υφολογικών ομοιοτήτων μεταξύ προκηρύξεων τρομοκρατικών ομάδων, διερεύνηση αυθεντικότητας σημειώματος αυτοκτονίας, αποκάλυψη πολλαπλών λογαριασμών χρήστη σε κοινωνικά δίκτυα που αντιστοιχούν στο ίδιο άτομο κτλ.) και στον τομέα της ασφάλειας του κυβερνοχώρου (cyber-security) (π.χ. εύρεση υφολογικών ομοιοτήτων μεταξύ χρηστών πολλαπλών ψευδωνύμων).Θεμελιώδες ερευνητικό πεδίο της ανάλυσης συγγραφέα αποτελεί η επαλήθευση συγγραφέα (author verification), όπου δεδομένου ενός συνόλου κειμένων (σε ηλεκτρονική μορφή) από τον ίδιο συγγραφέα (υποψήφιος συγγραφέας) καλούμαστε να αποφασίσουμε αν ένα άλλο κείμενο (άγνωστης ή αμφισβητούμενης συγγραφικής προέλευσης) έχει γραφτεί από τον συγγραφέα αυτόν ή όχι. Η επαλήθευση συγγραφέα έχει αποκτήσει ιδιαίτερο ενδιαφέρον τα τελευταία χρόνια κυρίως λόγω των πειραματικών αξιολογήσεων PAN@CLEF. Συγκεκριμένα, από το 2013 εως το 2015 οι διαγωνισμοί PAN είχαν εστιάσει στο πεδίο της επαλήθευσης συγγραφέα παρέχοντας ένα καλά οργανωμένο σύνολο δεδομένων (PAN corpora) και συγκεντρώνοντας πλήθος μεθόδων για τον σκοπό αυτό. Ωστόσο, το περιθώριο λάθους είναι αρκετά μεγάλο εφόσον η επίδοση των μεθόδων εξαρτάται από πολλαπλούς παράγοντες όπως το μήκος των κειμένων, η θεματική συνάφεια μεταξύ των κειμένων και η υφολογική συνάφεια μεταξύ των κειμένων. Η πιο απαιτητική περίπτωση προκύπτει όταν τα κείμενα γνωστού συγγραφέα ανήκουν σε ένα είδος (π.χ. blogs ή μηνύματα email) ενώ το προς διερεύνηση κείμενο ανήκει σε άλλο είδος (π.χ., tweet ή άρθρο εφημερίδας). Επιπλέον, αν τα κείμενα του γνωστού συγγραφέα με το προς διερεύνηση κείμενο δεν συμφωνούν ως προς τη θεματική περιοχή (topic) (π.χ. τα γνωστά κείμενα σχετίζονται με εξωτερική πολιτική και το άγνωστο με πολιτιστικά θέματα) η επίδοση των τρεχόντων μεθόδων επαλήθευσης συγγραφέα είναι ιδιαίτερα χαμηλή. Στόχος της παρούσας διδακτορικής διατριβής είναι η ανάπτυξη αποδοτικών και εύρωστων μεθόδων επαλήθευσης συγγραφέα που είναι ικανές να χειριστούν ακόμα και τέτοιες περίπλοκες περιπτώσεις. Προς την κατεύθυνση αυτή, παρουσιάζουμε βελτιωμένες μεθόδους επαλήθευσης συγγραφέα και συστηματικά εξετάζουμε την αποδοτικότητα τους σε διάφορα σύνολα δεδομένων αναφοράς (PAN datasets και Enron Data). Αρχικά, προτείνουμε δύο βελτιωμένους αλγόριθμους, ο ένας ακολουθεί το παράδειγμα όπου όλα τα διαθέσιμα δείγματα γραφής του υποψηφίου συγγραφέα αντιμετωπίζονται μεμονωμένα, ως ξεχωριστές αναπαραστάσεις (instance-based paradigm) και ο άλλος είναι βασισμένος στο παράδειγμα όπου όλα τα δείγματα γραφής του υποψηφίου συγγραφέα συννενώνονται και εξάγεται ένα ενιαίο κείμενο, μία μοναδική αναπαράσταση (profile-based paradigm), οι οποίες επιτυγχανουν υψηλότερη απόδοση σε σύνολα δεδομένων που καλύπτουν ποικιλία γλωσσώνν (Αγγλικά, Ελληνικά, Ισπανικά, Ολλανδικά) και κειμενικών ειδών (άρθρα, κριτικές, νουβέλες, κ.ά.) σε σύγκριση με την τεχνολογία αιχμής (state-of-the-art) στον τομέα της επαλήθευσης. Είναι σημαντικό να τονίσουμε ότι οι προτεινόμενες μέθοδοι επωφελούνται σημαντικά από τη διαθεσιμότητα πολλαπλών δειγμάτων κειμένων του υποψηφίου συγγραφέα και παραμένουν ιδιαίτερα ανθεκτικές/ανταγωνιστικές όταν το μήκος των κειμένων είναι περιορισμένο. Επιπλέον, διερευνούμε τη χρησιμότητα της εφαρμογής μοντελοποίησης θέματος (topic modeling) στην επαλήθευση συγγραφέα. Συγκεκριμένα, διεξάγουμε μια συστηματική μελέτη για να εξετάσουμε εάν οι τεχνικές μοντελοποίησης θέματος επιτυγχάνουν την βελτίωση της απόδοσης των πιο βασικών κατηγοριών μεθόδων επαλήθευσης καθώς και ποια συγκεκριμένη τεχνική μοντελοποίησης θέματος είναι η πλέον κατάλληλη για κάθε ένα από τα παραδείγματα μεθόδων επαλήθευσης. Για το σκοπό αυτό, συνδυάζουμε γνωστές μεθόδους μοντελοποίσης, Latent Semantic Indexing (LSI) και Latent Dirichlet Allocation, (LDA), με διάφορες μεθόδους επαλήθευσης συγγραφέα, οι οποίες καλύπτουν τις βασικές κατηγορίες στην περιοχή αυτή, δηλαδή την ενδογενή(intrinsic), που αντιμετωπίζει το πρόβλημα επαλήθευσης ως πρόβλημα μίας κλάσης, και την εξωγενή (extrinsic), που μετατρέπει το πρόβλημα επαλήθευσης σε πρόβλημα δύο κλάσεων, σε συνδυασμό με τις profile-based και instance-based προσεγγίσεις.Χρησιμοποιώντας πολλαπλά σύνολα δεδομένων αξιολόγησης επιδεικνύουμε ότι η LDA τεχνική συνδυάζεται καλύτερα με τις εξωγενείς μεθόδους ενώ η τεχνική LSI αποδίδει καλύτερα με την πιο αποδοτικής ενδογενή μέθοδο. Επιπλέον, οι τεχνικές μοντελοποίησης θέματος φαίνεται να είναι πιο αποτελεσματικές όταν εφαρμόζονται σε μεθόδους που ακολουθούν το profile-based παράδειγμα και η αποδοτικότητα τους ενισχύεται όταν η πληροφορία των latent topics εξάγεται από ένα ενισχυμένο σύνολο κειμένων (εμπλουτισμένο με επιπλέον κείμενα τα οποία έχουν συλλεχθεί από εξωτερικές πηγές (π.χ web) και παρουσιάζουν σημαντική θεματική συνάφεια με το αρχικό υπό εξέταση σύνολο δεδομένων. Η σύγκριση των αποτελεσμάτων μας με την τεχνολογία αιχμής του τομέα της επαλήθευσης, επιδεικνύει την δυναμική των προτεινόμενων μεθόδων. Επίσης, οι προτεινόμενες εξωγενείς μέθοδοι είναι ιδιαίτερα ανταγωνιστικές στην περίπτωση που χρησιμοποιηθούν αγνώστου είδους εξωγενή κείμενα. Σε ορισμένες από τις σχετικές μελέτες, υπάρχουν ενδείξεις ότι ετερογενή σύνολα(heterogeneous ensembles) μεθόδων επαλήθευσης μπορούν να παρέχουν πολύ αξιόπιστες λύσεις, καλύτερες από κάθε ατομικό μοντέλο επαλήθευσης ξεχωριστά. Ωστόσο, έχουν εξεταστεί μόνο πολύ απλά μοντέλα συνόλων έως τώρα που συνδυάζουν σχετικά λίγες βασικές μεθόδους. Προσπαθώντας να καλύψουμε το κενό αυτό, θεωρούμε ένα μεγάλο σύνολο βασικών μοντέλων επαλήθευσης (συνολικά 47 μοντέλα) που καλύπτουν τα κύρια παραδείγματα /κατηγορίες μεθόδων στην περιοχή αυτή και μελετούμε τον τρόπο με τον οποίο μπορούν να συνδυαστούν ώστε να δημιουργηθεί ένα αποτελεσματικό σύνολο. Με αυτό τον τρόπο, προτείνουμε ένα απλό σύνολο ομαδοποίησης στοίβας (stacking ensemble) καθώς και μια προσέγγιση που βασίζεται στην δυναμική επιλογή μοντέλων για καθεμία υπό εξέταση περίπτωση επαλήθευσης συγγραφέα ξεχωριστά. Τα πειραματικά αποτελέσματα σε πολλαπλά σύνολα δεδομένων επιβεβαιώνουν την καταλληλότητα των προτεινόμενων μεθόδων επιδεικνύοντας την αποτελεσματικότητα τους. Η βελτίωση της επίδοσης που επιτυγχάνουν τα καλύτερα από τα αναφερόμενα μοντέλα σε σχέση με την τρέχουσα τεχνολογία αιχμής είναι περισσότερο από 10%.


Author(s):  
Gaode Chen ◽  
Xinghua Zhang ◽  
Yanyan Zhao ◽  
Cong Xue ◽  
Ji Xiang

Sequential recommendation systems alleviate the problem of information overload, and have attracted increasing attention in the literature. Most prior works usually obtain an overall representation based on the user’s behavior sequence, which can not sufficiently reflect the multiple interests of the user. To this end, we propose a novel method called PIMI to mitigate this issue. PIMI can model the user’s multi-interest representation effectively by considering both the periodicity and interactivity in the item sequence. Specifically, we design a periodicity-aware module to utilize the time interval information between user’s behaviors. Meanwhile, an ingenious graph is proposed to enhance the interactivity between items in user’s behavior sequence, which can capture both global and local item features. Finally, a multi-interest extraction module is applied to describe user’s multiple interests based on the obtained item representation. Extensive experiments on two real-world datasets Amazon and Taobao show that PIMI outperforms state-of-the-art methods consistently.


2019 ◽  
Vol 9 (3) ◽  
pp. 386 ◽  
Author(s):  
Xu-Wang Han ◽  
Hai-Tao Zheng ◽  
Jin-Yuan Chen ◽  
Cong-Zhi Zhao

Recently, neural sequence-to-sequence models have made impressive progress in abstractive document summarization. Unfortunately, as neural abstractive summarization research is in a primitive stage, the performance of these models is still far from ideal. In this paper, we propose a novel method called Neural Abstractive Summarization with Diverse Decoding (NASDD). This method augments the standard attentional sequence-to-sequence model in two aspects. First, we introduce a diversity-promoting beam search approach in the decoding process, which alleviates the serious diversity issue caused by standard beam search and hence increases the possibility of generating summary sequences that are more informative. Second, we creatively utilize the attention mechanism combined with the key information of the input document as an estimation of the salient information coverage, which aids in finding the optimal summary sequence. We carry out the experimental evaluation with state-of-the-art methods on the CNN/Daily Mail summarization dataset, and the results demonstrate the superiority of our proposed method.


2021 ◽  
Vol 2021 ◽  
pp. 1-11
Author(s):  
Zhinan Gou ◽  
Yan Li ◽  
Zheng Huo

Topic modeling is a probabilistic generation model to find the representative topic of a document and has been successfully applied to various document-related tasks in recent years. Especially in the supervised topic model and time topic model, many methods have achieved some success. The supervised topic model can learn topics from documents annotated with multiple labels and the time topic model can learn topics that evolve over time in a sequentially organized corpus. However, there are some documents with multiple labels and time-stamped in reality, which need to construct a supervised time topic model to achieve document-related tasks. There are few research papers on the supervised time topic model. To solve this problem, we propose a method for constructing a supervised time topic model. By analysing the generative process of the supervised topic model and time topic model, respectively, we introduce the construction process of the supervised time topic model based on variational autoencoder in detail and conduct preliminary experiments. Experimental results demonstrate that the supervised time topic model outperforms several state-of-the-art topic models.


2019 ◽  
Vol 9 (21) ◽  
pp. 4565 ◽  
Author(s):  
Youngjae Im ◽  
Jaehyun Park ◽  
Minyeong Kim ◽  
Kijung Park

Latent dirichlet allocation (LDA) is a representative topic model to extract keywords related to latent topics embedded in a document set. Despite its effectiveness in finding underlying topics in documents, the traditional algorithm of LDA does not have a process to reflect sentimental meanings in text for topic extraction. Focusing on this issue, this study aims to investigate the usability of both LDA and sentiment analysis (SA) algorithms based on the affective level of text. This study defines the affective level of a given set of paragraphs and attempts to analyze the perceived trust of the methodologies in regards to usability. In our experiments, the text of the college scholastic ability test was selected as the set of evaluation paragraphs, and the affective level of the paragraphs was manipulated into three levels (low, medium, and high) as an independent variable. The LDA algorithm was used to extract the keywords of the paragraph, while SA was used to identify the positive or negative mood of the extracted subject word. In addition, the perceived trust score of the algorithm was evaluated by the subjects, and this study verifies whether there is a difference in the score according to the affective levels of the paragraphs. The results show that paragraphs with low affect lead to the high perceived trust of LDA from the participants. However, the perceived trust of SA does not show a statistically significant difference between the affect levels. The findings from this study indicate that LDA is more effective to find topics in text that mainly contains objective information.


2019 ◽  
Vol 8 (2S8) ◽  
pp. 1366-1371

Topic modeling, such as LDA is considered as a useful tool for the statistical analysis of text document collections and other text-based data. Recently, topic modeling becomes an attractive researching field due to its wide applications. However, there are remained disadvantages of traditional topic modeling like as LDA due the shortcoming of bag-of-words (BOW) model as well as low-performance in handle large text corpus. Therefore, in this paper, we present a novel approach of topic model, called LDA-GOW, which is the combination of word co-occurrence, also called: graph-of-words (GOW) model and traditional LDA topic discovering model. The LDA-GOW topic model not only enable to extract more informative topics from text but also be able to leverage the topic discovering process from large-scaled text corpus. We test our proposed model in comparing with the traditional LDA topic model, within several standardized datasets, include: WebKB, Reuters-R8 and annotated scientific documents which are collected from ACM digital library to demonstrate the effectiveness of our proposed model. For overall experiments, our proposed LDA-GOW model gains approximately 70.86% in accuracy.


10.2196/21252 ◽  
2020 ◽  
Vol 8 (11) ◽  
pp. e21252
Author(s):  
Irena Spasic ◽  
Kate Button

Background Musculoskeletal conditions are managed within primary care, but patients can be referred to secondary care if a specialist opinion is required. The ever-increasing demand for health care resources emphasizes the need to streamline care pathways with the ultimate aim of ensuring that patients receive timely and optimal care. Information contained in referral letters underpins the referral decision-making process but is yet to be explored systematically for the purposes of treatment prioritization for musculoskeletal conditions. Objective This study aims to explore the feasibility of using natural language processing and machine learning to automate the triage of patients with musculoskeletal conditions by analyzing information from referral letters. Specifically, we aim to determine whether referral letters can be automatically assorted into latent topics that are clinically relevant, that is, considered relevant when prescribing treatments. Here, clinical relevance is assessed by posing 2 research questions. Can latent topics be used to automatically predict treatment? Can clinicians interpret latent topics as cohorts of patients who share common characteristics or experiences such as medical history, demographics, and possible treatments? Methods We used latent Dirichlet allocation to model each referral letter as a finite mixture over an underlying set of topics and model each topic as an infinite mixture over an underlying set of topic probabilities. The topic model was evaluated in the context of automating patient triage. Given a set of treatment outcomes, a binary classifier was trained for each outcome using previously extracted topics as the input features of the machine learning algorithm. In addition, a qualitative evaluation was performed to assess the human interpretability of topics. Results The prediction accuracy of binary classifiers outperformed the stratified random classifier by a large margin, indicating that topic modeling could be used to predict the treatment, thus effectively supporting patient triage. The qualitative evaluation confirmed the high clinical interpretability of the topic model. Conclusions The results established the feasibility of using natural language processing and machine learning to automate triage of patients with knee or hip pain by analyzing information from their referral letters.


2017 ◽  
Vol 5 (4) ◽  
pp. 33-43
Author(s):  
Than Than Wai ◽  
Sint Sint Aung

In order to generate user's information needs from a collection of documents, many term-based and pattern-based approaches have been used in Information Filtering. In these approaches, the documents in the collection are all about one topic. However, user's interests can be diverse and the documents in the collection often involve multiple topics. Topic modeling is useful for the area of machine learning and text mining. It generates models to discover the hidden multiple topics in a collection of documents and each of these topics are presented by distribution of words. But its effectiveness in information filtering has not been so well explored. Patterns are always thought to be more discriminative than single terms for describing documents. The major challenge found in frequent pattern mining is a large number of result patterns. As the minimum threshold becomes lower, an exponentially large number of patterns are generated. To deal with the above mentioned limitations and problems, in this paper, a novel information filtering model, EFITM (Enhanced Frequent Itemsets based on Topic Model) model is proposed. Experimental results using the CRANFIELD dataset for the task of information filtering show that the proposed model outperforms over state-of-the-art models.


Sign in / Sign up

Export Citation Format

Share Document