scholarly journals Comparative Study on Perceived Trust of Topic Modeling Based on Affective Level of Educational Text

2019 ◽  
Vol 9 (21) ◽  
pp. 4565 ◽  
Author(s):  
Youngjae Im ◽  
Jaehyun Park ◽  
Minyeong Kim ◽  
Kijung Park

Latent dirichlet allocation (LDA) is a representative topic model to extract keywords related to latent topics embedded in a document set. Despite its effectiveness in finding underlying topics in documents, the traditional algorithm of LDA does not have a process to reflect sentimental meanings in text for topic extraction. Focusing on this issue, this study aims to investigate the usability of both LDA and sentiment analysis (SA) algorithms based on the affective level of text. This study defines the affective level of a given set of paragraphs and attempts to analyze the perceived trust of the methodologies in regards to usability. In our experiments, the text of the college scholastic ability test was selected as the set of evaluation paragraphs, and the affective level of the paragraphs was manipulated into three levels (low, medium, and high) as an independent variable. The LDA algorithm was used to extract the keywords of the paragraph, while SA was used to identify the positive or negative mood of the extracted subject word. In addition, the perceived trust score of the algorithm was evaluated by the subjects, and this study verifies whether there is a difference in the score according to the affective levels of the paragraphs. The results show that paragraphs with low affect lead to the high perceived trust of LDA from the participants. However, the perceived trust of SA does not show a statistically significant difference between the affect levels. The findings from this study indicate that LDA is more effective to find topics in text that mainly contains objective information.

2021 ◽  
Author(s):  
Faizah Faizah ◽  
Bor-Shen Lin

BACKGROUND The World Health Organization (WHO) declared COVID-19 as a global pandemic on January 30, 2020. However, the pandemic has not been over yet. Furthermore, in the first quartal of 2021, some countries face the third wave of the pandemic. During the difficult time, the development of the vaccines for COVID-19 accelerates rapidly. Understanding the public perception of the COVID-19 Vaccine according to the data collected from social media can widen the perspective on the state of the global pandemic OBJECTIVE This study explores and analyzes the latent topic on COVID-19 Vaccine Tweet posted by individuals from various countries by using two-stage topic modeling. METHODS A two-stage analysis in topic modeling was proposed to investigating people’s reactions in five countries. The first stage is Latent Dirichlet Allocation that produces the latent topics with the corresponding term distributions that facilitate the investigators to understand the main issues or opinions. The second stage then performs agglomerative clustering on the latent topics based on Hellinger distance, which merges close topics hierarchically into topic clusters to visualize those topics in either tree or graph views. RESULTS In general, the topic discussion regarding the COVID-19 Vaccine in five countries is similar. Topic themes such as "first vaccine" and & "vaccine effect" dominate the public discussion. The remarkable point is that people in some countries have some topic themes, such as "politician opinion" and " stay home" in Canada, "emergency" in India, and & "blood clots" in the United Kingdom. The analysis also shows the most popular COVID-19 Vaccine, which is gaining more public interest. CONCLUSIONS With LDA and Hierarchical clustering, two-stage topic modeling is powerful for visualizing the latent topics and understanding the public perception regarding the COVID-19 Vaccine.


Information ◽  
2020 ◽  
Vol 11 (8) ◽  
pp. 376 ◽  
Author(s):  
Cornelia Ferner ◽  
Clemens Havas ◽  
Elisabeth Birnbacher ◽  
Stefan Wegenkittl ◽  
Bernd Resch

In the event of a natural disaster, geo-tagged Tweets are an immediate source of information for locating casualties and damages, and for supporting disaster management. Topic modeling can help in detecting disaster-related Tweets in the noisy Twitter stream in an unsupervised manner. However, the results of topic models are difficult to interpret and require manual identification of one or more “disaster topics”. Immediate disaster response would benefit from a fully automated process for interpreting the modeled topics and extracting disaster relevant information. Initializing the topic model with a set of seed words already allows to directly identify the corresponding disaster topic. In order to enable an automated end-to-end process, we automatically generate seed words using older Tweets from the same geographic area. The results of two past events (Napa Valley earthquake 2014 and hurricane Harvey 2017) show that the geospatial distribution of Tweets identified as disaster related conforms with the officially released disaster footprints. The suggested approach is applicable when there is a single topic of interest and comparative data available.


2019 ◽  
Author(s):  
Νεκταρία Πόθα

Η περιοχή της ανάλυσης συγγραφέα (Authorship Analysis) αποσκοπεί στην άντληση πληροφοριών σχετικά με τους συγγραφείς ψηφιακών κειμένων. Συνδέεται άμεσα με πολλές εφαρμογές καθώς είναι εφικτό να χρησιμοποιηθεί για την ανάλυση οποιουδήποτε είδους(genre) κειμένων: λογοτεχνικών έργων, άρθρων εφημερίδων, αναρτήσεις σε κοινωνικά δίκτυα κλπ. Οι περιοχές εφαρμογών της τεχνολογίας αυτής διακρίνονται σε φιλολογικές (humanities),(π.χ. ποιος είναι ο συγγραφέας ενός λογοτεχνικού έργου που εκδόθηκε ανώνυμα, ποιος είναι ο συγγραφέας έργων που έχουν εκδοθεί με ψευδώνυμο, επαλήθευση της πατρότητας λογοτεχνικών έργων γνωστών συγγραφέων κτλ.), εγκληματολογικές (forensics) (π.χ. εύρεση υφολογικών ομοιοτήτων μεταξύ προκηρύξεων τρομοκρατικών ομάδων, διερεύνηση αυθεντικότητας σημειώματος αυτοκτονίας, αποκάλυψη πολλαπλών λογαριασμών χρήστη σε κοινωνικά δίκτυα που αντιστοιχούν στο ίδιο άτομο κτλ.) και στον τομέα της ασφάλειας του κυβερνοχώρου (cyber-security) (π.χ. εύρεση υφολογικών ομοιοτήτων μεταξύ χρηστών πολλαπλών ψευδωνύμων).Θεμελιώδες ερευνητικό πεδίο της ανάλυσης συγγραφέα αποτελεί η επαλήθευση συγγραφέα (author verification), όπου δεδομένου ενός συνόλου κειμένων (σε ηλεκτρονική μορφή) από τον ίδιο συγγραφέα (υποψήφιος συγγραφέας) καλούμαστε να αποφασίσουμε αν ένα άλλο κείμενο (άγνωστης ή αμφισβητούμενης συγγραφικής προέλευσης) έχει γραφτεί από τον συγγραφέα αυτόν ή όχι. Η επαλήθευση συγγραφέα έχει αποκτήσει ιδιαίτερο ενδιαφέρον τα τελευταία χρόνια κυρίως λόγω των πειραματικών αξιολογήσεων PAN@CLEF. Συγκεκριμένα, από το 2013 εως το 2015 οι διαγωνισμοί PAN είχαν εστιάσει στο πεδίο της επαλήθευσης συγγραφέα παρέχοντας ένα καλά οργανωμένο σύνολο δεδομένων (PAN corpora) και συγκεντρώνοντας πλήθος μεθόδων για τον σκοπό αυτό. Ωστόσο, το περιθώριο λάθους είναι αρκετά μεγάλο εφόσον η επίδοση των μεθόδων εξαρτάται από πολλαπλούς παράγοντες όπως το μήκος των κειμένων, η θεματική συνάφεια μεταξύ των κειμένων και η υφολογική συνάφεια μεταξύ των κειμένων. Η πιο απαιτητική περίπτωση προκύπτει όταν τα κείμενα γνωστού συγγραφέα ανήκουν σε ένα είδος (π.χ. blogs ή μηνύματα email) ενώ το προς διερεύνηση κείμενο ανήκει σε άλλο είδος (π.χ., tweet ή άρθρο εφημερίδας). Επιπλέον, αν τα κείμενα του γνωστού συγγραφέα με το προς διερεύνηση κείμενο δεν συμφωνούν ως προς τη θεματική περιοχή (topic) (π.χ. τα γνωστά κείμενα σχετίζονται με εξωτερική πολιτική και το άγνωστο με πολιτιστικά θέματα) η επίδοση των τρεχόντων μεθόδων επαλήθευσης συγγραφέα είναι ιδιαίτερα χαμηλή. Στόχος της παρούσας διδακτορικής διατριβής είναι η ανάπτυξη αποδοτικών και εύρωστων μεθόδων επαλήθευσης συγγραφέα που είναι ικανές να χειριστούν ακόμα και τέτοιες περίπλοκες περιπτώσεις. Προς την κατεύθυνση αυτή, παρουσιάζουμε βελτιωμένες μεθόδους επαλήθευσης συγγραφέα και συστηματικά εξετάζουμε την αποδοτικότητα τους σε διάφορα σύνολα δεδομένων αναφοράς (PAN datasets και Enron Data). Αρχικά, προτείνουμε δύο βελτιωμένους αλγόριθμους, ο ένας ακολουθεί το παράδειγμα όπου όλα τα διαθέσιμα δείγματα γραφής του υποψηφίου συγγραφέα αντιμετωπίζονται μεμονωμένα, ως ξεχωριστές αναπαραστάσεις (instance-based paradigm) και ο άλλος είναι βασισμένος στο παράδειγμα όπου όλα τα δείγματα γραφής του υποψηφίου συγγραφέα συννενώνονται και εξάγεται ένα ενιαίο κείμενο, μία μοναδική αναπαράσταση (profile-based paradigm), οι οποίες επιτυγχανουν υψηλότερη απόδοση σε σύνολα δεδομένων που καλύπτουν ποικιλία γλωσσώνν (Αγγλικά, Ελληνικά, Ισπανικά, Ολλανδικά) και κειμενικών ειδών (άρθρα, κριτικές, νουβέλες, κ.ά.) σε σύγκριση με την τεχνολογία αιχμής (state-of-the-art) στον τομέα της επαλήθευσης. Είναι σημαντικό να τονίσουμε ότι οι προτεινόμενες μέθοδοι επωφελούνται σημαντικά από τη διαθεσιμότητα πολλαπλών δειγμάτων κειμένων του υποψηφίου συγγραφέα και παραμένουν ιδιαίτερα ανθεκτικές/ανταγωνιστικές όταν το μήκος των κειμένων είναι περιορισμένο. Επιπλέον, διερευνούμε τη χρησιμότητα της εφαρμογής μοντελοποίησης θέματος (topic modeling) στην επαλήθευση συγγραφέα. Συγκεκριμένα, διεξάγουμε μια συστηματική μελέτη για να εξετάσουμε εάν οι τεχνικές μοντελοποίησης θέματος επιτυγχάνουν την βελτίωση της απόδοσης των πιο βασικών κατηγοριών μεθόδων επαλήθευσης καθώς και ποια συγκεκριμένη τεχνική μοντελοποίησης θέματος είναι η πλέον κατάλληλη για κάθε ένα από τα παραδείγματα μεθόδων επαλήθευσης. Για το σκοπό αυτό, συνδυάζουμε γνωστές μεθόδους μοντελοποίσης, Latent Semantic Indexing (LSI) και Latent Dirichlet Allocation, (LDA), με διάφορες μεθόδους επαλήθευσης συγγραφέα, οι οποίες καλύπτουν τις βασικές κατηγορίες στην περιοχή αυτή, δηλαδή την ενδογενή(intrinsic), που αντιμετωπίζει το πρόβλημα επαλήθευσης ως πρόβλημα μίας κλάσης, και την εξωγενή (extrinsic), που μετατρέπει το πρόβλημα επαλήθευσης σε πρόβλημα δύο κλάσεων, σε συνδυασμό με τις profile-based και instance-based προσεγγίσεις.Χρησιμοποιώντας πολλαπλά σύνολα δεδομένων αξιολόγησης επιδεικνύουμε ότι η LDA τεχνική συνδυάζεται καλύτερα με τις εξωγενείς μεθόδους ενώ η τεχνική LSI αποδίδει καλύτερα με την πιο αποδοτικής ενδογενή μέθοδο. Επιπλέον, οι τεχνικές μοντελοποίησης θέματος φαίνεται να είναι πιο αποτελεσματικές όταν εφαρμόζονται σε μεθόδους που ακολουθούν το profile-based παράδειγμα και η αποδοτικότητα τους ενισχύεται όταν η πληροφορία των latent topics εξάγεται από ένα ενισχυμένο σύνολο κειμένων (εμπλουτισμένο με επιπλέον κείμενα τα οποία έχουν συλλεχθεί από εξωτερικές πηγές (π.χ web) και παρουσιάζουν σημαντική θεματική συνάφεια με το αρχικό υπό εξέταση σύνολο δεδομένων. Η σύγκριση των αποτελεσμάτων μας με την τεχνολογία αιχμής του τομέα της επαλήθευσης, επιδεικνύει την δυναμική των προτεινόμενων μεθόδων. Επίσης, οι προτεινόμενες εξωγενείς μέθοδοι είναι ιδιαίτερα ανταγωνιστικές στην περίπτωση που χρησιμοποιηθούν αγνώστου είδους εξωγενή κείμενα. Σε ορισμένες από τις σχετικές μελέτες, υπάρχουν ενδείξεις ότι ετερογενή σύνολα(heterogeneous ensembles) μεθόδων επαλήθευσης μπορούν να παρέχουν πολύ αξιόπιστες λύσεις, καλύτερες από κάθε ατομικό μοντέλο επαλήθευσης ξεχωριστά. Ωστόσο, έχουν εξεταστεί μόνο πολύ απλά μοντέλα συνόλων έως τώρα που συνδυάζουν σχετικά λίγες βασικές μεθόδους. Προσπαθώντας να καλύψουμε το κενό αυτό, θεωρούμε ένα μεγάλο σύνολο βασικών μοντέλων επαλήθευσης (συνολικά 47 μοντέλα) που καλύπτουν τα κύρια παραδείγματα /κατηγορίες μεθόδων στην περιοχή αυτή και μελετούμε τον τρόπο με τον οποίο μπορούν να συνδυαστούν ώστε να δημιουργηθεί ένα αποτελεσματικό σύνολο. Με αυτό τον τρόπο, προτείνουμε ένα απλό σύνολο ομαδοποίησης στοίβας (stacking ensemble) καθώς και μια προσέγγιση που βασίζεται στην δυναμική επιλογή μοντέλων για καθεμία υπό εξέταση περίπτωση επαλήθευσης συγγραφέα ξεχωριστά. Τα πειραματικά αποτελέσματα σε πολλαπλά σύνολα δεδομένων επιβεβαιώνουν την καταλληλότητα των προτεινόμενων μεθόδων επιδεικνύοντας την αποτελεσματικότητα τους. Η βελτίωση της επίδοσης που επιτυγχάνουν τα καλύτερα από τα αναφερόμενα μοντέλα σε σχέση με την τρέχουσα τεχνολογία αιχμής είναι περισσότερο από 10%.


Author(s):  
Risa Kitajima ◽  
◽  
Ichiro Kobayashi

Several latent topic model-based methods such as Latent Semantic Indexing (LSI), Probabilistic LSI (pLSI), and Latent Dirichlet Allocation (LDA) have been widely used for text analysis. These methods basically assign topics to words, however, and the relationship between words in a document is therefore not considered. Considering this, we propose a latent topic extraction method that assigns topics to events that represent the relation between words in a document. There are several ways to express events, and the accuracy of estimating latent topics differs depending on the definition of an event. We therefore propose five event types and examine which event type works well in estimating latent topics in a document with a common document retrieval task. As an application of our proposed method, we also show multidocument summarization based on latent topics. Through these experiments, we have confirmed that our proposed method results in higher accuracy than the conventional method.


2019 ◽  
Vol 12 (1) ◽  
pp. 320 ◽  
Author(s):  
Wafa Shafqat ◽  
Yung-Cheol Byun

With rapid advancements in internet applications, the growth rate of recommendation systems for tourists has skyrocketed. This has generated an enormous amount of travel-based data in the form of reviews, blogs, and ratings. However, most recommendation systems only recommend the top-rated places. Along with the top-ranked places, we aim to discover places that are often ignored by tourists owing to lack of promotion or effective advertising, referred to as under-emphasized locations. In this study, we use all relevant data, such as travel blogs, ratings, and reviews, in order to obtain optimal recommendations. We also aim to discover the latent factors that need to be addressed, such as food, cleanliness, and opening hours, and recommend a tourist place based on user history data. In this study, we propose a cross mapping table approach based on the location’s popularity, ratings, latent topics, and sentiments. An objective function for recommendation optimization is formulated based on these mappings. The baseline algorithms are latent Dirichlet allocation (LDA) and support vector machine (SVM). Our results show that the combined features of LDA, SVM, ratings, and cross mappings are conducive to enhanced performance. The main motivation of this study was to help tourist industries to direct more attention towards designing effective promotional activities for under-emphasized locations.


2020 ◽  
Vol 8 ◽  
pp. 439-453 ◽  
Author(s):  
Adji B. Dieng ◽  
Francisco J. R. Ruiz ◽  
David M. Blei

Topic modeling analyzes documents to learn meaningful patterns of words. However, existing topic models fail to learn interpretable topics when working with large and heavy-tailed vocabularies. To this end, we develop the embedded topic model (etm), a generative model of documents that marries traditional topic models with word embeddings. More specifically, the etm models each word with a categorical distribution whose natural parameter is the inner product between the word’s embedding and an embedding of its assigned topic. To fit the etm, we develop an efficient amortized variational inference algorithm. The etm discovers interpretable topics even with large vocabularies that include rare words and stop words. It outperforms existing document models, such as latent Dirichlet allocation, in terms of both topic quality and predictive performance.


2020 ◽  
Author(s):  
Kai Zhang ◽  
Yuan Zhou ◽  
Zheng Chen ◽  
Yufei Liu ◽  
Zhuo Tang ◽  
...  

Abstract The prevalence of short texts on the Web has made mining the latent topic structures of short texts a critical and fundamental task for many applications. However, due to the lack of word co-occurrence information induced by the content sparsity of short texts, it is challenging for traditional topic models like latent Dirichlet allocation (LDA) to extract coherent topic structures on short texts. Incorporating external semantic knowledge into the topic modeling process is an effective strategy to improve the coherence of inferred topics. In this paper, we develop a novel topic model—called biterm correlation knowledge-based topic model (BCK-TM)—to infer latent topics from short texts. Specifically, the proposed model mines biterm correlation knowledge automatically based on recent progress in word embedding, which can represent semantic information of words in a continuous vector space. To incorporate external knowledge, a knowledge incorporation mechanism is designed over the latent topic layer to regularize the topic assignment of each biterm during the topic sampling process. Experimental results on three public benchmark datasets illustrate the superior performance of the proposed approach over several state-of-the-art baseline models.


Author(s):  
Carlo Schwarz

In this article, I introduce the ldagibbs command, which implements latent Dirichlet allocation in Stata. Latent Dirichlet allocation is the most popular machine-learning topic model. Topic models automatically cluster text documents into a user-chosen number of topics. Latent Dirichlet allocation represents each document as a probability distribution over topics and represents each topic as a probability distribution over words. Therefore, latent Dirichlet allocation provides a way to analyze the content of large unclassified text data and an alternative to predefined document classifications.


Complexity ◽  
2018 ◽  
Vol 2018 ◽  
pp. 1-10 ◽  
Author(s):  
Lirong Qiu ◽  
Jia Yu

In the present big data background, how to effectively excavate useful information is the problem that big data is facing now. The purpose of this study is to construct a more effective method of mining interest preferences of users in a particular field in the context of today’s big data. We mainly use a large number of user text data from microblog to study. LDA is an effective method of text mining, but it will not play a very good role in applying LDA directly to a large number of short texts in microblog. In today’s more effective topic modeling project, short texts need to be aggregated into long texts to avoid data sparsity. However, aggregated short texts are mixed with a lot of noise, reducing the accuracy of mining the user’s interest preferences. In this paper, we propose Combining Latent Dirichlet Allocation (CLDA), a new topic model that can learn the potential topics of microblog short texts and long texts simultaneously. The data sparsity of short texts is avoided by aggregating long texts to assist in learning short texts. Short text filtering long text is reused to improve mining accuracy, making long texts and short texts effectively combined. Experimental results in a real microblog data set show that CLDA outperforms many advanced models in mining user interest, and we also confirm that CLDA also has good performance in recommending systems.


Author(s):  
R. Derbanosov ◽  
◽  
M. Bakhanova ◽  
◽  

Probabilistic topic modeling is a tool for statistical text analysis that can give us information about the inner structure of a large corpus of documents. The most popular models—Probabilistic Latent Semantic Analysis and Latent Dirichlet Allocation—produce topics in a form of discrete distributions over the set of all words of the corpus. They build topics using an iterative algorithm that starts from some random initialization and optimizes a loss function. One of the main problems of topic modeling is sensitivity to random initialization that means producing significantly different solutions from different initial points. Several studies showed that side information about documents may improve the overall quality of a topic model. In this paper, we consider the use of additional information in the context of the stability problem. We represent auxiliary information as an additional modality and use BigARTM library in order to perform experiments on several text collections. We show that using side information as an additional modality improves topics stability without significant quality loss of the model.


Sign in / Sign up

Export Citation Format

Share Document