Peningkatan Akurasi pada Prediksi Kepribadian Mbti Pengguna Twitter Menggunakan Augmentasi Data

Kepribadian suatu individu perlu diketahui untuk membantu seseorang dalam mempertimbangkan beberapa hal, salah satunya perekrutan karier. Pada umumnya, kepribadian dapat diketahui melalui metode wawancara, observasi, maupun survei kuesioner. Akan tetapi, metode konvensional tersebut dinilai kurang praktis dari segi waktu dan materi karena dibutuhkan waktu yang lama dan biaya yang cukup besar untuk mengolah data. Selain itu, penggunaan metode konvensional juga dapat menimbulkan bias karena melibatkan orang ketiga dalam pengolahan data. Penelitian ini mencoba memberikan solusi dengan membangun model yang dapat melakukan prediksi terhadap kepribadian seseorang berdasarkan analisis data dan informasi dari media sosial Twitter. Data dan informasi tersebut akan diproses sehingga didapatkan prediksi kepribadian orang tersebut. Teori klasifikasi kepribadian yang digunakan adalah teori Myers-Briggs Type Indicator (MBTI). Penelitian ini juga mencoba menerapkan teknik augmentasi data untuk meningkatkan performa dari text mining task yang memiliki dataset sedikit. Hasil terbaik didapatkan dengan metode Random Forest menggunakan pembobotan Term Frequency-Inverse Document Frequency (TF-IDF) dan fitur yang tersedia pada Twitter. Penggunaan teknik augmentasi dapat meningkatkan akurasi hingga 30% dari akurasi awal sehingga hasil penelitian menunjukkan bahwa penggunaan teknik augmentasi data dapat meningkatkan performa pada model prediksi kepribadian MBTI.AbstractThe personality of an individual needs to be known to help people in considering things, one of them is career recruitment. In general, personality can be known through interviews, observations, and questionnaire surveys. However, the conventional method is judged to be impractical in terms of time and material because it takes a long time and has considerable costs to process data. After all, the use of conventional methods can also cause bias because it involves a third person in data processing. The research tries to provide a solution by building a system that can predict the personality of a person based on the analysis of data and information from social media Twitter. The data and information will be processed so that the personality prediction is obtained. The personality classification theory used is the Myers-Briggs Type Indicator (MBTI) theory. The research also tries to implement data augmentation techniques to improve the performance of text mining tasks that have a slight dataset. The best results are obtained by the Random Forest method using the Term Frequency-Inverse Document Frequency (TF-IDF) weighted and the features available on Twitter. The use of augmentation techniques can increase accuracy by up to 30% from initial accuracy. So, the use of data augmentation techniques can be used to improve the performance of MBTI personality prediction models.

Download Full-text

SMS Spam Message Detection using Term Frequency-Inverse Document Frequency and Random Forest Algorithm

Procedia Computer Science ◽

10.1016/j.procs.2019.11.150 ◽

2019 ◽

Vol 161 ◽

pp. 509-515 ◽

Cited By ~ 1

Author(s):

Nilam Nur Amir Sjarif ◽

Nurulhuda Firdaus Mohd Azmi ◽

Suriayati Chuprat ◽

Haslina Md Sarkan ◽

Yazriwati Yahya ◽

...

Keyword(s):

Random Forest ◽

Random Forest Algorithm ◽

Inverse Document Frequency ◽

Term Frequency ◽

Document Frequency

Download Full-text

Aspect Category Classification dengan Pendekatan Machine Learning Menggunakan Dataset Bahasa Indonesia

Jurnal Nasional Teknik Elektro dan Teknologi Informasi (JNTETI) ◽

10.22146/jnteti.v10i3.1819 ◽

2021 ◽

Vol 10 (3) ◽

pp. 229-235

Author(s):

Syaifulloh Amien Pandega Perdana ◽

Teguh Bharata Aji ◽

Ridi Ferdiana

Keyword(s):

Machine Learning ◽

Support Vector Machine ◽

Random Forest ◽

Sentiment Analysis ◽

Support Vector ◽

Term Weighting ◽

Inverse Document Frequency ◽

Term Frequency ◽

Document Frequency ◽

Bahasa Indonesia

Ulasan pelanggan merupakan opini terhadap kualitas barang atau jasa yang dirasakan konsumen. Ulasan pelanggan mengandung informasi yang berguna bagi konsumen maupun penyedia barang atau jasa. Ketersediaan ulasan pelanggan dalam jumlah besar pada website membutuhkan suatu framework untuk mengekstraksi sentimen secara otomatis. Sebuah ulasan pelanggan sering kali mengandung banyak aspek sehingga Aspect Based Sentiment Analysis (ABSA) harus digunakan untuk mengetahui polaritas masing-masing aspek. Salah satu tugas penting dalam ABSA adalah Aspect Category Detection. Metode machine learning untuk Aspect Category Detection sudah banyak dilakukan pada domain berbahasa Inggris, tetapi pada domain bahasa Indonesia masih sedikit. Makalah ini membandingkan kinerja tiga algoritme machine learning, yaitu Naïve Bayes (NB), Support Vector Machine (SVM), dan Random Forest (RF) pada ulasan pelanggan berbahasa Indonesia menggunakan Term Frequency–Inverse Document Frequency (TF-IDF) sebagai term weighting. Hasil menunjukkan bahwa RF memiliki kinerja paling unggul dibandingkan NB dan SVM pada tiga domain yang berbeda, yaitu restoran, hotel, dan e-commerce, dengan nilai f1-score untuk masing-masing domain adalah 84.3%, 85.7%, dan 89,3%.

Download Full-text

Textual analysis in finance

10.12681/eadd/49794 ◽

2021 ◽

Author(s):

Απόστολος Κατσαφάδος

Keyword(s):

Random Forest ◽

Textual Analysis ◽

Inverse Document Frequency ◽

Term Frequency ◽

Document Frequency ◽

Out Of Sample

Η παρούσα διδακτορική διατριβή χωρίζεται σε επτά κεφάλαια. Το κοινό συνδετικό στοιχείο σε όλα αυτά τα κεφάλαια είναι ότι περιστρέφονται γύρω από τη χρήση ανάλυσης κειμένου, και κατ’ επέκταση την εφαρμογή αυτής στο χρηματοοικονομικό κλάδο. Το πρώτο κεφάλαιο παρέχει την εισαγωγή της διατριβής και επισημαίνει γιατί είναι σημαντική η εστίαση στην ανάλυση κειμένου. Ύστερα, στο δεύτερο κεφάλαιο παρουσιάζεται μια σχετικά συνοπτική αλλά ουσιαστική επισκόπηση της βιβλιογραφίας, προκειμένου να αποκρυσταλλωθούν οι βάσεις, οι σταθερές, και οι τάσεις στην ερευνητική δραστηριότητα αυτής της περιοχής. Ο λόγος είναι ότι με αυτόν τον τρόπο αναδεικνύεται η σύνδεση της διατριβής με τη βιβλιογραφία, η συνεισφορά της σε αυτή, καθώς και τα εμπειρικά ευρήματα μπορούν πλέον να κατανοηθούν καλύτερα.Το τρίτο κεφάλαιο χρησιμοποιεί την ανάλυση κειμένου για να προσδιορίσει τις τράπεζες που συμμετέχουν σε μία συγχώνευση, είτε ως στόχος είτε ως αγοραστής, στον αμερικανικό τραπεζικό κλάδο. Με βάση τις θετικές και αρνητικές λέξεις των Loughran and McDonald, εμείς υπολογίζουμε το συναίσθημα των ετήσιων τραπεζικών δελτίων (10-Κs). Στην εμπειρική μας ανάλυση, χρησιμοποιούμε λογιστικές παλινδρομήσεις προκειμένου να εκτιμήσουμε την πιθανότητα μια τράπεζα να συμμετέχει σε μία συγχώνευση. Πρώτον, δείχνουμε ότι μεγαλύτερη συχνότητα από θετικές λέξεις μέσα στο 10-K της τράπεζας συνδέεται με μεγαλύτερη πιθανότητα να εξαγοράσει. Δεύτερον, βρίσκουμε ότι υψηλότερη συχνότητα από αρνητικές λέξεις μέσα στο 10-Κ της τράπεζας συσχετίζεται με υψηλότερη πιθανότητα να εξαγοραστεί. Τα εμπειρικά μας συμπεράσματα παραμένουν σταθερά ακόμα και έπειτα από την είσοδο ποικίλων εξειδικευμένων τραπεζικών μεταβλητών μέσα στα μοντέλα των λογιστικών παλινδρομήσεων. Το τέταρτο κεφάλαιο εξετάζει το θέμα του προηγούμενου κεφαλαίου από μια διαφορετική οπτική γωνία. Αντίθετα με την χρήση οικονομετρικών μεθοδολογιών για εξεύρεση στατιστικής σημαντικότητας συντελεστών κάτω από μια επεξηγηματική προσέγγιση, εδώ ο στόχος είναι η πρόβλεψη με τη χρήση τεχνικών μηχανικής μάθησης, συμπεριλαμβανομένων τεχνικών βαθιάς μάθησης. Πιο συγκεκριμένα, επιχειρείται να διερευνηθεί εάν οι πληροφορίες κειμένου από ετήσια δελτία έχουν προβλεπτική ικανότητα όταν προβλέπουμε τραπεζικές συγχωνεύσεις. Εμείς αποδεικνύουμε ότι τα δεδομένα κειμένου ενισχύουν την ακρίβεια των προβλέψεων των μοντέλων είτε για τις τράπεζες που αποτελούν στόχο είτε έχουν το ρόλο του αγοραστή. Γενικά ο συνδυασμός κειμενικών και οικονομικών μεταβλητών ως εισροή στα μοντέλα επιτυγχάνει καλύτερη προβλεπτική ικανότητα. Από την μία πλευρά, τα ευρήματα για τους στόχους υποδηλώνουν ότι τα τυχαία δάση (random forest) είναι το καλύτερο σε όρους πρόβλεψης εκτός δείγματος εκπαίδευσης (out-of-sample). Σε αυτή την περίπτωση, χρησιμοποιούμε χαρακτηριστικά κειμένου με μονογράμματα και διγράμματα σταθμισμένα με το ειδικό βάρος term frequency-inverse document frequency (TF-IDF), μαζί με οικονομικές μεταβλητές. Από την άλλη πλευρά, μοντέλα βαθιά μάθησης αποδίδουν πιο αποτελεσματικά όταν προβλέπουμε στόχους σε μια συγχώνευση. Πιο συγκεκριμένα, χρησιμοποιούμε το κεντροειδές των αναπαραστάσεων λέξεων μαζί με οικονομικές μεταβλητές. Αξιοσημείωτο είναι ότι οι εξειδικευμένες μας στα χρηματοοικονομικά αναπαραστάσεις λέξεων παράγουν καλύτερα αποτελέσματα σε σύγκριση με τα γενικά. Για άλλη μια φορά, η στάθμιση με TF-IDF φαίνεται να βελτιώνει το γενικότερο αποτέλεσμα της πρόβλεψης. Τα ευρήματά μας δείχνουν ότι η πληροφορία κειμένου καταφέρνει να μετριάσει την αδιαφάνεια των τραπεζών.Το πέμπτο κεφάλαιο επιχειρεί να διερευνήσει την προβλεπτική ικανότητα κειμενικών δεδομένων προερχόμενα από τα αρχικά ενημερωτικά δελτία (S-1) αναφορικά με την πρόβλεψη της υποτιμολόγησης στις αρχικές δημόσιες εγγραφές (ΑΔΕ). Πιο συγκεκριμένα, χρησιμοποιούμε μοντέλα μηχανικής μάθησης για να προχωρήσουμε στις προβλέψεις μας. Πρωτίστως η έρευνά μας διαφοροποιείται από την πρότερη βιβλιογραφία καθώς προβλέπουμε όχι μόνο αν μια ΑΔΕ θα είναι υποτιμολογημένη ή υπερτιμολογημένη υπό το πρίσμα δυαδικής ταξινόμησης, αλλά επιπλέον προβλέπουμε και το μέγεθος της ενδεχόμενης υποτίμησης. Και στις δύο αυτές περιπτώσεις, βρίσκουμε ότι τα χαρακτηριστικά του κειμένου μπορούν να συμπληρώσουν τις οικονομικές μεταβλητές με αποτελεσματικότητα. Στην πραγματικότητα, τα μοντέλα μηχανικής μάθησης που χρησιμοποιούν συνδυασμό κειμενικών και οικονομικών μεταβλητών κατορθώνουν υψηλότερη απόδοση σε σύγκριση με αυτά που λαμβάνουν ένα τύπο πληροφόρησης ως εισροή. Επίσης, διερευνούμε μεθοδολογικούς τρόπους με τους οποίους μπορεί να υπάρξει αποτελεσματική σύζευξη των οικονομικών μεταβλητών με την πληθώρα από τις κειμενικές μεταβλητές. Συνολικά, τα αποτελέσματά μας παρέχουν εμπειρικές αποδείξεις στο πώς πληροφορίες από κείμενα καταφέρνουν να μειώσουν την εκ των προτέρων αβεβαιότητα κατά την αξιολόγηση των ΑΔΕ. Το έκτο κεφάλαιο προσπαθεί να ερμηνεύσει την υποτιμολόγηση στις ΑΔΕ, συγκεκριμένα με βάση τον τόνο των ενημερωτικών δελτίων. Εμείς αποδεικνύουμε ότι όσο πιο αβέβαιο κείμενο υπάρχει μέσα στο S-1 αρχείο ως μια εσωτερική πηγή αβεβαιότητας σχετίζεται με πιο υψηλή υποτιμολόγηση. Όμως, η βασική συμβολή της έρευνάς μας είναι ότι επικεντρώνεται στην αβεβαιότητα πολιτικής ως μια εξωτερική πηγή αβεβαιότητας, επιπρόσθετα με την χρήση του συναισθήματος κειμένου. Περιέργως βρίσκουμε ότι η υψηλότερη αβεβαιότητα πολιτικής πριν την ημερομηνία έκδοσης του S-1 συνδέεται με λιγότερη υποτιμολόγηση. Με ενδιαφέρον, δείχνουμε ότι η υψηλή αβεβαιότητα πολιτικής επηρεάζει την απόφαση της εταιρείας να προχωρήσει με την ΑΔΕ. Στην πραγματικότητα, η αβεβαιότητα πολιτικής συνδέεται αρνητικά με τον όγκο των ΑΔΕ. Εμείς περαιτέρω τεκμηριώνουμε ότι μόνο οι εταιρείες με καλή ποιότητα συνεχίζουν να προχωρούν προς την ΑΔΕ παρά την υψηλή αβεβαιότητα πολιτικής, που κατά συνέπεια σημαίνει ότι απολαμβάνουν μικρότερη υποτίμηση. Το έβδομο κεφάλαιο παρέχει τα βασικά συμπεράσματα της διατριβής καθώς και προσφέρει προτάσεις για μελλοντική έρευνα.

Download Full-text

Analisis Sentimen Opini Pemindahan Ibu Kota Pada Twitter Dengan Metode Support Vector Machine

Jurnal Ilmu Komputer ◽

10.24843/jik.2021.v14.i01.p06 ◽

2021 ◽

Vol 14 (1) ◽

pp. 49

Author(s):

Tezza Fazar Tri Hidayat ◽

Garno Garno ◽

Azhari Ali Ridha

Keyword(s):

Support Vector Machine ◽

Text Mining ◽

Support Vector ◽

Inverse Document Frequency ◽

Term Frequency ◽

Document Frequency

Relokasi ibu kota Indonesia kini telah diresmikan oleh Presiden Joko Widodo pada 26 Agustus 2019 ke Kalimantan, ini adalah sejarah baru dalam sejarah Indonesia karena belum pernah terjadi sebelumnya, sehingga memunculkan banyak pendapat atau tanggapan dari masyarakat. Analisis sentimen adalah kegiatan yang digunakan untuk menganalisis pendapat atau opini seseorang tentang suatu topik. Twitter adalah media sosial yang digunakan untuk mengekspresikan pendapat pengguna dan menyatukannya pada suatu topik. Support Vector Machine adalah metode text mining yang mencakup metode klasifikasi dan Term Frequency - Inverse Document Frequency adalah metode pembobotan karakter. SVM dan TF-IDF dapat digunakan untuk menganalisis sentimen opini publik tentang topik pemindahan ibukota Indonesia. Tujuan dari penelitian ini adalah untuk mengklasifikasikan opini publik tentang topik memindahkan Ibu Kota Indonesia dari ribuan tweet yang telah dikumpulkan dan disaring. Tweet pada dari 22-29 Maret 2020 telah diproses menjadi 992 tweet dan terdiri dari 221 data dengan label positif dan 771 data negatif. Dan menggunakan metode SVM yang memiliki akurasi 77,72% dan dikombinasikan dengan TFIDF yang meningkatkan akurasinya menjadi 78,33%.

Download Full-text

Improve the Accuracy of Support Vector Machine Using Chi Square Statistic and Term Frequency Inverse Document Frequency on Movie Review Sentiment Analysis

Scientific Journal of Informatics ◽

10.15294/sji.v6i1.14244 ◽

2019 ◽

Vol 6 (1) ◽

pp. 138-149

Author(s):

Ukhti Ikhsani Larasati ◽

Much Aziz Muslim ◽

Riza Arifudin ◽

Alamsyah Alamsyah

Keyword(s):

Support Vector Machine ◽

Feature Selection ◽

Text Mining ◽

Sentiment Analysis ◽

Feature Weighting ◽

Support Vector ◽

Chi Square ◽

Inverse Document Frequency ◽

Term Frequency ◽

Document Frequency

Data processing can be done with text mining techniques. To process large text data is required a machine to explore opinions, including positive or negative opinions. Sentiment analysis is a process that applies text mining methods. Sentiment analysis is a process that aims to determine the content of the dataset in the form of text is positive or negative. Support vector machine is one of the classification algorithms that can be used for sentiment analysis. However, support vector machine works less well on the large-sized data. In addition, in the text mining process there are constraints one is number of attributes used. With many attributes it will reduce the performance of the classifier so as to provide a low level of accuracy. The purpose of this research is to increase the support vector machine accuracy with implementation of feature selection and feature weighting. Feature selection will reduce a large number of irrelevant attributes. In this study the feature is selected based on the top value of K = 500. Once selected the relevant attributes are then performed feature weighting to calculate the weight of each attribute selected. The feature selection method used is chi square statistic and feature weighting using Term Frequency Inverse Document Frequency (TFIDF). Result of experiment using Matlab R2017b is integration of support vector machine with chi square statistic and TFIDF that uses 10 fold cross validation gives an increase of accuracy of 11.5% with the following explanation, the accuracy of the support vector machine without applying chi square statistic and TFIDF resulted in an accuracy of 68.7% and the accuracy of the support vector machine by applying chi square statistic and TFIDF resulted in an accuracy of 80.2%.

Download Full-text

Improving Intelligent Personality Prediction using Myers-Briggs Type Indicator and Random Forest Classifier

International Journal of Advanced Computer Science and Applications ◽

10.14569/ijacsa.2020.0111125 ◽

2020 ◽

Vol 11 (11) ◽

Author(s):

Nur Haziqah Zainal Abidin ◽

Muhammad Akmal ◽

Noorlin Mohd ◽

Danakorn Nincarean ◽

Nooraini Yusoff ◽

...

Keyword(s):

Random Forest ◽

Random Forest Classifier ◽

Myers Briggs Type Indicator ◽

Type Indicator ◽

Myers Briggs ◽

Personality Prediction

Download Full-text

ANALISA TESTIMONIAL DENGAN MENGGUNAKAN ALGORITMA TEXT MINING DAN TERM FREQUENCY- INVERSE DOCUMENT FREQUENCE (TF-IDF) PADA TOKO ALLMEEART

KOMIK (Konferensi Nasional Teknologi Informasi dan Komputer) ◽

10.30865/komik.v3i1.1697 ◽

2019 ◽

Vol 3 (1) ◽

Author(s):

Meylita Putri Simatupang ◽

Dito Putro Utomo

Keyword(s):

Text Mining ◽

Inverse Document Frequency ◽

Term Frequency ◽

Mining Algorithm ◽

Document Frequency ◽

Positive Experiences

E-commerce or often referred to as an online shop is the latest trend of the community in carrying out shopping activities, first before the rise of e-commerce companies like today the community to meet their needs still rely on distros around the customer lives, or to a shopping place but now it has switch to shoop online. The advantages offered by online shoop are the relatively low prices, no need to shop locations, and guarantee goods, it has an impact on retail shops that are increasingly lonely. Testimonials are one of the techniques carried out to convince customers to shop at e-commerce they have, testimonials are the responses of buyers for their experience of shopping in an e-commerce application starting from the payment process until the goods are received, the more positive experiences conveyed in the testimonials, the customer who have not shopped on an e-commerce application will be more convinced to shop. Testimonials on an e-commerce application are not always positive, there are times when testimonials are delivered by negative buyers. The customer's problem is the unavailability of percentages or information on the number of buyers with positive and negative shopping experiences because in general testimonials are only delivered in the form of a list.Keywords: Testimonial Analysis, Text Mining Algorithm, Term Frequency-Inverse Document Frequency (TF-IDF)

Download Full-text

Predictive modeling of aircraft systems failure using term frequency-inverse document frequency and random forest

2017 IEEE International Conference on Industrial Engineering and Engineering Management (IEEM) ◽

10.1109/ieem.2017.8290007 ◽

2017 ◽

Cited By ~ 1

Author(s):

Weili Yan ◽

Jun-Hong Zhou

Keyword(s):

Random Forest ◽

Predictive Modeling ◽

Inverse Document Frequency ◽

Term Frequency ◽

Aircraft Systems ◽

Document Frequency ◽

Systems Failure

Download Full-text

An Approach for Sentiment Analysis and Personality Prediction Using Myers Briggs Type Indicator

Advances in Intelligent Systems and Computing - Proceedings of the International Conference on Advanced Intelligent Systems and Informatics 2020 ◽

10.1007/978-3-030-58669-0_16 ◽

2020 ◽

pp. 179-186

Author(s):

Alàa Genina ◽

Mariam Gawich ◽

Abdelfatah Hegazy

Keyword(s):

Sentiment Analysis ◽

Myers Briggs Type Indicator ◽

Type Indicator ◽

Myers Briggs ◽

Personality Prediction

Download Full-text

Sistem Rekomendasi Produk Pena Eksklusif Menggunakan Metode Content-Based Filtering dan TF-IDF

JOINTECS (Journal of Information Technology and Computer Science) ◽

10.31328/jointecs.v5i3.1563 ◽

2020 ◽

Vol 5 (3) ◽

pp. 229

Author(s):

Mariani Widia Putri ◽

Achmad Muchayan ◽

Made Kamisutara

Keyword(s):

Information Retrieval ◽

Customer Relationship Management ◽

Relationship Management ◽

Customer Relationship ◽

Brand Awareness ◽

Product Knowledge ◽

Inverse Document Frequency ◽

Term Frequency ◽

Document Frequency ◽

Content Based Filtering

Sistem rekomendasi saat ini sedang menjadi tren. Kebiasaan masyarakat yang saat ini lebih mengandalkan transaksi secara online dengan berbagai alasan pribadi. Sistem rekomendasi menawarkan cara yang lebih mudah dan cepat sehingga pengguna tidak perlu meluangkan waktu terlalu banyak untuk menemukan barang yang diinginkan. Persaingan antar pelaku bisnis pun berubah sehingga harus mengubah pendekatan agar bisa menjangkau calon pelanggan. Oleh karena itu dibutuhkan sebuah sistem yang dapat menunjang hal tersebut. Maka dalam penelitian ini, penulis membangun sistem rekomendasi produk menggunakan metode Content-Based Filtering dan Term Frequency Inverse Document Frequency (TF-IDF) dari model Information Retrieval (IR). Untuk memperoleh hasil yang efisien dan sesuai dengan kebutuhan solusi dalam meningkatkan Customer Relationship Management (CRM). Sistem rekomendasi dibangun dan diterapkan sebagai solusi agar dapat meningkatkan brand awareness pelanggan dan meminimalisir terjadinya gagal transaksi di karenakan kurang nya informasi yang dapat disampaikan secara langsung atau offline. Data yang digunakan terdiri dari 258 kode produk produk yang yang masing-masing memiliki delapan kategori dan 33 kata kunci pembentuk sesuai dengan product knowledge perusahaan. Hasil perhitungan TF-IDF menunjukkan nilai bobot 13,854 saat menampilkan rekomendasi produk terbaik pertama, dan memiliki keakuratan sebesar 96,5% dalam memberikan rekomendasi pena.

Download Full-text