scholarly journals SMS Spam Message Detection using Term Frequency-Inverse Document Frequency and Random Forest Algorithm

2019 ◽  
Vol 161 ◽  
pp. 509-515 ◽  
Author(s):  
Nilam Nur Amir Sjarif ◽  
Nurulhuda Firdaus Mohd Azmi ◽  
Suriayati Chuprat ◽  
Haslina Md Sarkan ◽  
Yazriwati Yahya ◽  
...  
Author(s):  
Syaifulloh Amien Pandega Perdana ◽  
Teguh Bharata Aji ◽  
Ridi Ferdiana

Ulasan pelanggan merupakan opini terhadap kualitas barang atau jasa yang dirasakan konsumen. Ulasan pelanggan mengandung informasi yang berguna bagi konsumen maupun penyedia barang atau jasa. Ketersediaan ulasan pelanggan dalam jumlah besar pada website membutuhkan suatu framework untuk mengekstraksi sentimen secara otomatis. Sebuah ulasan pelanggan sering kali mengandung banyak aspek sehingga Aspect Based Sentiment Analysis (ABSA) harus digunakan untuk mengetahui polaritas masing-masing aspek. Salah satu tugas penting dalam ABSA adalah Aspect Category Detection. Metode machine learning untuk Aspect Category Detection sudah banyak dilakukan pada domain berbahasa Inggris, tetapi pada domain bahasa Indonesia masih sedikit. Makalah ini membandingkan kinerja tiga algoritme machine learning, yaitu Naïve Bayes (NB), Support Vector Machine (SVM), dan Random Forest (RF) pada ulasan pelanggan berbahasa Indonesia menggunakan Term Frequency–Inverse Document Frequency (TF-IDF) sebagai term weighting. Hasil menunjukkan bahwa RF memiliki kinerja paling unggul dibandingkan NB dan SVM pada tiga domain yang berbeda, yaitu restoran, hotel, dan e-commerce, dengan nilai f1-score untuk masing-masing domain adalah 84.3%, 85.7%, dan 89,3%.


2021 ◽  
Author(s):  
Απόστολος Κατσαφάδος

Η παρούσα διδακτορική διατριβή χωρίζεται σε επτά κεφάλαια. Το κοινό συνδετικό στοιχείο σε όλα αυτά τα κεφάλαια είναι ότι περιστρέφονται γύρω από τη χρήση ανάλυσης κειμένου, και κατ’ επέκταση την εφαρμογή αυτής στο χρηματοοικονομικό κλάδο. Το πρώτο κεφάλαιο παρέχει την εισαγωγή της διατριβής και επισημαίνει γιατί είναι σημαντική η εστίαση στην ανάλυση κειμένου. Ύστερα, στο δεύτερο κεφάλαιο παρουσιάζεται μια σχετικά συνοπτική αλλά ουσιαστική επισκόπηση της βιβλιογραφίας, προκειμένου να αποκρυσταλλωθούν οι βάσεις, οι σταθερές, και οι τάσεις στην ερευνητική δραστηριότητα αυτής της περιοχής. Ο λόγος είναι ότι με αυτόν τον τρόπο αναδεικνύεται η σύνδεση της διατριβής με τη βιβλιογραφία, η συνεισφορά της σε αυτή, καθώς και τα εμπειρικά ευρήματα μπορούν πλέον να κατανοηθούν καλύτερα.Το τρίτο κεφάλαιο χρησιμοποιεί την ανάλυση κειμένου για να προσδιορίσει τις τράπεζες που συμμετέχουν σε μία συγχώνευση, είτε ως στόχος είτε ως αγοραστής, στον αμερικανικό τραπεζικό κλάδο. Με βάση τις θετικές και αρνητικές λέξεις των Loughran and McDonald, εμείς υπολογίζουμε το συναίσθημα των ετήσιων τραπεζικών δελτίων (10-Κs). Στην εμπειρική μας ανάλυση, χρησιμοποιούμε λογιστικές παλινδρομήσεις προκειμένου να εκτιμήσουμε την πιθανότητα μια τράπεζα να συμμετέχει σε μία συγχώνευση. Πρώτον, δείχνουμε ότι μεγαλύτερη συχνότητα από θετικές λέξεις μέσα στο 10-K της τράπεζας συνδέεται με μεγαλύτερη πιθανότητα να εξαγοράσει. Δεύτερον, βρίσκουμε ότι υψηλότερη συχνότητα από αρνητικές λέξεις μέσα στο 10-Κ της τράπεζας συσχετίζεται με υψηλότερη πιθανότητα να εξαγοραστεί. Τα εμπειρικά μας συμπεράσματα παραμένουν σταθερά ακόμα και έπειτα από την είσοδο ποικίλων εξειδικευμένων τραπεζικών μεταβλητών μέσα στα μοντέλα των λογιστικών παλινδρομήσεων. Το τέταρτο κεφάλαιο εξετάζει το θέμα του προηγούμενου κεφαλαίου από μια διαφορετική οπτική γωνία. Αντίθετα με την χρήση οικονομετρικών μεθοδολογιών για εξεύρεση στατιστικής σημαντικότητας συντελεστών κάτω από μια επεξηγηματική προσέγγιση, εδώ ο στόχος είναι η πρόβλεψη με τη χρήση τεχνικών μηχανικής μάθησης, συμπεριλαμβανομένων τεχνικών βαθιάς μάθησης. Πιο συγκεκριμένα, επιχειρείται να διερευνηθεί εάν οι πληροφορίες κειμένου από ετήσια δελτία έχουν προβλεπτική ικανότητα όταν προβλέπουμε τραπεζικές συγχωνεύσεις. Εμείς αποδεικνύουμε ότι τα δεδομένα κειμένου ενισχύουν την ακρίβεια των προβλέψεων των μοντέλων είτε για τις τράπεζες που αποτελούν στόχο είτε έχουν το ρόλο του αγοραστή. Γενικά ο συνδυασμός κειμενικών και οικονομικών μεταβλητών ως εισροή στα μοντέλα επιτυγχάνει καλύτερη προβλεπτική ικανότητα. Από την μία πλευρά, τα ευρήματα για τους στόχους υποδηλώνουν ότι τα τυχαία δάση (random forest) είναι το καλύτερο σε όρους πρόβλεψης εκτός δείγματος εκπαίδευσης (out-of-sample). Σε αυτή την περίπτωση, χρησιμοποιούμε χαρακτηριστικά κειμένου με μονογράμματα και διγράμματα σταθμισμένα με το ειδικό βάρος term frequency-inverse document frequency (TF-IDF), μαζί με οικονομικές μεταβλητές. Από την άλλη πλευρά, μοντέλα βαθιά μάθησης αποδίδουν πιο αποτελεσματικά όταν προβλέπουμε στόχους σε μια συγχώνευση. Πιο συγκεκριμένα, χρησιμοποιούμε το κεντροειδές των αναπαραστάσεων λέξεων μαζί με οικονομικές μεταβλητές. Αξιοσημείωτο είναι ότι οι εξειδικευμένες μας στα χρηματοοικονομικά αναπαραστάσεις λέξεων παράγουν καλύτερα αποτελέσματα σε σύγκριση με τα γενικά. Για άλλη μια φορά, η στάθμιση με TF-IDF φαίνεται να βελτιώνει το γενικότερο αποτέλεσμα της πρόβλεψης. Τα ευρήματά μας δείχνουν ότι η πληροφορία κειμένου καταφέρνει να μετριάσει την αδιαφάνεια των τραπεζών.Το πέμπτο κεφάλαιο επιχειρεί να διερευνήσει την προβλεπτική ικανότητα κειμενικών δεδομένων προερχόμενα από τα αρχικά ενημερωτικά δελτία (S-1) αναφορικά με την πρόβλεψη της υποτιμολόγησης στις αρχικές δημόσιες εγγραφές (ΑΔΕ). Πιο συγκεκριμένα, χρησιμοποιούμε μοντέλα μηχανικής μάθησης για να προχωρήσουμε στις προβλέψεις μας. Πρωτίστως η έρευνά μας διαφοροποιείται από την πρότερη βιβλιογραφία καθώς προβλέπουμε όχι μόνο αν μια ΑΔΕ θα είναι υποτιμολογημένη ή υπερτιμολογημένη υπό το πρίσμα δυαδικής ταξινόμησης, αλλά επιπλέον προβλέπουμε και το μέγεθος της ενδεχόμενης υποτίμησης. Και στις δύο αυτές περιπτώσεις, βρίσκουμε ότι τα χαρακτηριστικά του κειμένου μπορούν να συμπληρώσουν τις οικονομικές μεταβλητές με αποτελεσματικότητα. Στην πραγματικότητα, τα μοντέλα μηχανικής μάθησης που χρησιμοποιούν συνδυασμό κειμενικών και οικονομικών μεταβλητών κατορθώνουν υψηλότερη απόδοση σε σύγκριση με αυτά που λαμβάνουν ένα τύπο πληροφόρησης ως εισροή. Επίσης, διερευνούμε μεθοδολογικούς τρόπους με τους οποίους μπορεί να υπάρξει αποτελεσματική σύζευξη των οικονομικών μεταβλητών με την πληθώρα από τις κειμενικές μεταβλητές. Συνολικά, τα αποτελέσματά μας παρέχουν εμπειρικές αποδείξεις στο πώς πληροφορίες από κείμενα καταφέρνουν να μειώσουν την εκ των προτέρων αβεβαιότητα κατά την αξιολόγηση των ΑΔΕ. Το έκτο κεφάλαιο προσπαθεί να ερμηνεύσει την υποτιμολόγηση στις ΑΔΕ, συγκεκριμένα με βάση τον τόνο των ενημερωτικών δελτίων. Εμείς αποδεικνύουμε ότι όσο πιο αβέβαιο κείμενο υπάρχει μέσα στο S-1 αρχείο ως μια εσωτερική πηγή αβεβαιότητας σχετίζεται με πιο υψηλή υποτιμολόγηση. Όμως, η βασική συμβολή της έρευνάς μας είναι ότι επικεντρώνεται στην αβεβαιότητα πολιτικής ως μια εξωτερική πηγή αβεβαιότητας, επιπρόσθετα με την χρήση του συναισθήματος κειμένου. Περιέργως βρίσκουμε ότι η υψηλότερη αβεβαιότητα πολιτικής πριν την ημερομηνία έκδοσης του S-1 συνδέεται με λιγότερη υποτιμολόγηση. Με ενδιαφέρον, δείχνουμε ότι η υψηλή αβεβαιότητα πολιτικής επηρεάζει την απόφαση της εταιρείας να προχωρήσει με την ΑΔΕ. Στην πραγματικότητα, η αβεβαιότητα πολιτικής συνδέεται αρνητικά με τον όγκο των ΑΔΕ. Εμείς περαιτέρω τεκμηριώνουμε ότι μόνο οι εταιρείες με καλή ποιότητα συνεχίζουν να προχωρούν προς την ΑΔΕ παρά την υψηλή αβεβαιότητα πολιτικής, που κατά συνέπεια σημαίνει ότι απολαμβάνουν μικρότερη υποτίμηση. Το έβδομο κεφάλαιο παρέχει τα βασικά συμπεράσματα της διατριβής καθώς και προσφέρει προτάσεις για μελλοντική έρευνα.


2020 ◽  
Vol 7 (4) ◽  
pp. 815
Author(s):  
Rizki Nurhaliza Harahap ◽  
Kemas Muslim

<p class="Abstrak">Kepribadian suatu individu perlu diketahui untuk membantu seseorang dalam mempertimbangkan beberapa hal, salah satunya perekrutan karier. Pada umumnya, kepribadian dapat diketahui melalui metode wawancara, observasi, maupun survei kuesioner. Akan tetapi, metode konvensional tersebut dinilai kurang praktis dari segi waktu dan materi karena dibutuhkan waktu yang lama dan biaya yang cukup besar untuk mengolah data. Selain itu, penggunaan metode konvensional juga dapat menimbulkan bias karena melibatkan orang ketiga dalam pengolahan data. Penelitian ini mencoba memberikan solusi dengan membangun model yang dapat melakukan prediksi terhadap kepribadian seseorang berdasarkan analisis data dan informasi dari media sosial Twitter. Data dan informasi tersebut akan diproses sehingga didapatkan prediksi kepribadian orang tersebut. Teori klasifikasi kepribadian yang digunakan adalah teori Myers-Briggs Type Indicator (MBTI). Penelitian ini juga mencoba menerapkan teknik augmentasi data untuk meningkatkan performa dari text mining task yang memiliki dataset sedikit. Hasil terbaik didapatkan dengan metode Random Forest menggunakan pembobotan Term Frequency-Inverse Document Frequency (TF-IDF) dan fitur yang tersedia pada Twitter. Penggunaan teknik augmentasi dapat meningkatkan akurasi hingga 30% dari akurasi awal sehingga hasil penelitian menunjukkan bahwa penggunaan teknik augmentasi data dapat meningkatkan performa pada model prediksi kepribadian MBTI.</p><p class="Abstrak"><em>Abstract</em></p><p><em>The personality of an individual needs to be known to help people in considering things, one of them is career recruitment. In general, personality can be known through interviews, observations, and questionnaire surveys. However, the conventional method is judged to be impractical in terms of time and material because it takes a long time and has considerable costs to process data. After all, the use of conventional methods can also cause bias because it involves a third person in data processing. The research tries to provide a solution by building a system that can predict the personality of a person based on the analysis of data and information from social media Twitter. The data and information will be processed so that the personality prediction is obtained. The personality classification theory used is the Myers-Briggs Type Indicator (MBTI) theory. The research also tries to implement data augmentation techniques to improve the performance of text mining tasks that have a slight dataset. The best results are obtained by the Random Forest method using the Term Frequency-Inverse Document Frequency (TF-IDF) weighted and the features available on Twitter. The use of augmentation techniques can increase accuracy by up to 30% from initial accuracy. So, the use of data augmentation techniques can be used to improve the performance of MBTI personality prediction models.</em></p>


Author(s):  
Mariani Widia Putri ◽  
Achmad Muchayan ◽  
Made Kamisutara

Sistem rekomendasi saat ini sedang menjadi tren. Kebiasaan masyarakat yang saat ini lebih mengandalkan transaksi secara online dengan berbagai alasan pribadi. Sistem rekomendasi menawarkan cara yang lebih mudah dan cepat sehingga pengguna tidak perlu meluangkan waktu terlalu banyak untuk menemukan barang yang diinginkan. Persaingan antar pelaku bisnis pun berubah sehingga harus mengubah pendekatan agar bisa menjangkau calon pelanggan. Oleh karena itu dibutuhkan sebuah sistem yang dapat menunjang hal tersebut. Maka dalam penelitian ini, penulis membangun sistem rekomendasi produk menggunakan metode Content-Based Filtering dan Term Frequency Inverse Document Frequency (TF-IDF) dari model Information Retrieval (IR). Untuk memperoleh hasil yang efisien dan sesuai dengan kebutuhan solusi dalam meningkatkan Customer Relationship Management (CRM). Sistem rekomendasi dibangun dan diterapkan sebagai solusi agar dapat meningkatkan brand awareness pelanggan dan meminimalisir terjadinya gagal transaksi di karenakan kurang nya informasi yang dapat disampaikan secara langsung atau offline. Data yang digunakan terdiri dari 258 kode produk produk yang yang masing-masing memiliki delapan kategori dan 33 kata kunci pembentuk sesuai dengan product knowledge perusahaan. Hasil perhitungan TF-IDF menunjukkan nilai bobot 13,854 saat menampilkan rekomendasi produk terbaik pertama, dan memiliki keakuratan sebesar 96,5% dalam memberikan rekomendasi pena.


Author(s):  
Ni Komang Widyasanti ◽  
I Ketut Gede Darma Putra ◽  
Ni Kadek Dwi Rusjayanthi

Penyebaran informasi dalam bentuk teks digital semakin tak terbendung seiring perkembangan waktu. Kebutuhan akan membaca informasi juga tidak pernah berkurang, berdasarkan riset yang dilakukan pada lima kota besar di Indonesia sepanjang tahun 2015 oleh okezone.com menyatakan persentasi konsumsi berita secara online mencapai 96%. Salah satu solusi untuk mempermudah dan mempercepat pencarian informasi yang sesuai adalah dengan meringkas konten tersebut. TFIDF (Term Frequency Inverse Document Frequency) merupakan metode pembobotan dalam bentuk integrasi antar term frequency dengan inverse document frequency. Metode TFIDF digunakan pada penelitian ini untuk memilih fitur sebagai hasil ringkasan, dengan penerapannya pada seleksi fitur bobot kata. Nilai kepuasan pembaca sebesar 61,94%. Durasi ringkasan rata-rata 68,25 detik dengan jumlah kalimat dan kata rata-rata 31,875 dan 387,375. Penelitian dilakukan menggunakan jenis dokumen fiksi dan non-fiksi serta seleksi fitur disetiap paragrafnya, yang membedakannya dengan penelitian terkait sebelumnya. Kata Kunci: Ringkasan Teks Otomatis, Pembobotan TFIDF, Bahasa Indonesia


Sign in / Sign up

Export Citation Format

Share Document