scholarly journals SPAM DETECTION IN SHORT TEXT MESSAGES (SMS) USING WORD EMBEDDING AND TERM FREQUENCY- INVERSE DOCUMENT FREQUENCY (TF-IDF)

Author(s):  
M.M Abbashi ◽  
◽  
A.P Beltyukov ◽  
H Lal ◽  
A.Q Abbasi ◽  
...  
2020 ◽  
Vol 9 (2) ◽  
pp. 155-161
Author(s):  
Pande Made Risky Cahya Dinatha ◽  
Nur Aini Rakhmawati

Munculnya media sosial mendorong pemerintah untuk memanfaatkan media sosial sebagai sarana penyebaran informasi. Informasi yang diberikan haruslah bermanfaat bagi masyarakat dalam rangka meningkatkan hubungan government to citizen. Klasifikasi terhadap unggahan media sosial pemerintah daerah dapat dilakukan untuk mengetahui jenis informasi yang diunggah. Penelitian klasifikasi unggahan media sosial pada studi kasus pemerintah daerah di Indonesia telah berhasil dilakukan, tetapi pengolahan teks untuk membangun model klasifikasinya masih dapat dieksplorasi. Metode pengolahan teks yang dibahas di dalam makalah ini adalah term weighting dan word embedding. Tujuan makalah ini adalah membandingkan term weighting term frequency-inverse document frequency, Okapi BM25, dan word embedding doc2vec dalam menghasilkan fitur untuk mengatasi masalah klasifikasi teks pendek. Makalah ini merepresentasikan teks sebagai fitur untuk melakukan klasifikasi, mengetahui kinerja model klasifikasi yang telah menerapkan teknik tersebut, dan membandingkan kinerja setiap model klasifikasi untuk mengetahui metode terbaik di dalam studi kasus klasifikasi unggahan media sosial pemerintah daerah di Indonesia. Terdapat enam kelas untuk mengklasifikasi 1.000 teks pendek dari 91 akun pemda. Pengukuran precision, recall, f-1, macro-average, micro-average, dan AUC dilakukan pada masing-masing model. Hasil menunjukkan bahwa model TF-IDF bersama SVM linear memberikan hasil yang lebih baik dibandingkan logistic regression dengan skor 0,572 dan 0,766 pada pengukuran macro-average recall dan micro-average recall.


Author(s):  
Harni Kusniyati ◽  
Arie Aditya Nugraha

Consumers today have the option to purchase products from thousands of e-commerce. However, the completeness of the product specifications and taxonomies used to organize products differently in different electronic shop differently. To improve the consumer experience, Pricebook approach for integration of the product through the website to find the cheapest price from various platforms. In our writing, we do approach by using a model of neural language such as TF-IDF (term frequency-inverse document frequency) as well as Word2vec by using the method of cosine similarity. TF-IDF is a way to give the relationship a word weighting (term) against the document. Semantic vector or word embedding is one way to represent the structure of a sentence will be in align with manipulating sentences into vector shapes with Word2Vec. Cosine similarity method is a method to calculate the similarity between two objects that is expressed in two vectors by using keywords (keywords) of a document as the size so that it leads to more products matching good performance and categorization. In addition, we compare the results of the representation of the TF-IDF with Word2vec against a number of the data.


Author(s):  
Mariani Widia Putri ◽  
Achmad Muchayan ◽  
Made Kamisutara

Sistem rekomendasi saat ini sedang menjadi tren. Kebiasaan masyarakat yang saat ini lebih mengandalkan transaksi secara online dengan berbagai alasan pribadi. Sistem rekomendasi menawarkan cara yang lebih mudah dan cepat sehingga pengguna tidak perlu meluangkan waktu terlalu banyak untuk menemukan barang yang diinginkan. Persaingan antar pelaku bisnis pun berubah sehingga harus mengubah pendekatan agar bisa menjangkau calon pelanggan. Oleh karena itu dibutuhkan sebuah sistem yang dapat menunjang hal tersebut. Maka dalam penelitian ini, penulis membangun sistem rekomendasi produk menggunakan metode Content-Based Filtering dan Term Frequency Inverse Document Frequency (TF-IDF) dari model Information Retrieval (IR). Untuk memperoleh hasil yang efisien dan sesuai dengan kebutuhan solusi dalam meningkatkan Customer Relationship Management (CRM). Sistem rekomendasi dibangun dan diterapkan sebagai solusi agar dapat meningkatkan brand awareness pelanggan dan meminimalisir terjadinya gagal transaksi di karenakan kurang nya informasi yang dapat disampaikan secara langsung atau offline. Data yang digunakan terdiri dari 258 kode produk produk yang yang masing-masing memiliki delapan kategori dan 33 kata kunci pembentuk sesuai dengan product knowledge perusahaan. Hasil perhitungan TF-IDF menunjukkan nilai bobot 13,854 saat menampilkan rekomendasi produk terbaik pertama, dan memiliki keakuratan sebesar 96,5% dalam memberikan rekomendasi pena.


Author(s):  
Ni Komang Widyasanti ◽  
I Ketut Gede Darma Putra ◽  
Ni Kadek Dwi Rusjayanthi

Penyebaran informasi dalam bentuk teks digital semakin tak terbendung seiring perkembangan waktu. Kebutuhan akan membaca informasi juga tidak pernah berkurang, berdasarkan riset yang dilakukan pada lima kota besar di Indonesia sepanjang tahun 2015 oleh okezone.com menyatakan persentasi konsumsi berita secara online mencapai 96%. Salah satu solusi untuk mempermudah dan mempercepat pencarian informasi yang sesuai adalah dengan meringkas konten tersebut. TFIDF (Term Frequency Inverse Document Frequency) merupakan metode pembobotan dalam bentuk integrasi antar term frequency dengan inverse document frequency. Metode TFIDF digunakan pada penelitian ini untuk memilih fitur sebagai hasil ringkasan, dengan penerapannya pada seleksi fitur bobot kata. Nilai kepuasan pembaca sebesar 61,94%. Durasi ringkasan rata-rata 68,25 detik dengan jumlah kalimat dan kata rata-rata 31,875 dan 387,375. Penelitian dilakukan menggunakan jenis dokumen fiksi dan non-fiksi serta seleksi fitur disetiap paragrafnya, yang membedakannya dengan penelitian terkait sebelumnya. Kata Kunci: Ringkasan Teks Otomatis, Pembobotan TFIDF, Bahasa Indonesia


2019 ◽  
Vol 161 ◽  
pp. 509-515 ◽  
Author(s):  
Nilam Nur Amir Sjarif ◽  
Nurulhuda Firdaus Mohd Azmi ◽  
Suriayati Chuprat ◽  
Haslina Md Sarkan ◽  
Yazriwati Yahya ◽  
...  

Sign in / Sign up

Export Citation Format

Share Document