Regresi Linear untuk Mengurangi Bias Sistem Penilaian Uraian Singkat

Makalah ini bertujuan untuk memperbaiki kinerja sistem penilaian tes uraian singkat. Perbaikan kinerja tersebut dilakukan dengan menambahkan regresi linear sederhana pada keluaran gabungan metode cosine similarity (dengan pembobotan frekuensi kata berbasis metode Term Frequency-Inverse Document Frequency (TF-IDF)) dan mekanisme pencocokan kata. Regresi linear dilakukan dengan menjadikan nilai uraian singkat (hasil cosine similarity dan pencocokan kata) sebagai variabel regressor. Untuk mengetahui efektivitas sistem penilaian yang diusulkan, diukur kinerja sistem penilaian relatif terhadap nilai manual yang dilakukan oleh dosen. Diperoleh bahwa sebelum dilakukan regresi linear, sistem penilaian cenderung mengeluarkan nilai lebih tinggi (nilai mengalami bias) dibandingkan nilai manual yang dilakukan dosen. Regresi linear memperbaiki kinerja sistem penilaian tersebut dengan mengurangi bias penilaian secara signifikan, yaitu nilai yang diberikan tidak cenderung lebih tinggi maupun lebih rendah daripada nilai manual oleh dosen. Bahwa bias penilaian dapat diturunkan secara signifikan dengan metode yang sederhana, yaitu regresi linear, diharapkan dapat memberikan kontribusi terhadap akselerasi proses penerapan sistem penilaian otomatis untuk tes uraian pada teknologi pembelajaran dalam jaringan seperti e-learning.

Download Full-text

Product Codefication Accuracy With Cosine Similarity And Weighted Term Frequency And Inverse Document Frequency (TF-IDF)

Journal of Applied Engineering and Technological Science (JAETS) ◽

10.37385/jaets.v2i2.210 ◽

2021 ◽

Vol 2 (2) ◽

pp. 62-69

Author(s):

Sintia Sintia ◽

Sarjon Defit ◽

Gunadi Widi Nurcahyo

Keyword(s):

Information System ◽

Cosine Similarity ◽

Search Process ◽

Inverse Document Frequency ◽

Term Frequency ◽

Product Code ◽

Document Frequency ◽

Similarity Method

In the SiPaGa application, the codefication search process is still inaccurate, so OPD often make mistakes in choosing goods codes. So we need Cosine Similarity and TF-IDF methods that can improve the accuracy of the search. Cosine Similarity is a method for calculating similarity by using keywords from the code of goods. Term Frequency and Inverse Document (TFIDF) is a way to give weight to a one-word relationship (term). The purpose of this research is to improve the accuracy of the search for goods codification. Codification of goods processed in this study were 14,417 data sourced from the Goods and Price Planning Information System (SiPaGa) application database. The search keywords were processed using the Cosine Similarity method to see the similarities and using TF-IDF to calculate the weighting. This research produces the calculation of cosine similarity and TF-IDF weighting and is expected to be applied to the SiPaGa application so that the search process on the SiPaGa application is more accurate than before. By using the cosine sismilarity algorithm and TF-IDF, it is hoped that it can improve the accuracy of the search for product codification. So that OPD can choose the product code as desired

Download Full-text

IMPLEMENTASI TOKENIZING PLUS PADA SISTEM PENDETEKSI KEMIRIPAN JURNAL SKRIPSI

Jurnal Informatika Polinema ◽

10.33795/jip.v2i1.50 ◽

2017 ◽

Vol 2 (1) ◽

pp. 24

Author(s):

Paratisa Kharismadita ◽

Faisal Rahutomo

Keyword(s):

Cosine Similarity ◽

Inverse Document Frequency ◽

Term Frequency ◽

Document Frequency

Syarat lulus bagi mahasiswa program sarjana, magister dan doktor salah satunya adalah mempublikasikan karya ilmiah. Untuk lulus Sarjana harus menghasilkan jurnal yang terbit pada jurnal ilmiah. Namun banyak sekali kasus plagiarisme atau penjiplakan jurnal yang marak terjadi di Indonesia. Tidak hanya dikalangan mahasiswa program sarjana namun juga terjadi pada beberapa kasus di program magister dan doktoral di beberapa instansi pendidikan. Penerapan sistem pendeteksi kemiripan jurnal tentunya sangat diperlukan untuk mengurangi kasus plagiarisme di kalangan pendidikan. Tahapan yang harus dilalui pada sistem yaitu Tokenizing Plus (membuat library kata berdasarkan KBBI). Tokenizing Plus merupakan proses untuk mendapatkan kata dasar dan kata majemuk yang ada pada KBBI. Metode yang digunakan adalah Term Frequency dan Inverse Document Frequency (TF-IDF) dan Cosine Similarity untuk mendapatkan nilai kemiripan. Sistem ini membandingkan keseluruhan dari isi jurnal mulai dari abstrak, judul dan konten.

Download Full-text

Pengelompokan Artikel Berita Berbahasa Indonesia dengan Agglomerative Clustering

10.31227/osf.io/e95qc ◽

2018 ◽

Author(s):

Yudi Wibisono ◽

Masayu Leylia Khodra

Keyword(s):

Cosine Similarity ◽

Agglomerative Clustering ◽

Single Linkage ◽

Inverse Document Frequency ◽

Complete Linkage ◽

Term Frequency ◽

Average Linkage ◽

Document Frequency ◽

Average Group

Makalah ini mengaplikasikan agglomerative clustering untuk pengelompokan artikel berita berbahasa Indonesia untuk sistem aggregator berita. Agglomerative clustering merupakan teknik clustering hirarki dengan keunggulan jumlah cluster tidak perlu ditentukan, dan kualitas cluster tidak bergantung pada inisialisasi awal anggota cluster. Empat linkage diimplementasikan yaitu single linkage, complete linkage, average linkage, dan average-group linkage. Clustering dilakukan dengan menggunakan fitur leksikal, pembobotan term-frequency inverse document-frequency (tf.idf), cosine similarity, dan minimum anggota cluster adalah tiga. Dengan menggunakan 104 artikel berbahasa Indonesia yang telah dilabeli, kualitas cluster terbaik dihasilkan agglomerative clustering dengan menggunakan complete linkage dan kemiripan minimum 0.3 (purity rata-rata 0.888 dan lima cluster) dan 0.4 (purity rata-rata 0.938 dan empat cluster). Hasil eksperimen juga menunjukkan bahwa complete linkage menghasilkan purity rata-rata terbaik dan konsisten dibandingkan jenis linkage lainnya, dan nilai purity akan semakin tinggi jika parameter min_sim diperbesar, tetapi hal tersebut menyebabkan jumlah cluster yang dihasilkan semakin kecil.

Download Full-text

The Analysis of Proximity Between Subjects Based on Primary Contents Using Cosine Similarity on Lective

Kinetik Game Technology Information System Computer Network Computing Electronics and Control ◽

10.22219/kinetik.v2i4.271 ◽

2017 ◽

pp. 299-308

Author(s):

Muhammad Andi Al-rizki ◽

Galih Wasis Wicaksono ◽

Yufis Azhar

Keyword(s):

Cosine Similarity ◽

High Similarity ◽

Inverse Document Frequency ◽

Term Frequency ◽

Research Results ◽

Document Frequency ◽

Precision And Accuracy ◽

The Relationship ◽

Similarity Method

In education world, recognizing the relationship between one subject and another is imperative. By recognizing the relationship between courses, performing sustainability mapping between subjects can be easily performed. Moreover, detecting and reducing any duplicated contents in several subjects will be also possible to execute. Of course, these conveniences will benefit lecturers, students and departments. It will ease the analysis and discussion processes between lecturers related to subjects in the same domain. In addition, students will conveniently choose a group of subjects they are interested in. Furthermore, departments can easily create a specialization group based on the similarity of the subjects and combine the courses possessing high similarity. In this research, given a good database, the relationship between subjects was calculated based on the proximity of the primary contents of the subjects. The feature used was term feature, in which value was determined by calculating TF-IDF (Term Frequency Inverse Document Frequency) from each term. In recognizing the value of proximity between subjects, cosine similarity method was implemented. Finally, testing was done utilizing precision, recall and accuracy method. The research results show that the precision and accuracy values are 90,91% and the recall value is 100%.

Download Full-text

PENGEMBANGAN APLIKASI "LOST & FOUND" BERBASIS ANDROID DENGAN MENGGUNAKAN METODE TERM FREQUENCY – INVERSE DOCUMENT FREQUENCY (TF-IDF) DAN COSINE SIMILARITY

Electro Luceat ◽

10.32531/jelekn.v6i2.232 ◽

2020 ◽

Vol 6 (2) ◽

pp. 190-204

Author(s):

Luluk Suryani ◽

Kasmi Edy

Keyword(s):

Cosine Similarity ◽

Inverse Document Frequency ◽

Term Frequency ◽

Document Frequency

Proses pencarian umumnya akan dilakukan dengan cara menyebarkan informasi dari orang ke orang, menyebarkan kertas informasi di tempat umum, melaporkan kepada pihak berwajib dan juga melalui media informasi seperti koran, radio, televisi dan sosial media. Proses pencarian melalui media informasi tentu sangat efektif, karena semakin banyak orang yang tahu maka akan semakin besar kemungkinan untuk ditemukan. Tapi cara tersebut masih memiliki kelemahan karena barang yang belum ditemukan hingga memamakan waktu berbulan-bulan bahkan bertahun-tahun, informasi kehilangan tersebut akan tertutup dengan berita baru yang berkembang di masyarakat sehingga informasi kehilangan yang telah dibuat akan mulai dilupakan oleh banyak orang. Dilatarbelakangi hal tersebut, mendorong peneliti mengembangkan Aplikasi “Lost & Found”. Aplikasi bisa diakses melalui handphone android secara online. Tujuan mengembangkan aplikasi “Lost & Found” adalah untuk menyiapkan wadah bagi individu dalam menyebarkan informasi kehilangan atau temuan. Aplikasi diimplementasikan menggunakan Metode Cosine Similarity yang berguna mencari seberapa besar tingkat kemiripan antara dokumen, semakin besar nilai cosinus maka semakin mirip dokumen yang dibandingkan. Nilai cosinus 1 menyatakan kemiripan 100%, sedangkan nol menyatakan ketidakmiripan 100% [1]. Aplikasi juga akan menerapkan metode TF-IDF dimana metode ini berfungsi memberi bobot hubungan suatu kata terhadap dokumen.

Download Full-text

Analysis of Matric Product Matching Between Cosine Similarity with Term Frequency-Inverse Document Frequency (TF-IDF) and Word2Vec in PT. Pricebook Digital Indonesia

International Journal of Scientific Research in Computer Science Engineering and Information Technology ◽

10.32628/cseit195672 ◽

2020 ◽

pp. 105-112

Author(s):

Harni Kusniyati ◽

Arie Aditya Nugraha

Keyword(s):

Word Embedding ◽

Cosine Similarity ◽

Consumer Experience ◽

Inverse Document Frequency ◽

Term Frequency ◽

Document Frequency ◽

The Relationship ◽

Product Specifications ◽

Similarity Method ◽

Product Matching

Consumers today have the option to purchase products from thousands of e-commerce. However, the completeness of the product specifications and taxonomies used to organize products differently in different electronic shop differently. To improve the consumer experience, Pricebook approach for integration of the product through the website to find the cheapest price from various platforms. In our writing, we do approach by using a model of neural language such as TF-IDF (term frequency-inverse document frequency) as well as Word2vec by using the method of cosine similarity. TF-IDF is a way to give the relationship a word weighting (term) against the document. Semantic vector or word embedding is one way to represent the structure of a sentence will be in align with manipulating sentences into vector shapes with Word2Vec. Cosine similarity method is a method to calculate the similarity between two objects that is expressed in two vectors by using keywords (keywords) of a document as the size so that it leads to more products matching good performance and categorization. In addition, we compare the results of the representation of the TF-IDF with Word2vec against a number of the data.

Download Full-text

Sistem Rekomendasi Produk Pena Eksklusif Menggunakan Metode Content-Based Filtering dan TF-IDF

JOINTECS (Journal of Information Technology and Computer Science) ◽

10.31328/jointecs.v5i3.1563 ◽

2020 ◽

Vol 5 (3) ◽

pp. 229

Author(s):

Mariani Widia Putri ◽

Achmad Muchayan ◽

Made Kamisutara

Keyword(s):

Information Retrieval ◽

Customer Relationship Management ◽

Relationship Management ◽

Customer Relationship ◽

Brand Awareness ◽

Product Knowledge ◽

Inverse Document Frequency ◽

Term Frequency ◽

Document Frequency ◽

Content Based Filtering

Sistem rekomendasi saat ini sedang menjadi tren. Kebiasaan masyarakat yang saat ini lebih mengandalkan transaksi secara online dengan berbagai alasan pribadi. Sistem rekomendasi menawarkan cara yang lebih mudah dan cepat sehingga pengguna tidak perlu meluangkan waktu terlalu banyak untuk menemukan barang yang diinginkan. Persaingan antar pelaku bisnis pun berubah sehingga harus mengubah pendekatan agar bisa menjangkau calon pelanggan. Oleh karena itu dibutuhkan sebuah sistem yang dapat menunjang hal tersebut. Maka dalam penelitian ini, penulis membangun sistem rekomendasi produk menggunakan metode Content-Based Filtering dan Term Frequency Inverse Document Frequency (TF-IDF) dari model Information Retrieval (IR). Untuk memperoleh hasil yang efisien dan sesuai dengan kebutuhan solusi dalam meningkatkan Customer Relationship Management (CRM). Sistem rekomendasi dibangun dan diterapkan sebagai solusi agar dapat meningkatkan brand awareness pelanggan dan meminimalisir terjadinya gagal transaksi di karenakan kurang nya informasi yang dapat disampaikan secara langsung atau offline. Data yang digunakan terdiri dari 258 kode produk produk yang yang masing-masing memiliki delapan kategori dan 33 kata kunci pembentuk sesuai dengan product knowledge perusahaan. Hasil perhitungan TF-IDF menunjukkan nilai bobot 13,854 saat menampilkan rekomendasi produk terbaik pertama, dan memiliki keakuratan sebesar 96,5% dalam memberikan rekomendasi pena.

Download Full-text