scholarly journals PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

Author(s):  
Fauziah Nur ◽  
M. Zarlis ◽  
Benny Benyamin Nasution

Data mining merupakan teknik pengolahan data dalam jumlah besar untuk pengelompokan.Teknik ini digunakan dalam proses Knowledge Discovery in Database (KDD). Teknik tersebut mempunyai beberapa metode dalam pengelompokannya Naïve-Bayes dan Nearest Neighbour, pohon keputusan (KD-Tree), ID3, K-Means, text mining dan dbscan. Dalam hal ini penulis mengelompokan data siswa baru sekolah menengah kejuruan tahun ajaran 2014/2015. Pengelompokan tersebut berdasarkan kriteria – kriteria data siswa. Pada penelitian ini, penulis menerapkan algoritma K-Means Clustering untuk pengelompokan data siswa baru sekolah menengah kejuruan. Dalam hal ini, pada umumnya untuk memamasuki jurusan hanya disesuaikan dengan nilai siswa saja namun dalam penelitian ini pengelompokan disesuaikan kriteria – kriteria siswa seperti penghasilan orang tua, tanggungan anak orang tua dan nilai tes siswa. Penulis menggunakan beberapa kriteria tersebut agar pengelompokan yang dihasilkan menjadi lebih optimal. Tujuan dari pengelompokan ini adalah terbentuknya kelompok jurusan pada siswa yang menggunakan algoritma K-Means clustering. Hasil dari pengelompokan tersebut diperoleh tiga kelompok yaitu kelompok tidak lulus, kelompok rekayasa perangkat lunak dan kelompok teknik komputer jaringan. Terdapat pusat cluster  dengan Cluster-1=1.4;2.2;2.2, Cluster-2= 2.28;1.64;4 dan Cluster-3=5;2;6. Pusat cluster tersebut didapat dari beberapa iterasi sehingga mengahasilakan pusat cluster yang optimal.

2016 ◽  
Vol 8 (1) ◽  
Author(s):  
Linda Jayanti ◽  
Steven R. Sentinuwo ◽  
Oktavian A. Lantang ◽  
Agustinus Jacobus

Abstrak - Facebook memungkinkan penggunanya berinteraksi dengan orang yang kita kenal maupun orang yang tidak kita kenal, dimana hal tersebut dapat membuka peluang bagi kejahatan dunia maya seperti, penculikan, perdagangan manusia (trafficking), hingga pembunuhan. IOM mecatat bahwa korban perdagangan orang atau trafficking di Indonesia mencapai 74.616 hingga I juta per tahun, dimana tindak kejahatan teersebut banyak dilakukan melalui facebook sebagai medianya. Data teks (status) yang berada di halaman facebook sangat besar. Dengan menggunakan Teknik pengolahan data dari ilmu Data Mining, terutama di bidangtext mining, penulis memanfaatkannya untuk mengidentifikasi data teks (status facebook) yang terindikasi sebagai proses kejahatan trafficking dengan memakai salah satu teknik klasifikasi dengan teorema naïve bayes classifier (NBC).   Kata kunci : facebook, trafficking, data mining, text mining, klasifikasi, naïve bayes classifier.


2019 ◽  
Vol 8 (4) ◽  
pp. 3335-3343

Knowledge Discovery in Databases (KDD) is a splendid methodology of discovering knowledge from gigantic databases by using its various stages viz. Data Selection, Data Preprocessing, Data Transformation, Data Mining and Interpretation/Evaluation. Data Mining is a vital sub-process of KDD methodology that is particularly used to apply the various mining algorithms on the data. In the present research paper, the authors have made an attempt to discover new knowledge by classifying the child immunization data of Jammu and Kashmir State of India. The data for the present work was collected from a web portal named as Health Management Information System (HMIS) facilitated by Ministry of Health and Family Welfare (MoHFW), Government of India. The data consists of diverse health parameters pertaining to the immunization of children and for the present study, the child immunization data of all districts of Jammu and Kashmir State was considered. Two classifiers viz. Bayesian TAN and Naïve Bayes were employed for classifying the districts of Jammu and Kashmir State into High IMR and Low IMR districts based on the available past data from 2014 to 2018. Additionally, various measurement methods have been used to evaluate the performance of the models developed by Bayesian TAN and Naïve Bayes.


Data Mining is an important sub-process of Knowledge Discovery in Databases (KDD) or Knowledge Discovery Process (KDP) methodology that is mainly used for applying various data mining techniques and algorithms on the target data. In this research paper, the authors have made an attempt to discover knowledge by classifying the maternal healthcare data of Jammu and Kashmir State of India (now declared as Union Territory by the Government of India). The data for the present research work was collected from a web portal named as Health Management Information System (HMIS) facilitated by Ministry of Health and Family Welfare (MoHFW), Government of India. The data consists of diverse health parameters pertaining to the maternal health of women and for this study, the maternal healthcare data of all districts of Jammu and Kashmir State was considered. Two data mining classifiers viz. Bayesian TAN and Naïve Bayes were applied for classifying the districts of Jammu and Kashmir State into High MMR and Low MMR districts based on the available past data from 2014 to 2018. Additionally, evaluation measures viz. Accuracy, F-measure, Area under the Curve (AUC), and Gini have been used to evaluate the performance of the models developed by Bayesian TAN and Naïve Bayes.


2020 ◽  
Vol 7 (1) ◽  
pp. 31-40
Author(s):  
Andita Wahyuningtyas ◽  
Imas Sukaesih Sitanggang ◽  
Husnul Khotimah

Di era berkembangnya penggunaan Internet, Twitter merupakan salah satu layanan jejaring sosial yang sering digunakan sebagai alat komunikasi yang saling menghubungkan antar pengguna. Selain itu Twitter juga dimanfaatkan sebagai media untuk promosi, kampanye politik, dan sarana protes. Twitter dihadapkan pada berbagai masalah seperti gangguan privasi pengguna dan spam pada Twitter. Dengan adanya masalah spam, perlu dilakukan klasifikasi untuk tweet spam dan bukan spam. Penelitian ini bertujuan untuk mendeteksi tweet spam dan bukan spam. Hal tersebut dapat dilakukan dengan klasifikasi, terdapat berbagai macam metode klasifikasi, salah satu metode dalam data mining untuk mengklasifikasikan spam dan bukan spam adalah Naïve Bayes. Naïve Bayes banyak digunakan karena kesederhanaan algoritme dan mudah untuk diimplementasikan. Penelitian ini mengumpulkan data spam dari Twitter dengan mengidentifikasi terlebih dahulu akun yang diduga sebagai spammer. Penelitian ini menggunakan 70% data latih dan 30% data uji dengan metode klasifikasi Naïve Bayes. Data Twitter yang diperoleh merupakan data teks yang masih banyak mengandung kata-kata yang tidak baku, sehingga dibutuhkan tahap praproses, tahap yang dilakukan adalah tokenizing, filtering, normalisasi kata, stemming. Akurasi hasil klasifikasi tweet spam dan bukan spam adalah  95.57%. Kata Kunci: klasifikasi spam, Naïve Bayes, text mining, Twitter.


2018 ◽  
Vol 4 (1) ◽  
pp. 6-12
Author(s):  
Eka Miranda

Tujaun penelitian ini adalah mengklasifikasikan pelanggan berdasarkan tabel transaksi dengan pendekatan knowledge discovery from data (KDD) dan metode data mining naïve bayes classifier dengan manfaat menghasilkan pengetahuan yang berguna untuk mengambil keputusan yang terkait dengan mengelola pelanggan.Untuk menggali pengetahuan dari data yang berjumlah besar tersebut, menggunakan data mining dan metode Naïve Bayes Classifier. Untuk mengklasifikasikan pelanggan digunakan tabel transaksi dari proses pembelian kendaraan bermotor dengan pendekatan Knowledge Discovery from Data (KDD) dan metode data mining Naïve Bayes Classifier. Metode yang digunakan pada penelitian terdiri atas metode pengumpulan data yang digunakan untuk pencariaan kebutuhan informasi dengan menggunakan fact finding technique menurut Thomas Connolly dan Carolyn Begg, yang meliputi: Wawancara (Interview), Persyaratan (Requerements) atau Preferensi (Preferences) dan proses penemuan pengetahuan menggunakan pendekatan Knowledge Discovery from Data (KDD). Penellitian ini mengklasifikasikan pelanggan menjadi dua kelas yaitu kelas pelanggan potensial dan pelanggan tidak potensial dengan menggunakan atribut prediksi klasifikasi terdiri atas Pekerjaan, Jenis Bayar, Tenor dan Usia. Hasil dari penelitian menunjukan bahwa Naïve Bayes Classifier telah dapat mengklasifikasikan pelanggan menjadi dua kelas yaitu kelas pelanggan potensial dan pelanggan tidak potensial dengan nilai akurasi masing-masing sebagai berikut : Sensitivity 97%, Specificity 99,8%, Precision 99,8%, Recall 97%, Accuracy 97%, Error Rate 3%.


Repositor ◽  
2020 ◽  
Vol 2 (2) ◽  
pp. 193
Author(s):  
Khoirir Rosikin ◽  
Setio Basuki ◽  
Yufis Azhar

AbstrakKesehatan merupakan kebutuhan utama manusia. Di Indonesia terdapat  permasalahan tentang kesehatan, yaitu meningkatnya penyakit menular dan penyakit tidak menular. Untuk mengatasinya perlu dilakukan tidakan pencegahan. Salah satu usaha untuk melakukan pencegahan penyakit, adalah dengan mengetahui informasi penyakit tersebut, temasuk tentang penyebab dan akibat yang ditimbulkan, sehingga bisa melakukan pencegahan. Informasi bisa didapatkan dengan berbagai macam cara, salah satunya diambil dari media sosial, terutama twitter. Twitter digunakan karena banyaknya tweet yang dihasilkan sehingga memunculkan fenomena big data. Karena hal itulah, penelitian ini bermaksud untuk melakukan suatu metode ekstraksi informasi. Ekstraksi informasi merupakan metode penerapan data mining terutama bidang text mining yang digunakan untuk mendapatkan informasi dari kumpulan banyak data. Informasi yang dimaksud adalah penyakit, akibat, dan penyebab. Penelitian ini menggunakan pendekatan ekstraksi informasi berbasis klasifikasi dengan algoritma Naive Bayes. Penelitian ini menggunakan 7 set fitur dan sebuah model algoritma klasifikasi yaitu Naive Bayes. Dalam ekstraksi fitur terjadi imbalance dataset, sehingga dilakukan resample filtering data. Pengujian dilakukan dengan 2 metode, yaitu pengujian model dengan menggunakan 10-folds cross-validation dan pengujian klasifikasi dengan menggunakan 100 data uji. Hasil dari pengujian model mendapatkan nilai akurasi 77,27% dan pengujian klasifikasi mendapatkan nilai akurasi 74,07%. AbstractHealth is a primary human need. In Indonesia there are health problems, namely the increase of infectious diseases and non-communicable diseases. To overcome this need to do precautionary measures. One effort to prevent disease, is to know the disease information, including about the causes and effects caused, so it can do prevention. Information can be obtained in various ways, one of which is taken from social media, especially twitter. Twitter is used because of the number of tweets produced resulting in big data phenomenon. Because of that, this research intends to perform an information extraction method. Information extraction is a method of application of data mining, especially the text mining field used to obtain information from a large collection of data. The information in question is a disease, effect, and cause. This research uses a classification-based information extraction approach with Naive Bayes algorithm. This research uses 7 feature sets and a model of classification algorithm that is Naive Bayes. In feature extraction there is imbalance dataset, so it is done resample filtering data. The test is done by 2 methods, namely model testing using 10-folds cross-validation and classification testing using 100 test data. The result of model test get the accuracy value 77,27% and the classification test get the accuracy value 74,07%.


2019 ◽  
Vol 5 (2) ◽  
pp. 208
Author(s):  
Zarnelly Zarnelly

Abstrak—Kecendrungan seseorang untuk mengakses informasi khususnya permasalahan agenstok melalui dunia maya pun menjadi semakin tinggi. Informasi merupakan hal yang sangat penting dalam kehidupan masyarakat. Salah satu sumber infomasi adalah media sosial. Klasifikasi ini ditekankan untuk data permasalahan agenstok. Pada umumnya permasalahan yang disampaikan terdiri dari beberapa kategori seperti permasalahan mengenai kesehatan, konsultasi produk dan marketing. Namun dalam membagi permasalahan kedalan kategori-kategori tersebut untuk saat ini masih dilakukan secara manual.hal ini sangat merepotkan apabila permasalahan yang ingin di unggah berjumlah banyak. Oleh karena itu, perlu adanya sistem yang bisa mengklasifikasikan permasalahan secara otomatis. Text mining merupakan metode klasifikasi yang merupakan variasi dari data mining yang berusaha menemukan pola menarik dari sekumpulan data tekstual yang berjumlah banyak. Sedangkan algoritma naive bayes classsifier merupakan logartitma pendukung utuk melakukan klasifikasi. Kategori memiliki jumlah data permasalahan yang sama dan terdiri dari 400 data permasalahan; 360 data permasalahan digunakan untuk proses training dan 40 data permasalahan digunakan untuk proses testing. Pada penelitian ini metode yang digunakan yaitu waterfall dan pengujian perfomance measure, uji black box, dan uji sistem oleh pengguna. Adapun pengujian perfomance measure memperoleh nilai akurasi 97,5%, precision 97,6%, recall 97,5% dan f-measure 97,4%. Dari hasil-hasil tersebut dapat  disimpulkan bahwa sistem yang menerapkan algoritma naive bayes classifier dapat digunakan untuk mengklasifikasikan permasalahan agenstok berbasis web, dengan menggunakan bahasa pemrograman PHP dan Database Management System (DBMS) menunjukkan bahwa klasifikasi permasalahan agenstok bisa terklasifikasi secara otomatis.Kata Kunci: agenstok, akurasi, klasifikasi, naïve bayes, text mining


2019 ◽  
Vol 15 (2) ◽  
pp. 275-280
Author(s):  
Agus Setiyono ◽  
Hilman F Pardede

It is now common for a cellphone to receive spam messages. Great number of received messages making it difficult for human to classify those messages to Spam or no Spam.  One way to overcome this problem is to use Data Mining for automatic classifications. In this paper, we investigate various data mining techniques, named Support Vector Machine, Multinomial Naïve Bayes and Decision Tree for automatic spam detection. Our experimental results show that Support Vector Machine algorithm is the best algorithm over three evaluated algorithms. Support Vector Machine achieves 98.33%, while Multinomial Naïve Bayes achieves 98.13% and Decision Tree is at 97.10 % accuracy.


2020 ◽  
Vol 10 (1) ◽  
pp. 12
Author(s):  
Ekka Pujo Ariesanto Akhmad

<strong> </strong>Bagian pemasaran bank sudah menampung data dari nasabah atau pelanggan bank dengan cara memasarkan atau mensosialisasikan kartu kredit lewat telepon (telemarketing). Evaluasi telemarketing kartu kredit yang sudah dilakukan bank masih kurang membawa hasil dan berdaya guna. Salah satu cara yang tepat untuk evaluasi laporan telemarketing kartu kredit bank adalah menggunakan teknik data mining. Tujuan penggunaan data mining untuk mengetahui kecenderungan dan pola nasabah yang berpeluang untuk berlangganan kartu kredit yang ditawarkan bank. Metode penelitian menggunakan Cross Industry Standard Process for Data Mining (CRISP-DM) dengan Algoritma Genetika untuk Seleksi Fitur (GAFS) dan Naive Bayes (NB). Hasil penelitian menunjukkan jumlah atribut pada dataset telemarketing kartu kredit bank sejumlah 15 atribut terdiri dari 14 atribut biasa dan 1 atribut spesial. Dataset telemarketing bank mengandung data berdimensi tinggi, sehingga diterapkan metode GAFS. Setelah menerapkan metode GAFS diperoleh 7 atribut optimal terdiri dari 6 atribut biasa dan 1 atribut spesial. Enam atribut biasa meliputi pekerjaan, balance, rumah, pinjaman, durasi, poutcome. Sedangkan atribut spesial adalah target. Hasil penelitian menunjukkan algoritma NB mempunyai nilai akurasi <em>86,71</em>%. Algoritma GAFS dan NB meningkatkan nilai akurasi menjadi <em>90,27</em>% untuk prediksi nasabah bank yang mengambil kartu kredit.


2013 ◽  
Vol 4 (1) ◽  
pp. 18-27
Author(s):  
Ira Melissa ◽  
Raymond S. Oetama

Data mining adalah analisis atau pengamatan terhadap kumpulan data yang besar dengan tujuan untuk menemukan hubungan tak terduga dan untuk meringkas data dengan cara yang lebih mudah dimengerti dan bermanfaat bagi pemilik data. Data mining merupakan proses inti dalam Knowledge Discovery in Database (KDD). Metode data mining digunakan untuk menganalisis data pembayaran kredit peminjam pembayaran kredit. Berdasarkan pola pembayaran kredit peminjam yang dihasilkan, dapat dilihat parameter-parameter kredit yang memiliki keterkaitan dan paling berpengaruh terhadap pembayaran angsuran kredit. Kata kunci—data mining, outlier, multikolonieritas, Anova


Sign in / Sign up

Export Citation Format

Share Document