scholarly journals Perbandingan Prediksi Kualitas Kopi Arabika dengan Menggunakan Algoritma SGD, Random Forest dan Naive Bayes

2020 ◽  
Vol 4 (2) ◽  
pp. 1-9
Author(s):  
Veronica Sari ◽  
◽  
Feranandah Firdausi ◽  
Yufis Azhar ◽  
◽  
...  

Classification is one of the techniques that exist in data mining and is useful for grouping a data based on the attachment of the data with the sample data. The dataset that is used in this study is the coffee dataset taken from Dataset Coffee Quality Institute on the GitHub platform. The attributes that contained in the dataset are Aroma, Aftertaste, Flavor, Acidity, Balance, Body, Uniformity, Sweetness, Clean Cup, and Copper points. There are 3 classification methods that are used in this study, Stochastic Gradient Descent, Random Forest and Naive Bayes. The aim of this study is to find out which algorithm is the most effective to predict the coffee quality in the dataset. After that, the prediction results will be tested using K-Fold Cross Validation and Area Under the Curve (AUC) method. The results show that Stochastic Gradient Descent obtained the best accuracy results compared to the other two methods with an accuracy of 98% and increased to 99% after tested using K-fold Cross Validation and AUC method.

2018 ◽  
Vol 5 (5) ◽  
pp. 567 ◽  
Author(s):  
Irvi Oktanisa ◽  
Ahmad Afif Supianto

<p class="Abstrak">Klasifikasi merupakan teknik dalam <em>data mining</em> untuk mengelompokkan data berdasarkan keterikatan data terhadap  data sampel. Pada penelitian ini, kami melakukan perbandingan 9 teknik klasifikasi untuk mengklasifikasi respon pelanggan pada <em>dataset Bank Direct Marketing</em>. Perbandingan teknik klasifikasi ini dilakukan untuk mengetahui model dalam teknik klasfikasi yang paling efektif untuk mengklasifikasi target pada <em>dataset Bank Direct Marketing</em>. Teknik klasifikasi yang digunakan yaitu <em>Support Vector Machine</em>, <em>AdaBoost</em>, <em>Naïve Bayes</em>, <em>Constant, KNN, Tree, Random Forest, Stochastic Gradient Descent</em>, dan <em>CN2 Rule</em>. Proses klasifikasi diawali dengan <em>preprocessing</em> data untuk melakukan penghilangan <em>missing value</em> dan pemilihan fitur pada <em>dataset</em>. Pada tahap evaluasi digunakan teknik <em>10 fold cross validation</em>. Setelah dilakukan pengujian, didapatkan bahwa hasil klasifikasi menunjukkan akurasi terbaik diperoleh oleh model <em>Tree, Constant</em>, <em>Naive Bayes</em>, dan <em>Stochastic Gardient Descent</em>. Kemudian diikuti oleh model <em>Random Forest</em>, <em>K-Nearest Neighbor</em>, <em>CN-2 Rule</em>, <em>AdaBoost</em> dan <em>Support Vector Machine</em>. Dari keempat model yang menunjukkan hasil akurasi terbaik, untuk kasus ini <em>Stochastic Gradient Descent</em> terpilih sebagai model yang memiliki akurasi terbaik dengan nilai akurasi sebesar 0,972 dan hasil visualisasi yang dihasilkan lebih jelas untuk mengklasifikasi target pada <em>dataset Bank Direct Marketing</em>.</p><p class="Abstrak"><em><strong><br /></strong></em></p><p class="Abstrak"><em><strong>Abstract</strong></em></p>Classification is a technique in data mining to classify data based on the attachment of data to the sample data.. In this paper, we present the comparison of  9 classification techniques performed to classify customer response on the dataset of Bank Direct Marketing. The techniques performed to find out the effectiveness model in the classification technique used to classify targets on the dataset of Bank Direct Marketing. The techniques used are Support Vector Machine, AdaBoost, Naïve Bayes, Constant, KNN, Tree, Random Forest, Stochastic Gradient Descent, and CN2 Rule. The classification process begins with preprocessing data to perform missing value omissions and feature selection on the dataset. Cross validation technique, with k value is 10, used in the evaluation stage. After testing, it was found that the classification results showed the best accuracy obtained when using the Tree model, Constant, Naive Bayes and Stochastic Gradient Descent. Afterwards the Random Forest model, K-Nearest Neighbor, CN-2 Rule, AdaBoost, and Support Vector Machine are followed. Of the four models with the high accuracy results, in this case Stochastic Gradient Descent was selected as the best accuracy model with an accuracy value of 0.972 and resulting visualization more clearly to classify targets on the dataset of Bank Direct Marketing.


2021 ◽  
Vol 7 (2) ◽  
pp. 112
Author(s):  
Shanto Moyrano Tambunan ◽  
Yessica Nataliani ◽  
Elizabeth Sri Lestari

Perkembangan teknologi tidak luput dari dampak negatif, salah satunya hoaks. Twitter menjadi salah satu media sosial yang paling aktif digunakan sebagai pertukaran informasi, komunikasi, dan hiburan. Oleh karena itu pengguna Twitter dapat menyebarkan berita atau hoaks dengan mudah. Penelitian ini bertujuan mengidentifikasi tweet yang berisi informasi hoaks maupun valid menggunakan pembelajaran mesin. Algoritma yang digunakan adalah Stochastic Gradient Descent, Naïve Bayes, Random Forest, dan Rocchio. Keempat algoritma tersebut dibandingkan untuk kemudian dicari hasil terbaik dalam mengidentifikasi dan memverifikasi tweet di Twitter yang berisi hoaks atau informasi valid secara otomatis. Kata kunci yang digunakan adalah Corona, Mutasi Corona, PSBB, Dana Bansos, Dana Otsus, Utang Pemerintah, dan Sekolah Tatap Muka sebanyak 898 tweet. Data dikelompokkan berdasarkan kelas hoaks dan valid lalu diolah menjadi dataset dengan melewati tahap pra-proses hingga pembobotan kata dengan TF-IDF. Hasil pengujian menunjukkan algoritma Stochastic Gradient Descent merupakan algoritma terbaik dengan hasil akurasi rata-rata sebesar 84.92%. Pengujian lanjutan dilakukan dengan menghitung nilai presisi, recall, dan F-1. Hasil presisi terbaik sebesar 82.95% pada algoritma Naïve Bayes, sedangkan hasil recall dan F-1 terbaik didapat dari algoritma Stochastic Gradient Descent sebesar 85.05% dan 82.42%.


Author(s):  
Panny Agustia Rahayuningsih

Penyakit Kanker merupakan sepuluh besar penyakit pembunuh di dunia. Kanker merupakan penyakit yang ganas dan sulit disembuhkan jika penyebarannya sudah terlalu luas. Akan tetapi, pendeteksian sel kanker sedini mungkin dapat mengurangi resiko kematian. Penelitian ini bertujuan untuk memprediksikan tingkat kematian dini kanker pada penduduk Eropa dengan menggunakan 5algoritma klasifikasi yaitu: Desecion Tree, Naïve Bayes, k-Nearset Neighbour, Random Forest dan Neural Network dari algoritma tersebut algoritma mana yang dianggap paling baik untuk penelitian ini. Pengujian dilakukan dengan beberapa tahapan penelitian antara lain: dataset (pengumpulan data), pengolahan data awal, metode yang diusulkan, pengujian metode menggunakan 10-fold cross validation, evaluasi hasil dan uji beda t-test. Nilai alpha yang digunakan adalah 0.05. jika probabilitasnya >0.05 maka H0 diterima. Sedangkan jika probabilitasnya <0.05 maka Ho ditolak.Hasil dari penelitian yang mendapatkan performe terbaik dengan nilai akurasi sebesar 98,35% adalah algoritma Neural Network. Sedangkan, hasil penelitian menggunakan uji t-test algoritma dengan model terbaik yaitu: algoritma Random Forest dan Neural Network, algoritma Naïve Bayes lumanyan baik, algoritma Desecion Tree cukup baik dan algoritma yang kurang baik adalah algoritma K-Nearset Neighbour (K-NN).


Author(s):  
Anas Faisal ◽  
Yuris Alkhalifi ◽  
Achmad Rifai ◽  
Windu Gata

Penggunaan internet terutama media sosial telah menjadi bagian dari kehidupan bernegara. Hal ini salah satunya karena Anggota Dewan Perwakilan Rakyat Republik Indonesia (DPR RI) banyak yang menyampaikan ide, kebijakan maupun memberikan komentar atas kebijakan pemerintah melalui media sosial. Penelitian ini dilakukan untuk mengukur pendapat atau memisahkan antara sentimen positif dan sentimen negatif terhadap DPR RI. Data yang digunakan dalam penelitian ini didapatkan dengan melakukan crawling pada media sosial twitter. Penelitian dilakukan dengan menggunakan dua Algoritma yaitu Algoritma Support Vector Machine (SVM) dan Naive Bayes (NB). Kedua algoritma tersebut masing-masing dioptimasi menggunakan Particle Swarm Optimization (PSO). Hasil pengujian k-fold cross validation SVM dan NB mendapatkan nilai accuracy 71,04% dan 70,69% dengan nilai Area Under the Curve (AUC) 0,817 dan 0,661. Sedangkan hasil pengujian k-flod cross validation dengan menggunakan PSO, untuk SVM dan NB masing-masing mendapatkan nilai accuracy 75,03% dan 73,49% dengan nilai AUC 0,808 dan 0,719. Penggunaan PSO mampu meningkatkan nilai accuracy algoritma SVM sebesar 3,99% dan 2,8% pada algoritma NB. Hasil dari pengujian kedua algoritma tersebut nilai accuracy tertinggi adalah SVM dengan PSO sebesar 75,03%.


2012 ◽  
Vol 58 (2) ◽  
pp. 241-249
Author(s):  
Fabrício Alves Rodrigues ◽  
Laurence Rodrigues do Amaral

Introdução: Nas últimas décadas, o câncer ganhou uma dimensão maior, convertendo-se em um evidente problema de saúde pública mundial. A Organização Mundial da Saúde estimou que, no ano 2030, podem-se esperar 27 milhões de casos incidentes de câncer e 17 milhões de mortes por câncer. Frente a esse cenário alarmante, a mineração de dados traz métodos e ferramentas capazes de auxiliar na construção de conhecimentos mais incisivos sobre o câncer. Objetivo: Este trabalho tem por objetivo aplicar cinco métodos tradicionais da mineração de dados à base de dados NCI60, construída com dados oriundos de experimentos de microarray, com níveis de expressão de 1.000 genes agrupados em nove classes de câncer. Método: Foram utilizados neste trabalho os métodos J48, Random Forest, PART , IBK e Naive Bayes, pertencentes ao ambiente Weka, bem tradicionais na mineração de dados. Devido ao baixo número de registros para determinadas classes, utilizou-se, na validação dos resultados obtidos pelos classificadores, o 3-fold cross validation. Resultados: O classificador que obteve a melhor precisão foi o IBK, enquanto os classificadores J48 e PART conseguiram diminuir o conjunto de genes drasticamente, construindo conhecimento de alto nível na forma de árvores ou regras. Conclusão: Os resultados obtidos neste trabalho podem ser utilizados como ferramentas que visam a auxiliar no enfrentamento do câncer, podendo ser utilizadas na classificação de novos casos ou para se conhecer, cada vez mais, as relações gene/gene e gene/câncer.


2018 ◽  
Vol 6 (1) ◽  
pp. 1
Author(s):  
Qomariyatul Hasanah ◽  
Anang Andrianto ◽  
Muhammad Arief Hidayat

Sistem informasi posyandu ibu hamil dapat mengelola data kesehatan ibu hamil yang berkaitan dengan faktor resiko kehamilan. Faktor resiko kehamilan berdasarkan ketentuan Kartu Skor Poedji Rochyati (KSPR) digunakan bidan untuk menentukan resiko kehamilan dengan memberikan skor pada masing-masing parameter. KSPR memiliki kelemahan tidak dapat memberikan skor pada parameter yang belum pasti sehingga jika belum diketahui dengan pasti maka dianggap tidak terjadi. Konsep membaca pola data yang diadopsi dari teknik datamining menggunakan metode klasifikasi naive bayes dapat menjadi alternatif untuk kelemahan KSPR tersebut yaitu dengan mengklasifikasikan resiko kehamilan. Metode naïve bayes menghitung probabilitas parameter tertentu berdasarkan data pada periode sebelumnya yang telah ditentukan sebagai data training, berdasarkan hasil perhitungan tersebut dapat diketahui resiko kehamilan secara tepat sesuai parameter yang telah diketahui. Metode naïve bayes dipilih karena memiliki tingkat akurasi yang cukup tinggi daripada metode klasifikasi lainnya. Sistem informasi ini dibangun berbasis website agar dapat diakses secara mudah oleh beberapa posyandu yang berbeda tempat. Sistem dibangun mengadopsi dari model Waterfall. Sistem informasi posyandu ibu hamil dirancang dan dibangun dengan tiga (3) hak akses yaitu admin, bidan dan kader dengan masing-masing fitur yang dapat memudahkan penggunanya. Hasil dari penelitian ini adalah sistem informasi posyandu ibu hamil dengan penerapan klasifikasi resiko kehamilan menggunakan metode naïve bayes, dengan tingkat akurasi ketika menggunakan 17 atribut didapatkan 53.913%, 19 atribut didapatkan 54.348%, , 21 atribut didapatkan 54.783%, dan 22 atribut didapatkan 56.957%. Tingkat akurasi klasifikasi diperoleh menggunakan metode pengujian menggunakan Ten-Fold Cross Validation dimana training set dibagi menjadi 10 kelompok, jika kelompok 1 dijadikan test set maka kelompok 2 hingga 10 menjadi training set. Kata Kunci: Posyandu, Resiko Kehamilan, Waterfall, Datamining, Klasifikasi, Naïve bayes


2017 ◽  
Vol 24 (2) ◽  
pp. 71
Author(s):  
Wilamis Kleiton Nunes Da Silva ◽  
Araken De Medeiros Santos

Classificação multirrótulo é um problema de aprendizado supervisionado no qual um objeto pode estar associado a múltiplas classes. Dentre os diferentes métodos de classificação multirrótulo destacam-se os métodos BR (Binary Relevance), LP (Label Powerset) e RAkEL (RAndom k-labELsets). O trabalho realizou um estudo sobre as construções de comitês de classificadores multirrótulos construídos através da aplicação de técnicas de aprendizado semissupervisionado multidescrição. Os comitês de classificadores utilizados nos experimentos foram o Bagging, Boosting e Stacking; como métodos de transformação do problema utilizamos os métodos BR, LP e Rakel; na classificação multirrótulo semissupervisionada multidescrição foi utilizado o Co-Training; foram aplicados cinco diferentes algoritmos como classificadores base: k-NN (k Vizinhos Mais Próximos), J48 (Algoritmo de Indução de Árvores de Decisão), SVM (Máquinas de Vetores Suporte), NB (Naive Bayes) e o JRip (Extended Repeated Incremental Pruning). Todos os experimentos utilizaram a metodologia de validação cruzada com 10 grupos (10-fold Cross-Validation) e o framework MULAN, o qual é implementado utilizando o WEKA. Para os tamanhos dos comitês de classificadores adotamos os valores 3, 5, 7 e 9. Para a análise dos resultados foi utilizado o teste esta- tístico de Wilcoxon. Ao final das análises experimentais, verificou-se que a abordagem semissupervisionado apresentou resultados competitivos em relação ao aprendizado supervisionado, uma vez que as duas abordagens utilizadas apresentaram resultados estatisticamente semelhantes.   


TEKNO ◽  
2019 ◽  
Vol 29 (1) ◽  
pp. 50
Author(s):  
Utomo Pujianto ◽  
Putri Yuni Ristanti

Pendidikan mempunyai standar sebagai acuan dalam proses pembelajaran. Dalam hal ini Pemerintah telah mengatur standar pendidikan di Indonesia, mengacu pada Peraturan Pemerintah Republik Indonesia Nomor 19 Tahun 2005 Pasal 6 ayat (1) yaitu kurikulum untuk jenis pendidikan umum, kejuruan, dan khusus pada jenjang pendidikan dasar dan menengah. Sesuai dengan Peraturan Pemerintah tersebut,  ditetapkannya Peraturan Menteri Pendidikan Nasional Republik Indonesia Nomor 23 Tahun 2006 pasal 1 ayat (2), tentang Standar Kompetensi Lulusan yang diantaranya memuat SK-KMP (Standar Kompetensi Kelompok Mata Pelajaran). Standar inilah yang dijadikan sebuah rujukan untuk tenaga pendidik, dan bakal tenaga pendidik khususnya mahasiswa bidang pendidikan untuk membuat sebuah media pembelajaran, jurnal sebagai bahan ajaran yang pokok. Tujuan penelitian ini untuk mengklasifikasikan minat mahasiswa PGSD terhadap tema mata pelajaran menurut SK-KMP menggunakan metode Naive Bayes dan Decision tree J48. Hasil penelitian tersebut dapat dijadikan sebagai referensi untuk pengambilan tema pada mata pelajaran di tahun mendatang untuk lebih bervariasi, tidak hanya membahas tentang salah satu mata pelajaran tersebut. Kinerja dari kedua metode tersebut akan dibandingkan, sehingga dapat diketahui kinerja metode mana yang lebih baik dalam melakukan klasifikasi dokumen. Pengujian performa algoritma klasifikasi yang digunakan adalah teknik K-fold Cross Validation. Berdasarkan pengujian performa penerapan algoritma Naïve Bayes dan Decision Tree J48 menggunakan teknik K-Fold Cross Validation terhadap 200  judul dan abstrak artikel jurnal, didapatkan algoritma Naive Bayes, tingkat akurasi sebesar 84%. Sementara itu, untuk hasil yang diperoleh dengan algoritma Decision Tree J48, tingkat akurasi sebesar 86%.


Repositor ◽  
2020 ◽  
Vol 2 (8) ◽  
Author(s):  
Nabillah Annisa Rahmayanti ◽  
Yufis Azhar ◽  
Gita Indah Marthasari

AbstrakBullying sering terjadi pada anak-anak khususnya remaja dan meresahkan para orang tua. Maraknya kasus bullying di negeri ini bahkan sampai menyebabkan korban jiwa. Hal ini dapat dicegah dengan cara mengetahui gejala-gejala seorang anak yang mengalami bullying. Kondisi seorang anak yang tidak dapat mengungkapkan keluh kesahnya, tentu membuat orang tua dan juga guru di sekolah sukar dalam mengerti apa yang sedang menimpanya. Hal tersebut bisa saja dikarenakan anak sedang mengalami tindakan bullying oleh teman-temannya. Oleh karena itu peneliti memiliki tujuan untuk menghasilkan fitur yang telah terseleksi dengan menggunakan algoritma C5.0. Sehingga dengan menggunakan fitur yang telah terseleksi dapat meringankan pekerjaan dalam mengisi kuisioner dan juga mempersingkat waktu dalam menentukan seorang anak apakah terkena bullying atau tidak berdasarkan gejala yang ada di setiap pertanyaan pada kuisioner. Untuk menunjang data dalam penelitian ini, peneliti menggunakan kuisioner untuk mendapatkan jawaban dari pertanyaan yang berisi tentang gejala anak yang menjadi korban bullying. Jawaban dari responden akan diolah menjadi kumpulan data yang nantinya akan dibagi menjadi data latih dan data uji untuk selanjutnya diteliti dengan menggunakan Algoritma C5.0. Metode evaluasi yang digunakan pada penelitian ini yaitu 10 fold cross validation dan untuk menilai akurasi menggunakan confusion matrix. Penelitian ini juga melaukan perbandingan dengan beberapa algoritma klasifikasi lainnya yaitu Naive Bayes dan KNN yang bertujuan untuk melhat seberapa akurat algoritma C5.0 dalam melakukan seleksi fitur. Hasil pengujian menunjukkan bahwa algoritma C5.0 mampu melakukan seleksi fitur dan juga memiliki tingkat akurasi yang lebih baik jika dibandingkan dengan algoritma Naive Bayes dan KNN dengan hasil akurasi sebelum menggunakan seleksi fitur sebesar 92,77% dan setelah menggunakan seleksi fitur sebesar 93,33%. Abstract Bullying often occurs in children, especially teenagers and unsettles parents. The rise of cases of bullying in this country even caused casualties. This can be prevented by knowing the symptoms of a child who has bullying. The condition of a child who cannot express his complaints, certainly makes parents and teachers at school difficult to understand what is happening to them. This could be because the child is experiencing bullying by his friends. Therefore, researchers have a goal to produce selected features using the C5.0 algorithm. So using the selected features can ease the work in filling out questionnaires and also shorten the time in determining whether a child is exposed to bullying or not based on the symptoms in each question in the questionnaire. To support the data in this study, the researcher used a questionnaire to get answers to questions that contained the symptoms of children who were victims of bullying. The answer from the respondent will be processed into a data collection which will later be divided into training data and test data for further research using the C5.0 Algorithm. The evaluation method used in this study is 10 fold cross validation and to assess accuracy using confusion matrix. This study also carried out a comparison with several other classification algorithms, namely Naive Bayes and KNN which aimed to see how accurate the C5.0 algorithm was in feature selection. The test results show that the C5.0 algorithm is capable of feature selection and also has a better accuracy compared to the Naive Bayes and KNN algorithms with accuracy results before using feature selection of 92.77% and after using feature selection of 93.33%


Sign in / Sign up

Export Citation Format

Share Document