Klasifikasi Tingkat Rumah Tangga Miskin Saat Pandemi Dengan Naïve Bayes Classifier

Harliana Harliana; Fatra Nonggala Putra

doi:10.34128/jsi.v7i2.339

Klasifikasi Tingkat Rumah Tangga Miskin Saat Pandemi Dengan Naïve Bayes Classifier

Jurnal Sains dan Informatika ◽

10.34128/jsi.v7i2.339 ◽

2021 ◽

Vol 7 (2) ◽

pp. 165-173

Author(s):

Harliana Harliana ◽

Fatra Nonggala Putra

Keyword(s):

Cross Validation ◽

Naive Bayes ◽

Confusion Matrix ◽

Naïve Bayes ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier ◽

Naive Bayes Classification ◽

Naïve Bayes Classification ◽

Fold Cross Validation

Secara definisi kemiskinan merupakan suatu kondisi individu ditingkat rumah tangga yang dinilai berdasarkan karaktersitik kemiskinan. Sebagai dampak dari pandemi covid-19 prosentase rumah tangga miskin di Indonesia meningkat sekitar 9,78%. Berdasarkan hal tersebut, maka penelitian ini akan melakukan klasifikasi dengan algoritma Naïve Bayes Classification untuk menentukan rumah tangga miskin melalui parameter survey ekonomi Nasional Tahun 2020 Modul Ketahanan Sosial yang berfokus pada pengeluaran dan konsumsi perkapita responden selama pandemic. Sedangkan tujuan dari penelitian ini adalah mendapatkan akurasi tertinggi yang dihasilkan oleh Naïve Bayes Classification dalam penentuan rumah tangga miskin. Menurut hasil pengujian dengan confusion matrix dan 10-fold cross validation didapatkan bahwa rata-rata akurasi tertinggi terjadi pada fold ke-10 dengan nilai accuracy 93,21%; precision 86,3%; dan recall 80,11%. Hal ini berarti bahwa akurasi yang dihasilkan oleh naïve bayes classifier dalam melakukan clasifikasi rumah tangga miskin cukup tinggi

Download Full-text

Penerapan Naïve Bayes Classifier dengan Gaussian Function Untuk Menentukan Kelompok UKT

Jurnal Ilmiah Informatika Global ◽

10.36982/jig.v9i2.583 ◽

2019 ◽

Vol 9 (2) ◽

Author(s):

Reza Ade Putra

Keyword(s):

Cross Validation ◽

Naive Bayes ◽

Gaussian Function ◽

Naïve Bayes ◽

Classification Model ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Tuition Fees ◽

Naïve Bayes Classifier ◽

Fold Cross Validation

AbstractUang Kuliah Tunggal hereinafter abbreviated as UKT is part of a single tuition fees incurred by each student in each department or study program for diploma and degree courses. UKT is the amount of fees to be paid by the student in each semester. Basically, the purpose of UKT is to charge tuition fees according to income and family circumstances students. However, there is a problem regarding the classification UKT improperly. It is caused by several factors, including determining UKT groups still use manual method, as well as the substance of subjectivity in the determination of a new student UKT groups. Based on these problems, we need a decision support system that can help in determining the UKT group of new students. In applying UKT, Cot Kala IAIN Zawiyah Langsa split into 3 (three) categories UKT group. Naïve Bayes classifier methods is used to classify data into three UKT groups. Research results show that the results of validation testing of NBC classification model with a 3-fold cross validation generates an average accuracy of 86.67%. so that it can be concluded that the level of effectiveness of the UKT classification model with the NBC method is included in the fairly good category.Keywords : UKT Groups, Naive Bayes Classifier, K-fold cross validation AbstrakUang Kuliah Tunggal yang selanjutnya disingkat UKT merupakan sebagian dari biaya kuliah tunggal yang ditanggung oleh setiap mahasiswa pada setiap jurusan atau program studi untuk program diploma dan program sarjana. UKT merupakan besaran biaya yang harus dibayarkan oleh mahasiswa pada setiap semester. Pada dasarnya, tujuan diberlakukannya UKT yaitu untuk membebankan biaya kuliah sesuai dengan penghasilan dan kondisi keluarga mahasiswa yang bersangkutan. Akan tetapi, terjadi permasalahan tentang penggolongan UKT yang tidak tepat. Ini disebabkan oleh beberapa faktor, diantaranya dalam menentukan kelompok UKT masih menggunakan cara manual, serta adanya unsur subjektivitas dalam penentuan kelompok UKT mahasiswa baru. Berdasarkan permasalahan tersebut, dibutuhkan suatu sistem pendukung keputusan yang dapat membantu dalam menentukan kelompok UKT mahasiswa baruDalam menerapkan Uang Kuliah Tunggal, IAIN Zawiyah Cot Kala Langsa membagi kedalam 3 (Tiga) kategori kelompok UKT . Metode Naïve Bayes Classifier digunakan untuk mengklasifikasikan data menjadi tiga kelompok UKT. Hasil penelitian menunjukkan bahwa hasil validasi pengujian model klasifikasi NBC dengan 3- fold cross validation menghasilkan rata-rata akurasi sebesar 86.67%, sehingga dapat disimpulkan bahwa tingkat efektivitas model klasifikasi UKT dengan metode NBC termasuk pada kategori cukup baik..Kata kunci : Kelompok UKT, Naive Bayes Classifier, K-fold cross validation

Download Full-text

Analisis Sentimen Kebijakan Kampus Merdeka Menggunakan Naive Bayes dan Pembobotan TF-IDF Berdasarkan Komentar pada Youtube

Jurnal Sistem Informasi, Teknologi Informasi, dan Edukasi Sistem Informasi ◽

10.25126/justsi.v2i1.24 ◽

2021 ◽

Vol 2 (1) ◽

Author(s):

Dhaifa Farah Zhafira ◽

Bayu Rahayudi ◽

Indriati Indriati

Keyword(s):

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier ◽

Inverse Document Frequency ◽

Document Frequency ◽

Text Preprocessing ◽

Fold Cross Validation

Kebijakan Kampus Merdeka merupakan salah satu kebijakan baru yang digagas oleh Menteri Pendidikan dan Kebudayaan Republik Indonesia (Mendikbud RI). Kebijakan tersebut tengah ramai disorot publik khususnya pada platform Youtube berkaitan dengan video unggahan Mendikbud di kanalnya. Pada Youtube, opini masyarakat dapat membanjiri kolom komentar dalam sekejap karena kemunculannya sebagai platform pertama yang menawarkan fasilitas konten audio visual. Penelitian ini mencoba menganalisis opini masyarakat yang tertampung dalam kolom komentar Youtube ke dalam klasifikasi sentimen positif dan negatif. Klasifikasi diimplementasikan pada Google Colaboratory yang berbasis bahasa Python dan Jupyter Notebook dengan algoritme Naive Bayes Classifier serta pembobotan kata Term Frequency Inverse Document Frequency (TF-IDF). 5 proses utama dalam penelitian ini yang meliputi pelabelan manual, text preprocessing, pembobotan TF-IDF, validasi data menggunakan k-fold cross validation, dan klasifikasi. Hasil akurasi terbaik sebesar 97% yang didapat dengan menggunakan 900 data latih, 100 data uji, menerapkan pembobotan TF-IDF, dan 10-fold cross validation. Rata-rata akurasi yang didapat dari 10 iterasi pada k-fold cross validation yaitu sebesar 91.8% dengan nilai precision, recall, f-measure sebesar 90.35%, 93.6%, 91.95%. Berdasarkan hasil tersebut, Naive Bayes Classifier cukup baik sebagai alternatif untuk analisis sentimen.

Download Full-text

KLASIFIKASI PENGADUAN LARAS ONLINE BERBASIS TEXT MINING MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBOR DAN NAÏVE BAYES

Jurnal Ilmiah Informatika Komputer ◽

10.35760/ik.2021.v26i1.3397 ◽

2021 ◽

Vol 26 (1) ◽

pp. 65-77

Author(s):

Muhammad Azis Suprayogi

Keyword(s):

Text Mining ◽

Cross Validation ◽

Nearest Neighbor ◽

Naive Bayes ◽

Confusion Matrix ◽

Naïve Bayes ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

K Nearest Neighbor ◽

Naïve Bayes Classifier

Laras Online adalah fasilitas pada Pemkab Bogor yang diperuntukkan bagi masyarakat terutama warga Kabupaten Bogor sebagai wadah aspirasi dan pengaduan. Seiring dengan jumlah pengaduan yang masuk sangat banyak sehingga mengakibatkan waktu yang lebih lama yang digunakan oleh petugas admin dalam memilah kemudian menentukan unit tujuan pengaduan. Penelitian ini bertujuan untuk membandingkan performansi klasifikasi dokumen pengaduan pada situs Laras Online menggunakan algoritma K-Nearest Neighbor (KNN) dan Naïve Bayes Classifier (NBC). Penelitian dilakukan dengan cara mengumpulkan dokumen pengaduan, melakukan preprocessing, pembobotan kata, klasifikasi, dan pengujian. Pengujian menggunakan cross validation dengan parameter k-fold=10 dan confusion matrix berdasarkan nilai accuracy, precission, recall, dan score-f1. Hasil pengujian terhadap 360 dataset menunjukkan bahwa algoritma NBC lebih baik dari algoritma KNN dengan nilai k=3, k=5, k=7, dan k=9 untuk mengklasifikasikan dokumen pengaduan ke dalam 6 kategori. Hasil klasifikasi menggunakan algoritma NBC memberikan nilai accuracy sebesar 79,16% dengan nilai precission tertinggi pada 2 kategori yaitu Dinsos 91,30% dan SatpolPP 66,80%, nilai recall tertinggi pada 4 kategori yaitu Disdukcapil 89,90%, Dislinghidup 88,40%, Dispupr 93,20%, dan Dishub 76,50%, serta nilai score-f1 tertinggi pada 4 kategori yaitu Disdukcapil sebesar 82,10%, Dislinghidup 82,90%, Dinsos 88,90%, dan Dishub 81,20%.

Download Full-text

Penerapan algoritma naïve bayes classifier untuk klasifikasi judul skripsi dan tugas akhir berdasarkan Kelompok Bidang Keahlian

TEKNO ◽

10.17977/um034v27i1p79-92 ◽

2019 ◽

Vol 27 (1) ◽

pp. 79

Author(s):

Utomo Pujianto ◽

Triyanna Widiyaningtyas ◽

Didik Dwi Prasetya ◽

Bintang Romadhon

Keyword(s):

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier ◽

Waterfall Model ◽

Fold Cross Validation

SISINTA UM adalah sistem informasi berbasis web yang menampilkan data berkaitan dengan skripsi dan tugas akhir di Jurusan Teknik Elektro Fakultas Teknik Universitas Negeri Malang. Berdasarkan hasil observasi terhadap fitur SISINTA, diketahui bahwa judul yang ada belum terklasifikasi berdasarkan tema penelitiannya. Tujuan penelitian ini adalah untuk menerapkan dan menguji performa algoritma Naive Bayes Classifier dalam mengklasifikasi judul skripsi dan tugas akhir, berdasarkan tema penelitian dalam KBK di Jurusan Teknik Elektro FT UM. Model pengembangan yang digunakan penelitian ini adalah model waterfall. Model ini terdiri dari lima tahapan, yaitu: (1) analisis kebutuhan sistem, (2) desain sistem dan perangkat lunak, (3) implementasi dan pengujian unit, (4) integrasi dan pengujian sistem, (5) penerapan dan perawatan produk. Pengujian performa algoritma klasifikasi yang digunakan adalah teknik K-fold Cross Validation. Berdasarkan pengujian performa penerapan algoritma Naïve Bayes Classifiers menggunakan teknik K-Fold Cross Validation, dengan jumlah tahap pengujian sebanyak 10 kali, terhadap 1103 judul skripsi dan tugas akhir, didapatkan hasil rata-rata akurasi 94%, presisi 80%, dan recall 69%.

Download Full-text

Perbandingan Klasifikasi Antara KNN dan Naive Bayes pada Penentuan Status Gunung Berapi dengan K-Fold Cross Validation

Jurnal Teknologi Informasi dan Ilmu Komputer ◽

10.25126/jtiik.201855983 ◽

2018 ◽

Vol 5 (5) ◽

pp. 577

Author(s):

Firman Tempola ◽

Miftah Muhammad ◽

Amal Khairan

Keyword(s):

Standard Deviation ◽

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier ◽

Volcanic Earthquakes ◽

Fold Cross Validation

Penelitian ini akan membandingkan dua algoritma klasifikasi yaitu K-Nearest Neighbour dan Naive Bayes Classifier pada data-data aktivitas status gunung berapi yang ada di Indonesia. Sedangkan untuk validasi data menggunakan k-fold cross validation. Dalam penentuan status gunung berapi pusat vulkanologi dan mitigasi bencana geologi melakukan dengan dua hal yaitu pengamatan visual dan faktor kegempaan. Pada penelitian ini dalam melakukan klasifikasi aktivitas gunung berapi menggunakan faktor kegempaan. Ada 5 kriteria yang digunakan dalam melakukan klasifikasi yaitu empat faktor kegempaan diantaranya gempa vulkanik dangkal, gempa tektonik jauh, gempa vulkanik dalam, gempa hembusan dan ditambah satu kriteria yaitu status sebelumnya. Ada 3 status yang di yang diklasifikasi yaitu normal, waspada dan siaga. Hasil penelitian yang dibagi kedalam 3 fold disetiap metode klasifikasi didapat perbandingan akurasi sistem rata-rata tertinggi pada k-nn 63,68 % dengan standar deviasi 7,47 %. Sedangkan dengan menggunakan naive bayes didapat rata-rata akurasi sebesar 79,71 % dengan standar deviasi 3,55 %. Selain itu, penggunaan naive bayes jaraknya akurasi lebih dekat dibandingan dengan k-nn. AbstractThis research will compare two classification algorithms that are K-Nearest Neighbors and Naive Bayes Classifier on data of volcanic status activity in Indonesia. While for data validation use k-fold cross validation. In determining the status of volcanology center volcanology and geological disaster mitigation to do with two things: visual observation and seismic factors. In this research in doing the classification of volcanic activity using earthquake factor. There are 5 criteria used in the classification of four seismic factors such as shallow volcanic earthquakes, distant tectonic earthquakes, volcanic earthquakes in the earthquake, blast and plus one criterion that is the previous status. There are 3 statuses in which are classified ie normal, alert and alert. The results of the study are divided into 3 fold in each classification method obtained comparison of the highest average system accuracy at 63.68% k-nn with a standard deviation of 7.47%. While using naive bayes obtained an average accuracy of 79.71% with a standard deviation of 3.55%. In addition, the use of naive bayes is closer to the accuracy of k-nn.

Download Full-text

Analisis Sentimen pada Indeks Kinerja Dosen Fakultas SAINTEK UIN Sunan Kalijaga Menggunakan Naive Bayes Classifier

Jurnal Buana Informatika ◽

10.24002/jbi.v10i2.2250 ◽

2019 ◽

Vol 10 (2) ◽

pp. 112

Author(s):

Bama Abpama Sevsa ◽

M. Didik R Wahyudi

Keyword(s):

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier ◽

Fold Cross Validation

Abstrak. UIN Sunan Kalijaga Yogyakarta memiliki sistem penilaian kinerja dosen yang biasa disebut dengan IKD (Indeks Kinerja Dosen) di Sistem Informasi Akademik. Penilaian diisi oleh mahasiswa pada akhir semester dengan mengisi kuesioner berupa kritik dan saran terhadap kegiatan perkuliahan. Dari data kritik dan saran ini bisa dilihat apakah memiliki sentimen negatif, netral, ataupun positif dengan cara melakukan analisis sentimen. Analisis sentimen yang dipergunakan adalah Naive Bayes Classifier. Pada penelitian ini, sebanyak 8249 data yang dipergunakan, dengan komposisi 3000 data latih dengan label dan 5249 data uji tanpa label. Analisis sentimen data kritik dan saran IKD ini menghasilkan akurasi yang lebih besar menggunakan pembobotan TF-IDF yaitu 73,9% dibandingkan dengan pembobotan TF yaitu 72,8%. Nilai akurasi ini didapatkan dari 3000 data latih yang sudah diberi label menggunakan metode evaluasi model klasifikasi K-Fold Cross Validation

Download Full-text

COMPARISON OF NAIVE BAYES ALGORITHM AND C.45 ALGORITHM IN CLASSIFICATION OF POOR COMMUNITIES RECEIVING NON CASH FOOD ASSISTANCE IN WANASARI VILLAGE KARAWANG REGENCY

Jurnal Techno Nusa Mandiri ◽

10.33480/techno.v17i1.1191 ◽

2020 ◽

Vol 17 (1) ◽

pp. 37-42

Author(s):

Yuris Alkhalifi ◽

Ainun Zumarniansyah ◽

Rian Ardianto ◽

Nila Hardi ◽

Annisa Elfina Augustia

Keyword(s):

Decision Tree ◽

Naive Bayes ◽

Confusion Matrix ◽

Total Sample ◽

Naïve Bayes ◽

Food Assistance ◽

Training Data ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier

Non-Cash Food Assistance or Bantuan Pangan Non-Tunai (BPNT) is food assistance from the government given to the Beneficiary Family (KPM) every month through an electronic account mechanism that is used only to buy food at the Electronic Shop Mutual Assistance Joint Business Group Hope Family Program (e-Warong KUBE PKH ) or food traders working with Bank Himbara. In its distribution, BPNT still has problems that occur that are experienced by the village apparatus especially the apparatus of Desa Wanasari on making decisions, which ones are worthy of receiving (poor) and not worthy of receiving (not poor). So one way that helps in making decisions can be done through the concept of data mining. In this study, a comparison of 2 algorithms will be carried out namely Naive Bayes Classifier and Decision Tree C.45. The total sample used is as much as 200 head of household data which will then be divided into 2 parts into validation techniques is 90% training data and 10% test data of the total sample used then the proposed model is made in the RapidMiner application and then evaluated using the Confusion Matrix table to find out the highest level of accuracy from 2 of these methods. The results in this classification indicate that the level of accuracy in the Naive Bayes Classifier method is 98.89% and the accuracy level in the Decision Tree C.45 method is 95.00%. Then the conclusion that in this study the algorithm with the highest level of accuracy is the Naive Bayes Classifier algorithm method with a difference in the accuracy rate of 3.89%.

Download Full-text

Klasifikasi sinopsis novel menggunakan metode naïve bayes classifier

Repositor ◽

10.22219/repositor.v1i2.799 ◽

2019 ◽

Vol 1 (2) ◽

pp. 125

Author(s):

Vinna Rahmayanti ◽

Setio Basuki ◽

Hilman Hilman

Keyword(s):

Naive Bayes ◽

Confusion Matrix ◽

Naïve Bayes ◽

Training Data ◽

The Novel ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier ◽

Romantic Comedy ◽

Document Frequency

It is undeniable that technological progress is developing very quickly in the field of computers, now with computers the work that was originally done by humans can be taken over by computers to help human work itself, like case studi of this research is a system that can classification the text like synopsis into genre group. Genre is the style of story in a novel, there are many genres in the novel that are expected to be romantic, comedy, mystery, horror and others, by knowing the genre of the novel the reader will be able to know the story style of the novel. The method used in this research is TF-IDF (Term Frequency Inverse Document Frequency) and Naïve Bayes Classifier. The TF-IDF method is used to get the weight of each word contained in the resulting document is used in the Naïve Bayes Classifier method to get the synopsis classification results into genre. Based on the evaluation using a confusion matrix using 600 training data and 200 test data obtained an accuracy of 80.5%.AbstractIt is undeniable that technological progress is developing very quickly in the field of computers, now with computers the work that was originally done by humans can be taken over by computers to help human work itself, like case studi of this research is a system that can classification the text like synopsis into genre group. Genre is the style of story in a novel, there are many genres in the novel that are expected to be romantic, comedy, mystery, horror and others, by knowing the genre of the novel the reader will be able to know the story style of the novel. The method used in this research is TF-IDF (Term Frequency Inverse Document Frequency) and Naïve Bayes Classifier. The TF-IDF method is used to get the weight of each word contained in the resulting document is used in the Naïve Bayes Classifier method to get the synopsis classification results into genre. Based on the evaluation using a confusion matrix using 600 training data and 200 test data obtained an accuracy of 80.5%.

Download Full-text

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DAN CONFUSION MATRIX DALAM ANALISIS SENTIMEN TERHADAP PELAYANAN TRANSPORTASI UMUM SELAMA PANDEMI COVID-19 PADA MEDIA SOSIAL TWITTER

Jurnal Teknologi ◽

10.31479/jtek.v1i8.66 ◽

2020 ◽

Vol 8 (1) ◽

pp. 64-75

Author(s):

Riskania Riskania ◽

Farid Thalib

Keyword(s):

Naive Bayes ◽

Confusion Matrix ◽

Naïve Bayes ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier

Pandemi COVID-19 memberikan dampak diberbagai aspek. Salah satu yang terkena dampak adalah transportasi umum. Transportasi umum mengalami penurunan jumlah penumpang yang signifikan, seperti Transjakarta sebesar 34,52%, MRT 94,11% dan KRL 78,69%. Penurunan ini disebabkan oleh kebijakan yang dikeluarkan untuk mendukung upaya pemerintah dalam pencegahan penyebaran virus Covid-19, seperti memangkas jam operasional, mengurangi perjalanan yang akan dijadwalkan sampai pembatasan penumpang setiap gerbong. Kebijakan ini memicu opini penumpang mengenai pelayanan yang diberikan. Opini tersebut dapat dituangkan melalui berbagai media salah satunya Twitter. Opini penumpang yang tertuang didalam twitter mengenai pelayanan transportasi umum dapat bersifat positif atau pun negatif. Opini penumpang dapat digunakan sebagai data dalam melakukan analisis sentimen, data ini dapat diperoleh dengan menggunakan teknik crawling. Analisis sentimen dilakukan untuk mengetahui kecenderungan opini penumpang mengenai pelayanan transportasi umum selama pandemi Covid-19. Data yang didapatkan sebanyak 650 data yang diberikan label positif dan negatif. Data dibagi menjadi data latih sebanyak 60 % atau 390 data, dan data uji 40% atau 260 data. Data ini dapat digunakan untuk proses pembuatan model mechine learning menggunakan Metode algoritma Naïve Bayes Classifier. Hasil pembentukan model mechine learning ini memiliki tingkat akurasi sebesar 83,8% yang dihasilkan dari pengujian data uji dengan menggunakan confusion matrix.

Download Full-text

Εξόρυξη γνώσης από αρχεία μεγάλου όγκου δεδομένων υγείας -Big Data- με χρήση υπολογιστικών αλγορίθμων ανάλυσης - Health Analytics

10.12681/eadd/50564 ◽

2021 ◽

Author(s):

Ιωάννης Μήνου

Keyword(s):

Support Vector Machine ◽

Big Data ◽

Random Forest ◽

Cross Validation ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

Naïve Bayes Classifier

Η μεγαλύτερη πρόκληση των σύγχρονων υπολογιστικών συστημάτων είναι αναμφισβήτητα η αποδοτική αποθήκευση και ανάκτηση πολύ μεγάλου όγκου δεδομένων. Η ανάγκη αυτή έκανε την εμφάνισή της τα τελευταία χρόνια λόγω της έκρηξης δεδομένων που παρατηρείται στο διαδίκτυο και αποκτά ολοένα και μεγαλύτερη σημασία λόγω του πολύ μεγάλου εύρους πληροφοριών που μπορούμε να αντλήσουμε. Ο τομέας της υγειονομικής περίθαλψης και των ιατρικών δεδομένων είναι συνεχώς και ταχέως εξελισσόμενος. Η αξιοποίηση των Big Data στο χώρο της υγείας προσφέρει πολύτιμη πληροφόρηση καθώς παρουσιάζουν απεριόριστες δυνατότητες για αποτελεσματική αποθήκευση, επεξεργασία, sql queries και ανάλυση ιατρικών δεδομένων.Σκοπός της παρούσας διατριβής είναι η μελέτη τεχνικών εξόρυξης γνώσης για δεδομένα μεγάλου όγκου, που αφορούν το πεδίο της Υγείας. Παράλληλα σκοπός της έρευνας είναι η μελέτη στατιστικών και υπολογιστικών αλγορίθμων ανάλυσης μεγάλου όγκου δεδομένων υγείας που έχουν ως αποτέλεσμα την παραγωγή νέας γνώσης καθώς και την εξαγωγή στατιστικά σημαντικής πληροφορίας για τους επαγγελματίες υγείας. Τέλος, η παρούσα διατριβή διερευνά τις γνώσεις των επιστημόνων της Πληροφορικής Υγείας και των επαγγελματιών υγείας σχετικά με τα Big Data.Στην παρούσα διδακτορική διατριβή έγινε βιβλιογραφική ανασκόπηση της έννοιας των Big Data. Η ανασκόπηση αυτή περιλαμβάνει τον ορισμό των Big Data ,τα χαρακτηριστικά τους, τα πλεονεκτήματα και τα μειονεκτήματά τους στο χώρο της υγείας. Στη συνέχεια γίνεται αναφορά στην υλοποίηση και στους μηχανισμούς αποθήκευσης των Big Data. Επιπλέον γίνεται αναφορά στα συστήματα ανάλυσης και επεξεργασίας μεγάλου όγκου δεδομένων, στις γλώσσες προγραμματισμού για Big Data, στην εξόρυξη γνώσης δεδομένων στο χώρο της υγείας. Ακόμη γίνεται αναφορά στη χρήση των Big Data στην Ευρώπη και στον κόσμο. Τέλος παρουσιάζονται οι βασικές αρχές του GDPR καθώς και το πώς σχετίζεται με τα Big Data στο χώρο της υγείας. Επίσης διεξήχθησαν δύο εμπειρικές μελέτες.Η πρώτη μελέτη είχε σαν στόχο την καταγραφή της άποψης των επιστημόνων της Πληροφορικής Υγείας σχετικά με την τεχνολογία των Big Data. Η συλλογή των δεδομένων έγινε με χρήση ερωτηματολογίου. Η στατιστική ανάλυση έδειξε τη θετική ανταπόκριση του δείγματος σχετικά με την τεχνολογία των Big Data.Η δεύτερη μελέτη είχε σαν στόχο την καταγραφή της άποψης των Επαγγελματιών Υγείας σχετικά με την τεχνολογία των Big Data. Η συλλογή των δεδομένων έγινε με χρήση ερωτηματολογίου. Η στατιστική ανάλυση δεν έδωσε επαρκείς απαντήσεις καθώς οι ερωτηθέντες έδειξαν θετική στάση απέναντι στα Big Data ενώ απάντησαν ότι δεν γνωρίζουν πολλά για τη συγκεκριμένη τεχνολογία.Το τελευταίο κομμάτι της διατριβής περιλαμβάνει την ανάπτυξη μεθόδων πρόβλεψης για την δυνατότητα διάγνωσης των ασθενών με καρδιαγγειακά νοσήματα. Οι μέθοδοι πρόβλεψης που χρησιμοποιήθηκαν είναι: Λογιστική Παλινδρόμηση, Naive Bayes Classifier, Δένδρα αποφάσεων, Αλγόριθμος Κ κοντινότερων γειτόνων, Αλγόριθμος SVM (Support Vector Machine) και Random Forest. Η ανάπτυξη περιλάμβανε όλα τα στάδια προεπεξεργασίας των δεδομένων ενώ χρησιμοποιήθηκαν συγκεκριμένες μετρικές για τη μέτρηση της απόδοσης των κατηγοριοποιητών. Τέλος έγιναν βελτιώσεις της απόδοσης των κατηγοριοποιητών χρησιμοποιώντας διασταυρωτική επαλήθευση με την μέθοδο cross-validation ενώ επιλύθηκε και το πρόβλημα της ανισορροπίας των κλάσεων χρησιμοποιώντας τη μέθοδο SMOTE.

Download Full-text