scholarly journals Analysis of Bayesian optimization algorithms for big data classification based on Map Reduce framework

2021 ◽  
Vol 8 (1) ◽  
Author(s):  
Chitrakant Banchhor ◽  
N. Srinivasu

AbstractThe process of big data handling refers to the efficient management of storage and processing of a very large volume of data. The data in a structured and unstructured format require a specific approach for overall handling. The classifiers analyzed in this paper are correlative naïve Bayes classifier (CNB), Cuckoo Grey wolf CNB (CGCNB), Fuzzy CNB (FCNB), and Holoentropy CNB (HCNB). These classifiers are based on the Bayesian principle and work accordingly. The CNB is developed by extending the standard naïve Bayes classifier with applied correlation among the attributes to become a dependent hypothesis. The cuckoo search and grey wolf optimization algorithms are integrated with the CNB classifier, and significant performance improvement is achieved. The resulting classifier is called a cuckoo grey wolf correlative naïve Bayes classifier (CGCNB). Also, the performance of the FCNB and HCNB classifiers are analyzed with CNB and CGCNB by considering accuracy, sensitivity, specificity, memory, and execution time.

2020 ◽  
Author(s):  
Chitrakant Banchhor ◽  
Srinivasu N

Abstract The process of big data handling refers the efficient management of storage and processing of very large volume of data. The data in a structured and an unstructured format require specific approach for overall handling.The classifiers analyzed in this paper are correlative naïve bayes classifier (CNB), Cuckoo Grey wolf CNB (CGCNB), Fuzzy CNB (FCNB), and Holoentropy CNB (HCNB). These classifiers are based on Bayesian principle and work accordingly. The CNB is developed by extending the standard naïve bayes classifier with applied correlation among the attributes so that it becomes a dependent hypothesis and it is named as a correlative naïve bayes classifier (CNB). The cuckoo search and grey wolf optimization algorithms are integrated with the CNB classifier and significant performance improvement is achieved. The resulting classifier is called as cuckoo grey wolf correlative naïve bayes classifier (CGCNB). The further performance improvements are achieved by incorporating fuzzy theory termed as fuzzy correlative naïve bayes classifier (FCNB) and holoentropy theory termed as Holoentropy correlative naïve bayes classifier (HCNB) respectively. FCNB and HCNB classifiers are comparatively analyzed with CNB and CGCNB and achieved noticeable performance by analyzing with accuracy, sensitivity and specificity analysis.


2021 ◽  
Author(s):  
Ιωάννης Μήνου

Η μεγαλύτερη πρόκληση των σύγχρονων υπολογιστικών συστημάτων είναι αναμφισβήτητα η αποδοτική αποθήκευση και ανάκτηση πολύ μεγάλου όγκου δεδομένων. Η ανάγκη αυτή έκανε την εμφάνισή της τα τελευταία χρόνια λόγω της έκρηξης δεδομένων που παρατηρείται στο διαδίκτυο και αποκτά ολοένα και μεγαλύτερη σημασία λόγω του πολύ μεγάλου εύρους πληροφοριών που μπορούμε να αντλήσουμε. Ο τομέας της υγειονομικής περίθαλψης και των ιατρικών δεδομένων είναι συνεχώς και ταχέως εξελισσόμενος. Η αξιοποίηση των Big Data στο χώρο της υγείας προσφέρει πολύτιμη πληροφόρηση καθώς παρουσιάζουν απεριόριστες δυνατότητες για αποτελεσματική αποθήκευση, επεξεργασία, sql queries και ανάλυση ιατρικών δεδομένων.Σκοπός της παρούσας διατριβής είναι η μελέτη τεχνικών εξόρυξης γνώσης για δεδομένα μεγάλου όγκου, που αφορούν το πεδίο της Υγείας. Παράλληλα σκοπός της έρευνας είναι η μελέτη στατιστικών και υπολογιστικών αλγορίθμων ανάλυσης μεγάλου όγκου δεδομένων υγείας που έχουν ως αποτέλεσμα την παραγωγή νέας γνώσης καθώς και την εξαγωγή στατιστικά σημαντικής πληροφορίας για τους επαγγελματίες υγείας. Τέλος, η παρούσα διατριβή διερευνά τις γνώσεις των επιστημόνων της Πληροφορικής Υγείας και των επαγγελματιών υγείας σχετικά με τα Big Data.Στην παρούσα διδακτορική διατριβή έγινε βιβλιογραφική ανασκόπηση της έννοιας των Big Data. Η ανασκόπηση αυτή περιλαμβάνει τον ορισμό των Big Data ,τα χαρακτηριστικά τους, τα πλεονεκτήματα και τα μειονεκτήματά τους στο χώρο της υγείας. Στη συνέχεια γίνεται αναφορά στην υλοποίηση και στους μηχανισμούς αποθήκευσης των Big Data. Επιπλέον γίνεται αναφορά στα συστήματα ανάλυσης και επεξεργασίας μεγάλου όγκου δεδομένων, στις γλώσσες προγραμματισμού για Big Data, στην εξόρυξη γνώσης δεδομένων στο χώρο της υγείας. Ακόμη γίνεται αναφορά στη χρήση των Big Data στην Ευρώπη και στον κόσμο. Τέλος παρουσιάζονται οι βασικές αρχές του GDPR καθώς και το πώς σχετίζεται με τα Big Data στο χώρο της υγείας. Επίσης διεξήχθησαν δύο εμπειρικές μελέτες.Η πρώτη μελέτη είχε σαν στόχο την καταγραφή της άποψης των επιστημόνων της Πληροφορικής Υγείας σχετικά με την τεχνολογία των Big Data. Η συλλογή των δεδομένων έγινε με χρήση ερωτηματολογίου. Η στατιστική ανάλυση έδειξε τη θετική ανταπόκριση του δείγματος σχετικά με την τεχνολογία των Big Data.Η δεύτερη μελέτη είχε σαν στόχο την καταγραφή της άποψης των Επαγγελματιών Υγείας σχετικά με την τεχνολογία των Big Data. Η συλλογή των δεδομένων έγινε με χρήση ερωτηματολογίου. Η στατιστική ανάλυση δεν έδωσε επαρκείς απαντήσεις καθώς οι ερωτηθέντες έδειξαν θετική στάση απέναντι στα Big Data ενώ απάντησαν ότι δεν γνωρίζουν πολλά για τη συγκεκριμένη τεχνολογία.Το τελευταίο κομμάτι της διατριβής περιλαμβάνει την ανάπτυξη μεθόδων πρόβλεψης για την δυνατότητα διάγνωσης των ασθενών με καρδιαγγειακά νοσήματα. Οι μέθοδοι πρόβλεψης που χρησιμοποιήθηκαν είναι: Λογιστική Παλινδρόμηση, Naive Bayes Classifier, Δένδρα αποφάσεων, Αλγόριθμος Κ κοντινότερων γειτόνων, Αλγόριθμος SVM (Support Vector Machine) και Random Forest. Η ανάπτυξη περιλάμβανε όλα τα στάδια προεπεξεργασίας των δεδομένων ενώ χρησιμοποιήθηκαν συγκεκριμένες μετρικές για τη μέτρηση της απόδοσης των κατηγοριοποιητών. Τέλος έγιναν βελτιώσεις της απόδοσης των κατηγοριοποιητών χρησιμοποιώντας διασταυρωτική επαλήθευση με την μέθοδο cross-validation ενώ επιλύθηκε και το πρόβλημα της ανισορροπίας των κλάσεων χρησιμοποιώντας τη μέθοδο SMOTE.


2019 ◽  
Vol 18 (1) ◽  
pp. 101
Author(s):  
Dewa Ayu Putri Wulandari ◽  
Made Sudarma ◽  
Nyoman Paramaita

Pemilihan Calon Gubernur  dan  Wakil  Gubernur Bali 2018 akan  melalui  beberapa  tahapan  pemilu  mulai  dari penentuan  bakal  calon  Gubernur  dan  Wakil  Gubernur  Bali hingga tahapan penghitungan suara. Dalam pemilihan Gubernur dan  Wakil  Gubernur  Bali  masyarakat  dapat  terlibat  langsung dalam tahapan pemungutan suara yang akan dilaksanakan pada tanggal 27 Juni 2018 (KPU, 2018). Sehingga dapat memunculkan banyak  komentar  atau  pendapat,  tidak  hanya  komentar  positif dan   netral   tapi   juga   komentar   yang   negatif.   Penelitian   ini diharapkan   mampu   untuk   melakukan   riset   atas   komentar masyarakat  yang  mengandung  sentimen  baik  atau  positif,  sama sekali tidak mengandung senrimen atau netral dan mengandung sentimen   buruk   atau   negatif. Dalam   penelitian   ini   metode digunakan untuk preprocessingdata menggunakan tokenisasi N-gram.  N-gram  adalah  token  yang  terdiri  dari  tiga  kata  setiap satu token. Pada  tahap  stemming  menggunakan algoritma  Nzief Adriani.   Untuk   proses   klasifikasinya   menggunakan   metode Naïve   Bayes   Classifier (NBC).Pada   pengujian   data   calon Gubernur  akurasi tertinggi diperoleh  dari  klasifikasi  data KBS-Ace  pada  data  yang  diambil  dari  Twitter  dengan  nilai  akurasi 89%, presisi  91%  dan  recall  94%  dan  akurasi  terendah  pada saat proses kalsifikasi data KBS-Ace pada media sosial Facebook. Kata  Kunci—Analisa  Sentimen,  Calon  Gubernur  Bali  2018, Naive Bayes Classifier


2017 ◽  
Vol 1 (1) ◽  
pp. 11
Author(s):  
Harits Muhammad ◽  
R Sudrajat ◽  
Rudi Rosadi

Big Data, Data Mining, Five Factor Model, Instagram, Naïve Bayes Classifier


The rapid growth of the internet and its applications makes data grow to huge volumes. The Relational Database Management Systems are inefficient to handle huge volumes of data and so nowadays, Big Data technology is being used by many organizations such as Facebook, Twitter etc. Big Data technology is very useful for organizations to take proper decisions to attain their goals and in mounting themselves organization to full fledge. The use of this technology is broadly widened across all fields of Science, Medicine, Technology, and Business, so it is mandatory to acquire knowledge about Big Data concepts. Thus, acquiring knowledge on the technological revolution from traditional Database Management System to Big Data is significant. In this paper, we have discussed about big data and its evolution, characteristics, data sources, formats, Stages of Big Data process. A huge volume of clinical dataset has been considered and it is analyzed using Naive Bayes Classifier.


Sign in / Sign up

Export Citation Format

Share Document