CNB-MRF: Adapting Correlative Naive Bayes Classifier and MapReduce Framework for Big Data Classification

2016 ◽  
Vol 11 (11) ◽  
pp. 1007 ◽  
Author(s):  
Chitrakant Banchhor ◽  
N. Srinivasu
2021 ◽  
Author(s):  
Ιωάννης Μήνου

Η μεγαλύτερη πρόκληση των σύγχρονων υπολογιστικών συστημάτων είναι αναμφισβήτητα η αποδοτική αποθήκευση και ανάκτηση πολύ μεγάλου όγκου δεδομένων. Η ανάγκη αυτή έκανε την εμφάνισή της τα τελευταία χρόνια λόγω της έκρηξης δεδομένων που παρατηρείται στο διαδίκτυο και αποκτά ολοένα και μεγαλύτερη σημασία λόγω του πολύ μεγάλου εύρους πληροφοριών που μπορούμε να αντλήσουμε. Ο τομέας της υγειονομικής περίθαλψης και των ιατρικών δεδομένων είναι συνεχώς και ταχέως εξελισσόμενος. Η αξιοποίηση των Big Data στο χώρο της υγείας προσφέρει πολύτιμη πληροφόρηση καθώς παρουσιάζουν απεριόριστες δυνατότητες για αποτελεσματική αποθήκευση, επεξεργασία, sql queries και ανάλυση ιατρικών δεδομένων.Σκοπός της παρούσας διατριβής είναι η μελέτη τεχνικών εξόρυξης γνώσης για δεδομένα μεγάλου όγκου, που αφορούν το πεδίο της Υγείας. Παράλληλα σκοπός της έρευνας είναι η μελέτη στατιστικών και υπολογιστικών αλγορίθμων ανάλυσης μεγάλου όγκου δεδομένων υγείας που έχουν ως αποτέλεσμα την παραγωγή νέας γνώσης καθώς και την εξαγωγή στατιστικά σημαντικής πληροφορίας για τους επαγγελματίες υγείας. Τέλος, η παρούσα διατριβή διερευνά τις γνώσεις των επιστημόνων της Πληροφορικής Υγείας και των επαγγελματιών υγείας σχετικά με τα Big Data.Στην παρούσα διδακτορική διατριβή έγινε βιβλιογραφική ανασκόπηση της έννοιας των Big Data. Η ανασκόπηση αυτή περιλαμβάνει τον ορισμό των Big Data ,τα χαρακτηριστικά τους, τα πλεονεκτήματα και τα μειονεκτήματά τους στο χώρο της υγείας. Στη συνέχεια γίνεται αναφορά στην υλοποίηση και στους μηχανισμούς αποθήκευσης των Big Data. Επιπλέον γίνεται αναφορά στα συστήματα ανάλυσης και επεξεργασίας μεγάλου όγκου δεδομένων, στις γλώσσες προγραμματισμού για Big Data, στην εξόρυξη γνώσης δεδομένων στο χώρο της υγείας. Ακόμη γίνεται αναφορά στη χρήση των Big Data στην Ευρώπη και στον κόσμο. Τέλος παρουσιάζονται οι βασικές αρχές του GDPR καθώς και το πώς σχετίζεται με τα Big Data στο χώρο της υγείας. Επίσης διεξήχθησαν δύο εμπειρικές μελέτες.Η πρώτη μελέτη είχε σαν στόχο την καταγραφή της άποψης των επιστημόνων της Πληροφορικής Υγείας σχετικά με την τεχνολογία των Big Data. Η συλλογή των δεδομένων έγινε με χρήση ερωτηματολογίου. Η στατιστική ανάλυση έδειξε τη θετική ανταπόκριση του δείγματος σχετικά με την τεχνολογία των Big Data.Η δεύτερη μελέτη είχε σαν στόχο την καταγραφή της άποψης των Επαγγελματιών Υγείας σχετικά με την τεχνολογία των Big Data. Η συλλογή των δεδομένων έγινε με χρήση ερωτηματολογίου. Η στατιστική ανάλυση δεν έδωσε επαρκείς απαντήσεις καθώς οι ερωτηθέντες έδειξαν θετική στάση απέναντι στα Big Data ενώ απάντησαν ότι δεν γνωρίζουν πολλά για τη συγκεκριμένη τεχνολογία.Το τελευταίο κομμάτι της διατριβής περιλαμβάνει την ανάπτυξη μεθόδων πρόβλεψης για την δυνατότητα διάγνωσης των ασθενών με καρδιαγγειακά νοσήματα. Οι μέθοδοι πρόβλεψης που χρησιμοποιήθηκαν είναι: Λογιστική Παλινδρόμηση, Naive Bayes Classifier, Δένδρα αποφάσεων, Αλγόριθμος Κ κοντινότερων γειτόνων, Αλγόριθμος SVM (Support Vector Machine) και Random Forest. Η ανάπτυξη περιλάμβανε όλα τα στάδια προεπεξεργασίας των δεδομένων ενώ χρησιμοποιήθηκαν συγκεκριμένες μετρικές για τη μέτρηση της απόδοσης των κατηγοριοποιητών. Τέλος έγιναν βελτιώσεις της απόδοσης των κατηγοριοποιητών χρησιμοποιώντας διασταυρωτική επαλήθευση με την μέθοδο cross-validation ενώ επιλύθηκε και το πρόβλημα της ανισορροπίας των κλάσεων χρησιμοποιώντας τη μέθοδο SMOTE.


2019 ◽  
Vol 18 (1) ◽  
pp. 101
Author(s):  
Dewa Ayu Putri Wulandari ◽  
Made Sudarma ◽  
Nyoman Paramaita

Pemilihan Calon Gubernur  dan  Wakil  Gubernur Bali 2018 akan  melalui  beberapa  tahapan  pemilu  mulai  dari penentuan  bakal  calon  Gubernur  dan  Wakil  Gubernur  Bali hingga tahapan penghitungan suara. Dalam pemilihan Gubernur dan  Wakil  Gubernur  Bali  masyarakat  dapat  terlibat  langsung dalam tahapan pemungutan suara yang akan dilaksanakan pada tanggal 27 Juni 2018 (KPU, 2018). Sehingga dapat memunculkan banyak  komentar  atau  pendapat,  tidak  hanya  komentar  positif dan   netral   tapi   juga   komentar   yang   negatif.   Penelitian   ini diharapkan   mampu   untuk   melakukan   riset   atas   komentar masyarakat  yang  mengandung  sentimen  baik  atau  positif,  sama sekali tidak mengandung senrimen atau netral dan mengandung sentimen   buruk   atau   negatif. Dalam   penelitian   ini   metode digunakan untuk preprocessingdata menggunakan tokenisasi N-gram.  N-gram  adalah  token  yang  terdiri  dari  tiga  kata  setiap satu token. Pada  tahap  stemming  menggunakan algoritma  Nzief Adriani.   Untuk   proses   klasifikasinya   menggunakan   metode Naïve   Bayes   Classifier (NBC).Pada   pengujian   data   calon Gubernur  akurasi tertinggi diperoleh  dari  klasifikasi  data KBS-Ace  pada  data  yang  diambil  dari  Twitter  dengan  nilai  akurasi 89%, presisi  91%  dan  recall  94%  dan  akurasi  terendah  pada saat proses kalsifikasi data KBS-Ace pada media sosial Facebook. Kata  Kunci—Analisa  Sentimen,  Calon  Gubernur  Bali  2018, Naive Bayes Classifier


2021 ◽  
Vol 8 (1) ◽  
Author(s):  
Chitrakant Banchhor ◽  
N. Srinivasu

AbstractThe process of big data handling refers to the efficient management of storage and processing of a very large volume of data. The data in a structured and unstructured format require a specific approach for overall handling. The classifiers analyzed in this paper are correlative naïve Bayes classifier (CNB), Cuckoo Grey wolf CNB (CGCNB), Fuzzy CNB (FCNB), and Holoentropy CNB (HCNB). These classifiers are based on the Bayesian principle and work accordingly. The CNB is developed by extending the standard naïve Bayes classifier with applied correlation among the attributes to become a dependent hypothesis. The cuckoo search and grey wolf optimization algorithms are integrated with the CNB classifier, and significant performance improvement is achieved. The resulting classifier is called a cuckoo grey wolf correlative naïve Bayes classifier (CGCNB). Also, the performance of the FCNB and HCNB classifiers are analyzed with CNB and CGCNB by considering accuracy, sensitivity, specificity, memory, and execution time.


2017 ◽  
Vol 1 (1) ◽  
pp. 11
Author(s):  
Harits Muhammad ◽  
R Sudrajat ◽  
Rudi Rosadi

Big Data, Data Mining, Five Factor Model, Instagram, Naïve Bayes Classifier


2018 ◽  
Vol 29 (1) ◽  
pp. 994-1006
Author(s):  
Chitrakant Banchhor ◽  
N. Srinivasu

Abstract The term “big data” means a large amount of data, and big data management refers to the efficient handling, organization, or use of large volumes of structured and unstructured data belonging to an organization. Due to the gradual availability of plenty of raw data, the knowledge extraction process from big data is a very difficult task for most of the classical data mining and machine learning tools. In a previous paper, the correlative naive Bayes (CNB) classifier was developed for big data classification. This work incorporates the fuzzy theory along with the CNB classifier to develop the fuzzy CNB (FCNB) classifier. The proposed FCNB classifier solves the big data classification problem by using the MapReduce framework and thus achieves improved classification results. Initially, the database is converted to the probabilistic index table, in which data and attributes are presented in rows and columns, respectively. Then, the membership degree of the unique symbols present in each attribute of data is found. Finally, the proposed FCNB classifier finds the class of data based on training information. The simulation of the proposed FCNB classifier uses the localization and skin segmentation datasets for the purpose of experimentation. The results of the proposed FCNB classifier are analyzed based on the metrics, such as sensitivity, specificity, and accuracy, and compared with the various existing works.


2020 ◽  
Author(s):  
Chitrakant Banchhor ◽  
Srinivasu N

Abstract The process of big data handling refers the efficient management of storage and processing of very large volume of data. The data in a structured and an unstructured format require specific approach for overall handling.The classifiers analyzed in this paper are correlative naïve bayes classifier (CNB), Cuckoo Grey wolf CNB (CGCNB), Fuzzy CNB (FCNB), and Holoentropy CNB (HCNB). These classifiers are based on Bayesian principle and work accordingly. The CNB is developed by extending the standard naïve bayes classifier with applied correlation among the attributes so that it becomes a dependent hypothesis and it is named as a correlative naïve bayes classifier (CNB). The cuckoo search and grey wolf optimization algorithms are integrated with the CNB classifier and significant performance improvement is achieved. The resulting classifier is called as cuckoo grey wolf correlative naïve bayes classifier (CGCNB). The further performance improvements are achieved by incorporating fuzzy theory termed as fuzzy correlative naïve bayes classifier (FCNB) and holoentropy theory termed as Holoentropy correlative naïve bayes classifier (HCNB) respectively. FCNB and HCNB classifiers are comparatively analyzed with CNB and CGCNB and achieved noticeable performance by analyzing with accuracy, sensitivity and specificity analysis.


Sign in / Sign up

Export Citation Format

Share Document