2016 ◽  
Vol 22 (4) ◽  
pp. 751-773 ◽  
Carolina Gusmão Souza ◽  
Luis Carvalho ◽  
Polyanne Aguiar ◽  
Tássia Borges Arantes

A cafeicultura é uma das principais culturas agrícolas do Brasil e realizar o mapeamento e monitoramento desta cultura é fundamental para conhecer sua distribuição espacial. Porém, mapear estas áreas utilizando imagens de Sensoriamento Remoto não é uma tarefa fácil. Sendo assim, este trabalho foi realizado com o objetivo de comparar o uso de diferentes variáveis e algoritmos de classificação para o mapeamento de áreas cafeeiras. O trabalho foi desenvolvido em três áreas diferentes, que são bastante significativas na produção de café. Foram utilizados 5 algoritmos de aprendizagem de máquinas e 7 combinações de variáveis: espectrais, texturais e geométricas, associadas ao processo de classificação. Um total de 105 classificações foram realizadas, 35 classificações para cada uma das áreas. As classificações que não usaram variáveis espectrais não resultaram em bons índices de acurácia. Nas três áreas, o algoritmo que apresentou as melhores acurácias foi o Support vector machine, com acurácia global de 85,33% em Araguari, 87% em Carmo de Minas e 88,33% em Três Pontas. Os piores resultados foram encontrados com o algoritmo Random Forest em Araguari, com acurácia global de 76,66% e com o Naive Bayes em Carmo de Minas e Três Pontas, com 76% e 82% de acerto. Nas três áreas, variáveis texturais, quando associadas às espectrais, melhoraram a acurácia da classificação. O SVM apresentou o melhor desempenho para as três áreas

2021 ◽  
Vol 10 (3) ◽  
pp. 432-437
Devi Irawan ◽  
Eza Budi Perkasa ◽  
Yurindra Yurindra ◽  
Delpiah Wahyuningsih ◽  
Ellya Helmud

Short message service (SMS) adalah salah satu media komunikasi yang penting untuk mendukung kecepatan pengunaan ponsel oleh pengguna. Sistem hibrid klasifikasi SMS digunakan untuk mendeteksi sms yang dianggap sampah dan benar. Dalam penelitian ini yang diperlukan adalah mengumpulan dataset SMS, pemilihan fitur, prapemrosesan, pembuatan vektor, melakukan penyaringan dan pembaharuan sistem. Dua jenis klasifikasi SMS pada ponsel saat ini ada yang terdaftar sebagai daftar hitam (ditolak) dan daftar putih (diterima). Penelitian ini menggunakan beberapa algoritma seperti support vector machine, Naïve Bayes classifier, Random Forest dan Bagging Classifier. Tujuan dari penelitian ini adalah untuk menyelesaikan semua masalah SMS yang teridentifikasi spam yang banyak terjadi pada saat ini sehingga dapat memberikan masukan dalam perbandingan metode yang mampu menyaring dan memisahkan sms spam dan sms non spam.  Pada penelitian ini menghasilkan bahwa Bagging classifier algorithm ini mendapatkan ferformance score tertinggi dari algoritma yang lain yang dapat dipergunakan sebagai sarana untuk memfiltrasi SMS yang masuk ke dalam inbox pengguna dan Bagging classifier algorithm dapat memberikan hasil filtrasi yang akurat untuk menyaring SMS yang masuk.

2021 ◽  
Ιωάννης Μήνου

Η μεγαλύτερη πρόκληση των σύγχρονων υπολογιστικών συστημάτων είναι αναμφισβήτητα η αποδοτική αποθήκευση και ανάκτηση πολύ μεγάλου όγκου δεδομένων. Η ανάγκη αυτή έκανε την εμφάνισή της τα τελευταία χρόνια λόγω της έκρηξης δεδομένων που παρατηρείται στο διαδίκτυο και αποκτά ολοένα και μεγαλύτερη σημασία λόγω του πολύ μεγάλου εύρους πληροφοριών που μπορούμε να αντλήσουμε. Ο τομέας της υγειονομικής περίθαλψης και των ιατρικών δεδομένων είναι συνεχώς και ταχέως εξελισσόμενος. Η αξιοποίηση των Big Data στο χώρο της υγείας προσφέρει πολύτιμη πληροφόρηση καθώς παρουσιάζουν απεριόριστες δυνατότητες για αποτελεσματική αποθήκευση, επεξεργασία, sql queries και ανάλυση ιατρικών δεδομένων.Σκοπός της παρούσας διατριβής είναι η μελέτη τεχνικών εξόρυξης γνώσης για δεδομένα μεγάλου όγκου, που αφορούν το πεδίο της Υγείας. Παράλληλα σκοπός της έρευνας είναι η μελέτη στατιστικών και υπολογιστικών αλγορίθμων ανάλυσης μεγάλου όγκου δεδομένων υγείας που έχουν ως αποτέλεσμα την παραγωγή νέας γνώσης καθώς και την εξαγωγή στατιστικά σημαντικής πληροφορίας για τους επαγγελματίες υγείας. Τέλος, η παρούσα διατριβή διερευνά τις γνώσεις των επιστημόνων της Πληροφορικής Υγείας και των επαγγελματιών υγείας σχετικά με τα Big Data.Στην παρούσα διδακτορική διατριβή έγινε βιβλιογραφική ανασκόπηση της έννοιας των Big Data. Η ανασκόπηση αυτή περιλαμβάνει τον ορισμό των Big Data ,τα χαρακτηριστικά τους, τα πλεονεκτήματα και τα μειονεκτήματά τους στο χώρο της υγείας. Στη συνέχεια γίνεται αναφορά στην υλοποίηση και στους μηχανισμούς αποθήκευσης των Big Data. Επιπλέον γίνεται αναφορά στα συστήματα ανάλυσης και επεξεργασίας μεγάλου όγκου δεδομένων, στις γλώσσες προγραμματισμού για Big Data, στην εξόρυξη γνώσης δεδομένων στο χώρο της υγείας. Ακόμη γίνεται αναφορά στη χρήση των Big Data στην Ευρώπη και στον κόσμο. Τέλος παρουσιάζονται οι βασικές αρχές του GDPR καθώς και το πώς σχετίζεται με τα Big Data στο χώρο της υγείας. Επίσης διεξήχθησαν δύο εμπειρικές μελέτες.Η πρώτη μελέτη είχε σαν στόχο την καταγραφή της άποψης των επιστημόνων της Πληροφορικής Υγείας σχετικά με την τεχνολογία των Big Data. Η συλλογή των δεδομένων έγινε με χρήση ερωτηματολογίου. Η στατιστική ανάλυση έδειξε τη θετική ανταπόκριση του δείγματος σχετικά με την τεχνολογία των Big Data.Η δεύτερη μελέτη είχε σαν στόχο την καταγραφή της άποψης των Επαγγελματιών Υγείας σχετικά με την τεχνολογία των Big Data. Η συλλογή των δεδομένων έγινε με χρήση ερωτηματολογίου. Η στατιστική ανάλυση δεν έδωσε επαρκείς απαντήσεις καθώς οι ερωτηθέντες έδειξαν θετική στάση απέναντι στα Big Data ενώ απάντησαν ότι δεν γνωρίζουν πολλά για τη συγκεκριμένη τεχνολογία.Το τελευταίο κομμάτι της διατριβής περιλαμβάνει την ανάπτυξη μεθόδων πρόβλεψης για την δυνατότητα διάγνωσης των ασθενών με καρδιαγγειακά νοσήματα. Οι μέθοδοι πρόβλεψης που χρησιμοποιήθηκαν είναι: Λογιστική Παλινδρόμηση, Naive Bayes Classifier, Δένδρα αποφάσεων, Αλγόριθμος Κ κοντινότερων γειτόνων, Αλγόριθμος SVM (Support Vector Machine) και Random Forest. Η ανάπτυξη περιλάμβανε όλα τα στάδια προεπεξεργασίας των δεδομένων ενώ χρησιμοποιήθηκαν συγκεκριμένες μετρικές για τη μέτρηση της απόδοσης των κατηγοριοποιητών. Τέλος έγιναν βελτιώσεις της απόδοσης των κατηγοριοποιητών χρησιμοποιώντας διασταυρωτική επαλήθευση με την μέθοδο cross-validation ενώ επιλύθηκε και το πρόβλημα της ανισορροπίας των κλάσεων χρησιμοποιώντας τη μέθοδο SMOTE.

2020 ◽  
Vol 13 (5) ◽  
pp. 901-908
Somil Jain ◽  
Puneet Kumar

Background:: Breast cancer is one of the diseases which cause number of deaths ever year across the globe, early detection and diagnosis of such type of disease is a challenging task in order to reduce the number of deaths. Now a days various techniques of machine learning and data mining are used for medical diagnosis which has proven there metal by which prediction can be done for the chronic diseases like cancer which can save the life’s of the patients suffering from such type of disease. The major concern of this study is to find the prediction accuracy of the classification algorithms like Support Vector Machine, J48, Naïve Bayes and Random Forest and to suggest the best algorithm. Objective:: The objective of this study is to assess the prediction accuracy of the classification algorithms in terms of efficiency and effectiveness. Methods: This paper provides a detailed analysis of the classification algorithms like Support Vector Machine, J48, Naïve Bayes and Random Forest in terms of their prediction accuracy by applying 10 fold cross validation technique on the Wisconsin Diagnostic Breast Cancer dataset using WEKA open source tool. Results:: The result of this study states that Support Vector Machine has achieved the highest prediction accuracy of 97.89 % with low error rate of 0.14%. Conclusion:: This paper provides a clear view over the performance of the classification algorithms in terms of their predicting ability which provides a helping hand to the medical practitioners to diagnose the chronic disease like breast cancer effectively.

2018 ◽  
Vol 5 (5) ◽  
pp. 567 ◽  
Irvi Oktanisa ◽  
Ahmad Afif Supianto

<p class="Abstrak">Klasifikasi merupakan teknik dalam <em>data mining</em> untuk mengelompokkan data berdasarkan keterikatan data terhadap  data sampel. Pada penelitian ini, kami melakukan perbandingan 9 teknik klasifikasi untuk mengklasifikasi respon pelanggan pada <em>dataset Bank Direct Marketing</em>. Perbandingan teknik klasifikasi ini dilakukan untuk mengetahui model dalam teknik klasfikasi yang paling efektif untuk mengklasifikasi target pada <em>dataset Bank Direct Marketing</em>. Teknik klasifikasi yang digunakan yaitu <em>Support Vector Machine</em>, <em>AdaBoost</em>, <em>Naïve Bayes</em>, <em>Constant, KNN, Tree, Random Forest, Stochastic Gradient Descent</em>, dan <em>CN2 Rule</em>. Proses klasifikasi diawali dengan <em>preprocessing</em> data untuk melakukan penghilangan <em>missing value</em> dan pemilihan fitur pada <em>dataset</em>. Pada tahap evaluasi digunakan teknik <em>10 fold cross validation</em>. Setelah dilakukan pengujian, didapatkan bahwa hasil klasifikasi menunjukkan akurasi terbaik diperoleh oleh model <em>Tree, Constant</em>, <em>Naive Bayes</em>, dan <em>Stochastic Gardient Descent</em>. Kemudian diikuti oleh model <em>Random Forest</em>, <em>K-Nearest Neighbor</em>, <em>CN-2 Rule</em>, <em>AdaBoost</em> dan <em>Support Vector Machine</em>. Dari keempat model yang menunjukkan hasil akurasi terbaik, untuk kasus ini <em>Stochastic Gradient Descent</em> terpilih sebagai model yang memiliki akurasi terbaik dengan nilai akurasi sebesar 0,972 dan hasil visualisasi yang dihasilkan lebih jelas untuk mengklasifikasi target pada <em>dataset Bank Direct Marketing</em>.</p><p class="Abstrak"><em><strong><br /></strong></em></p><p class="Abstrak"><em><strong>Abstract</strong></em></p>Classification is a technique in data mining to classify data based on the attachment of data to the sample data.. In this paper, we present the comparison of  9 classification techniques performed to classify customer response on the dataset of Bank Direct Marketing. The techniques performed to find out the effectiveness model in the classification technique used to classify targets on the dataset of Bank Direct Marketing. The techniques used are Support Vector Machine, AdaBoost, Naïve Bayes, Constant, KNN, Tree, Random Forest, Stochastic Gradient Descent, and CN2 Rule. The classification process begins with preprocessing data to perform missing value omissions and feature selection on the dataset. Cross validation technique, with k value is 10, used in the evaluation stage. After testing, it was found that the classification results showed the best accuracy obtained when using the Tree model, Constant, Naive Bayes and Stochastic Gradient Descent. Afterwards the Random Forest model, K-Nearest Neighbor, CN-2 Rule, AdaBoost, and Support Vector Machine are followed. Of the four models with the high accuracy results, in this case Stochastic Gradient Descent was selected as the best accuracy model with an accuracy value of 0.972 and resulting visualization more clearly to classify targets on the dataset of Bank Direct Marketing.

2021 ◽  
Vol 7 (1) ◽  
pp. 58
Ragil Dimas Himawan ◽  
Eliyani Eliyani

Pemerintah memanfaatkan media sosial seperti twitter sebagai salah satu kanal interaksi dengan masyarakat. Informasi hasil interaksi tersebut sebagai umpan balik untuk mengetahui opini masyarakat terhadap kebijakan publik. Analisis sentimen tweet dari masyarakat dapat dijadikan sebagai salah satu parameter penunjang bagi pemerintah dalam mengevaluasi kebijakan dan pengambilan keputusan mendatang. Penelitian ini bertujuan untuk mengetahui sentimen data tweet masyarakat terhadap akun twitter resmi Pemerintah Provinsi DKI Jakarta di masa pandemi COVID-19. Data yang diperoleh sebanyak 14208 baris dengan query pada tweet yang mengandung kata atau menyebut username @dkijakarta, dimana akan dikelompokkan berdasarkan kelas sentimen yaitu, negatif, netral, dan positif dengan menggunakan TF-IDF Vectorizer untuk pembobotan kata dan klasifikasi menggunakan beberapa metode yaitu, random forest classifier dengan hasil akurasi sebesar 75,81%, algoritma naive bayes dengan hasil akurasi 75,22%, dan algoritma support vector machine 77,58%. Dilakukan proses analisis sentimen pada tweet dengan presentase hasil negatif, netral, dan positif masing-masing yaitu, 8,8%, 83,6%, 7,6%.

2020 ◽  
Vol 8 (6) ◽  
pp. 1637-1642

Machine learning (ML) algorithms are designed to perform prediction based on features. With the help of machine learning, system can automatically learn and improve by experience. Machine learning comes under Artificial intelligence. Machine learning is broadly categorized in two types: supervised and unsupervised. Supervised ML performs classification and unsupervised is for clustering. In present scenario, machine learning is used in various areas. It can be used for biometric recognition, hand writing recognition, medical diagnosis etc. In medical field, machine learning plays an important role in identifying diseases based on patient’s features. Presently,doctors use software application based on machine learning algorithm in various disease diagnosis like cancer, cardiac arrest and many more. In this paper we used an ensemble learning method to predict heart problem. Our study described the performance of ML algorithms by comparing various evaluating parameters such as F-measure, Recall, ROC, precision and accuracy. The study done with various combination ML classifiers such as, Decision Tree (DT), Naïve Bayes (NB), Support Vector Machine (SVM), Random Forest (RF) algorithm to predict heart problem. The result showed that by combining two ML algorithm, DT with NB, 81.1% accuracy was achieved. Simultaneously, the models like Support Vector machine (SVM), Decision tree, Naïve Bayes, Random Forest models were also trained and tested individually.

Sign in / Sign up

Export Citation Format

Share Document