Trending Topic Classification for Single-Label Using Multinomial Naive Bayes (MNB) and Multi-Label Using K-Nearest Neighbors (KNN)

Las técnicas de aprendizaje de máquina continúan siendo muy utilizadas para la minería de texto. Para este artículo se realizó una revisión de literatura en periódicos científicos publicados en los años de 2010 y 2011, con el objetivo de identificar las principales formas de aprendizaje de máquina empleadas para la minería de texto. Se utilizó estadística descriptiva para organizar, resumir y analizar los datos encontrados, y se presentó una descripción resumida de las principales encontradas. En los artículos analizados se hallaron 13 aplicadas para la minería de texto, el 83% de los artículos mencionaban de 1 a 3 técnicas de aprendizaje de máquina, las principales usadas por los autores en los artículos estudiados fueron support vector machine (svm), k-means (k-m),k-nearest neighbors (k-nn), naive bayes (nb), self-organizing maps (som). Los pares que aparecen con mayor frecuencia son svm/nb, svm/k-nn, svm/decission tree.

Download Full-text

Model Prediksi Prestasi Mahasiswa Berdasarkan Evaluasi Pembelajaran Menggunakan Pendekatan Data Science

Data Sciences Indonesia (DSI) ◽

10.47709/dsi.v1i1.1168 ◽

2021 ◽

Vol 1 (1) ◽

pp. 14-20

Author(s):

Tommy Tommy ◽

Amir Mahmud Husein

Keyword(s):

Support Vector Machine ◽

Logistic Regression ◽

Data Science ◽

Naive Bayes ◽

Nearest Neighbors ◽

Naïve Bayes ◽

Support Vector ◽

K Nearest Neighbors

Perguruan tinggi merupakan satuan penyelenggara pendidikan tinggi sebagai tingkat lanjut jenjang pendidikan menengah di jalur pendidikan formal. Aspek prestasi belajar merupakan salah satu aspek penilaian keberhasilan perguruan tinggi dalam proses belajar. Dalam makalah ini menyajikan hasil analisis hubungan antara pembelajaran dengan prestasi mahasiswa dimana tahapan yang dilakukan menggunakan pendetakan data science. Berdasarkan Analisis data terdapat tiga indikator penting dalam penilaian prestasi belajar yaitu pedagogi, profesional dan kepribadian. Ketiga fitur digunakan sebagai variabel dependen untuk memprediksi prestasi belajar dimana algoritma DecisionTree menghasilkan akurasi lebih baik dari pada model k-nearest neighbors (KNN), Logistic Regression, Support Vector Machine, Naive Bayes dan dengan tingkat akurasi 68%, kemudian KNN dengan akurasi 66% dan lainnya sebesar 55% pada masing-masing algoritma yang diusulkan.

Download Full-text

Internet Traffic Detection using Naïve Bayes and K-Nearest Neighbors (KNN) algorithm

2019 International Conference on Intelligent Computing and Control Systems (ICCS) ◽

10.1109/iccs45141.2019.9065655 ◽

2019 ◽

Author(s):

Mrudul Dixit ◽

Ritu Sharma ◽

Saniya Shaikh ◽

Krutika Muley

Keyword(s):

Naive Bayes ◽

Nearest Neighbors ◽

Internet Traffic ◽

Naïve Bayes ◽

K Nearest Neighbors ◽

Traffic Detection

Download Full-text

Sentiment Classification Using Text Embedding for Thai Teaching Evaluation

Applied Mechanics and Materials ◽

10.4028/www.scientific.net/amm.886.221 ◽

2019 ◽

Vol 886 ◽

pp. 221-226 ◽

Cited By ~ 1

Author(s):

Kesinee Boonchuay

Keyword(s):

Naive Bayes ◽

Geometric Mean ◽

Nearest Neighbors ◽

Naïve Bayes ◽

Teaching Evaluation ◽

Sentiment Classification ◽

Teaching Skills ◽

K Nearest Neighbors ◽

Overall Performance ◽

F Measure

Sentiment classification gains a lot of attention nowadays. For a university, the knowledge obtained from classifying sentiments of student learning in courses is highly valuable, and can be used to help teachers improve their teaching skills. In this research, sentiment classification based on text embedding is applied to enhance the performance of sentiment classification for Thai teaching evaluation. Text embedding techniques considers both syntactic and semantic elements of sentences that can be used to improve the performance of the classification. This research uses two approaches to apply text embedding for classification. The first approach uses fastText classification. According to the results, fastText provides the best overall performance; its highest F-measure was at 0.8212. The second approach constructs text vectors for classification using traditional classifiers. This approach provides better performance over TF-IDF for k-nearest neighbors and naïve Bayes. For naïve Bayes, the second approach yields the best performance of geometric mean at 0.8961. The performance of TF-IDF is better suited to using decision tree than the second approach. The benefit of this research is that it presents the workflow of using text embedding for Thai teaching evaluation to improve the performance of sentiment classification. By using embedding techniques, similarity and analogy tasks of texts are established along with the classification.

Download Full-text

Choose of wart treatment method using Naive Bayes and k-nearest neighbors classifiers

2018 26th Signal Processing and Communications Applications Conference (SIU) ◽

10.1109/siu.2018.8404398 ◽

2018 ◽

Cited By ~ 1

Author(s):

Ruhiye Uzun ◽

Yalcin Isler ◽

Mualla Toksan

Keyword(s):

Naive Bayes ◽

Nearest Neighbors ◽

Treatment Method ◽

Naïve Bayes ◽

K Nearest Neighbors

Download Full-text

Comparison of Decision Tree, Naïve Bayes and K-Nearest Neighbors for Predicting Thesis Graduation

2019 6th International Conference on Electrical Engineering, Computer Science and Informatics (EECSI) ◽

10.23919/eecsi48112.2019.8977081 ◽

2019 ◽

Author(s):

Achmad Solichin

Keyword(s):

Decision Tree ◽

Naive Bayes ◽

Nearest Neighbors ◽

Naïve Bayes ◽

K Nearest Neighbors

Download Full-text

Prediction of Hepatitis Disease Using K-Nearest Neighbors, Naive Bayes, Support Vector Machine, Multi-Layer Perceptron and Random Forest

2021 International Conference on Information and Communication Technology for Sustainable Development (ICICT4SD) ◽

10.1109/icict4sd50815.2021.9397013 ◽

2021 ◽

Author(s):

Md. Julker Nayeem ◽

Sohel Rana ◽

Farjana Alam ◽

Md. Ataur Rahman

Keyword(s):

Support Vector Machine ◽

Random Forest ◽

Naive Bayes ◽

Nearest Neighbors ◽

Naïve Bayes ◽

Support Vector ◽

Multi Layer Perceptron ◽

K Nearest Neighbors

Download Full-text

Aplicação de Técnicas de Aprendizado de Máquina para Predição de Risco de Evasão Escolar em Instituições Públicas de Ensino Superior no Brasil

Revista Brasileira de Informática na Educação ◽

10.5753/rbie.2020.28.0.838 ◽

2020 ◽

Vol 28 ◽

pp. 838-863

Author(s):

Leonardo de Almeida Teodoro ◽

Marco André Abud Kappel

Keyword(s):

Random Forest ◽

Naive Bayes ◽

Nearest Neighbors ◽

Naïve Bayes ◽

K Nearest Neighbors

As instituições públicas de ensino superior do Brasil enfrentam taxas de evasão anual preocupantes. Torna-se de extrema importância, então, o reconhecimento do perfil de alunos com maior probabilidade de evadir, levando em consideração características dos estudantes e das universidades em que eles se encontram matriculados, para que planos de medidas públicas sejam construídos de maneira a reduzir estas taxas. Nesse contexto, o presente trabalho tem como objetivo a identificação dos padrões característicos de alunos com maior tendência a abandonar o ensino público superior, assim como a identificação dos atributos mais determinantes nestes padrões. Para isso, foram aplicadas cinco técnicas de aprendizado de máquina nos dados de educação superior do INEP (Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira): Naive Bayes, K-Nearest Neighbors, Árvores de Decisão, Random Forest e Redes Neurais. Dentre elas, o melhor resultado foi obtido pela técnica Random Forest, que alcançou uma taxa de acerto de aproximadamente 80% das previsões de evasão. O modelo construído indicou que algumas das características mais determinantes na evasão de um aluno são a idade, a participação em atividades extracurriculares e a carga horária total do curso. A principal contribuição do presente trabalho vem na forma da identificação das variáveis mais importantes para a previsão de evasão. Espera-se que os resultados aqui apresentados possibilitem o desenvolvimento de estratégias de redução de evasão focadas no suporte a estudantes que se encontram nos padrões característicos identificados.

Download Full-text

Utilização do sucesso acadêmico para prever o abandono escolar de estudantes do ensino superior: um caso de estudo

Educação e Pesquisa ◽

10.1590/s1678-4634201844180590 ◽

2018 ◽

Vol 44 (0) ◽

Author(s):

António Carlos Corte-Real de Sousa ◽

Carlos Alberto Bragança de Oliveira ◽

José Luís Cabral Moura Borges

Keyword(s):

Data Mining ◽

Naive Bayes ◽

Nearest Neighbors ◽

Naïve Bayes ◽

K Nearest Neighbors ◽

Santa Maria

Resumo O abandono escolar é um problema complexo que afeta a maioria dos programas de graduação pós-secundária, em todo o mundo. O curso de engenharia industrial do Instituto ISVOUGA, localizado em Santa Maria da Feira, Portugal, não é exceção. Este estudo usou um conjunto de dados contendo informações gerais dos estudantes e suas notas para as unidades curriculares já avaliadas. A partir deste conjunto de dados, foram selecionados dezessete preditores potenciais: cinco intrínsecos (gênero, estado civil, situação profissional, idade e regime de dedicação aos estudos – integral ou parcial) e doze extrínsecos (as notas em todas as doze unidades curriculares ministradas durante os dois primeiros semestres do curso). O objetivo principal desta investigação foi prever a probabilidade de um estudante abandonar o curso com base nos referidos preditores. Foi usada uma regressão logística binária para classificar os estudantes como tendo uma probabilidade alta ou baixa de não se reinscreverem no curso. Para validar se a metodologia utilizada é apropriada para o estudo em causa, a precisão obtida com o modelo de regressão logística foi comparada, por via de uma validação cruzada com cinco partições, com a precisão obtida pela utilização de três métodos muito utilizados em data mining: One R, K Nearest Neighbors e Naive Bayes. O modelo de regressão logística identificou quatro variáveis significativas na previsão do abandono escolar (as classificações nas unidades curriculares de ciência dos materiais, eletricidade, cálculo 1 e química). Os dois preditores mais influentes do abandono dos estudantes são não conseguir aprovação nas unidades curriculares menos exigentes: ciência dos materiais e eletricidade. Ao contrário do que seria de supor antes desta investigação, descobrimos que a não aprovação em unidades curriculares mais exigentes, como física ou estatística, não tem influência significativa no abandono escolar.

Download Full-text