Trending Topic Classification for Single-Label Using Multinomial Naive Bayes (MNB) and Multi-Label Using K-Nearest Neighbors (KNN)

Author(s):  
Denis Eka Cahyani ◽  
Kartini Aprilia Pratiwi Nuzry
Author(s):  
Ángel Freddy Godoy Viera

Las técnicas de aprendizaje de máquina continúan siendo muy utilizadas para la minería de texto. Para este artículo se realizó una revisión de literatura en periódicos científicos publicados en los años de 2010 y 2011, con el objetivo de identificar las principales formas de aprendizaje de máquina empleadas para la minería de texto. Se utilizó estadística descriptiva para organizar, resumir y analizar los datos encontrados, y se presentó una descripción resumida de las principales encontradas. En los artículos analizados se hallaron 13 aplicadas para la minería de texto, el 83% de los artículos mencionaban de 1 a 3 técnicas de aprendizaje de máquina, las principales usadas por los autores en los artículos estudiados fueron support vector machine (svm), k-means (k-m),k-nearest neighbors (k-nn), naive bayes (nb), self-organizing maps (som). Los pares que aparecen con mayor frecuencia son svm/nb, svm/k-nn, svm/decission tree.


2021 ◽  
Vol 1 (1) ◽  
pp. 14-20
Author(s):  
Tommy Tommy ◽  
Amir Mahmud Husein

Perguruan tinggi merupakan satuan penyelenggara pendidikan tinggi sebagai tingkat lanjut jenjang pendidikan menengah di jalur pendidikan formal. Aspek prestasi belajar merupakan salah satu aspek penilaian keberhasilan perguruan tinggi dalam proses belajar. Dalam makalah ini menyajikan hasil analisis hubungan antara pembelajaran dengan prestasi mahasiswa dimana tahapan yang dilakukan menggunakan pendetakan data science. Berdasarkan Analisis data terdapat tiga indikator penting dalam penilaian prestasi belajar yaitu pedagogi, profesional dan kepribadian. Ketiga fitur digunakan sebagai variabel dependen untuk memprediksi prestasi belajar dimana algoritma DecisionTree menghasilkan akurasi lebih baik dari pada model k-nearest neighbors (KNN), Logistic Regression, Support Vector Machine, Naive Bayes dan dengan tingkat akurasi 68%, kemudian KNN dengan akurasi 66% dan lainnya sebesar 55% pada masing-masing algoritma yang diusulkan.


2019 ◽  
Vol 886 ◽  
pp. 221-226 ◽  
Author(s):  
Kesinee Boonchuay

Sentiment classification gains a lot of attention nowadays. For a university, the knowledge obtained from classifying sentiments of student learning in courses is highly valuable, and can be used to help teachers improve their teaching skills. In this research, sentiment classification based on text embedding is applied to enhance the performance of sentiment classification for Thai teaching evaluation. Text embedding techniques considers both syntactic and semantic elements of sentences that can be used to improve the performance of the classification. This research uses two approaches to apply text embedding for classification. The first approach uses fastText classification. According to the results, fastText provides the best overall performance; its highest F-measure was at 0.8212. The second approach constructs text vectors for classification using traditional classifiers. This approach provides better performance over TF-IDF for k-nearest neighbors and naïve Bayes. For naïve Bayes, the second approach yields the best performance of geometric mean at 0.8961. The performance of TF-IDF is better suited to using decision tree than the second approach. The benefit of this research is that it presents the workflow of using text embedding for Thai teaching evaluation to improve the performance of sentiment classification. By using embedding techniques, similarity and analogy tasks of texts are established along with the classification.


2020 ◽  
Vol 28 ◽  
pp. 838-863
Author(s):  
Leonardo de Almeida Teodoro ◽  
Marco André Abud Kappel

As instituições públicas de ensino superior do Brasil enfrentam taxas de evasão anual preocupantes. Torna-se de extrema importância, então, o reconhecimento do perfil de alunos com maior probabilidade de evadir, levando em consideração características dos estudantes e das universidades em que eles se encontram matriculados, para que planos de medidas públicas sejam construídos de maneira a reduzir estas taxas. Nesse contexto, o presente trabalho tem como objetivo a identificação dos padrões característicos de alunos com maior tendência a abandonar o ensino público superior, assim como a identificação dos atributos mais determinantes nestes padrões. Para isso, foram aplicadas cinco técnicas de aprendizado de máquina nos dados de educação superior do INEP (Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira): Naive Bayes, K-Nearest Neighbors, Árvores de Decisão, Random Forest e Redes Neurais. Dentre elas, o melhor resultado foi obtido pela técnica Random Forest, que alcançou uma taxa de acerto de aproximadamente 80% das previsões de evasão. O modelo construído indicou que algumas das características mais determinantes na evasão de um aluno são a idade, a participação em atividades extracurriculares e a carga horária total do curso. A principal contribuição do presente trabalho vem na forma da identificação das variáveis mais importantes para a previsão de evasão. Espera-se que os resultados aqui apresentados possibilitem o desenvolvimento de estratégias de redução de evasão focadas no suporte a estudantes que se encontram nos padrões característicos identificados.


2018 ◽  
Vol 44 (0) ◽  
Author(s):  
António Carlos Corte-Real de Sousa ◽  
Carlos Alberto Bragança de Oliveira ◽  
José Luís Cabral Moura Borges

Resumo O abandono escolar é um problema complexo que afeta a maioria dos programas de graduação pós-secundária, em todo o mundo. O curso de engenharia industrial do Instituto ISVOUGA, localizado em Santa Maria da Feira, Portugal, não é exceção. Este estudo usou um conjunto de dados contendo informações gerais dos estudantes e suas notas para as unidades curriculares já avaliadas. A partir deste conjunto de dados, foram selecionados dezessete preditores potenciais: cinco intrínsecos (gênero, estado civil, situação profissional, idade e regime de dedicação aos estudos – integral ou parcial) e doze extrínsecos (as notas em todas as doze unidades curriculares ministradas durante os dois primeiros semestres do curso). O objetivo principal desta investigação foi prever a probabilidade de um estudante abandonar o curso com base nos referidos preditores. Foi usada uma regressão logística binária para classificar os estudantes como tendo uma probabilidade alta ou baixa de não se reinscreverem no curso. Para validar se a metodologia utilizada é apropriada para o estudo em causa, a precisão obtida com o modelo de regressão logística foi comparada, por via de uma validação cruzada com cinco partições, com a precisão obtida pela utilização de três métodos muito utilizados em data mining: One R, K Nearest Neighbors e Naive Bayes. O modelo de regressão logística identificou quatro variáveis significativas na previsão do abandono escolar (as classificações nas unidades curriculares de ciência dos materiais, eletricidade, cálculo 1 e química). Os dois preditores mais influentes do abandono dos estudantes são não conseguir aprovação nas unidades curriculares menos exigentes: ciência dos materiais e eletricidade. Ao contrário do que seria de supor antes desta investigação, descobrimos que a não aprovação em unidades curriculares mais exigentes, como física ou estatística, não tem influência significativa no abandono escolar.


Sign in / Sign up

Export Citation Format

Share Document