symmetrical uncertainty
Recently Published Documents


TOTAL DOCUMENTS

22
(FIVE YEARS 12)

H-INDEX

4
(FIVE YEARS 3)

Entropy ◽  
2021 ◽  
Vol 24 (1) ◽  
pp. 64
Author(s):  
Santiago Gómez-Guerrero ◽  
Inocencio Ortiz ◽  
Gustavo Sosa-Cabrera ◽  
Miguel García-Torres ◽  
Christian E. Schaerer

Interaction between variables is often found in statistical models, and it is usually expressed in the model as an additional term when the variables are numeric. However, when the variables are categorical (also known as nominal or qualitative) or mixed numerical-categorical, defining, detecting, and measuring interactions is not a simple task. In this work, based on an entropy-based correlation measure for n nominal variables (named as Multivariate Symmetrical Uncertainty (MSU)), we propose a formal and broader definition for the interaction of the variables. Two series of experiments are presented. In the first series, we observe that datasets where some record types or combinations of categories are absent, forming patterns of records, which often display interactions among their attributes. In the second series, the interaction/non-interaction behavior of a regression model (entirely built on continuous variables) gets successfully replicated under a discretized version of the dataset. It is shown that there is an interaction-wise correspondence between the continuous and the discretized versions of the dataset. Hence, we demonstrate that the proposed definition of interaction enabled by the MSU is a valuable tool for detecting and measuring interactions within linear and non-linear models.


2021 ◽  
Author(s):  
Santiago Gómez-Guerrero ◽  
Gustavo Sosa-Cabrera ◽  
Miguel García-Torres ◽  
Inocencio Ortiz-Samudio ◽  
Christian E. Schaerer

2021 ◽  
Author(s):  
Miguel Garcia Torres ◽  
Federico Divina ◽  
Francisco A. Gómez Vela ◽  
José Luis Vázquez Noguera

JNANALOKA ◽  
2020 ◽  
pp. 1-10
Author(s):  
Muhammad Kurniawan

Data mining berhubungan dengan pencarian data untuk menemukan pola atau pengetahuan da- ri data keseluruhan. Data mining dapat digunakan untuk memprediksi suatu keadaan, seperti apakah seseorang terkena penyakit ginjal kronis atau tidak. Dalam penelitian ini metode pengu- rangan fitur symmetrical uncertainty dengan algoritma klasifikasi Gradient Boosting, Random Forest, Support Vector Machine, dan Naïve Bayes digunakan untuk memprediksi penyakit ginjal kronis. Jumlah atribut yang diklasifikasi adalah 24, 12, 6, 5, dan 4 atribut. Peningkatan nilai akurasi didapatkan pada pengurangan atribut dari 24 ke 12 dengan algoritma Naïve Bayes. Se- lain itu, diperoleh Support Vector Machine memiliki akurasi terbaik pada semua jumlah atribut, diikuti Gradient Boosting, Random Forest, dan Naïve Bayes. Pada klasifikasi 5 atribut, terlihat algoritma Support Vector Machine dan Gradient Boosting masih memiliki akurasi 1. Kelima atribut tersebut antara lain: hemoglobin, packed cell volume, serum creatinine, albumin, dan specifity gravity. Pengurangan atribut dapat meningkatkan akurasi dan dapat memudahkan proses prediksi karena jumlah atribut lebih sedikit. Belum ada


JNANALOKA ◽  
2020 ◽  
pp. 1-10
Author(s):  
Muhammad Kurniawan

Data mining berhubungan dengan pencarian data untuk menemukan pola atau pengetahuan da- ri data keseluruhan. Data mining dapat digunakan untuk memprediksi suatu keadaan, seperti apakah seseorang terkena penyakit ginjal kronis atau tidak. Dalam penelitian ini metode pengu- rangan fitur symmetrical uncertainty dengan algoritma klasifikasi Gradient Boosting, Random Forest, Support Vector Machine, dan Naïve Bayes digunakan untuk memprediksi penyakit ginjal kronis. Jumlah atribut yang diklasifikasi adalah 24, 12, 6, 5, dan 4 atribut. Peningkatan nilai akurasi didapatkan pada pengurangan atribut dari 24 ke 12 dengan algoritma Naïve Bayes. Se- lain itu, diperoleh Support Vector Machine memiliki akurasi terbaik pada semua jumlah atribut, diikuti Gradient Boosting, Random Forest, dan Naïve Bayes. Pada klasifikasi 5 atribut, terlihat algoritma Support Vector Machine dan Gradient Boosting masih memiliki akurasi 1. Kelima atribut tersebut antara lain: hemoglobin, packed cell volume, serum creatinine, albumin, dan specifity gravity. Pengurangan atribut dapat meningkatkan akurasi dan dapat memudahkan proses prediksi karena jumlah atribut lebih sedikit. Belum ada


2019 ◽  
Vol 494 ◽  
pp. 1-20 ◽  
Author(s):  
Gustavo Sosa-Cabrera ◽  
Miguel García-Torres ◽  
Santiago Gómez-Guerrero ◽  
Christian E. Schaerer ◽  
Federico Divina

Sign in / Sign up

Export Citation Format

Share Document