A Novel Random Forest Approach Using Specific Under Sampling Strategy

Data imbalance is one among characteristics of software quality data sets that can have a negative effect on the performance of software defect prediction models. This study proposed an alternative to random under-sampling strategy by using only a subset of non-defective data which have been calculated as having biggest distance value to the centroid of defective data. Combined with random forest classification, the proposed method outperformed both the random under-sampling and non-sampling method on the basis of accuracy, AUC, f-measure, and true positive rate performance measures.

Download Full-text

A Novel Random Forest Approach Using Specific under Sampling Strategy

International Journal of Database Theory and Application ◽

10.14257/ijdta.2017.10.1.05 ◽

2017 ◽

Vol 10 (1) ◽

pp. 47-56

Author(s):

L. Surya Prasanthi ◽

R. Kiran Kumar ◽

Kudipudi Srinivas

Keyword(s):

Random Forest ◽

Sampling Strategy ◽

Under Sampling

Download Full-text

Penerapan Metode Random Over-Under Sampling dan Random Forest Untuk Klasifikasi Penilaian Kredit

Jurnal Informatika ◽

10.31294/ji.v5i2.4158 ◽

2018 ◽

Vol 5 (2) ◽

pp. 175-185

Author(s):

Akhmad Syukron ◽

Agus Subekti

Keyword(s):

Random Forest ◽

Financial Institution ◽

Credit Scoring ◽

Classification Performance ◽

Random Forest Classification ◽

Random Forest Method ◽

Forest Classification ◽

Improve Accuracy ◽

Under Sampling ◽

Accuracy Performance

AbstrakPenilaian kredit telah menjadi salah satu cara utama bagi sebuah lembaga keuangan untuk menilai resiko kredit, meningkatkan arus kas, mengurangi kemungkinan resiko dan membuat keputusan manajerial. Salah satu permasalahan yang dihadapai pada penilaian kredit yaitu adanya ketidakseimbangan distribusi dataset. Metode untuk mengatasi ketidakseimbangan kelas yaitu dengan metode resampling, seperti menggunakan Oversampling, undersampling dan hibrida yaitu dengan menggabungkan kedua pendekatan sampling. Metode yang diusulkan pada penelitian ini adalah penerapan metode Random Over-Under Sampling Random Forest untuk meningkatkan kinerja akurasi klasifikasi penilaian kredit pada dataset German Credit. Hasil pengujian menunjukan bahwa klasifikasi tanpa melalui proses resampling menghasilkan kinerja akurasi rata-rata 70 % pada semua classifier. Metode Random Forest memiliki nilai akurasi yang lebih baik dibandingkan dengan beberapa metode lainnya dengan nilai akurasi sebesar 0,76 atau 76%. Sedangkan klasifikasi dengan penerapan metode Random Over-under sampling Random Forest dapat meningkatkan kinerja akurasi sebesar 14,1% dengan nilai akurasi sebesar 0,901 atau 90,1 %. Hasil penelitian menunjukan bahwa penerapan resampling dengan metode Random Over-Under Sampling pada algoritma Random Forest dapat meningkatkan kinerja akurasi secara efektif pada klasifikasi tidak seimbang untuk penilaian kredit pada dataset German Credit. Kata kunci: Penilaian Kredit, Random Forest, Klasifikasi, ketidakseimbangan kelas, Random Over-Under Sampling AbstractCredit scoring has become one of the main ways for a financial institution to assess credit risk, improve cash flow, reduce the possibility of risk and make managerial decisions. One of the problems faced by credit scoring is the imbalance in the distribution of datasets. The method to overcome class imbalances is the resampling method, such as using Oversampling, undersampling and hybrids by combining both sampling approaches. The method proposed in this study is the application of the Random Over-Under Sampling Random Forest method to improve the accuracy of the credit scoring classification performance on German Credit dataset. The test results show that the classification without going through the resampling process results in an average accuracy performance of 70% for all classifiers. The Random Forest method has a better accuracy value compared to some other methods with an accuracy value of 0.76 or 76%. While classification by applying the Random Over-under sampling + Random Forest method can improve accuracy performance 14.1% with an accuracy value of 0.901 or 90.1%. The results showed that the application of resampling using Random Over-Under Sampling method in the Random Forest algorithm can improve accuracy performance effectively on an unbalanced classification for credit scoring on German Credit dataset. Keywords: Imbalance Class, Credit Scoring, Random Forest, Classification, Resampling

Download Full-text

A novel under sampling strategy for efficient software defect analysis of skewed distributed data

Evolving Systems ◽

10.1007/s12530-018-9261-9 ◽

2019 ◽

Vol 11 (1) ◽

pp. 119-131 ◽

Cited By ~ 2

Author(s):

K. Nitalaksheswara Rao ◽

Ch. Satyananda Reddy

Keyword(s):

Sampling Strategy ◽

Distributed Data ◽

Defect Analysis ◽

Software Defect ◽

Under Sampling ◽

Efficient Software

Download Full-text

Teknik Resampling untuk Mengatasi Ketidakseimbangan Kelas pada Klasifikasi Penyakit Diabetes Menggunakan C4.5, Random Forest, dan SVM

Techno Com ◽

10.33633/tc.v20i3.4762 ◽

2021 ◽

Vol 20 (3) ◽

pp. 352-361

Author(s):

Wahyu Nugraha ◽

Raja Sabaruddin

Keyword(s):

Machine Learning ◽

Data Mining ◽

Random Forest ◽

Area Under Curve ◽

Support Vector ◽

Pima Indians ◽

R Language ◽

Level Data ◽

Vector Machines ◽

Under Sampling

Penderita diabetes di seluruh dunia terus mengalami peningkatan dengan angka kematian sebesar 4,6 juta pada tahun 2011 dan diperkirakan akan terus meningkat secara global menjadi 552 juta pada tahun 2030. Pencegahan Penyakit diabetes mungkin dapat dilakukan secara efektif dengan cara mendeteksinya sejak dini. Data mining dan machine learning terus dikembangkan agar menjadi alat yang handal dalam membangun model komputasi untuk mengidentifikasi penyakit diabetes pada tahap awal. Namun, masalah yang sering dihadapi dalam menganalisis penyakit diabetes ialah masalah ketidakseimbangan class. Kelas yang tidak seimbang membuat model pembelajaran akan sulit melakukan prediksi karena model pembelajaran didominasi oleh instance kelas mayoritas sehingga mengabaikan prediksi kelas minoritas. Pada penelitian ini kami mencoba menganalisa dan mencoba mengatasi masalah ketidakseimbangan kelas dengan menggunakan pendekatan level data yaitu teknik resampling data. Eksperimen ini menggunakan R language dengan library ROSE (version 0.0-4). Dataset Pima Indians dipilih pada penelitian ini karena merupakan salah satu dataset yang mengalami ketidakseimbangan kelas. Model pengklasifikasian pada penelitian ini menggunakan algoritma decision tree C4.5, RF (Random Forest), dan SVM (Support Vector Machines). Dari hasil eksperimen yang dilakukan model klasifikasi SVM dengan teknik resampling yang menggabungkan over dan under-sampling menjadi model yang memiliki performa terbaik dengan nilai AUC (Area Under Curve) sebesar 0.80

Download Full-text

Cluster-based under-sampling with random forest for multi-class imbalanced classification

2017 11th International Conference on Software, Knowledge, Information Management and Applications (SKIMA) ◽

10.1109/skima.2017.8294105 ◽

2017 ◽

Cited By ~ 3

Author(s):

Md. Yasir Arafat ◽

Sabera Hoque ◽

Dewan Md. Farid

Keyword(s):

Random Forest ◽

Imbalanced Classification ◽

Under Sampling

Download Full-text

Penerapan Metode Random Over-Under Sampling dan Random Forest Untuk Klasifikasi Penilaian Kredit

Jurnal Informatika ◽

10.31311/ji.v5i2.4158 ◽

2018 ◽

Vol 5 (2) ◽

pp. 175-185 ◽

Cited By ~ 1

Author(s):

Akhmad Syukron ◽

Agus Subekti

Keyword(s):

Random Forest ◽

Financial Institution ◽

Credit Scoring ◽

Classification Performance ◽

Random Forest Classification ◽

Random Forest Method ◽

Forest Classification ◽

Improve Accuracy ◽

Under Sampling ◽

Accuracy Performance

AbstrakPenilaian kredit telah menjadi salah satu cara utama bagi sebuah lembaga keuangan untuk menilai resiko kredit, meningkatkan arus kas, mengurangi kemungkinan resiko dan membuat keputusan manajerial. Salah satu permasalahan yang dihadapai pada penilaian kredit yaitu adanya ketidakseimbangan distribusi dataset. Metode untuk mengatasi ketidakseimbangan kelas yaitu dengan metode resampling, seperti menggunakan Oversampling, undersampling dan hibrida yaitu dengan menggabungkan kedua pendekatan sampling. Metode yang diusulkan pada penelitian ini adalah penerapan metode Random Over-Under Sampling Random Forest untuk meningkatkan kinerja akurasi klasifikasi penilaian kredit pada dataset German Credit. Hasil pengujian menunjukan bahwa klasifikasi tanpa melalui proses resampling menghasilkan kinerja akurasi rata-rata 70 % pada semua classifier. Metode Random Forest memiliki nilai akurasi yang lebih baik dibandingkan dengan beberapa metode lainnya dengan nilai akurasi sebesar 0,76 atau 76%. Sedangkan klasifikasi dengan penerapan metode Random Over-under sampling Random Forest dapat meningkatkan kinerja akurasi sebesar 14,1% dengan nilai akurasi sebesar 0,901 atau 90,1 %. Hasil penelitian menunjukan bahwa penerapan resampling dengan metode Random Over-Under Sampling pada algoritma Random Forest dapat meningkatkan kinerja akurasi secara efektif pada klasifikasi tidak seimbang untuk penilaian kredit pada dataset German Credit. Kata kunci: Penilaian Kredit, Random Forest, Klasifikasi, ketidakseimbangan kelas, Random Over-Under Sampling AbstractCredit scoring has become one of the main ways for a financial institution to assess credit risk, improve cash flow, reduce the possibility of risk and make managerial decisions. One of the problems faced by credit scoring is the imbalance in the distribution of datasets. The method to overcome class imbalances is the resampling method, such as using Oversampling, undersampling and hybrids by combining both sampling approaches. The method proposed in this study is the application of the Random Over-Under Sampling Random Forest method to improve the accuracy of the credit scoring classification performance on German Credit dataset. The test results show that the classification without going through the resampling process results in an average accuracy performance of 70% for all classifiers. The Random Forest method has a better accuracy value compared to some other methods with an accuracy value of 0.76 or 76%. While classification by applying the Random Over-under sampling + Random Forest method can improve accuracy performance 14.1% with an accuracy value of 0.901 or 90.1%. The results showed that the application of resampling using Random Over-Under Sampling method in the Random Forest algorithm can improve accuracy performance effectively on an unbalanced classification for credit scoring on German Credit dataset. Keywords: Imbalance Class, Credit Scoring, Random Forest, Classification, Resampling

Download Full-text

Perbandingan Metode Regresi Logistik dan Random Forest untuk Klasifikasi Data Imbalanced (Studi Kasus: Klasifikasi Rumah Tangga Miskin di Kabupaten Karangasem, Bali Tahun 2017)

Jurnal Matematika Statistika dan Komputasi ◽

10.20956/jmsk.v16i1.6494 ◽

2019 ◽

Vol 16 (1) ◽

pp. 58

Author(s):

Taly Purwa

Keyword(s):

Feature Selection ◽

Random Forest ◽

Cross Validation ◽

Under Sampling

Penelitian ini bertujuan untuk mendapatkan model terbaik untuk klasifikasi data imbalanced, yaitu rumah tangga sampel Susenas Maret 2017 di Kabupaten Karangasem, ke dalam kategori miskin atau tidak. Metode yang digunakan adalah Regresi Logistik dan Random Forest dimana masing-masing diterapkan skema cross validation (CV), yaitu stratified 5-fold CV, skema under sampling, oversampling dan combine sampling untuk mengatasi masalah data imbalanced serta proses feature selection. Hasil penelitian menunjukkan bahwa penerapan skema under sampling, oversampling dan combine sampling pada model Regresi Logistik memberikan efek meningkatnya rata-rata nilai sensitivity dan turunnya rata-rata nilai akurasi dan specificity. Sedangkan pada model Random Forest, efek tersebut hanya terlihat dari hasil skema under sampling saja. Proses feature selection dapat menurunkan varian nilai akurasi, specificity, sensitivity dan AUC pada model Regresi Logistik dan Random Forest hanya pada skema tertentu. Model terbaik secara keseluruhan adalah model model Regresi Logistik dengan skema combine sampling dan tanpa proses feature selection dengan rata-rata nilai akurasi, specificity, sensitivity dan AUC masing-masing sebesar 78,13%, 79,16%, 64,44% dan 77,77%.

Download Full-text

Modified balanced random forest for improving imbalanced data prediction

International Journal of Advances in Intelligent Informatics ◽

10.26555/ijain.v5i1.255 ◽

2018 ◽

Vol 5 (1) ◽

pp. 58

Author(s):

Zahra Putri Agusta ◽

Adiwijaya Adiwijaya

Keyword(s):

Random Forest ◽

Hierarchical Clustering ◽

Imbalanced Data ◽

Sampling Strategy ◽

True Positive Rate ◽

Optimal Performance ◽

Experimental Result ◽

Agglomerative Clustering ◽

True Negative ◽

Clustering Techniques

This paper proposes a Modified Balanced Random Forest (MBRF) algorithm as a classification technique to address imbalanced data. The MBRF process changes the process in a Balanced Random Forest by applying an under-sampling strategy based on clustering techniques for each data bootstrap decision tree in the Random Forest algorithm. To find the optimal performance of our proposed method compared with four clustering techniques, like: K-MEANS, Spectral Clustering, Agglomerative Clustering, and Ward Hierarchical Clustering. The experimental result show the Ward Hierarchical Clustering Technique achieved optimal performance, also the proposed MBRF method yielded better performance compared to the Balanced Random Forest (BRF) and Random Forest (RF) algorithms, with a sensitivity value or true positive rate (TPR) of 93.42%, a specificity or true negative rate (TNR) of 93.60%, and the best AUC accuracy value of 93.51%. Moreover, MBRF also reduced process running time.

Download Full-text