scholarly journals A Data Preparation Methodology in Data Mining Applied to Mortality Population Databases

2015 ◽  
Vol 39 (11) ◽  
Author(s):  
Joaquín Pérez ◽  
Emmanuel Iturbide ◽  
Víctor Olivares ◽  
Miguel Hidalgo ◽  
Alicia Martínez ◽  
...  
Author(s):  
Joaquín Pérez ◽  
Emmanuel Iturbide ◽  
Victor Olivares ◽  
Miguel Hidalgo ◽  
Nelva Almanza ◽  
...  

Data mining is a real-world procedure of discovering useful patterns from heterogeneous datasets. All most all industry uses data mining in their day to day activities. To build an effective mining model, a series of development steps are to be followed. It starts with discovering the business problem and ends with communicating the results. In this development life cycle, the most important step is data preparation or data preprocessing. Data preprocessing is converting raw data into data understandable by the machine. Data normalization is a phase in data preprocessing where the data values are scaled to 0 and 1. Right normalization of the datasets leads to improved mining results. In this paper, academic data of students is taken. The dataset is normalization using six normalization technique. Multi Layer Perceptron classifier is applied to normalized dataset and results are obtained. Results of this study reveal the best normalization technique which can be used for normalizing academic datasets. Finally, in a line, the goal of this work is to discover the best normalization technique which produces better mining result when applied to academic datasets.


2018 ◽  
Vol 8 (1) ◽  
Author(s):  
Wahyu Nurjaya WK ◽  
Yusrina Adani

Bank BRI Syariah memiliki banyak produk yang menarik untuk ditawarkan kepada calon nasabah maupun nasabah tetap berupa produk jangka panjang atau jangka pendek, yang menawarkan banyak keuntungan bagi nasabah itu sendiri. Salah satu produknya adalah Deposito berjangka yang merupakan produk investasi dengan menyimpan uang dan penarikanya hanya bisa dilakukan pada kurun waktu tertentu yang telah di janjikan oleh pihak bank dengan persetujuan nasabah. Dengan telemarketing yang baik oleh pihak bank maka diharapkan calon nasabah dan nasabah tetap mengetahui produk ini.Telemarketing adalah salah satu cara dalam mempromosikan produk-produk atau jasa layanan yang ada di bank. Seorang telemarketing bank harus dapat membuat target nasabah, nasabah mana yang berpotensi untuk meningkatkan deposito dengan melihat data-data nasabah bank yang telah tersimpan dalam database. Dikarenakan database nasabah sangat besar, maka tidak mungkin untuk mencari pola prediksi calon nasabah atau nasabah tetap yang berminat untuk program Deposito dengan cara konvensional.Berdasarkan hal tersebut, pengelolaan data yang sangat besar bisa diatasi dengan memanfaatkan Data Mining yaitu proses iteratif dan interaktif untuk menentukan pola atau model baru yang sempurna, bermanfaat dan dapat dimengerti dalam suatu database yang sangat besar. Data Mining berisi pencarian trend pola yang diinginkan dalam database besar untuk membantu pengambilan keputusan diwaktu yang akan datang. Dengan menggunakan Data Mining diharapkan dapat mengoptimasikan proses prediksi data nasabah oleh seorang telemarketing, sehingga dia mampu menawarkan deposito dengan target calon nasabah atau nasabah tetap yang tepat sasaran. Adapun Teknik Klasifikasi Data Mining menggunakan algoritma Naïve Bayes. Naïve Bayes bekerja sangat efektif saat diuji pada dataset yang besar untuk menentukan pola dimasa lalu dan mencari fungsi yang akan menjadi pola penilaian data dimasa yang akan datang. Untuk mencapai hasil yang diharapkan metode CRISP-DM (Cross Industry Standard Process for Data Mining) sangat cocok sebagai solusi, melalui proses business understanding, data understanding, data preparation, modeling, evaluation dan deployment. Dengan ini hasil prediksi akan lebih akurat, sehingga untuk target telemarketing produk Deposito Bank BRI Syariah akan tepat sasaran.


Data quality is a main issue in quality information management. Data quality problems occur anywhere in information systems. These problems are solved by Data Cleaning (DC). DC is a process used to determine inaccurate, incomplete or unreasonable data and then improve the quality through correcting of detected errors and omissions. Various process of DC have been discussed in the previous studies, but there is no standard or formalized the DC process. The Domain Driven Data Mining (DDDM) is one of the KDD methodology often used for this purpose. This paper review and emphasize the important of DC in data preparation. The future works was also being highlight.


2010 ◽  
Vol 25 (1) ◽  
pp. 49-67 ◽  
Author(s):  
Sumana Sharma ◽  
Kweku-Muata Osei-Bryson

AbstractThe knowledge discovery and data mining (KDDM) process models describe the various phases (e.g. business understanding, data understanding, data preparation, modeling, evaluation and deployment) of the KDDM process. They act as a roadmap for implementation of the KDDM process by presenting a list of tasks for executing the various phases. The checklist approach of describing the tasks is not adequately supported by appropriate tools, which specify ‘how’ the particular task can be implemented. This may result in tasks not being implemented. Another disadvantage is that the long checklist does not capture or leverage the dependencies that exist among the various tasks of the same and different phases. This not only makes the process cumbersome to implement, but also hinders possibilities for semi-automation of certain tasks. Given that each task in the process model serves an important goal and even affects the execution of related tasks due to the dependencies, these limitations are likely to negatively affect the efficiency and effectiveness of KDDM projects. This paper proposes an improved KDDM process model that overcomes these shortcomings by prescribing tools for supporting each task as well as identifying and leveraging dependencies among tasks for semi-automation of tasks, wherever possible.


Author(s):  
Stamatios-Aggelos N. Alexandropoulos ◽  
Sotiris B. Kotsiantis ◽  
Michael N. Vrahatis

AbstractA large variety of issues influence the success of data mining on a given problem. Two primary and important issues are the representation and the quality of the dataset. Specifically, if much redundant and unrelated or noisy and unreliable information is presented, then knowledge discovery becomes a very difficult problem. It is well-known that data preparation steps require significant processing time in machine learning tasks. It would be very helpful and quite useful if there were various preprocessing algorithms with the same reliable and effective performance across all datasets, but this is impossible. To this end, we present the most well-known and widely used up-to-date algorithms for each step of data preprocessing in the framework of predictive data mining.


Author(s):  
Shrikanth Narayanan ◽  
Ayush Jaiswal ◽  
Yao-Yi Chiang ◽  
Yanhui Geng ◽  
Craig A. Knoblock ◽  
...  
Keyword(s):  

2019 ◽  
Vol 5 (3) ◽  
pp. 47-59
Author(s):  
Iis Ismawati
Keyword(s):  

Data yang disimpan dalam database pada umumnya belum dimanfaatkan secara maksimal. Sekolah setiap tahun melakukan promosi dengan biaya yang besar untuk kegiatan penerimaan siswa baru, tapi belum diketahui tingkat efektifitas dari kegiatan promosi yang dilakukan. Database penerimaan siswa baru dapat dimanfaatkan untuk mengetahui profil siswa baru dengan menerapkan metode two step clustering diakrenakan memiliki tipe data campuran yaitu tipe data numerik dan kategorikal. Klaster yang terbentuk kemudian dianalisis untuk dapat mengidentifikasi strategi promosi yang tepat. Data yang akan diteliti adalah data siswa baru tahun 2015, 2016 dan 2017 yang berjumlah 1399, dengan metodologi Cross-Industry Standart Process for Data Mining (CRISP-DM) yang terdiri dari enam tahapan yaitu Business Understanding, Data Understanding, Data Preparation, Modelling, Evaluation dan Deployment.Melalui tahapan data preparation variabel yang digunakan berjumlah delapan variabel yaitu jenis kelamin, agama, kerja ayah, kerja ibu, penghasilan orang tua, kode jurusan, jarak ke sekolah dan jarak SMP. Pada penelitian ini data dikelompokan menjadi dua sampai empat klaster dengan tiga skema variabel, sehingga total didapatkan sembilan skema, yaitu skema 1.2 sampai skema 1.4 dengan 8 variabel. 2.2 sampai 2.4 dengan 6 variabel, dan 3.2 sampai 3.4 dengan 5 variabel. Pengujian dengan jumlah klaster yang berbeda dan variabel yang berbeda ditujukan untuk mendapatkan klaster yang menggambarkan profil siswa baru dengan tepat untuk strategi promosi yang akan direkomendasikan kepada pihak sekolah.Hasil pengujian menunjukan bahwa siswa baru dengan klaster terbesar didominasi oleh laki-laki, jurusan TKJ, beragama islam dengan jarak rumah rata-rata 6.25-6.29 KM, Jarak SMP antara 12.61-12.69 KM, pekerjaan ayah wiraswasta, ibu tidak bekerja dengan penghasilan orang tua 2.000.000-4.999.999. Sedangkan klaster terkecil didominasi oleh perempuan pada jurusan Akuntansi, laki-laki pada jurusan RPL dan TKR, jarak rumah antara 5.11-736 KM, jarak SMP antara 8.16-20.12 KM, pekerjaan ayah wiraswasta, ibu tidak bekerja dengan penghasilan orang tua 2.000.000-4.999.999 untuk jurusan akuntansi, 500.000-999.999 untuk jurusan TKR, dan 1.000.000-1.999.999 untuk jurusan RPL. Strategi yang dilakukan berdasarkan analisis profil siswa baru yang didapatkan melalui metode two step clustering dan pemetaan menggunakan matriks BCG berdasarkan sembilan skema yaitu dengan membuat acara tahunan turnamen futsal, pelatihan perakitan laptop, entrepreneur day, perlombaan peragaan busana, pelatihan beauty class, dan pelatihan pemrograman dasar dimana pesertanya merupakan siswa SMP, dan pemberian potongan biaya pendidikan bagi siswa yang bertempat tinggal dalam satu kelurahan yang sama dengan sekolah.


Sign in / Sign up

Export Citation Format

Share Document