scholarly journals Convolutional Neural Network untuk Pengenalan Citra Notasi Musik

Techno Com ◽  
2019 ◽  
Vol 18 (3) ◽  
pp. 214-226
Author(s):  
Dzikry Maulana Hakim ◽  
Ednawati Rainarli

Optical Music Recognition (OMR) adalah suatu cara untuk melakukan pengenalan pada notasi musik secara otomatis. Masalah utama dalam pendeteksian notasi musik adalah bagaimana sistem dapat mendeteksi sebuah notasi musik dan kemudian mengenali notasi musik tersebut. Notasi musik yang telah dikenali oleh mesin dapat dimanfaatkan untuk diproses kembali menjadi suara. Pada penelitian ini, proses segmentasi dilakukan untuk memotong setiap notasi. Untuk pengenalan notasi musik digunakan Convolutional Neural Network (CNN). Arsitektur CNN yang dipakai adalah kernel 3x3, jumlah layer pada feature learning sebanyak 3 convolutional layer dan 3 pooling layer, filter pada convolutional layer 64,128, 256 dan jumlah neuron pada hidden layer sebanyak 7168. Pengujian dilakukan dengan dua cara, yang pertama menguji performasi CNN menggunakan data notasi musik yang telah dipotong dan yang kedua adalah melakukan pengujian menggunakan sebaris notasi musik. Nilai akurasi yang didapatkan untuk pengenalan sebaris notasi musik tidak terlalu besar, yaitu 26,19%. Walaupun untuk proses segmentasi masih belum maksimal dalam memotong setiap notasi, namun metode CNN bekerja sangat baik untuk mengenali setiap notasi musik yang telah dipotong dengan benar. Hal ini ditunjukkan dari nilai akurasi yang mencapai 95,56%. 

Feed-forward neural networks can be trained based on a gradient-descent based backpropagation algorithm. But, these algorithms require more computation time. Extreme Learning Machines (ELM’s) are time-efficient, and they are less complicated than the conventional gradient-based algorithm. In previous years, an SRAM based convolutional neural network using a receptive – field Approach was proposed. This neural network was used as an encoder for the ELM algorithm and was implemented on FPGA. But, this neural network used an inaccurate 3-stage pipelined parallel adder. Hence, this neural network generates imprecise stimuli to the hidden layer neurons. This paper presents an implementation of precise convolutional neural network for encoding in the ELM algorithm based on the receptive - field approach at the hardware level. In the third stage of the pipelined parallel adder, instead of approximating the output by using one 2-input 15-bit adder, one 4-input 14-bit adder is used. Also, an additional weighted pixel array block is used. This weighted pixel array improves the accuracy of generating 128 weighted pixels. This neural network was simulated using ModelSim-Altera 10.1d and synthesized using Quartus II 13.0 sp1. This neural network is implemented on Cyclone V FPGA and used for pattern recognition applications. Although this design consumes slightly more hardware resources, this design is more accurate compared to previously existing encoders


2019 ◽  
Vol 13 ◽  
pp. 302-309
Author(s):  
Jakub Basiakowski

The following paper presents the results of research on the impact of machine learning in the construction of a voice-controlled interface. Two different models were used for the analysys: a feedforward neural network containing one hidden layer and a more complicated convolutional neural network. What is more, a comparison of the applied models was presented. This comparison was performed in terms of quality and the course of training.


Sign in / Sign up

Export Citation Format

Share Document