En los últimos años, en combinación con los avances tecnológicos han
surgido nuevos paradigmas de interacción con el usuario. Esto ha motivado a la
industria a la creación de dispositivos de Interfaz Natural de Usuario (NUI, del
inglés Natural User Interface) cada vez más potentes y accesibles. En particular,
las cámaras de profundidad han alcanzado grandes niveles de adopción por
parte de los usuarios. Entre estos dispositivos se destacan la Microsoft Kinect, la
Intel RealSense y el Leap Motion Controller.
Este tipo de dispositivos facilitan la adquisición de datos en el
Reconocimiento de Actividades Humanas (HAR, del inglés Human Activity
Recognition). HAR es un área que tiene por objetivo la identificación automática,
dentro de secuencias de imágenes, de actividades realizadas por seres humanos.
Entre los diferentes tipos de actividades humanas se encuentran los gestos
manuales, es decir, aquellos realizados con las manos. Los gestos manuales
pueden ser estáticos o dinámicos, según si presentan movimiento en las
secuencias de imágenes.
El reconocimiento de gestos manuales permite a los desarrolladores de
sistemas de Interacción Humano-Computadora (HCI, del inglés
Human-Computer Interaction) crear experiencias e interacciones más
inmersivas, naturales e intuitivas. Sin embargo, esta tarea no resulta sencilla. Es
por ello que, en la academia se ha abordado esta problemática con el uso de
técnicas de aprendizaje de máquina.
Tras el análisis del estado del arte actual, se ha identificado que la gran
mayoría de los enfoques propuestos no contemplan el reconocimiento de los
gestos estáticos y los dinámicos en forma simultánea (enfoques híbridos). Es
decir, los enfoques están destinados a reconocer un solo tipo de gestos. Además,
dado el contexto de sistemas HCI reales debe tenerse en cuenta también el costo
computacional y el consumo de recursos de estos enfoques, con lo cual los
enfoques deberían ser livianos. Por otra parte, casi la totalidad de los enfoques
presentes en el estado del arte abordan la problemática ubicando las cámaras
frente a los usuarios (perspectiva de segunda persona) y no desde la perspectiva
de primera persona (FPV, del inglés First-Person View), en la que el usuario posee
un dispositivo colocado sobre sí mismo. Esto puede asociarse con que recién en
los últimos años han surgido dispositivos relativamente ergonómicos (pequeños,
de peso ligero) que permitan considerar una perspectiva FPV viable.
En este contexto, en la presente tesis se propone un enfoque liviano para el
reconocimiento de gestos híbridos con cámaras de profundidad teniendo en
cuenta la perspectiva FPV. El enfoque propuesto consta de 3 grandes
componentes. En primer lugar, el de Adquisición de Datos, en el cual se define el
dispositivo a utilizar y se recopilan las imágenes y la información de profundidad
que es normalizada al rango de valores de 0 a 255 (escala de los canales RGB).
En segundo lugar, el de Preprocesamiento, el cual tiene por objetivo hacer
que dos secuencias de imágenes con variaciones temporales sean comparables.
Para ello, se aplican técnicas de remuestreo y reducción de resolución. Además,
en este componente se computa el flujo óptico determinado por las secuencias
de imágenes a color que se poseen. En particular, se utiliza el flujo óptico como
un nuevo canal de información dadas sus ventajas en lo que respecta a un
análisis espacio-temporal de los videos.
En tercer lugar, con las secuencias muestreadas y con la información de
flujo óptico, se procede al componente Modelo de Aprendizaje Profundo, donde
se aplican técnicas de aprendizaje profundo que permiten abordar las etapas de
extracción de características y de clasificación. Particularmente, se propone una
arquitectura de red convolucional densamente conectada con soporte
multi-modal. Cabe destacar que, la fusión de las modalidades no es en etapa
temprana ni tardía sino dentro del mismo modelo. De esta manera, se obtiene un
modelo end-to-end que obtiene beneficios de los canales de información en
forma separada y también conjunta.
Los experimentos realizados han mostrado resultados muy alentadores
(alcanzando un 90% de exactitud) indicando que la elección de este tipo de
arquitecturas permite obtener una gran eficiencia de parámetros así como
también de tiempos de predicción. Cabe resaltar que, las pruebas son realizadas
sobre un conjunto de datos relevante del área. En base a ello, se analiza el
desempeño de la presente propuesta en relación a diferentes escenarios como
con variación de iluminación o movimiento de cámara, diferentes tipos de gestos,
sensibilidad o sesgo por personas, entre otros.