Clasificación y reconocimiento de gestos estáticos de la mano basado en el alfabeto dactilológico de la lengua de señas del Perú aplicando redes profundas bajo características invariantes
Abstract
El reconocimiento de gestos de las manos es un área de investigación muy activa en visión por computador, interacción hombre-computadora (HCI), aprendizaje automático y robótica, principalmente en el lenguaje de señas, ayuda en el proceso de traducción e integración de personas con discapacidad auditiva, así como su enseñanza a la población no auditiva. El presente trabajo está enfocado en clasificar y reconocer los 24 gestos estáticos de la mano basados en el alfabeto dactilológico de la lengua de señas del Perú (LSP), no se hará uso de los gestos dinámicos debido a que el enfoque del trabajo es el uso de las redes profundas para imágenes. Sin embargo, en los últimos años se busca que clasifiquen y reconozcan estos gestos adecuadamente ante invariaciones de escala, rotación y traslación; y sean robustas ante ruido y cambios de iluminación. El objetivo es desarrollar una arquitectura de una Convolutional Neural Network (CNN) y otra de Stacked Denoising Autoencoder (SDAE) para clasificar el conjunto de 24 gestos estáticos de la mano de la LSP obtenidos de la base de datos desarrollada. Para el desarrollo del proyecto de investigación se usó un tipo de investigación explorativa, teórica y aplicativa. Se desarrolló una base de datos basado en el alfabeto dactilológico de la LSP, y se propuso un algoritmo efectivo para detectar la región que contiene el gesto de la mano, el algoritmo incorpora una etapa de pre procesamiento y segmentación. Hoy en día aprendizaje profundo ha dado paso a grandes avances en los últimos años, sobre todo en los campos de reconocimiento de voz e imágenes por lo tanto se hizo uso de redes profundas CNN y SDAE como extractores y clasificadores, además de extraer muy bien las características de una imagen ante invariaciones de escala, traslación y rotación, son capaces de aprender la compleja tarea de clasificación de gestos de las manos con menores tasas de error. Se usó el GPU para acelerar el entrenamiento de las redes profundas y se comparó los resultados de precisión y error obtenido entre las dos arquitecturas de red profunda diseñadas (CNN y SDAE) con técnicas usuales de extracción y clasificación de machine learning. Este proyecto de investigación sirve de ayuda para muchos investigadores dentro de la línea de investigación, como también en el desarrollo de futuros proyectos relacionados al procesamiento digital de imágenes, reconocimiento de gestos de la mano y aprendizaje profundo.
Collections
- Tesis [92]