Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda

Aimituma Suyo, Franklin; Churata Urtado, Ruth Mery

dc.contributor.advisor	Carbajal Luna, Julio Cesar
dc.contributor.author	Aimituma Suyo, Franklin
dc.contributor.author	Churata Urtado, Ruth Mery
dc.date.accessioned	2019-08-07T13:10:10Z
dc.date.available	2019-08-07T13:10:10Z
dc.date.issued	2019
dc.identifier.other	253T20190384
dc.identifier.other	IN/010/2019
dc.identifier.uri	http://hdl.handle.net/20.500.12918/4321
dc.description.abstract	El conjunto de variaciones en la pronunciación (acentos, velocidad, entonación) que son consecuencia de las variaciones en género, edad y localidad de los locutores, afectan en gran medida en la precisión de un conversor de voz a texto. Es por ello que, en esta tesis se describe la construcción de un conversor de voz a texto de habla continua con un gran vocabulario (LVCSR-Large Vocabulary continuos Speech Recognition) e independiente del locutor, para el idioma Quechua en su variación dialéctica Cusco-Qollao, basado en la herramienta Kaldi y la arquitectura de una Red Neuronal Profunda como clasificador de fonemas dentro del modelo acústico, para lo cual fue necesario la construcción del corpus de voz balanceada en género, a partir de grabaciones hechas a frases inmersas en distintos fuentes textuales, llegando a obtener un total de 18 horas de audio en Quechua. De igual forma, se realizó la construcción de los distintos recursos de voz (Diccionario fonético, fonemas y grandes colecciones de texto) necesarios para la construcción del modelo acústico y de lenguaje. Una vez construido todos los recursos de voz, se continua con el proceso de entrenamiento del modelo acústico basado en un modelo de Red Neuronal Profunda y el modelo Oculto de Markov (Deep Neural Network (DNN)-Hidden Markov Model (HMM)), del mismo modo, el modelo de lenguaje es basado en un modelo de 3-grams. Finalmente, una vez concluido el proceso de entrenamiento, se realiza el proceso de prueba o reconocimiento basado en un conjunto de experimentos con el fin de obtener valores óptimos para los parámetros de la arquitectura DNN, es así que se llegó a obtener una precisión de 59.20%, con la tasa de aprendizaje igual a 0.002, numero de nodos internos igual a 512 y el número de capas internas igual a 3 como parte de los parámetros de la arquitectura DNN dentro del modelo acústico, lo cual es bastante aceptable en comparación a investigaciones con una cantidad de recursos de voz similares.	es_PE
dc.description.uri	Tesis
dc.format	application/pdf	en_US
dc.language.iso	spa	es_PE
dc.publisher	Universidad Nacional de San Antonio Abad del Cusco	es_PE
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/2.5/pe/	*
dc.source	Universidad Nacional de San Antonio Abad del Cusco	es_PE
dc.source	Repositorio Institucional - UNSAAC	es_PE
dc.subject	Modelo de lenguaje	es_PE
dc.subject	Redes neuronales profundas	es_PE
dc.subject	Decodificador Kaldi	es_PE
dc.subject	Corpus de voz	es_PE
dc.subject	Sistema ASR	es_PE
dc.title	Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda	es_PE
dc.type	info:eu-repo/semantics/bachelorThesis
thesis.degree.name	Ingeniero Informático y de Sistemas
thesis.degree.grantor	Universidad Nacional de San Antonio Abad del Cusco. Facultad de Ingeniería Eléctrica, Electrónica, Informática y Mecánica
thesis.degree.level	Título profesional
thesis.degree.discipline	Ingeniería Informática y de Sistemas
dc.subject.ocde	http://purl.org/pe-repo/ocde/ford#2.02.04
renati.author.dni	73077306
renati.author.dni	73195945
renati.advisor.orcid	https://orcid.org/0000-0003-2629-250X
renati.advisor.dni	23903765
renati.type	http://purl.org/pe-repo/renati/type#tesis
renati.level	http://purl.org/pe-repo/renati/nivel#tituloProfesional
renati.discipline	612296
dc.publisher.country	PE

Ficheros en el ítem

Nombre:: 253T20190384_TC.pdf
Tamaño:: 925.8Kb
Formato:: PDF

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

Tesis [114]

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como info:eu-repo/semantics/openAccess