Identificación de locutor usando codebooks de coeficientes cepstrales en las frecuencias de Mel y modelos ocultos de Markov

Auccapuma Gamarra, Jhon Dennis; Mamani Condori, Errol Wilderd

Ver/

253T20160079.pdf (71.15Kb)

Fecha

2016

Autor

Auccapuma Gamarra, Jhon Dennis

Mamani Condori, Errol Wilderd

Metadatos

Mostrar el registro completo del ítem

Resumen

El habla es un tipo de señal complicada producto del resultado de una serie de trans¬formaciones ocurridas en diferentes niveles: semántica, lingüística y acústica. Estas trans¬formaciones conducen a diferencias en las características de un individuo ampliamente estudiadas por la Biometría. La identificación de locutor (identificar quién es la persona que emitió la voz) en síntesis, es un análisis detallado de las características del habla de cada individuo basado en puntuaciones. En este contexto este proyecto se centró en la identificación de locutor mediante Coeficientes Cepstrales en las Frecuencias Mel o Mel Frequency Cepstral Cofficients (MPCC) y Modelos Ocultos de Markov o Hidden Markov Model (HMM). Iniciando el procesamiento de voz, para obtener las características más importantes de un individuo se utilizó Coeficientes Cepstrales en las Frecuencias Mel , debido a que en la actualidad otorgan los mejores resultarlos en el análisis Cepstral según el estado de arte, posteriormente; se hiso uso de la cuantificación vectorial o Vector quan- tization (VQ) que por medio del algoritmo de clasificación K-means ,divide el conjunto de vectores característicos en un número determinado de vectores representativos, los cuales mejoran sustancialmente el tiempo de procesamiento. Para el modelamiento de los de vectores representativos se hiso uso de los Modelos Ocultos de Markov; los HMMs son en¬trenados para generar el modelo oculto del locutor el cual estará formado por la secuencia de observaciones (símbolos de observación) y la secuencia de estados, para luego encontrar la secuencia de estados con mayor probabilidad, la identidad de un locutor se determi¬na mediante el modelo que obtenga la máxima probabilidad (puntuación) determinado por el algoritmo de Viterbi. Adicionalmente se estimaron los parámetros de los módulos de pre procesamiento, extracción de características, pos procesamiento v el cuantificador vectorial basado en codebooks; para sugerir el tamaño de codebook más adecuado y los parámetros con los que se obtenga buenos resultados en la identificación de un locutor ;para cada módulo se describió la teoría y la implementación del código fuente en Java. Finalmente, nuestros resultados experimentales muestran los parámetros con los que se obtienen buenos resultados teniendo un 90% de aceptación para un grupo reducido y cerrado de 5 personas en condiciones reales (con ruido de fondo), con una tendencia de decrecimiento a medida que aumenta el número de población y una mayor efectividad en condiciones ideales (ambiente cerrado y sin ruido de fondo).

URI

http://hdl.handle.net/20.500.12918/2466

Colecciones

Tesis [114]

Excepto si se señala otra cosa, la licencia del ítem se describe como info:eu-repo/semantics/closedAccess