Reconocimiento del habla mediante el uso de la correlación cruzada y una perceptrón multicapa

Luna Ortega, Carlos A. de; Mora González, Miguel; Martínez Romo, Julio C; Luna Rosas, Francisco J; Muñoz Maciel, Jesús


Título del documento:	Reconocimiento del habla mediante el uso de la correlación cruzada y una perceptrón multicapa
Revista:	Nova scientia
Base de datos:	PERIÓDICA
Número de sistema:	000388478
ISSN:	2007-0705
Autores:	Luna Ortega, Carlos A. de¹ Mora González, Miguel² Martínez Romo, Julio C³ Luna Rosas, Francisco J³ Muñoz Maciel, Jesús²
Instituciones:	¹Universidad Politécnica de Aguascalientes, Ingeniería en Sistemas Estratégicos de Información, Aguascalientes. México ²Universidad de Guadalajara, Centro Universitario de los Lagos, Lagos de Moreno, Jalisco. México ³Instituto Tecnológico de Aguascalientes, Departamento de Ingeniería Eléctrica-Electrónica, Aguascalientes. México
Año:	2014
Periodo:	Oct
Volumen:	6
Número:	12
Paginación:	108-124
País:	México
Idioma:	Español
Tipo de documento:	Artículo
Enfoque:	Experimental, aplicado
Resumen en español	En el presente artículo se da a conocer una alternativa algorítimica a los sistemas actuales de reconocimiento automático del habla (ASR), mediante una propuesta en la forma de realizar la caracterización de las palabras basada en una aproximación que usa la extracción de coeficientes de la codificación de predicción lineal (LPC) y la correlación cruzada. La implementación consiste en extraer las características fonéticas mediante los coeficientes LPC, después se forman vectores de patrones de la pronunciación conformados por el promedio de los coeficientes LPC de las muestras de las palabras obteniendo un vector característico de cada pronunciación mediante la autocorrelación de las secuencias de coeficientes LPC; estos vectores se utilizan para entrenar un clasificador de tipo perceptrón multicapa (MLP). Se realizaron pruebas de desempeño previo entrenamiento con los diferentes patrones de las palabras a reconocer. Se utilizó la fonética de los dígitos del cero al nueve como vocabulario objetivo, debido a su amplia aplicación, y para estimar el desempeño de este método se utilizaron dos corpus de pronunciaciones: el corpus UPA, que contempla en su base de datos la pronuncación de la región occidente de México, y el corpus Tlatoa, que hace lo propio para la región centro de México. Las señales en ambos corpus fueron adquiridas en el lenguaje español, y a una frecuencia de muestreo de 8kHz. Los porcentajes de reconocimiento obtenidos fueron del 96.7 y 93.3% para las modalidades de mono-locutor para el corpus UPA y múltiple-locutor para el corpus Tlatoa, respectivamente. Asimismo, se realizó una comparación contra dos métodos clásicos del reconocimiento de voz y del habla, Dynamic Time Warping (DTW) y Hidden Markov Models (HMM)
Resumen en inglés	It this paper we present an algorithmic alternative to the current Automatic Speech Recognition (ASR) systems by proposing a way to characterize words based on approximations that use an extracted coefficient from Linear Predictive Coding (LPC). The method consists in extracting phonetic characteristics through the use of LPC coefficients, after which pattern vectors are formed from the LPC coefficient averages taken from the word sampling, thus creating a unique vector for each pronunciation through the auto correlation of the LPC coefficient sequences. These vectors are used to train a Multilayer Perceptron (MLP) classifier. After training performance trials were executed. The sounds from the digits zero through nine where used as a target vocabulary, given its general use, and to estimate the performance of this method two corpus where used: the UPA corpus, which in its vocabulary uses a pronunciation familiar to the western part of Mexico, and the Tlatoa corpus, who's vocabulary presents a pronunciation typical of the central region of Mexico. The signals from both corpus where sampled in the Spanish language, and at a sampling frequency of 8kHz. The recognition rate for the mono-speaker from the UPA corpus and the multiple-speaker from the Tlatoa corpus were 96.7% and 93.3% respectively. Additionally, there where comparisons done against two classic methods used for speech recognition, Dynamic Time Warping (DTW) and Hidden Markov Models (HMM)
Disciplinas:	Ciencias de la computación
Palabras clave:	Procesamiento de datos, Reconocimiento de habla, Registros vocales, Correlación cruzada, Perceptrón multicapa, Codificación de predicción lineal, Algoritmos
Keyword:	Computer science, Data processing, Speech recognition, Vocal records, Cross correlation, Multilayer perceptron, Linear predictive coding, Algorithms
Texto completo:	Texto completo (Ver HTML)

Reconocimiento del habla mediante el uso de la correlación cruzada y una perceptrón multicapa

Espere un momento...