Speaker Verification in Different Database Scenarios



Título del documento: Speaker Verification in Different Database Scenarios
Revista: Computación y sistemas
Base de datos: PERIÓDICA
Número de sistema: 000352299
ISSN: 1405-5546
Autores: 1
1
1
Instituciones: 1Instituto Tecnológico y de Estudios Superiores de Monterrey, Departamento de Ciencias Computacionales, Monterrey, Nuevo León. México
Año:
Periodo: Jul-Sep
Volumen: 15
Número: 1
Paginación: 17-26
País: México
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Aplicado, descriptivo
Resumen en español Este documento muestra los resultados de nuestro sistema de verificación de hablante bajo dos escenarios: la Evaluación Face and Speaker Verification Evaluation organizada por MOBIO (MObile BIOmetric consortium) y la Evaluación de Reconociemiento de personas 2010 organizada por NIST. La parte central de nuestro esquema se basa en un modelado de Mezclas de Gaussianas (GMM) y máxima verosimilitud. Primero, se extraen los parámetros importantes de la voz calculando los coeficientes ceptrales en escala mel, Mel Frequency Cepstral Coefficients (MFCC). Después, dichos MFFCs entrenan las mezclas de Gaussianas dependientes del género que posteriormente serán adaptadas y se obtendrán los modelos de los usuarios objetivo. Para obtener estadísticas confiables esos modelos objetivo son evaluados por un conjunto de señales no conocidas y se obtienen puntuaciones finales. Por último, esas puntuaciones son etiquetadas como usuario objetivo o impostor. Hemos analizado diferentes configuraciones y encontramos que cada base de datos requiere una sintonización adecuada para mejorar su desempeño. Para la base de datos MOBIO, obtuvimos un porcentaje de error promedio de 16.43 %. Para la base de datos NIST2010, logramos un promedio de error de 16.61%. La base de datos NIST2010 considera varias condiciones. De esas condiciones, la condición de entrevista para entrenamiento y prueba mostró el mejor error con 10.94 %, seguida por la condición de llamada telefónica en entrenamiento y llamada telefónica en prueba con 13.35%
Resumen en inglés This document shows the results of our Speaker Verification System under two scenarios: the Face and Speaker Verification Evaluation organized by MOBIO (MObile BIOmetric consortium) and the results for the Speaker Recognition Evaluation 2010 organized by NIST. The core of our system is based on a Gaussian Mixture Model (GMM) and maximum likelihood (ML) framework. First, it extracts the important speech features by computing the Mel Frequency Cepstral Coefficients (MFCC). Then, the MFCCs train gender–dependent GMMs that are later adapted to obtain target models. To obtain reliable performance statistics those target–models evaluate a set of trials and final scores are calculated. Finally, those scores are tagged as target or impostor. We tried several system configurations and found that each database requires a specific tuning to improve the performance. For the MOBIO database we obtained an average equal error rate (EER) of 16.43 %. For the NIST 2010 database we accomplished an average EER of 16.61%. NIST2010 database considers various conditions. From those conditions, the interview training and testing conditions showed the best EER of 10.94 %, followed by the phone call training phone call testing conditions of 13.35%
Disciplinas: Ciencias de la computación
Palabras clave: Procesamiento de datos,
Reconocimiento de voz,
Autenticación,
Bases de datos
Keyword: Computer science,
Data processing,
Voice recognition,
Authentication,
Databases
Texto completo: Texto completo (Ver HTML)