Etiquetado fonético automático al nivel palabra usando la dinámica de cambio de los vectores del libro código

Suárez Guerra, Sergio; Oropeza Rodríguez, José Luis


Título del documento:	Etiquetado fonético automático al nivel palabra usando la dinámica de cambio de los vectores del libro código
Revista:	Computación y sistemas
Base de datos:
Número de sistema:	000560493
ISSN:	1405-5546
Autores:	Suárez Guerra, Sergio¹ Oropeza Rodríguez, José Luis¹
Instituciones:	¹Instituto Politécnico Nacional, Centro de Investigación en Computación, Ciudad de México. México
Año:	2020
Periodo:	Abr-Jun
Volumen:	24
Número:	2
Paginación:	861-874
País:	México
Idioma:	Español
Tipo de documento:	Artículo
Resumen en español	Se describe una solución alternativa referente al etiquetado fonético que componen un conjunto de palabras de pronunciadas por un locutor, susceptible de utilizarse en cualquier idioma, según sean las necesidades y características asociadas a la propuesta. El procedimiento se basa en el seguimiento de la dinámica de cambio de los vectores cepstrales asociados a la frecuencia de Mel (MFCCs) que conforman el Libro Código (LC), extraído de la palabra a etiquetar. Esta dinámica de cambio analiza dónde ocurre una transición de un vector (MFCC) del LC a otro, así como las perturbaciones que ocurren en la zona de cambio debido a la concatenación fonética. Se establecen métricas para considerar el ruido de coarticulación y definir la ubicación de la frontera de separación fonética. Se usan dos métodos para evaluar la dinámica de cambio de los vectores y entregar el etiquetado más acertado. El porciento de reconocimiento y etiquetado correcto obtenido con esta aplicación es del 97.9%, inferior en un 1.06%, con respecto al porcentaje de reconocimiento obtenido sobre el mismo corpus de palabras, pero haciendo uso de un etiquetado manual. Lo más impórtate es que, el tiempo utilizado en el etiquetado del corpus de voz de forma automática, es significativamente menor que el estimado de hacerse manualmente, además de eliminar la subjetividad personal en el trabajo de etiquetado.
Resumen en inglés	An alternative solution is described regarding the phonetic labeling that compose a set of pronounced by an announcer, susceptible of being used in any language, according to the needs and characteristics associated with the proposal. The procedure is based on the monitoring of the dynamics of change of the cepstral vectors associated with the frequency of Mel (MFCCs) that make up the Book Code (LC), extracted from the word to be labeled. This dynamics of change analyzes where a transition from one vector (MFCC) of the LC occurs to another, as well as the disturbances that occur in the zone of change due to the phonetic concatenation. Metrics are established to consider coarticulation noise and define the location of the phonetic separation boundary. Two methods are used to evaluate the dynamics of vector change and deliver the most accurate labeling. The percentage of recognition and correct labeling obtained with this application is 97.9% lower by 1.06%, with respect to the percentage of recognition obtained on the same corpus of words, but using manual labeling. The more important are that, the time used in the labeling of the voice corpus automatically is significantly less than the estimate of being done manually, in addition to eliminating personal subjectivity in the labeling work.
Disciplinas:	Ciencias de la computación
Palabras clave:	Etiquetado fonético, Reconocimiento de voz, Inteligencia artificial
Keyword:	Phonetic labeling, Voice recognition, Artificial intelligence
Texto completo:	Texto completo (Ver HTML) Texto completo (Ver PDF)

Etiquetado fonético automático al nivel palabra usando la dinámica de cambio de los vectores del libro código

Espere un momento...