A comparative study between MFCC and LSF coefficients in automatic recognition of isolated digits pronounced in Portuguese and English



Título del documento: A comparative study between MFCC and LSF coefficients in automatic recognition of isolated digits pronounced in Portuguese and English
Revista: Acta scientiarum. Technology
Base de datos: PERIÓDICA
Número de sistema: 000371512
ISSN: 1806-2563
Autors: 1
1
1
Institucions: 1Universidade de Sao Paulo, Instituto de Ciencias Matematicas e de Computacao, Sao Carlos, Sao Paulo. Brasil
Any:
Període: Oct-Dic
Volum: 35
Número: 4
Paginació: 621-628
País: Brasil
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Aplicado, descriptivo
Resumen en inglés Recognition of isolated spoken digits is the core procedure for a large number of applications which rely solely on speech for data exchange, as in telephone-based services, such as dialing, airline reservation, bank transaction and price quotation. Spoken digit recognition is generally a challenging task since the signals last for a short period of time and often some digits are acoustically very similar to other digits. The objective of this paper is to investigate the use of machine learning algorithms for spoken digit recognition and disclose the free availability of a database with digits pronounced in English and Portuguese to the scientific community. Since machine learning algorithms are fully dependent on predictive attributes to build precise classifiers, we believe that the most important task for successfully recognizing spoken digits is feature extraction. In this work, we show that Line Spectral Frequencies (LSF) provide a set of highly predictive coefficients. We evaluated our classifiers in different settings by altering the sampling rate to simulate low quality channels and varying the number of coefficients
Resumen en portugués Reconhecimento de dígitos falados isoladamente é o procedimento fundamental para um grande número de aplicações importantes que dependem somente da fala para troca de dados, como em serviços de telefonia, tais como discagem, reserva de passagens aéreas, transações bancárias e cotações de preço. O reconhecimento é uma tarefa desafiadora visto que os sinais possuem curto período de tempo e muitas vezes alguns dígitos são acusticamente muito semelhantes a outros dígitos. O objetivo deste trabalho é investigar o uso de algoritmos de aprendizado de máquina para reconhecimento de dígitos falados e divulgar para a comunidade científica a livre disponibilidade de um banco de dados com dígitos pronunciados em inglês e português. Uma vez que algoritmos de aprendizado de máquina são totalmente dependentes de atributos preditivos para construir classificadores precisos, acreditamos que a tarefa mais importante para reconhecimento de dígitos falados é a extração de características. Neste trabalho, mostramos que Line Spectral Frequencies (LSF) fornecem um conjunto de coeficientes altamente preditivos. Os classificadores foram avaliados em diferentes configurações alterando a taxa de amostragem para simular canais de baixa qualidade e variando o número de coeficientes
Disciplines Ciencias de la computación
Paraules clau: Procesamiento de datos,
Reconocimiento de lenguaje,
Coeficiente cepstral,
Líneas espectrales
Keyword: Computer science,
Data processing,
Language recognition,
Spectral lines,
Cepstral coefficient
Text complet: Texto completo (Ver PDF)