Wavelet packet transform and multilayer perceptron to identify voices with a mild degree of vocal deviation



Document title: Wavelet packet transform and multilayer perceptron to identify voices with a mild degree of vocal deviation
Journal: Revista de investigación e innovación en ciencias de la salud
Database: PERIÓDICA
System number: 000447775
ISSN: 2665-2056
Authors: 1
2
1
Institutions: 1Universidade Tecnologica Federal do Parana, Departamento de Engenharia Eletrica, Cornelio Procopio, Parana. Brasil
2Universidade de Sao Paulo, Departamento de Sistemas de Computacao, Sao Paulo. Brasil
Year:
Volumen: 4
Number: 1
Country: Colombia
Language: Inglés
Document type: Artículo
Approach: Aplicado, descriptivo
Spanish abstract Introducción. Los trastornos laríngeos se caracterizan por un cambio en el patrón vibratorio de los pliegues vocales. Este trastorno puede tener un origen orgánico, descrito como la modificación anatómica de los pliegues vocales, o de origen funcional, provocado por abuso o mal uso de la voz. Los métodos de diagnóstico más comunes se realizan mediante procedimientos invasivos que causan malestar al paciente. Además, los desvíos vocales de grado leve no impiden que el individuo utilice la voz, lo que dificulta la identificación del problema y aumenta la posibilidad de complicaciones futuras.Objetivo. Por esas razones, el objetivo de esta investigación es desarrollar una herramienta alternativa, no invasiva para la identificación de voces con grado leve de desvío vocal aplicando Transformada Wavelet Packet (WPT) y la red neuronal artificial del tipo Perceptrón Mutlicapa (PMC).Métodos. Fue utilizado un banco de datos con 78 voces. Fueron extraídas las medidas de energía y entropía de Shannon usando las familias Daubechies 2 y Symlet 2 para después aplicar la red neuronal PMC.Resultados. La familia Symlet 2 fue más eficiente en su generalización, obteniendo un 99.75% y un 99.56% de precisión mediante el uso de medidas de energía y entropía de Shannon, respectivamente. La familia Daubechies 2, sin embargo, obtuvo menores índices de precisión: 91.17% y 70.01%, respectivamente.Conclusión. La combinación de WPT y PMC presentó alta precisión para la identificación de voces con grado leve de desvío vocal
English abstract Introduction. Laryngeal disorders are characterized by a change in the vibratory pattern of the vocal folds. This disorder may have an organic origin described by anatomical fold modification, or a functional origin caused by vocal abuse or misuse. The most common diagnostic methods are performed by invasive imaging features that cause patient discomfort. In addition, mild voice deviations do not stop the individual from using their voices, which makes it difficult to identify the problem and increases the possibility of complications.Aim. For those reasons, the goal of the present paper was to develop a noninvasive alternative for the identification of voices with a mild degree of vocal deviation applying the Wavelet Packet Transform (WPT) and Multilayer Perceptron (MLP), an Artificial Neural Network (ANN).Methods. A dataset of 74 audio files were used. Shannon energy and entropy measures were extracted using the Daubechies 2 and Symlet 2 families and then the processing step was performed with the MLP ANN.Results. The Symlet 2 family was more efficient in its generalization, obtaining 99.75% and 99.56% accuracy by using Shannon energy and entropy measures, respectively. The Daubechies 2 family, however, obtained lower accuracy rates: 91.17% and 70.01%, respectively.Conclusion. The combination of WPT and MLP presented high accuracy for the identification of voices with a mild degree of vocal deviation
Disciplines: Medicina,
Ciencias de la computación
Keyword: Diagnóstico,
Foniatría,
Trastornos de la voz,
Disfonía,
Cuerdas vocales,
Reconocimiento de voz,
Transformada Wavelet,
Redes neuronales artificiales
Keyword: Diagnosis,
Phoniatrics,
Voice disorders,
Dysphonia,
Vocal cords,
Voice recognition,
Wavelet transform,
Artificial neural networks
Full text: Texto completo (Ver PDF)