Revista: | Revista Facultad de Ingeniería. Universidad de Antioquia |
Base de datos: | PERIÓDICA |
Número de sistema: | 000396900 |
ISSN: | 0120-6230 |
Autores: | Orozco Arroyave, Juan Rafael1 Vargas Bonilla, Jesús Francisco1 Vásquez Correa, Juan Camilo1 Castellanos Domínguez, César German3 Nöth, Elmar2 |
Instituciones: | 1Universidad de Antioquia, Facultad de Ingeniería, Medellín, Antioquia. Colombia 2Friedrich-Alexander-Universitat Erlangen-Nurnberg, Pattern Recognition Laboratory, Erlangen, Baviera. Colombia 3Universidad Nacional de Colombia, Facultad de Ingeniería y Arquitectura, Manizales, Caldas. Colombia |
Año: | 2016 |
Periodo: | Sep |
Número: | 80 |
Paginación: | 109-123 |
País: | Colombia |
Idioma: | Inglés |
Tipo de documento: | Artículo |
Enfoque: | Aplicado, descriptivo |
Resumen en español | Este artículo presenta un sistema para la detección automática de señales de voz hipernasales basado en la combinación de dos diferentes esquemas de caracterización aplicados en las cinco vocales del español y dos palabras seleccionadas. El primer esquema está basado en características clásicas como perturbaciones del periodo fundamental, medidas de ruido y coeficientes cepstrales en la frecuencia de Mel. El segundo enfoque está basado en medidas de dinámica no lineal. Las características más relevantes son seleccionadas usando dos técnicas: análisis de componentes principales y selección flotante hacia adelante secuencial. La decisión acerca de si un registro de voz es hipernasal o sano es tomada usando una máquina de soporte vectorial de margen suave. Los experimentos consideran grabaciones de las cinco vocales del idioma español y las palabras y se consideran, asimismo, tres conjuntos de características: (1) el enfoque clásico, (2) el análisis de dinámica no lineal y (3) la combinación de ambos esquemas. En general, los aciertos son mayores y más estables cuando las características clásicas y no lineales son combinadas, indicando que el análisis de dinámica no lineal se complementa con el esquema clásico |
Resumen en inglés | This paper presents a system for the automatic detection of hypernasal speech signals based on the combination of two different characterization approaches applied to the five spanish vowels and two selected words. The first approach is based on classical features such as pitch period perturbations, noise measures, and Mel-Frequency Cepstral Coefficients (MFCC). The second approach is based on the Non-Linear Dynamics (NLD) analysis. The most relevant features are selected and sorted using two techniques: Principal Components Analysis (PCA) and Sequential Forward Floating Selection (SFFS). The decision about whether a voice record is hypernasal or healthy is taken using a Soft Margin - Support Vector Machine (SM-SVM). Experiments upon recordings of the five Spanish vowels and the words are performed considering three different set of features: (1) the classical approach, (2) the NLD analysis, and (3) the combination of the classical and NLD measures. In general, the accuracies are higher and more stable when the classical and NLD features are combined, indicating that the NLD analysis is complementary to the classical approach |
Disciplinas: | Ingeniería, Medicina |
Palabras clave: | Diagnóstico, Foniatría, Voz humana, Hipernasalidad, Niños, Detección automática, Labio y paladar hendido |
Keyword: | Engineering, Medicine, Diagnosis, Phoniatrics, Human voice, Hypernasality, Children, Automatic detection, Cleft lip and palate |
Texto completo: | Texto completo (Ver HTML) |