Initial Progress of Identification of the Appropriate NLP Technique for Content Evaluation in Textual Conversations of People Infected by Sars-Cov-2



Título del documento: Initial Progress of Identification of the Appropriate NLP Technique for Content Evaluation in Textual Conversations of People Infected by Sars-Cov-2
Revista: EASI: Ingeniería y Ciencias Aplicadas en la Industria
Base de datos:
Número de sistema: 000594646
ISSN: 2953-6634
Autores: 1
1
1
2
3
Instituciones: 1Universidad de Guayaquil, Guayaquil, Guayas. Ecuador
2Universidad Estatal de Milagro, Milagro, Guayas. Ecuador
3Escuela Superior Politécnica del Litoral, Guayaquil, Guayas. Ecuador
Año:
Periodo: Jul-Dic
Volumen: 2
Número: 3
Paginación: 5-18
País: Ecuador
Idioma: Inglés
Tipo de documento: Artículo
Resumen en inglés When Covid-19 became a pandemic on March 2020, an urgent need arose for reliable info and advice, so Virtual Assistants were created to help teach the public how to avoid the Alpha variant. But when new variants like Beta, Delta, and Omicron appeared with different symptoms, they caused new waves of infections and deaths. To tackle this, a Natural Language Processing prototype was created to analyze experiences of 4422 people, who had been infected in Ecuador, and to detect which symptoms were most common in their conversations. This study prompted the creation of the NLP prototype, using Python language, the Google Collab platform, two combinations of NLP techniques were considered, measuring results through quality metrics, accuracy, Recall, F1, finding that the most appropriate combination of techniques of the two tested the one that gave the highest effectiveness for a Multi-Label classifier model, including Stop Word, Tokenization, Stemming with LSTM (Long Short-Term Memory) classifier, as a first advance of the study.
Resumen en español El Covid-19 se convirtió en pandemia en el 2020, generando la necesidad urgente de información fiable, se crearon Asistentes Virtuales que enseñasen al público cómo evitarlos en la variante Alfa. Pero nuevas variantes Beta, Delta y micron surgieron con síntomas diferentes, provocando nuevas oleadas de infecciones y muertes. Para hacer frente a esto, se creó un prototipo de Procesamiento del Lenguaje Natural (NLP) que permita analizar las experiencias de 4.422 personas que se infectaron en Ecuador, detectando los síntomas más comunes mencionados en sus conversaciones. Este estudio impulsó la creación del prototipo NLP, empleando lenguaje Python, la plataforma Google Collab, se consideraron dos combinaciones de técnicas NLP, se realizó la medición de resultados mediante métricas de calidad, precisión, Recall, F1, encontrando que la combinación más adecuada de técnicas de las dos probadas la que dio más alta efectividad para un modelo clasificador Multietiqueta, incluyo Stop Word, Tokenización, Stemming con clasificador LSTM (Long Short-Term Memory), como primer avance del estudio.
Disciplinas: Literatura y lingüística,
Ciencias de la computación
Palabras clave: Análisis del discurso,
Procesamiento de datos
Keyword: Discourse analysis,
Data processing
Texto completo: Texto completo (Ver PDF) Texto completo (Ver HTML)