Avaliação do desempenho de um software de sumarização automática de textos

Tabosa, Hamilton Rodrigues; Souza, Osvaldo de; Candido, Jose Carlos dos Santos; Melo, Ana Cristina Azevedo Ursulino; Reis, Keila Giullianna Braga


Document title:	Avaliação do desempenho de um software de sumarização automática de textos
Journal:	Informacao & informacao
Database:	CLASE
System number:	000494780
ISSN:	1981-8920
Authors:	Tabosa, Hamilton Rodrigues¹ Souza, Osvaldo de¹ Candido, Jose Carlos dos Santos¹ Melo, Ana Cristina Azevedo Ursulino¹ Reis, Keila Giullianna Braga¹
Institutions:	¹Universidade Federal do Ceara, Departamento de Ciencia da Informacao, Fortaleza, Ceara. Brasil
Year:	2020
Season:	Ene-Abr
Volumen:	25
Number:	1
Pages:	189-210
Country:	Brasil
Language:	Portugués
Document type:	Artículo
Approach:	Analítico, descriptivo
Spanish abstract	Introduccion: Desde 2014 desarrollamos una investigación con el fin de producir un software (prototipo) que sería capaz de elaborar resúmenes automáticos de textos basados en técnicas de Procesamiento de Lenguaje Natural y estadísticas de frecuencia de palabras. Las primeras pruebas empíricas de la herramienta generaron resultados que indicaron una significativa reducción de la dimensionalidad de los textos, con considerable preservación de su valor semántico. Objetivos: En este artículo, presentamos los resultados de la continuidad de nuestro trabajo investigativo, a partir de una evaluación humana de la calidad de esos resúmenes a partir de la realización de pruebas ciegos. Metodología: Un grupo de tres bibliotecarios recibió un bloque mixto y no identificado de resúmenes - producidos por humanos y los resúmenes automáticos hechos por el software - y procedió a una evaluación, según los criterios de corrección gramatical, preservación de las ideas centrales, coherencia y legibilidad, en resumen, si hubo paráfrasis o copia de fragmentos y, si hubo introducción de ideas no contenidas en el texto original. Resultados: Los resultados mostraron que en cuatro de los cinco criterios de evaluación adoptados, hubo equivalencia cualitativa entre los resúmenes producidos por humanos y los producidos por el software, lo que parece representar un relativo éxito, ya que el prototipo podría sustituir a una persona en la actividad de resumir los textos sin dejar a desear, a no ser en el quinto creatorio de evaluación, referente al tamaño del resumen, en que el texto producido por el software fue señalado como extenso más allá de lo necesario. Conclusiones: a pesar de los buenos resultados del prototipo, nos dimos cuenta de la necesidad de mejorar su rendimiento, además de evaluarlo con métodos más completos, de muestras más representativas y de un grupo más grande de evalua
English abstract	Intrudoction: Since 2014 we have developed a research to produce a software (prototype) that would be able to elaborate automatic summaries of texts based on techniques of Natural Language Processing and frequency statistics of words. The first empirical tests of the tool generated results that indicated a significant reduction of the dimensionality of the texts, with considerable preservation of their semantic value. Objective: In this article, we present the results of the continuity of our investigative work, based on a human evaluation of the quality of these abstracts from blind tests. Metodology: A group of three librarians received a mixed and unidentified block of abstracts - produced by humans and the automatic abstracts made by the software - and carried out an evaluation, according to the criteria of grammatical correctness, preservation of central ideas, coherence and readability, extension of abstract, whether there was paraphrase or copy of fragments, and if there was introduction of ideas not contained in the original text. Results: The results showed that in four of the five evaluation criteria adopted, there was a qualitative equivalence between the abstracts produced by humans and those produced by the software, which seems to represent a relative success since the prototype could replace a person in the resume activity texts without leaving anything to be desired, except in the fifth evaluation center, referring to the dimension of the abstract, in which the text produced by the software was pointed out as extensive beyond what was necessary. Conclusions: Despite the good results of the prototype, we realized the need for improvements in its performance, as well as to evaluate it by more comprehensive methods, from more representative samples and by a larger group of evaluators
Portuguese abstract	Introdução: Desde 2014 desenvolvemos uma pesquisa com o intuito de produzir um software (protótipo) que seria capaz de elaborar resumos automáticos de textos baseado em técnicas de Processamento de Linguagem Natural e estatísticas de frequência de palavras. Os primeiros testes da ferramenta geraram resultados que indicaram uma significativa redução da dimensionalidade dos textos, com considerável preservação do seu valor semântico. Objetivo: Neste artigo, apresentamos os resultados da continuidade do nosso trabalho investigativo, a partir de uma avaliação humana da qualidade desses resumos baseada na realização de testes cegos. Metodologia: Um grupo de três bibliotecárias recebeu um bloco misto e não identificado de resumos - produzidos por humanos e os resumos automáticos feitos pelo software - e procedeu a uma avaliação, segundo os critérios de corretude gramatical, preservação das ideias centrais, coerência e legibilidade, extensão do resumo, se houve paráfrase ou cópia de fragmentos e, se houve introdução de ideias não contidas no texto original. Resultados: Os resultados mostraram que em quatro, dos cinco critérios de avaliação adotados, houve equivalência qualitativa entre os resumos produzidos por humanos e os produzidos pelo software, o que parece representar um relativo sucesso, uma vez que o protótipo poderia substituir uma pessoa na atividade de resumir textos sem deixar a desejar, a não ser no quinto critério de avaliação, referente à dimensão do resumo, em que o texto produzido pelo software foi apontado como extenso além do necessário. Conclusões: Apesar dos bons resultados do protótipo, percebemos a necessidade de melhorias em seu desempenho, além de avaliá-lo por métodos mais abrangentes, a partir de amostras mais representativas e por um grupo maior de avaliadores
Disciplines:	Bibliotecología y ciencia de la información
Keyword:	Tecnología de la información, Procesamiento del lenguaje natural (PLN), Textos, Resúmenes documentales, Automatización, Acceso a la información, Mediación de la información
Full text:	http://www.uel.br/revistas/uel/index.php/informacao/article/view/35928

Avaliação do desempenho de um software de sumarização automática de textos

Wait a moment...