Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos



Document title: Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos
Journal: Ciencia da informacao
Database: CLASE
System number: 000463091
ISSN: 0100-1965
Authors: 1
Institutions: 1Comissao Nacional de Energia Nuclear, Sao Paulo. Brasil
Year:
Season: Sep-Dic
Volumen: 45
Number: 3
Pages: 175-186
Country: Brasil
Language: Portugués
Document type: Artículo
Approach: Analítico, descriptivo
Spanish abstract Se presenta una metodología para la extracción semiautomática de una taxonomía de conceptos, utilizando técnicas de minería de textos, a partir de un corpus textual. La clasificación de textos es una práctica natural del ser humano y una tarea crucial para trabajar con grandes repositorios. La técnica de agrupamiento (clustering) de documentos proporciona una estructura lógica y comprensible que facilita la organización, la navegación y la búsqueda. La mayoría de los algoritmos de agrupación utilizan el modelo de bolsa de palabras para representar un documento. Este modelo genera una alta dimensionalidad de los datos, ignora el hecho de que diferentes palabras pueden tener el mismo significado y no considera la relación entre ellas, presumiendo que las palabras son independientes unas de otras. La metodología propuesta presenta la combinación de un modelo de representación de documentos por conceptos con un método de agrupación jerárquica de documentos basado en la frecuencia de la coocorrencia de los conceptos y una técnica de rotulación más representativa con el objetivo de producir una taxonomía de conceptos que pueda reflejar una estructura del dominio del conocimiento. La metodología fue evaluada en un corpus textual compuesto de documentos científicos relacionados al área nuclear extraídos de la producción científica de la Comisión Nacional de Energía Nuclear (CNEN). Los resultados confirmaron que la minería de textos sirve como una poderosa técnica para administrar conocimiento encapsulado en grandes colecciones de documentos y, de esa forma, apoyar la gestión de las actividades de investigación del área
English abstract Presents a methodology for the semiautomatic extraction of a taxonomy of concepts, using techniques of text mining, from a textual corpus. The classification of texts is a natural practice of the human being and a crucial task to work with large repositories. The document clustering technique provides a logical and understandable structure that facilitates organization, navigation and search. Most clustering algorithms use the word of mouth (bag of words) model to represent a document. This model generates a high dimensionality of the data, ignores the fact that different words can have the same meaning and does not consider the relationship between them, assuming that the words are independent of each other. The proposed methodology presents the combination of a document representation model with a hierarchical document grouping method based on the frequency of co - occurrence of the concepts and a more representative labeling technique with the objective of producing a taxonomy of concepts that may reflect structure of the knowledge domain. The methodology was evaluated in a textual corpus composed of scientific documents related to the nuclear area extracted from the scientific production of the National Commission of Nuclear Energy (CNEN). The results confirmed that text mining serves as a powerful technique for managing encapsulated knowledge in large collections of documents and thus supporting the management of research activities in the area
Portuguese abstract Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área
Disciplines: Bibliotecología y ciencia de la información
Keyword: Análisis y sistematización de la información,
Taxonomía,
Gestión del conocimiento,
Documentos,
Dominios
Full text: Texto completo (Ver HTML)