Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos



Título del documento: Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos
Revue: Ciencia da informacao
Base de datos: CLASE
Número de sistema: 000463091
ISSN: 0100-1965
Autores: 1
Instituciones: 1Comissao Nacional de Energia Nuclear, Sao Paulo. Brasil
Año:
Periodo: Sep-Dic
Volumen: 45
Número: 3
Paginación: 175-186
País: Brasil
Idioma: Portugués
Tipo de documento: Artículo
Enfoque: Analítico, descriptivo
Resumen en español Se presenta una metodología para la extracción semiautomática de una taxonomía de conceptos, utilizando técnicas de minería de textos, a partir de un corpus textual. La clasificación de textos es una práctica natural del ser humano y una tarea crucial para trabajar con grandes repositorios. La técnica de agrupamiento (clustering) de documentos proporciona una estructura lógica y comprensible que facilita la organización, la navegación y la búsqueda. La mayoría de los algoritmos de agrupación utilizan el modelo de bolsa de palabras para representar un documento. Este modelo genera una alta dimensionalidad de los datos, ignora el hecho de que diferentes palabras pueden tener el mismo significado y no considera la relación entre ellas, presumiendo que las palabras son independientes unas de otras. La metodología propuesta presenta la combinación de un modelo de representación de documentos por conceptos con un método de agrupación jerárquica de documentos basado en la frecuencia de la coocorrencia de los conceptos y una técnica de rotulación más representativa con el objetivo de producir una taxonomía de conceptos que pueda reflejar una estructura del dominio del conocimiento. La metodología fue evaluada en un corpus textual compuesto de documentos científicos relacionados al área nuclear extraídos de la producción científica de la Comisión Nacional de Energía Nuclear (CNEN). Los resultados confirmaron que la minería de textos sirve como una poderosa técnica para administrar conocimiento encapsulado en grandes colecciones de documentos y, de esa forma, apoyar la gestión de las actividades de investigación del área
Resumen en inglés Presents a methodology for the semiautomatic extraction of a taxonomy of concepts, using techniques of text mining, from a textual corpus. The classification of texts is a natural practice of the human being and a crucial task to work with large repositories. The document clustering technique provides a logical and understandable structure that facilitates organization, navigation and search. Most clustering algorithms use the word of mouth (bag of words) model to represent a document. This model generates a high dimensionality of the data, ignores the fact that different words can have the same meaning and does not consider the relationship between them, assuming that the words are independent of each other. The proposed methodology presents the combination of a document representation model with a hierarchical document grouping method based on the frequency of co - occurrence of the concepts and a more representative labeling technique with the objective of producing a taxonomy of concepts that may reflect structure of the knowledge domain. The methodology was evaluated in a textual corpus composed of scientific documents related to the nuclear area extracted from the scientific production of the National Commission of Nuclear Energy (CNEN). The results confirmed that text mining serves as a powerful technique for managing encapsulated knowledge in large collections of documents and thus supporting the management of research activities in the area
Resumen en portugués Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área
Disciplinas: Bibliotecología y ciencia de la información
Palabras clave: Análisis y sistematización de la información,
Taxonomía,
Gestión del conocimiento,
Documentos,
Dominios
Texte intégral: Texto completo (Ver HTML)