Revue: | Ciencia da informacao |
Base de datos: | CLASE |
Número de sistema: | 000463091 |
ISSN: | 0100-1965 |
Autores: | Braga, Fabiane dos Reis1 |
Instituciones: | 1Comissao Nacional de Energia Nuclear, Sao Paulo. Brasil |
Año: | 2016 |
Periodo: | Sep-Dic |
Volumen: | 45 |
Número: | 3 |
Paginación: | 175-186 |
País: | Brasil |
Idioma: | Portugués |
Tipo de documento: | Artículo |
Enfoque: | Analítico, descriptivo |
Resumen en español | Se presenta una metodología para la extracción semiautomática de una taxonomía de conceptos, utilizando técnicas de minería de textos, a partir de un corpus textual. La clasificación de textos es una práctica natural del ser humano y una tarea crucial para trabajar con grandes repositorios. La técnica de agrupamiento (clustering) de documentos proporciona una estructura lógica y comprensible que facilita la organización, la navegación y la búsqueda. La mayoría de los algoritmos de agrupación utilizan el modelo de bolsa de palabras para representar un documento. Este modelo genera una alta dimensionalidad de los datos, ignora el hecho de que diferentes palabras pueden tener el mismo significado y no considera la relación entre ellas, presumiendo que las palabras son independientes unas de otras. La metodología propuesta presenta la combinación de un modelo de representación de documentos por conceptos con un método de agrupación jerárquica de documentos basado en la frecuencia de la coocorrencia de los conceptos y una técnica de rotulación más representativa con el objetivo de producir una taxonomía de conceptos que pueda reflejar una estructura del dominio del conocimiento. La metodología fue evaluada en un corpus textual compuesto de documentos científicos relacionados al área nuclear extraídos de la producción científica de la Comisión Nacional de Energía Nuclear (CNEN). Los resultados confirmaron que la minería de textos sirve como una poderosa técnica para administrar conocimiento encapsulado en grandes colecciones de documentos y, de esa forma, apoyar la gestión de las actividades de investigación del área |
Resumen en inglés | Presents a methodology for the semiautomatic extraction of a taxonomy of concepts, using techniques of text mining, from a textual corpus. The classification of texts is a natural practice of the human being and a crucial task to work with large repositories. The document clustering technique provides a logical and understandable structure that facilitates organization, navigation and search. Most clustering algorithms use the word of mouth (bag of words) model to represent a document. This model generates a high dimensionality of the data, ignores the fact that different words can have the same meaning and does not consider the relationship between them, assuming that the words are independent of each other. The proposed methodology presents the combination of a document representation model with a hierarchical document grouping method based on the frequency of co - occurrence of the concepts and a more representative labeling technique with the objective of producing a taxonomy of concepts that may reflect structure of the knowledge domain. The methodology was evaluated in a textual corpus composed of scientific documents related to the nuclear area extracted from the scientific production of the National Commission of Nuclear Energy (CNEN). The results confirmed that text mining serves as a powerful technique for managing encapsulated knowledge in large collections of documents and thus supporting the management of research activities in the area |
Resumen en portugués | Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área |
Disciplinas: | Bibliotecología y ciencia de la información |
Palabras clave: | Análisis y sistematización de la información, Taxonomía, Gestión del conocimiento, Documentos, Dominios |
Texte intégral: | Texto completo (Ver HTML) |