Framework genérico para geração automática de assuntos e indexação em repositório digital



Título del documento: Framework genérico para geração automática de assuntos e indexação em repositório digital
Revista: Perspectivas em ciencia da informacao
Base de datos:
Número de sistema: 000567325
ISSN: 1413-9936
Autors: 1
1
Institucions: 1Universidade de Brasília, Brasília, Distrito Federal. Brasil
Any:
Volum: 28
País: Brasil
Idioma: Portugués
Tipo de documento: Artículo
Resumen en portugués Este estudo tem por objetivo apresentar um framework genérico para geração automática de assuntos, utilizando técnicas de aprendizagem de máquina na ferramenta Annif. Posteriormente, executar a indexação de dados e metadados em repositório digital, propiciando a recuperação de registros através de busca facetada. Para alcance desse objetivo, aplicou-se o framework na área da Ciência da Informação, construindo um corpus de conhecimento, baseado em metadados de 438 artigos da Base Brasileira de Ciência da Informação (BRAPCI). Utilizou-se o Tesauro Brasileiro de Ciência da Informação (TBCI) como vocabulário controlado. Empregou-se a aplicação “coletor” desenvolvida em phyton para baixar metadados e arquivos completos de Dissertações e Teses de coleções existentes no Repositório Institucional da Universidade de Brasília (RiUnB). Após o processo de treinamento do modelo com Annif, foram executadas geração automática de assuntos e indexados em repositório digital Tainacan. Nesse repositório, foram criadas taxonomias baseadas no vocabulário controlado elaborado. Ao final, foi possível parametrizar buscas facetadas com possibilidade de o usuário inserir etiquetagem e ao mesmo tempo realizar navegação web, selecionando os termos da taxonomia facetada. Conclui-se que o framework genérico proposto pode ser aplicado em qualquer área de conhecimento, auxiliando na geração automática de assuntos, indexação em repositório digital e parametrização de taxonomias facetadas para recuperação da informação.
Resumen en inglés This study aims to present a generic framework for automatic subject generation, using machine learning techniques in the Annif tool. Subsequently, perform the indexing of data and metadata in a digital repository, providing the recovery of records through faceted search. To achieve this objective, the framework was applied in the area of Information Science, building a corpus of knowledge, based on metadata of 438 articles from the Base Brasileira de Ciência da Informação (BRAPCI). The Tesauro Brasileiro de Ciência da Informação (TBCI) was used as controlled vocabulary. The “collector” application developed in Phyton was used to download metadata and complete files of Dissertations and Theses from existing collections in the Institutional Repositório Institucional da Universidade de Brasília (RiUnB). After the model training process with Annif, subjects were automatically generated and indexed in the Tainacan digital repository. In this repository, taxonomies were created based on the elaborated controlled vocabulary. In the end, it was possible to parameterize faceted searches with the possibility for the user to insert labeling and at the same time perform web browsing, selecting the terms of the faceted taxonomy. It is concluded that the proposed generic framework can be applied in any area of knowledge, helping in the automatic generation of subjects, indexing in a digital repository and parameterization of faceted taxonomies for information retrieval.
Disciplines Bibliotecología y ciencia de la información
Paraules clau: Análisis y sistematización de la información
Keyword: Automatic Subject Generation,
Indexing,
Collections,
Digital Repository,
Faceted Search,
Information analysis
Text complet: Texto completo (Ver PDF) Texto completo (Ver HTML)