Algoritmo para el análisis temático de documentos digitales



Document title: Algoritmo para el análisis temático de documentos digitales
Journal: Investigación bibliotecológica
Database: CLASE
System number: 000519814
ISSN: 0187-358X
Authors: 1
1
Institutions: 1Escuela Nacional de Biblioteconomía y Archivonomía, Ciudad de México. México
Year:
Season: Oct-Dic
Volumen: 35
Number: 89
Country: México
Language: Español
Document type: Artículo
Approach: Analítico, descriptivo
Spanish abstract El objetivo del artículo es presentar un algoritmo para asignar áreas temáticas a documentos digitales que sirva como herramienta de apoyo al análisis temático dentro de la organización de la información, con el fin de ser implementado en el desarrollo de vocabularios controlados. La metodología utilizada consistió en aplicar el Reconocimiento Óptico de Caracteres (ROC) y la Asignación Latente de Dirichlet (ALD) como las principales herramientas para el desarrollo de un algoritmo basado en el lenguaje de programación Python, que permite la lectura de archivos con extensión PDF para la obtención de los principales temas del corpus textual. Los resultados de la aplicación del algoritmo demuestran su utilidad en el área de la indización como un sistema para identificar y extraer temas relevantes de un documento específico en formato electrónico, permitiendo la automatización de procesos por parte del profesional de la información. De esta forma, se concluye su uso como desarrollo de puntos de acceso alternativos en función del contenido de los textos
English abstract The objective of the article is to present an algorithm for assigning subject areas to digital documents which serve as a support tool for thematic analysis within the organization of information, in order to be implemented in development of controlled vocabularies. The methodology used consisted in applying Optical Character Recognition (OCR) and Latent Dirichlet Allocation (LDA) as main tools for developing an algorithm based on Python programming language,which allows reading of files with a PDF extension in order to obtain the main themes of textual corpus. Results of the algorithm’s application demonstrate its usefulness in the area of indexing as a system for identifying and extracting relevant topics from a specific document in electronic format, and allow automation of processes by the information professional. This way, its use as a development of alternative points of access based on the content of texts is concluded
Disciplines: Bibliotecología y ciencia de la información
Keyword: Tecnología de la información,
Análisis y sistematización de la información,
Algoritmos,
Análisis temático,
Documentos digitales
Keyword: Information technology,
Information analysis,
Algorithms,
Thematic analysis,
Digital documents
Full text: Texto completo (Ver HTML) Texto completo (Ver PDF)