Algoritmo para el análisis temático de documentos digitales



Título del documento: Algoritmo para el análisis temático de documentos digitales
Revista: Investigación bibliotecológica
Base de datos: CLASE
Número de sistema: 000519814
ISSN: 0187-358X
Autores: 1
1
Instituciones: 1Escuela Nacional de Biblioteconomía y Archivonomía, Ciudad de México. México
Año:
Periodo: Oct-Dic
Volumen: 35
Número: 89
País: México
Idioma: Español
Tipo de documento: Artículo
Enfoque: Analítico, descriptivo
Resumen en español El objetivo del artículo es presentar un algoritmo para asignar áreas temáticas a documentos digitales que sirva como herramienta de apoyo al análisis temático dentro de la organización de la información, con el fin de ser implementado en el desarrollo de vocabularios controlados. La metodología utilizada consistió en aplicar el Reconocimiento Óptico de Caracteres (ROC) y la Asignación Latente de Dirichlet (ALD) como las principales herramientas para el desarrollo de un algoritmo basado en el lenguaje de programación Python, que permite la lectura de archivos con extensión PDF para la obtención de los principales temas del corpus textual. Los resultados de la aplicación del algoritmo demuestran su utilidad en el área de la indización como un sistema para identificar y extraer temas relevantes de un documento específico en formato electrónico, permitiendo la automatización de procesos por parte del profesional de la información. De esta forma, se concluye su uso como desarrollo de puntos de acceso alternativos en función del contenido de los textos
Resumen en inglés The objective of the article is to present an algorithm for assigning subject areas to digital documents which serve as a support tool for thematic analysis within the organization of information, in order to be implemented in development of controlled vocabularies. The methodology used consisted in applying Optical Character Recognition (OCR) and Latent Dirichlet Allocation (LDA) as main tools for developing an algorithm based on Python programming language,which allows reading of files with a PDF extension in order to obtain the main themes of textual corpus. Results of the algorithm’s application demonstrate its usefulness in the area of indexing as a system for identifying and extracting relevant topics from a specific document in electronic format, and allow automation of processes by the information professional. This way, its use as a development of alternative points of access based on the content of texts is concluded
Disciplinas: Bibliotecología y ciencia de la información
Palabras clave: Tecnología de la información,
Análisis y sistematización de la información,
Algoritmos,
Análisis temático,
Documentos digitales
Keyword: Information technology,
Information analysis,
Algorithms,
Thematic analysis,
Digital documents
Texto completo: Texto completo (Ver HTML) Texto completo (Ver PDF)