Extracción de información de documentos PDF para su uso en la indización automática de e-books



Título del documento: Extracción de información de documentos PDF para su uso en la indización automática de e-books
Revue: Transinformacao
Base de datos: CLASE
Número de sistema: 000526503
ISSN: 0103-3786
Autores: 1
2
3
2
Instituciones: 1Universidad de Murcia, Facultad de Comunicación y Documentación, Murcia. España
2Universidade Estadual Paulista "Julio de Mesquita Filho", Faculdade de Filosofia e Ciencias, Marilia, Sao Paulo. Brasil
3Universidade Federal do Para, Faculdade de Biblioteconomia, Belem, Para. Brasil
Año:
Volumen: 34
País: Brasil
Idioma: Español
Tipo de documento: Artículo
Enfoque: Analítico, descriptivo
Resumen en español El número de libros electrónicos que ingresan en las bibliotecas en formato PDF cada día es mayor, complicando y haciendo casi inviables algunos procesos realizados tradicionalmente de forma manual por los bibliotecarios, como es la asignación de materias. En este contexto, se hace necesario el diseño y desarrollo de aplicaciones que asistan a los bibliotecarios. Teniendo esto en consideración, presentamos en este trabajo la evaluación de herramientas de extracción de información de libros en PDF que podrían usarse posteriormente como materia prima para un sistema de indización automática. Para ello, realizamos una primera evaluación de cinco softwares (PDFMiner.six, PDFAct, PDF-extract, PDFExtract y Grobib) y, posteriormente, como PDFAct consiguió el mejor rendimiento, hicimos una segunda evaluación para averiguar su capacidad para identificar y extraer informaciones de los libros, tales como títulos, índices, secciones, títulos de tablas y gráficos y referencias bibliográficas, informaciones relevantes para cualquier sistema de indización. Se concluye que ninguna de las herramientas evaluadas extrae adecuadamente las diferentes partes de libros en PDF, si bien, PDFAct ha logrado un rendimiento superior al del resto
Resumen en inglés The number of electronic books that enter libraries in PDF format is greater every day. Complicating and making it almost unfeasible for some processes, traditionally carried out manually by librarians such as the assignment of subjects, to be done. In this context, it is necessary to design and develop applications that assist librarians. Taking this into consideration, we present in this work the evaluation of tools for extracting information from books in PDF format that could be used later as raw material for an automatic indexing system. To do this, we carried out a first evaluation of five software (PDFMiner.six, PDFAct, PDF-extract, PDFExtract, and Grobib), later, as PDFAct achieved the best performance, we did a second evaluation to find out their ability to identify and extract information from the books such as titles, indexes, sections, titles of tables and graphs and bibliographic reference which are relevant information for any indexing system. It is concluded that none of the evaluated tools adequately extracts the different parts of PDF books, although PDFAct has achieved a better performance than the rest
Disciplinas: Bibliotecología y ciencia de la información
Palabras clave: Análisis y sistematización de la información,
Tecnología de la información,
Extracción de información,
Evaluación de software,
Grobib,
Indización automática,
Libros electrónicos
Keyword: Information analysis,
Information technology,
Information extraction,
Software evaluation,
Grobib,
Automatic indexing,
Electronic books
Texte intégral: Texto completo (Ver HTML) Texto completo (Ver PDF)