Los problemas de identificación de caracteres OCR para la recuperación de texto en el libro antiguo: Un análisis de caso en el Fondo Antiguo de la Biblioteca Central, UNAM



Título del documento: Los problemas de identificación de caracteres OCR para la recuperación de texto en el libro antiguo: Un análisis de caso en el Fondo Antiguo de la Biblioteca Central, UNAM
Revista: Biblioteca universitaria
Base de datos: CLASE
Número de sistema: 000349186
ISSN: 0187-750X
Autores: 1
1
1
Instituciones: 1Universidad Nacional Autónoma de México, Dirección General de Bibliotecas, México, Distrito Federal. México
Año:
Periodo: Ene-Jun
Volumen: 15
Número: 1
Paginación: 25-34
País: México
Idioma: Español
Tipo de documento: Artículo
Enfoque: Analítico, descriptivo
Resumen en español El presente artículo describe de manera general los problemas enfrentados para lograr una correcta recuperación de texto por medio del reconocimiento óptico de caracteres (OCR) en el libro antiguo, tomando una muestra de las obras de los siglos xv al xviii que resguarda el Fondo Antiguo de la Biblioteca Central de la Universidad Nacional Autónoma de México (UNAM), digitalizadas por la Dirección General de Bibliotecas (DGB). Se presenta, en primer lugar, la exposición teórica conceptual del ocr y su aplicación en la recuperación de texto para continuar con la ejemplificación de los factores que determinan la correcta o incorrecta identificación de los grafemas en estos libros mediante las pruebas aplicadas con el software Adobe Acrobat 8 Professional® y, por último, muestra algunos hallazgos obtenidos como producto del análisis e interpretación de los datos correspondientes a las variables
Resumen en inglés This article describes, in general terms, the problems faced for proper text retrieval through optical character recognition (OCR) in ancient books, by taking a sample of works from the fifteenth to the eighteenth centuries that are protected in the Ancient Collections of the Central Library at UNAM, and digitized by the General Directorate of Libraries. It first presents a conceptual theoretical exposition of ocr and its application in text retrieval to continue with the exemplification of the factors that determine the correct or incorrect identification of the graphemes in these books, by means of some tests applied with Adobe Acrobat 8 Professional and, last, it shows some findings obtained as a result of the analysis and interpretation of the data corresponding to the variables in question
Disciplinas: Bibliotecología y ciencia de la información
Palabras clave: Tecnología de la información,
Fuentes documentales,
Digitalización de documentos,
Reconocimiento óptico de caracteres,
Textos,
Libros antiguos,
Fondo Antiguo,
Biblioteca Central,
Dirección General de Bibliotecas (DGB),
Universidad Nacional Autónoma de México (UNAM),
México
Texto completo: Texto completo (Ver PDF)