Recognition-free Retrieval of Old Arabic Document Images



Título del documento: Recognition-free Retrieval of Old Arabic Document Images
Revue: Computación y sistemas
Base de datos: PERIÓDICA
Número de sistema: 000352717
ISSN: 1405-5546
Autores: 1
1
Instituciones: 1University Badji Mokhtar, Laboratoire de Gestion Electronique de Documents, Annaba. Argelia
Año:
Periodo: Oct-Dic
Volumen: 15
Número: 2
Paginación: 195-208
País: México
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Aplicado, descriptivo
Resumen en español La búsqueda en imágenes de documentos antiguos es en la actualidad un tema relevante. En este artículo abordamos el problema de recuperación de documentos árabes antiguos a partir de imágenes sin usar el reconocimiento de caracteres (OCR). Dichos documentos forman una buena parte de nuestra herencia y poseen una riqueza científica y cultural invaluable. Nosotros proponemos un enfoque para indexar y buscar imágenes degradadas de documentos sin recurrir al reconocimiento de patrones textuales para así evitar el esfuerzo considerable y el alto costo que conlleva el OCR. La idea básica consiste en migrar el problema de la recuperación de estos documentos, desde el campo del análisis de documentos hacia el campo de la recuperación de información. Así, podemos combinar la notación simbólica y la representación sémica y explotar las técnicas que provienen de ambos campos de investigación, particularmente, las técnicas de árboles de sufijos y búsqueda aproximada de cadenas. A cada documento de la colección se le asigna un archivo en ASCII con códigos de palabras. Las palabras son representadas por sus características topológicas; ej. ascendientes, descendientes, etc. De esta forma, en vez de buscar en la imagen, nosotros buscamos en los códigos de palabra dentro del archivo de códigos correspondiente. Las pruebas se realizan en dos tipos de documentos: documentos históricos árabes y sobres postales argelinos. El enfoque propuesto muestra un buen rendimiento
Resumen en inglés Searching of old document images is a relevant issue today. In this paper, we tackle the problem of old Arabic document images retrieval which form a good part of our heritage and possess an inestimable scientific and cultural richness. We propose an approach for indexing and searching degraded document images without recognizing the textual patterns in order to avoid the high cost and the difficult effort of the optical character recognition (OCR). Our basic idea consists in casting the problem of document images retrieval from the field of document analysis to the field of information retrieval. Thus, we can combine symbolic notation and semic representation and exploit techniques from the two fields, in particular, the techniques of suffix trees and approximate string matching. Each document of the collection is assigned an ASCII file of word codes. Words are represented by their topological features, namely, ascenders, descenders, etc. So, instead of searching in the image, we look for word codes in the corresponding file code. The tests performed on two types of documents, Arabic historical documents and Algerian postal envelopes, have showed good performance of the proposed approach
Disciplinas: Ciencias de la computación
Palabras clave: Procesamiento de datos,
Tecnología de la información,
Recuperación de documentos,
Reconocimiento de caracteres,
Manejo de imágenes
Keyword: Computer science,
Data processing,
Information technology,
Document retrieval,
Character recognition,
Images management
Texte intégral: Texto completo (Ver HTML)