Método heurístico para la anotación automática de Imágenes en documentos HTML



Título del documento: Método heurístico para la anotación automática de Imágenes en documentos HTML
Revista: Ciencias de la información
Base de datos: CLASE
Número de sistema: 000435502
ISSN: 0864-4659
Autores: 1
2
Instituciones: 1Universidad de las Ciencias Informáticas, La Habana. Cuba
2CALISOFT, La Habana. Cuba
Año:
Periodo: Ene-Abr
Volumen: 46
Número: 1
Paginación: 35-40
País: Cuba
Idioma: Español
Tipo de documento: Artículo
Enfoque: Analítico, descriptivo
Resumen en español En el presente artículo se expone una técnica heurística para la anotación automática de imágenes embebidas en documentos HTML, con el objetivo de expandir la búsqueda de imágenes utilizando consultas textuales en un motor de búsqueda Web. El método propuesto aprovecha la estructura de árbol presente en los documentos HTML, tratando de identificar los nodos que pueden aportar información relacionada con la imagen. Para la evaluación de la implementación realizada se utilizó el índice de concordancia para medir el desacuerdo de los jueces voluntarios respecto a la clasificación de un conjunto común de textos asociados a las imágenes; obteniéndose un índice de concordancia superior al 85%
Resumen en inglés An automatic heuristic method for embedded image annotation in HTML documents is exposed. This method exploits the tree structure present in HTML documents trying to identify nodes that contain relevant information about the embedded image, and then using the text in these nearest nodes to expand the information collected about the image, increasing the recall of a Web Search Engine. The proposed heuristic was evaluated using the Agreement Index: the text contained in the identified nodes and the corresponding image was assessed and assigned a category of how well the text was related (i.e. described) with the image. In our test cases the calculated Agreement Index was over 85%, validating the proposed method
Disciplinas: Bibliotecología y ciencia de la información
Palabras clave: Tecnología de la información,
Sistemas de información,
Imágenes,
HTML,
Recuperación de información,
World Wide Web,
Textos
Texto completo: Texto completo (Ver PDF)