Document Indexing with a Concept Hierarchy



Título del documento: Document Indexing with a Concept Hierarchy
Revue: Computación y sistemas
Base de datos: PERIÓDICA
Número de sistema: 000344312
ISSN: 1405-5546
Autores: 1
1
1
Instituciones: 1Instituto Politécnico Nacional, Centro de Investigación en Computación, México, Distrito Federal. México
Año:
Periodo: Abr-Jun
Volumen: 8
Número: 4
Paginación: 281-292
País: México
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Experimental, aplicado
Resumen en español Se considera la tarea de la selección de los conceptos que describen el contenido de un documento dado. Los conceptos se eligen de un diccionario. jerárquico grande (un tesauro, o bien una ontología). Se propone un método estadístico para crear un índice de los documentos, guiado por tal diccionario. El método es robusto en cuanto a los errores en el diccionario, lo que permite traducir tal diccionario semiautomáticamente en varios lenguajes. Se discute el problema del uso de los nodos no terminales y especialmente de los nodos de alto nivel en la jerarquía. Se presentan los métodos para ponderación automática de los nodos y vínculos en la jerarquía de la manera en que coincide con los criterios del sentido común. Se discute la aplicación del método en el sistema Classifier
Resumen en inglés Given a large hierarchical concept dictionary (thesaurus, or ontology), the task of selection of the concepts that describe the contents of a given document is considered. A statistical method of document indexing driven by such a dictionary is proposed. The method is insensible to inaccuracies in the dictionary, which allow for semi–automatic translation of the hierarchy into difíerent languages. The problem of handling non–terminal and especially top–level nodes in the hierarchy is discussed. Common sense–complaint methods of automatically assigning the weights to the nodes and links in the hierarchyare presented. The application of the method in the Classifier system is discussed
Disciplinas: Ciencias de la computación
Palabras clave: Tecnología de la información,
Indización,
Caracterización de documentos,
Ontología,
Jerarquía de conceptos,
Métodos estadísticos
Keyword: Computer science,
Information technology,
Indexation,
Documents characterization,
Ontology,
Concept hierarchy,
Statistical methods
Texte intégral: Texto completo (Ver HTML)