Generation of Bilingual Dictionaries using Structural Properties



Título del documento: Generation of Bilingual Dictionaries using Structural Properties
Revue: Computación y sistemas
Base de datos: PERIÓDICA
Número de sistema: 000365502
ISSN: 1405-5546
Autores: 1
1
Instituciones: 1International Institute of Information Technology, Search and Information Extraction Laboratory, Hyderabad, Andhra Pradesh. India
Año:
Periodo: Abr-Jun
Volumen: 17
Número: 2
Paginación: 161-168
País: México
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Experimental, aplicado
Resumen en español Compilación de diccionarios bilingües usando Wikipedia ha sido estudiada mucho en la lingüística computacional. Estos diccionarios juegan un papel crítico en tales aplicaciones del procesamiento de lenguaje natural (PLN) como recuperación de información inter-lingüística, traducción automática y reconocimiento de nombres. La mayoría de los enfoques existentes para la construcción de estos diccionarios usa la información presente en títulos de Wikipedia, info-boxes y categorías. Es interesante que pocos investigadores hayan usado las propiedades estructurales de documentos tales como secciones, sub-secciones, etc. Este trabajo utiliza las propiedades estructurales de documentos para construir un diccionario bilingüe inglés-hindi. La intuición principal en la cual se basa este enfoque es el hecho de que la discusión de un cierto tema en idiomas diferentes puede tener los elementes estructurales similares. Los experimentos se realizaron sólo para hindi, pero el enfoque no depende del idioma particular y puede ser extendida fácilmente a otros idiomas. La mayor aportación de este trabajo es la inclusión en el diccionario las palabras que son nombres traducidos y transliterados. El diccionario fue evaluado mediante la precisión calculada manualmente. Se generó una lista muy grande de 72K tokens usando el enfoque propuesto con la precisión de 0.75
Resumen en inglés Building bilingual dictionaries from Wikipedia has been extensively studied in the area of computation linguistics. These dictionaries play a crucial role in Natural Language Processing(NLP) applications like Cross-Lingual Information Retrieval, Machine Translation and Named Entity Recognition. To build these dictionaries, most of the existing approaches use information present in Wikipedia titles, info-boxes and categories. Interestingly, not many use the structural properties of a document like sections, subsections, etc. In this work we exploit the structural properties of documents to build a bilingual English-Hindi dictionary. The main intuition behind this approach is that documents in different languages discussing the same topic are likely to have similar structural elements. Though we present our experiments only for Hindi, our approach is language independent and can be easily extended to other languages. The major contribution of our work is that the dictionary contains translation and transliteration of words which include Named Entities to a large extent. We evaluate our dictionary using manually computed precision. We generated a massive list of 72k tokens using our approach with 0.75 precision
Disciplinas: Ciencias de la computación,
Literatura y lingüística
Palabras clave: Procesamiento de datos,
Lingüística aplicada,
Lingüística computacional,
Diccionarios,
Procesamiento de lenguaje natural,
Wikipedia,
Elementos estructurales
Keyword: Computer science,
Literature and linguistics,
Data processing,
Applied linguistics,
Computing linguistics,
Dictionaries,
Natural language processing,
Wikipedia,
Structural elements
Texte intégral: Texto completo (Ver HTML)