Evaluando la similitud semántica en textos cortos usando el contexto relacionado y DISCO



Título del documento: Evaluando la similitud semántica en textos cortos usando el contexto relacionado y DISCO
Revista: Programación matemática y software
Base de datos:
Número de sistema: 000573192
ISSN: 2007-3283
Autores: 1
2
2
1
Instituciones: 1Universidad Politécnica Metropolitana de Puebla,
2Benemérita Universidad Autónoma de Puebla,
Año:
Volumen: 11
Número: 1
Paginación: 1-8
País: México
Idioma: Español
Resumen en inglés Measuring the degree of semantic similarity between texts or concepts is a challenge task and important in several applications in Information Retrieval and Natural Language Processing. Given the importance of the task, a method is proposed to measure the semantic similarity between a pair of sentences using the technique Distributional Hypothesis to extract from the web related contexts to the training set. The related contexts are an important component to calculate the semantic similarity between pairs of sentences. The article presents the results obtained from a standard training set. The empirical evaluation shows that the proposed approach exceeds the baseline, as well as some methods previously proposed in the standard training set.
Resumen en español Medir el grado de similitud semántica entre textos o conceptos es una tarea desafiante e importante en varias aplicaciones de Recuperación de Información y Procesamiento del Lenguaje Natural. Dada la importancia de la tarea, en este artículo se propone un método para medir la similitud semántica entre un par de oraciones usando la técnica "Hipótesis Distribucional", para recuperar desde la Web, contextos relacionados con el conjunto de entrenamiento. Los contextos relacionados son un componente importante para calcular la similitud semántica entre pares de oraciones. En el artículo se presentan los resultados obtenidos desde un conjunto de entrenamiento estándar. La evaluación empírica muestra que el enfoque propuesto supera el baseline, así como algunos métodos propuestos previamente en el conjunto de entrenamiento estándar.
Palabras clave: Contexto relacionado,
información mutua,
hipótesis distribucional,
procesamiento de lenguaje natural
Keyword: distributional hypothesis,
mutual information,
natural language processing,
related context,
semantic similarity
Texto completo: Texto completo (Ver PDF)