Modelo de representación de textos basado en grafo para la minería de texto



Título del documento: Modelo de representación de textos basado en grafo para la minería de texto
Revista: Ciencias de la información
Base de datos: CLASE
Número de sistema: 000435506
ISSN: 0864-4659
Autores: 1
1
1
1
Instituciones: 1Instituto Superior Politécnico "José Antonio Echeverría", La Habana. Cuba
Año:
Periodo: Ene-Abr
Volumen: 46
Número: 1
Paginación: 63-71
País: Cuba
Idioma: Español
Tipo de documento: Artículo
Enfoque: Analítico, descriptivo
Resumen en español La Minería de Texto constituye el proceso de descubrimiento de conocimiento, previamente desconocido y potencialmente útil, mediante la extracción automática de información desde diferentes recursos escritos. La estructuración del contenido textual en modelos de representación intermedia constituye un aspecto clave en este proceso. En el trabajo se propone un nuevo modelo de representación basado en grafos para la estructuración de contenidos textuales y un método para su construcción automática. El modelo está basado en la representación de frases conceptuales y las relaciones entre ellas, a partir de análisis de proximidad en el texto, para lo cual fueron definidas varias medidas de distancia. En el método propuesto se combinan técnicas de procesamiento de lenguaje natural, con patrones léxicos y recursos de conocimiento para extraer los conceptos, y fueron definidos dos métodos para identificar las relaciones: distancia más cercana y ventana contextual. Se concibió en tres fases fundamentales: preprocesamiento, extracción de información, y refinado, y se evaluó experimentalmente con noticias de una colección de referencia. Los experimentos se orientaron a evaluar la cantidad de información contenida en los grafos resultantes, así como la precisión en la extracción automática de conceptos, en los cuales se obtuvieron resultados prometedores
Resumen en inglés Text Mining constitutes the process of knowledge discovery, previously unknown and potentially useful, though the automatic information extraction from texts. The structuring of textual content in an intermediate representation models constitutes a key aspect in this process. The more employees’ models are based on a list of significant terms, such as the vector space model, although recently the use of relational models in graph form has been increased. In the work a new graphbased representation model for the structuring of textual contents and a method for it automatic construction are proposed. The model is based on the representation of conceptual sentences and the relationships among them, through proximity analysis in the text, where several distance metrics were defined. It was conceived in three fundamental phases: pre-processing, information extraction, and a refine process, and it was experimentally evaluated with news of a reference collection. The experiments were guided to evaluate the quantity of the information contained in resulting graphs, as well as the precision in the automatic extraction of concepts, in which promising results were obtained
Disciplinas: Bibliotecología y ciencia de la información
Palabras clave: Tecnología de la información,
Sistemas de información,
Representación de texto,
Minería de textos,
Extracción de información
Texto completo: Texto completo (Ver PDF)