Verificación de autoría, clasificación por vecindad



Título del documento: Verificación de autoría, clasificación por vecindad
Revue: Computación y Sistemas
Base de datos: PERIÓDICA
Número de sistema: 000423241
ISSN: 1405-5546
Autores: 1
1
1
2
Instituciones: 1Desarrollo de Aplicaciones, Tecnología y Sistemas, Santiago de Cuba. Cuba
2Universidad de Alicante, Departamento de Lenguajes y Sistemas Informáticos, Alicante. España
Año:
Periodo: Abr-Jun
Volumen: 21
Número: 2
País: México
Idioma: Español
Tipo de documento: Artículo
Enfoque: Aplicado, descriptivo
Resumen en español El análisis de autoría se ha convertido en una herramienta determinante para el análisis de documentos digitales en las ciencias forenses. Proponemos un método de Verificación de Autoría mediante el análisis de las semejanzas entre documentos de un autor por vecindad, sin estimar umbrales a partir de un entrenamiento, implementamos dos estrategias de representación de los documentos de un autor, una basada en instancias y otra en el cálculo del centroide. Evaluamos colecciones según el número de muestras, los géneros textuales y el tema abordado. Realizamos un análisis del aporte de cada función de comparación y de cada rasgo empleado así como una combinación por mayoría de los votos de cada par función-rasgo empleado en la semejanza entre documentos. Las pruebas se realizaron usando las colecciones públicas de las competencias PAN 2014 y 2015. Los resultados obtenidos son prometedores y nos permiten evaluar nuestra propuesta y la identificación del trabajo futuro a desarrollar
Resumen en inglés The Authorship Analysis task has become a determining tool for the analysis of digital documents in forensic sciences. We propose a neighborhood classification method of Authorship Verification analyzing the similarities of a document of unknown authorship between samples documents of one author, without estimating parameters values from a training data, we implemented two strategies of representation of the documents of an author, an instance based and a profile based one. We will evaluate the methods in different data collections according to the number of samples, the textual genres and the topic addressed. We perform an analysis of the contribution of each function of comparison and each feature used to take as final decision a combination by majority of the votes of each function-feature pair used in the similarity between documents. The tests were carried out using the public data sets of the Authorship Verification PAN 2014 and 2015 competitions. The results obtained are promising and allow us to evaluate our proposal and the identification of future work to be developed
Disciplinas: Literatura y lingüística
Palabras clave: Lingüística aplicada,
Análisis de la información,
Documentos digitales,
Análisis de autoría,
Verificación de autoría,
Funciones de comparación,
Rasgos lingüísticos
Keyword: Applied linguistics,
Information analysis,
Digital documents,
Authorship detection,
Author identification,
Similarity measures,
Linguistic features
Texte intégral: Texto completo (Ver HTML) Texto completo (Ver PDF)