Identificación del género de autores de textos cortos

Castillo Velásquez, Francisco Antonio; Godoy Martínez, José Luis; Zavala de Paz, Jonny Paul; Rizzo Sierra, José Amilcar; Torres Falcón, María del Consuelo Patricia


Título del documento:	Identificación del género de autores de textos cortos
Revista:	Computación y sistemas
Base de datos:
Número de sistema:	000560614
ISSN:	1405-5546
Autors:	Castillo Velásquez, Francisco Antonio¹ Godoy Martínez, José Luis¹ Zavala de Paz, Jonny Paul¹ Rizzo Sierra, José Amilcar¹ Torres Falcón, María del Consuelo Patricia¹
Institucions:	¹Universidad Politécnica de Querétaro, División de TI TM y TA, Querétaro. México
Any:	2021
Període:	Jul-Sep
Volum:	25
Número:	3
Paginació:	659-665
País:	México
Idioma:	Español
Resumen en español	En la actualidad, la posibilidad de comunicarse o de expresarse por un medio electrónico es muy amplia: correo electrónico, redes sociales, chats y otras herramientas son usadas por la mayoría de los usuarios de computadoras y dispositivos móviles. Uno de los problemas que se ha presentado con esta forma de comunicación es el exceso, como el plagio, falsa identidad, notas intimidatorias, etc. La atribución de autoría de textos (AAT) se encarga de responder a la cuestión de quién es el autor de un texto, dando algunos ejemplos previos de ese autor (conjunto de entrenamiento). Un proceso útil dentro de la AAT es la identificación de género o sexo (hombre, mujer) y que ha sido estudiado por varios autores, pero principalmente para el inglés. El presente trabajo propone un modelo computacional basado en características léxicas (n-gramas) para la identificación del género para textos cortos en español. Se hicieron pruebas con un corpus de textos de mensajes en redes sociales y blogs, obteniendo resultados prometedores.
Resumen en inglés	At present, the possibility of communicating or expressing oneself through an electronic medium is very wide: most users of computers and mobile devices use email, social networks, chats and other tools. One of the problems that has arisen with this form of communication is excess, such as plagiarism, false identity, intimidating notes, and others. The attribution of authorship of texts (AAT) is responsible for answering the question of who is the author of a text, giving some previous examples of that author (training set). A useful process within the AAT is the identification of gender or sex (male, female) and that has been studied by several authors, but mainly for English. The present work proposes a computational model based on lexical characteristics (n-grams) for the identification of the genre for short texts in Spanish. Tests were made with a corpus of text messages on social networks and blogs, obtaining promising results.
Paraules clau:	Identificación de género, Aprendizaje automático, N-gramas, Clasificación, Autoría
Keyword:	Gender identification, Machine-learning, N-grams, Classification, Authorship
Text complet:	Texto completo (Ver HTML) Texto completo (Ver PDF)

Identificación del género de autores de textos cortos

Esperi un moment...