Revista: | Xikua boletín científico de la escuela superior de Tlahuelilpan |
Base de datos: | |
Número de sistema: | 000585757 |
ISSN: | 2007-4948 |
Autores: | Fúquene Ardila, Héctor Julio1 |
Instituciones: | 1Universidad Distrital Francisco José de Caldas, |
Año: | 2024 |
Volumen: | 12 |
Número: | s/n |
Paginación: | 151-160 |
País: | México |
Idioma: | Español |
Resumen en inglés | In the present investigation, a description of the Transformer architecture is carried out, emphasizing the most important functional blocks with which these models went from using serial processing and training of recurrent neural networks to parallel processing, thus improving response times and increased processing capacity; that is to say, the Transformers meant a notable evolution in the PLN Natural Language Processing. These achievements were obtained through the use of attention mechanisms and referencing the positions of the words of the inputs, an aspect that facilitated the models to manage a long-term 'memory'; feature, which was a limitation of the old models. In addition, the uses that are currently being given to this architecture and that are not linked to natural language processing (Chatbots) are highlighted, as is the case in the area of cybersecurity with the use of the SecGPT Bot, among others. development and application areas. |
Resumen en español | En el presente análisis se realiza una descripción de la arquitectura Transformer, haciendo énfasis en los bloques funcionales más importantes con los cuales estos modelos pasaron de utilizar un procesamiento y entrenamiento en serie de las redes neuronales recurrentes a un procesamiento en paralelo, con lo que mejoraron notoriamente los tiempos de respuesta y aumentaron la capacidad de procesamiento; es decir los Transformer significaron una evolución notable en el Procesamiento de Lenguaje Natural PLN. Estos logros fueron obtenidos a través del uso de mecanismos de atención y referenciando las posiciones de las palabras de las entradas, aspecto que facilitó que los modelos manejaran una "memoria" a largo plazo; característica, que era una limitante de los antiguos modelos. Se resaltan, además, los usos que en la actualidad se le está dando a esta arquitectura y que no están ligados al procesamiento del lenguaje natural (Chatbots), como es el caso del área de la ciberseguridad con el uso del Bot SecGPT, ente otras áreas de desarrollo y aplicación. |
Palabras clave: | Transformer, Redes de atención, ChatBots, Machine Learning, NLP |
Keyword: | Transformer, Attention Networks, ChatBots, Machine Learning, NLP |
Texto completo: | Texto completo (Ver PDF) |