Mapeamento de conhecimento científico: modelagem de tópicos das teses e dissertações do Programa de Pós-Graduação em Ciência da Informação da UFMG



Document title: Mapeamento de conhecimento científico: modelagem de tópicos das teses e dissertações do Programa de Pós-Graduação em Ciência da Informação da UFMG
Journal: Em Questao
Database: CLASE
System number: 000526661
ISSN: 1808-5245
Authors: 1
1
Institutions: 1Universidade Federal de Minas Gerais, Belo Horizonte, Minas Gerais. Brasil
Year:
Volumen: 27
Number: 3
Pages: 228-250
Country: Brasil
Language: Portugués
Document type: Artículo
Approach: Descriptivo
English abstract The use of computational tools has been increasingly required to organize, retrieve and understand the growing volume of data. Scientific communication has contributed both formally and informallyto this phenomenon. However, managing and organizinga large collection of documents may become humanly impossible, and refutable when done manually. Topic modeling through machine learning algorithms has made it possible to organize and summarize data corpora. This study aimsto identify the topicsof the theses and dissertations by the graduate program in Information Science of the Federal University of Minas Gerais, southeastern Brazil(Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Minas Gerais). The main goal isto identify the most relevant topics of the corpusmade up of documents such as theses and dissertations of that graduate program, such as the terms that constitute each topicas well as their respective weights. In the topic modeling we set aLatent Dirichlet Allocation modelto identify 6, 8, 10, 12, 14, 16, 18 and 20 topics along with the data corpus. Thisallowed us to scientifically map the documentsthat we analyzed. The resultsobtained when the model was set to 14 topicswere more cohesive and presented less noise and so allowed us to assume the names of the topics more assertivelyand to correlate the fields of research of the graduate program of the Federal University of Minas Gerais
Portuguese abstract O uso das ferramentas computacionais tem sido cada vez mais exigido para organizar, recuperar e compreender o crescente volume de dados. A comunicação científica tem contribuído, por meio de trabalhos formais e informais, para esse fenômeno; entretanto, a organização de uma grande coleção de documentos pode se tornar um processo lento e questionável quando realizado sem recursos tecnológicos. A modelagem de tópicos, por meio de algoritmos de aprendizagem de máquina, tem possibilitado organizar e resumir corpora de dados. A problemática da pesquisa é descobrir como se têm apresentado os temas das teses e dissertações produzidas pelo Programa de PósGraduação em Ciência da Informação da Universidade Federal de Minas Gerais. Busca-se identificar os tópicos de maior relevância do corpus de dados, constituído por documentos do tipo teses e dissertações desse programa de pósgraduação, assim como os termos de cada tópico e os pesos atribuídos a cada um desses termos. Na modelagem de tópicos, utilizou-se o modelo de alocação de Dirichlet latente, configurado para identificar 6, 8, 10, 12, 14, 16, 18 e 20 tópicos junto ao corpus de dados, o que permitiu realizar o mapeamento científico dos documentos analisados. Os resultados com 14 tópicos foram mais coesos e apresentaram menos ruídos e, por isso, permitiram inferir os nomes dos tópicos de maneira mais segura e estabelecer correlações com as linhas de pesquisa do Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Minas Gerais
Disciplines: Bibliotecología y ciencia de la información
Keyword: Modelado de temas,
Aprendizaje automático,
Información y sociedad,
Mapeo científico,
Ciencia de la información,
Comunicación científica,
Universidade Federal de Minas Gerais (UFMG)
Full text: https://www.seer.ufrgs.br/index.php/EmQuestao/article/view/104211/61279