A guide on extracting and tidying tweets with R



Document title: A guide on extracting and tidying tweets with R
Journal: Cadernos de Linguística
Database: CLASE
System number: 000521662
ISSN: 2675-4916
Authors: 1
1
Institutions: 1Universidade Estadual de Campinas, Campinas, Sao Paulo. Brasil
Year:
Volumen: 2
Number: 4
Pages: 1-12
Country: Brasil
Language: Inglés
Document type: Artículo
Approach: Analítico
English abstract Social media platforms represent a deep resource for academic research and a wide range of untapped possibilities for linguists (D'ARCY; YOUNG, 2012). This rapidly developing field presents various ethical issues and unique challenges regarding methods to retrieve and analyze data. This tutorial provides a straightforward guide to harvesting and tidying Twitter data, focused mainly on the Tweets' text, by using the R programming language (R CORE TEAM, 2020) via Twitter's APIs. The R code was developed in Adams (2020), based on the rtweet package (KEARNEY, 2018), and successfully resulted in a script for corpora compilation. In this tutorial, we discuss limitations, problems, and solutions in our framework for conducting ethical research on this social networking site. Our ethical concerns go beyond what we "agree to" in terms of use and privacy policies, that is, we argue that their content does not contemplate all the concerns researchers need to attend to. Additionally, our aim is to show that using Twitter as a data source does not require advanced computational skills
Portuguese abstract As plataformas de redes sociais representam uma profunda fonte de dados para pesquisas acadêmicas e um amplo leque de possibilidades para linguistas (D'ARCY; YOUNG, 2012). Este campo em rápido desenvolvimento apresenta diversas questões éticas e desafios únicos no que concerne os métodos de coleta e análise de dados. Esse tutorial oferece um guia direto para extração e mineração de dados do Twitter, voltando-se principalmente para o texto dos Tweets, por meio da linguagem de programação R (R CORE TEAM, 2020) via os Twitter APIs. O código em R foi desenvolvido em Adams (2020), com base no pacote rtweet (KEARNEY, 2018), e resultou com sucesso em um script para compilação de corpora. Nesse guia, são discutidas limitações, problemas e soluções na nossa abordagem para a condução ética de pesquisa nessa rede social. Nossas preocupações éticas vão além daquilo com o que "concordamos" nos termos de uso e nas políticas de privacidade, isto é, argumentamos que seu conteúdo não abrange todas as questões a que pesquisadoras(es) devem responder. Ademais, nosso objetivo é demonstrar que utilizar o Twitter como uma fonte de dados não requer habilidades computacionais avançadas
Disciplines: Bibliotecología y ciencia de la información
Keyword: Análisis y sistematización de la información,
Procesamiento de datos,
Redes sociales,
Twitter,
Tutoriales,
Extracción de datos,
Minería de datos,
Etica,
Metodos
Keyword: Information analysis,
Data processing,
TuTorials,
Harvesting data,
Tidying data,
Social networks,
Methods,
Ethics
Full text: Texto completo (Ver PDF)