Introdução

Os dados são uma coisa preciosa e durarão mais do que os próprios sistemas.



Graças aos enormes avanços computacionais vivenciados nos últimos anos, podemos guardar, compartilhar e consumir facilmente uma quantidade de dados inimaginável há 20 anos. Segundo artigo publicado pela Accenture, o mundo produz 5 exabytes de dados por dia, ou seja, o equivalente a 1 bilhão de gigabytes. Em 2025, conforme a mesma fonte, produziremos cerca de 463 exabytes por dia, algo equivalente a todo o volume de dados produzidos em 2009!

Dentro desse movimento contínuo de crescimento de matéria digital também estão inseridos os dados governamentais. Paralelamente a isso, a necessidade de fomento à transparência em relação às atividades governamentais tem se fortalecido e os dados, muitos até então desconhecidos, emergem. Hoje há milhares de conjuntos de dados disponíveis nos mais diversos formatos.

A abertura dos dados governamentais é uma inovação importante e tem o poder de impulsionar a criação de valor público, prevenir a corrupção e fomentar a criação de serviços inovadores. No entanto, para que isso ocorra, esses dados precisam ser encontrados e compreendidos (Nikiforova e McBride 2021). No caso do Brasil, em abril de 2022, havia mais de 11 mil conjuntos de dados no Portal Brasileiro de Dados Abertos, nos mais diversos formatos, atualizados nos mais diferentes períodos. Esse movimento ganhou impulso principalmente após a edição da Lei de Acesso à Informação.

Os dados chegaram, e agora?

Diante de toda essa oferta, começamos a nos deparar com os problemas que costumeiramente encontramos em qualquer análise. Estima-se que 80% do tempo do cientista de dados é gastos na preparação e exploração dos dados (Donoho 2015). Para nossa sorte, hoje há ferramentas computacionais que nos permitem contornar diversas dessas dificuldades, permitindo uma análise rápida e consistente. É nesse contexto que surge o R, uma linguagem e ambiente de código aberto, criada no início dos anos 90, mas que apenas nos últimos anos emergiu de forma mais expressiva. Atualmente o R é fortemente utilizado (assim como a linguagem Python) na exploração e análise de dados devido aos seus milhares de pacotes e campos de utilização.

Os fatores que devem influenciar a seleção de software incluem custo, maturidade, recursos e desempenho. Talvez o mais importante para pesquisadores ocupados seja a facilidade e a velocidade de aprender, escrever, adaptar e comunicar a análise. R se destaca em cada uma dessas áreas (tradução livre). (Lovelace et al. 2017)

O conteúdo que será apresentado nesse curso é sobre como utilizar o R e todo seu poderio computacional para lidarmos com a infinidade de dados que temos hoje e que só cresce com o passar do tempo. Para isso, as fases de importação, organização, tratamento e comunicação serão abordadas, sempre com foco em dados públicos brasileiros. Haverá menções a diversos pacotes que utilizaremos em nossos exemplos e de como utilizá-los para contornar os principais problemas impostos pelos dados.

Obviamente eu acho que R é uma linguagem incrível, mas não porque eu tenha algo contra Python…eu só acho que R é muito bom! (tradução livre) (Hadley Wickham)

O conteúdo estará em constante revisão e desenvolvimento. No início dessa página há informações sobre a última atualização de conteúdo.

Licença Creative Commons
Esta obra está licenciada com uma Licença Creative Commons Atribuição-NãoComercial-SemDerivações 4.0 Internacional.

Referências

Donoho, David. 2015. «50 years of data science» 337: 2015. https://courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf.
Lovelace, Robin, Morgane Dumont, Richard Ellison, e Maja Založnik. 2017. Spatial microsimulation with R. Chapman; Hall/CRC.
Nikiforova, Anastasija, e Keegan McBride. 2021. «Open government data portal usability: A user-centred usability analysis of 41 open government data portals». Telematics and Informatics 58: 101539.