Bem-vindo!
Caro aluno, este é o repositório do livro texto do curso de Intermediário à Análise de Dados em R. Nele constam os principais conceitos e códigos que serão abordados ao longo do curso. Para reproduzir os códigos, é necessário utilizar uma versão recente do R e que os pacotes estejam atualizados. Os pacotes serão apresentados de acordo com o tema abordado em cada seção para utilização das funções referentes a cada assunto.
Serão disponibilizados conjunto de dados para realizar as atividades propostas em aula e eles estarão acessíveis no repositório Git deste livro, na pasta Dados:
O Curso também utilizará o RStudio, um Ambiente Integrado de Desenvolvimento (IDE - Integrated Development Environment), e se recomenda a utilização da versão mais recente do mesmo.
Por que R ?
O R é um software gratuito, usado principalmente nas atividades de análise de dados que requerem computação standalone (em um único computador) ou análise em servidores individuais. Ele vem sendo usado cada vez mais em empresas e universidades no mundo inteiro. Neste curso, você verá como usar o RStudio para resolver problemas práticos do dia a dia.
De modo geral, a curva de aprendizagem na linguagem de programação R é conhecida por ser relativamente lenta, mas, uma vez que o aluno entende a estrutura básica de objetos que compõe a linguagem, o aprendizado passa a ser exponencial.
A linguagem R é relativamente diferente das demais linguagens de programação porque foi desenvolvida por Estatísticos para Estatísticos. Ela não foi pensada para ser a mais eficiente das linguagens em termos de rapidez, mas sim para tornar mais fácil a vida de quem analisa dados. Há um consenso de que não existe uma linguagem mais adequada para realizar análise de dados do que R. Preferências individuais e outras conveniências podem levar a escolha de uma ou outra linguagem, mas não há como não concordar com o fato de que R possui as melhores ferramentas de preparação de dados (Data Wrangling), geração de gráficos e de relatórios e reprodutibilidade.
Além disso, o R é mundialmente reconhecido por sua comunidade extremamente ativa e inclusiva. É a linguagem preferida na academia, tendo em vista que novas técnicas matemáticas, estatísticas, e/ou computacionais são implementadas primeiro em R. É também uma das linguagens mais usadas na indústria para Ciência de Dados, juntamente com Python.
Por esses motivos e por ser uma linguagem dotada de um poderoso ambiente de gerenciamento de pacotes (que é um empacotamento contendo funções, arquivos de dados e arquivos de ajuda), a disseminação do uso de R em seus 20 anos de história foi extremamente rápida e acabou por colocar em segundo plano ambientes de análise de dados e linguagens como SAS, SPSS e Stata. No R, você encontra pacotes para as mais diversas finalidades: desde pacotes que geram provas a partir de um banco de questões, passando por pacotes de preparação de dados, otimização matemática, Machine Learning, até pacotes para análise de áudio, criação de aplicativos, leitura e envio de emails.
Atualmente, há diversos ambientes e linguagens utilizadas para Análise de Dados, como Python, Julia, Scala, SAS, etc. No entanto, nenhuma delas fornece a combinação de um excelente ecossistema de gerenciamento de pacotes, capacidades estatísticas, opções de visualização e um poderoso IDE - tudo implementado pela comunidade R. Por todas essas características, os benefícios ao aprender a linguagem R são realmente consideráveis.
Organização do Curso
Este curso é dividido em 6 Módulos.
O Módulo 1, busca revisar conceitos básicos da linguagem, assim como a manipulação de dados usando o dplyr e trazer como novidade a junção entre tabelas usando o conceito de joins.
O Módulo 2, contém instruções para trabalhar pivoteamento de tabelas, dados faltantes e dataframes aninhados.
O Módulo 3, vamos entrar no mundo das strings, aprendendo a detectar padrões, concatenar ou separar strings e substituir padrões.
O Módulo 4, vamos aprender a trabalhar com fatores e lidar datas.
O Módulo 5, vamos introduzir o conceito da programação funcional a partir do pacote purrr
O Módulo 6, vamos ter a oportunidade de conhecer algumas ferramentas de visualização web, dentro do framework shiny.