Bem-vindo!

Caro aluno, este é o repositório do livro texto do curso de Introdução à Análise de Dados em R. Nele constam os principais conceitos e códigos que serão abordados ao longo do curso. Para reproduzir os códigos, é necessário utilizar uma versão recente do R e que os pacotes estejam atualizados. Os pacotes serão apresentados de acordo com o tema abordado em cada seção para utilização das funções referentes a cada assunto.

Serão disponibilizados conjunto de dados para realizar as atividades propostas em aula e eles serão disponibilizados no repositório Git deste livro, na pasta datasets:

O Curso também utilizará o RStudio, um Ambiente Integrado de Desenvolvimento (IDE - Integrated Development Environment), e se recomenda a utilização da versão mais recente do mesmo.

Por que R ?

O R é um software gratuito, usado principalmente nas atividades de análise de dados que requerem computação standalone (em um único computador) ou análise em servidores individuais. Ele vem sendo usado cada vez mais em empresas e universidades no mundo inteiro. Neste curso, você verá como usar o RStudio para resolver problemas práticos do dia a dia.

De modo geral, a curva de aprendizagem na linguagem de programação R é conhecida por ser relativamente lenta, mas, uma vez que o aluno entende a estrutura básica de objetos que compõe a linguagem, o aprendizado passa a ser exponencial.

Curva de Aprendizado **R**

Figure 0.1: Curva de Aprendizado R

A linguagem R é relativamente diferente das demais linguagens de programação porque foi desenvolvida por Estatísticos para Estatísticos. Ela não foi pensada para ser a mais eficiente das linguagens em termos de rapidez, mas sim para tornar mais fácil a vida de quem analisa dados. Há um consenso de que não existe uma linguagem mais adequada para realizar análise de dados do que R. Preferências individuais e outras conveniências podem levar a escolha de uma ou outra linguagem, mas não há como não concordar com o fato de que R possui as melhores ferramentas de preparação de dados (Data Wrangling), geração de gráficos e de relatórios e reprodutibilidade.

Além disso, o R é mundialmente reconhecido por sua comunidade extremamente ativa e inclusiva. É a linguagem preferida na academia, tendo em vista que novas técnicas matemáticas, estatísticas, e/ou computacionais são implementadas primeiro em R. É também uma das linguagens mais usadas na indústria para Ciência de Dados, juntamente com Python.

Por esses motivos e por ser uma linguagem dotada de um poderoso ambiente de gerenciamento de pacotes (que é um empacotamento contendo funções, arquivos de dados e arquivos de ajuda), a disseminação do uso de R em seus 20 anos de história foi extremamente rápida e acabou por colocar em segundo plano ambientes de análise de dados e linguagens como SAS, SPSS e Stata. No R, você encontra pacotes para as mais diversas finalidades: desde pacotes que geram provas a partir de um banco de questões, passando por pacotes de preparação de dados, otimização matemática, Machine Learning, até pacotes para análise de áudio, criação de aplicativos, leitura e envio de emails.

Atualmente, há diversos ambientes e linguagens utilizadas para Análise de Dados, como Python, Julia, Scala, SAS, etc. No entanto, nenhuma delas fornece a combinação de um excelente ecossistema de gerenciamento de pacotes, capacidades estatísticas, opções de visualização e um poderoso IDE - tudo implementado pela comunidade R. Por todas essas características, os benefícios ao aprender a linguagem R são realmente consideráveis.

Organização do Curso

Este curso é dividido em 6 Módulos. O Módulo 1 busca ambientar o aluno com os conceitos básicos da linguagem, passando pelo histórico, potencialidades, instalação e funcionalidades básicas do R. O Módulo 2 contém instruções para trabalhar com scripts, Boas Práticas no uso da Linguagem R, como criar projetos e importar dados. Já o Módulo 3 apresentará Noções de Programação, definição de função, como criar uma função e importância de utilizar uma função. Em seguida serão abordadas as principais funções de manipulação de dados (Módulo 4) e de visualização de dados (Módulo 6). E, finalmente, apresentar as principais funcionalidades do RMarkdown para geração de relatórios.