Capítulo 3 Lendo bancos de dados

3.1 Introdução

Existem diversas maneiras de se ler bancos de dados no R, podendo ser esses bancos de dados de diversos formatos. Os formatos mais comuns são “.xls”, “.xlsx”, “.txt”, “.csv”, entre outros. Nessa seção mostraremos como ler alguns formatos de bancos de dados no R/Rstudio, usando funções. Antes disso, precisamos introduzir a noção de diretório, que nada mais é do que a pasta na qual você está trabalhando, onde seus dados estão salvos e etc. Em geral, o R entende que seu diretório é a pasta na qual você salvou seu script. Para descobrir o seu diretório use o comando:

getwd()

Ele retornará qual sua pasta de trabalho. Isso significa que todos os arquivos que estiverem salvos nessa pasta serão facilmente encontrados pelo R. Para alterar seu diretório, caso seja necessário, você pode usar o comando:

setwd("C:/Desktop/Analise/Banco de dados")

Entre parênteses, temos por exemplo, um diretório na pasta “Banco de dados” que está salvo em “Analise” que por sua vez está na área de trabalho do computador (Desktop), nesse exemplo podemos carregar as bases de dados salvas na pasta por meio dos métodos que serão apresentados a seguir. Também existe um método alternativo de se alterar o diretório no RStudio, aperte “Ctrl+Shift+H” e escolha seu novo diretório na janela que surgirá na sua tela.

3.2 Leitura de arquivos

Como dissemos anteriormente, existem diversas maneiras de se ler um banco de dados no R, podendo esse banco de dados estar em vários formatos. A seguir mostraremos como ler dados que estão salvos em formato de planilha no Excel (xlsx), formato de texto (txt) e formato csv.

3.2.1 Arquivos Excel

Para ler dados de uma planilha excel é necessário previamente instalar um pacote específico,uma vez que essa funcionalidade não está inicialmente disponível no R. Para isso recomendamos instalar o pacote readxl. Para isto, use o comando abaixo ou algum dos outros métodos de instalação citados anteriormente. Lembre-se que sempre que você quiser utilizar um pacote que já foi instalado é necessário apenas carregá-lo.

install.packages("readxl")
library(readxl)

No pacote readxl existe uma função chamada read_excel() que, como o nome sugere, tem o objetivo de ler arquivos em excel que estão salvos no seu diretório, consulte o Help para mais detalhes. Para trabalhar com um banco de dados no R não basta simplesmente excutar um comando, é preciso também armazenar os dados que você deseja analisar na memória do R. Para isso precisamos criar uma variável, que é simplesmente um espaço na memória no qual guardamos valores, bancos de dados ou qualquer análise que julgarmos importante. O comando abaixo lê o banco de dados heart (que deve estar salvo no diretório de trabalho) e o armazena na variável dados. Para atribuir algum objeto à uma variável usamos o sinal de igualdade.

dados = read_excel("heart.xlsx")

Como pode ser visto acima, a função read_excel é bem simples de ser usada, basta colocar o nome do arquivo com a extensão (.xlsx) entre aspas e armazenar na variável que deseja.

Note que, caso você esteja usando o RStudio ao invés do R, irá aparecer na parte de histórico a variável que você criou, clicando nela você pode visualizar os dados foram lidos. Outra alternativa é usar o comando abaixo.

View(dados)

3.2.2 Arquivos “.csv” ou “.txt”

Para ler arquivos em formato “.csv” ou “.txt” o procedimento é mais simples, uma vez que não é necessário instalar nenhum outro pacote adicional. Usamos a função read.table(), veja abaixo:

dados2 = read.table("seeds.txt", header = TRUE)

Os argumentos passados para a função read.table são o nome do arquivo com a extensão e o argumento header = TRUE, que indica que seus dados têm cabeçalho, isto é, as colunas possuem um nome específico. Também pode ser necessário indicar mais argumentos na hora de executar uma função, para saber mais sobre isso consulte o Help. Para dados em formato “.csv” podemos usar a mesma função, basta ficar atento para extensão do arquivo e o delimitador das colunas.