2.6 Lendo arquivos
A maioria dos projetos de análise de dados depende de dados que são armazenados fora do ambiente R, como em arquivos CSV, Excel, bancos de dados SQL, etc.
O R permite a leitura de uma infinidade de arquivos, desde arquivos de texto, tabelas, até mapas.
2.6.1 Arquivos CSV
CSV significa comma separated values (valores separados por vírgulas) e consiste em um formato muito comum para dados que podem ser utilizados entre diferentes programas de software. Um arquivo CSV é um arquivo de texto simples que contém uma lista de dados, com cada valor separado por vírgula.
Lendo com o read.csv
O R é capaz de ler um arquivo CSV sem carregar nenhum pacote. Podemos usar o comando read.csv() para carregar um arquivo.
O diretório do arquivo deve vir entre aspas.
Lembrete: O comando sep=“” permite escolher o separador do arquivo csv. Alguns computadores trabalham com separador , (vírgula) e outros computadores trabalham com separador ; (ponto e vírgula). Caso o arquivo não carregue corretamente, pode ser devido ao uso do separador errado.
Lendo com o Import Dataset
Caso queira importar arquivos de forma manual, o R fornece o comando Import dataset, que permite importar arquivos de diversas naturezas. Para arquivos csv podemos escolher as opções From text(base) ou from text(readr). Vamos clicar em From text(readr), que é uma opção um pouco mais completa:
Uma janela se abrirá permitindo visualizar uma prévia do arquivo.
No canto inferior direito, podemos copiar o código de leitura do arquivo para o script, para que não precisemos abri-lo manualmente cada vez que formos trabalhar com o código.
Lendo com o file.choose
Podemos, ainda, carregar um arquivo utilizando a função file.choose() , que abre uma janela para procurarmos o diretório do arquivo. A desvantagem dessa solução é que cada vez que rodarmos o código teremos que procurar manualmente o arquivo desejado.
2.6.2 Arquivos Excel
O R também pode ler arquivos Excel, embora não seja uma função integrada à versão base do software. Para isso, é necessário instalar e carregar o pacote readxl.
Lembrete: caso o arquivo Excel tenha mais de uma aba, é necessário especificar qual aba deverá ser lida através do comando sheet=1 (número da aba).
2.6.3 Arquivos DTA, SPSS, Dat
Para ler os arquivos sav (SPSS) e DTA (Stata) necessário instalar e carregar o pacote foreign.
Os arquivos SPSS e DTA são lidos respectivamente pelas funções read.spss() e read.dta().
2.6.4 Dicas para ler arquivos no R
O caminho de um diretório pode ser longo e complexo para digitarmos. Felizmente, temos alguns atalhos que podem nos ajudar a ter acesso ao diretório de forma mais rápida.
Diretório de trabalho
Caso escolha trabalhar com um diretório de trabalho para um determinado projeto, não é necessário fornecer todo o caminho do diretório, apenas o nome do arquivo e sua extensão. Por exemplo:
Ao definir-se um diretório de trabalho, o R compreende que todos arquivos estarão lotados naquele diretório específico, não sendo necessário informar todo o caminho para a pasta.
No entanto, algumas vezes pode ser necessário buscar arquivos localizados em pastas diferentes e, nesse caso, teremos que informar todo o caminho do diretório.
Dicas para copiar o caminho do diretório
No Windows, apertamos o botão Shift e clicamos em cima do arquivo com o botão direito e selecionamos a opção “Copiar”, como se fôssemos copiar o próprio arquivo. Em seguida, voltamos ao script do R e colamos.
No Macos, basta clicarmos em cima do arquivo com o botão direito e com a tecla option pressionada. Ele nos dará a opção “Copiar pasta como nome do caminho” (“Copy as pathname”). Em seguida, basta voltar ao script do R e colar.