3.1 Resumindo dados

O resumo de dados no R é envolve a geração de estatísticas descritivas e a criação de visualizações que ajudam a entender as características principais do conjunto de dados. O resumo de dados é importante por diversos motivos:

Características Principais: Permite identificar as características principais do conjunto de dados, como a média, mediana, variância, etc.

Distribuição: Ajuda a entender a distribuição dos dados, incluindo assimetrias e dispersão.

Valores Ausentes: Identifica valores ausentes ou NA’s.

Outliers: Detecta outliers que podem influenciar a análise.

A função summary() permite resumir os dados, apontando média, mediana, máximo, mínimo e quartis. Escrevemos a função summary e o nome do objeto que queremos resumir (no nosso caso é o objeto que chamamos de dados):

summary(dados)
##        X           status          tempo_empresa      moradia          tempo_emprestimo
##  Min.   :   1   Length:4454        Min.   : 0.000   Length:4454        Min.   : 6.00   
##  1st Qu.:1114   Class :character   1st Qu.: 2.000   Class :character   1st Qu.:36.00   
##  Median :2228   Mode  :character   Median : 5.000   Mode  :character   Median :48.00   
##  Mean   :2228                      Mean   : 7.987                      Mean   :46.44   
##  3rd Qu.:3341                      3rd Qu.:12.000                      3rd Qu.:60.00   
##  Max.   :4454                      Max.   :48.000                      Max.   :72.00   
##                                                                                        
##      idade       estado_civil        registros           trabalho        
##  Min.   :18.00   Length:4454        Length:4454        Length:4454       
##  1st Qu.:28.00   Class :character   Class :character   Class :character  
##  Median :36.00   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :37.08                                                           
##  3rd Qu.:45.00                                                           
##  Max.   :68.00                                                           
##                                                                          
##     despesas          renda           ativos          dividas      valor_emprestimo
##  Min.   : 35.00   Min.   :  6.0   Min.   :     0   Min.   :    0   Min.   : 100    
##  1st Qu.: 35.00   1st Qu.: 90.0   1st Qu.:     0   1st Qu.:    0   1st Qu.: 700    
##  Median : 51.00   Median :125.0   Median :  3000   Median :    0   Median :1000    
##  Mean   : 55.57   Mean   :141.7   Mean   :  5404   Mean   :  343   Mean   :1039    
##  3rd Qu.: 72.00   3rd Qu.:170.0   3rd Qu.:  6000   3rd Qu.:    0   3rd Qu.:1300    
##  Max.   :180.00   Max.   :959.0   Max.   :300000   Max.   :30000   Max.   :5000    
##                   NA's   :381     NA's   :47       NA's   :18                      
##   preco_do_bem  
##  Min.   :  105  
##  1st Qu.: 1117  
##  Median : 1400  
##  Mean   : 1463  
##  3rd Qu.: 1692  
##  Max.   :11140  
## 

A função str() permite visualizar a estrutura geral dos dados. Esse comando nos mostra o número de observações e de variáveis no dataframe, o tipo de variável. Talvez a função de diagnóstico mais útil no R.

str(dados)
## 'data.frame':    4454 obs. of  15 variables:
##  $ X               : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ status          : chr  "bom" "bom" "ruim" "bom" ...
##  $ tempo_empresa   : int  9 17 10 0 0 1 29 9 0 0 ...
##  $ moradia         : chr  "alugada" "alugada" "própria" "alugada" ...
##  $ tempo_emprestimo: int  60 60 36 60 36 60 60 12 60 48 ...
##  $ idade           : int  30 58 46 24 26 36 44 27 32 41 ...
##  $ estado_civil    : chr  "casada(o)" "viúva(o)" "casada(o)" "solteira(o)" ...
##  $ registros       : chr  "não" "não" "sim" "não" ...
##  $ trabalho        : chr  "autônomo" "fixo" "autônomo" "fixo" ...
##  $ despesas        : int  73 48 90 63 46 75 75 35 90 90 ...
##  $ renda           : int  129 131 200 182 107 214 125 80 107 80 ...
##  $ ativos          : int  0 0 3000 2500 0 3500 10000 0 15000 0 ...
##  $ dividas         : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ valor_emprestimo: int  800 1000 2000 900 310 650 1600 200 1200 1200 ...
##  $ preco_do_bem    : int  846 1658 2985 1325 910 1645 1800 1093 1957 1468 ...

A tabela abaixo mostra algumas funções importantes para compreensão de um objeto no R:

Função Descrição
str() Exibe de forma compacta a estrutura interna de um objeto em R. 
names() Nomes dos elementos dentro de um objeto
class() Recupera a classe interna de um objeto
mode() Obtém ou define o tipo ou modo de armazenamento de um objeto
length() Recupera ou define a dimensão de um objeto.
dim() Recupera ou define a dimensão de um objeto.
sessionInfo() Imprime informações sobre a versão do R e pacotes anexados ou carregados
options() Permite ao usuário definir e examinar uma variedade de opções globais