3.1 Resumindo dados
O resumo de dados no R é envolve a geração de estatísticas descritivas e a criação de visualizações que ajudam a entender as características principais do conjunto de dados. O resumo de dados é importante por diversos motivos:
•Características Principais: Permite identificar as características principais do conjunto de dados, como a média, mediana, variância, etc.
•Distribuição: Ajuda a entender a distribuição dos dados, incluindo assimetrias e dispersão.
•Valores Ausentes: Identifica valores ausentes ou NA’s.
•Outliers: Detecta outliers que podem influenciar a análise.
A função summary() permite resumir os dados, apontando média, mediana, máximo, mínimo e quartis. Escrevemos a função summary e o nome do objeto que queremos resumir (no nosso caso é o objeto que chamamos de dados):
## X status tempo_empresa moradia tempo_emprestimo
## Min. : 1 Length:4454 Min. : 0.000 Length:4454 Min. : 6.00
## 1st Qu.:1114 Class :character 1st Qu.: 2.000 Class :character 1st Qu.:36.00
## Median :2228 Mode :character Median : 5.000 Mode :character Median :48.00
## Mean :2228 Mean : 7.987 Mean :46.44
## 3rd Qu.:3341 3rd Qu.:12.000 3rd Qu.:60.00
## Max. :4454 Max. :48.000 Max. :72.00
##
## idade estado_civil registros trabalho
## Min. :18.00 Length:4454 Length:4454 Length:4454
## 1st Qu.:28.00 Class :character Class :character Class :character
## Median :36.00 Mode :character Mode :character Mode :character
## Mean :37.08
## 3rd Qu.:45.00
## Max. :68.00
##
## despesas renda ativos dividas valor_emprestimo
## Min. : 35.00 Min. : 6.0 Min. : 0 Min. : 0 Min. : 100
## 1st Qu.: 35.00 1st Qu.: 90.0 1st Qu.: 0 1st Qu.: 0 1st Qu.: 700
## Median : 51.00 Median :125.0 Median : 3000 Median : 0 Median :1000
## Mean : 55.57 Mean :141.7 Mean : 5404 Mean : 343 Mean :1039
## 3rd Qu.: 72.00 3rd Qu.:170.0 3rd Qu.: 6000 3rd Qu.: 0 3rd Qu.:1300
## Max. :180.00 Max. :959.0 Max. :300000 Max. :30000 Max. :5000
## NA's :381 NA's :47 NA's :18
## preco_do_bem
## Min. : 105
## 1st Qu.: 1117
## Median : 1400
## Mean : 1463
## 3rd Qu.: 1692
## Max. :11140
##
A função str() permite visualizar a estrutura geral dos dados. Esse comando nos mostra o número de observações e de variáveis no dataframe, o tipo de variável. Talvez a função de diagnóstico mais útil no R.
## 'data.frame': 4454 obs. of 15 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ status : chr "bom" "bom" "ruim" "bom" ...
## $ tempo_empresa : int 9 17 10 0 0 1 29 9 0 0 ...
## $ moradia : chr "alugada" "alugada" "própria" "alugada" ...
## $ tempo_emprestimo: int 60 60 36 60 36 60 60 12 60 48 ...
## $ idade : int 30 58 46 24 26 36 44 27 32 41 ...
## $ estado_civil : chr "casada(o)" "viúva(o)" "casada(o)" "solteira(o)" ...
## $ registros : chr "não" "não" "sim" "não" ...
## $ trabalho : chr "autônomo" "fixo" "autônomo" "fixo" ...
## $ despesas : int 73 48 90 63 46 75 75 35 90 90 ...
## $ renda : int 129 131 200 182 107 214 125 80 107 80 ...
## $ ativos : int 0 0 3000 2500 0 3500 10000 0 15000 0 ...
## $ dividas : int 0 0 0 0 0 0 0 0 0 0 ...
## $ valor_emprestimo: int 800 1000 2000 900 310 650 1600 200 1200 1200 ...
## $ preco_do_bem : int 846 1658 2985 1325 910 1645 1800 1093 1957 1468 ...
A tabela abaixo mostra algumas funções importantes para compreensão de um objeto no R:
Função | Descrição |
---|---|
str() | Exibe de forma compacta a estrutura interna de um objeto em R. |
names() | Nomes dos elementos dentro de um objeto |
class() | Recupera a classe interna de um objeto |
mode() | Obtém ou define o tipo ou modo de armazenamento de um objeto |
length() | Recupera ou define a dimensão de um objeto. |
dim() | Recupera ou define a dimensão de um objeto. |
sessionInfo() | Imprime informações sobre a versão do R e pacotes anexados ou carregados |
options() | Permite ao usuário definir e examinar uma variedade de opções globais |