3.2 Resumo de variáveis

O operador $ no R é amplamente utilizado para acessar variáveis de listas e dataframes. É uma forma conveniente e legível de referenciar colunas específicas em data frames ou componentes específicos em listas.

Para acessarmos a coluna moradia do nosso dataframe “dados” utilizamos o comando:

dados$moradia

3.2.1 Variáveis quantitativas

Para encontrar o desvio padrão é necessário usar o comando sd (). Porém, atenção! Nesse comando é necessário especificar a coluna para a qual queremos aferir o desvio padrão.

O mesmo pode ser aplicado às formulas mean(), max(), min(), quantile()

sd(dados$idade)
## [1] 10.9846
mean(dados$idade)
## [1] 37.08038
max(dados$idade)
## [1] 68
quantile(dados$idade)
##   0%  25%  50%  75% 100% 
##   18   28   36   45   68

A tabela abaixo mostra as diferentes funções de resumo acopladas ao código base do R:

Função Descrição
sum() Retorna a soma
mean() Retorna a média
sd() Retorna o desvio padrão
median() Retorna a mediana
var() Retorna a variância
cor() Retorna a correlação entre dois vetores
min() Retorna o mínimo
max() Retorna o máximo
range() Retorna o mínimo e o máximo
summary() Retorna um resumo dos dados
quantiles() Retorna os quantis

3.2.2 Variáveis qualitativas

Para verificar as categorias em variáveis qualitativas utilizamos a função unique().

unique(dados$moradia)
## [1] "alugada" "própria" "pais"    "priv"    "outras"  NA

Caso a variável seja do tipo fator (factor), utilizamos a função levels(). no lugar de unique().