3.6 Calculando dados
Frequência
Um uso bem típico para a função summarize() é feito para contar a quantidade de observações dentro de cada grupo. Isto é feito ao utilizar o comando n() dentro da summarize() após definir os grupos.
Vamos contar o número de indivíduos que temos em cada categoria da variável trabalho. Para isso, utilizamos, primeiramente, a função group_by(), para indicar que queremos agrupar os indivíduos por categoria da variável trabalho.
Em seguida, utilizamos o comando n() para indicar que queremos contar o número de indivíduos em cada categoria da variável trabalho. Utilizamos o comando freq= para precisar que queremos que a coluna se chame freq (trabalharemos com apresentação de tabelas na Aula 4).
dados %>%
group_by(trabalho) %>% #Agrupar indivíduos de cada categoria da variável
summarize(freq = n()) #Contar número de indivíduos em cada categoria
## # A tibble: 5 × 2
## trabalho freq
## <chr> <int>
## 1 autônomo 1024
## 2 fixo 2805
## 3 meio período 452
## 4 outros 171
## 5 <NA> 2
Média
Para obtermos a média de um grupo devemos utilizar o comando mean() na função summarize(). O código é feito em três partes:
-Utilizamos o operador media= para indicar o nome que queremos dar à coluna. -O comando mean(variável) indica de qual variável queremos medir a média. -O comando na.rm=T indica que queremos remover os valores NA do cálculo (falaremos sobre valores NA mais para a frente).
#Média de idade dos indivíduos por estado civil
dados %>%
group_by(estado_civil) %>% #Agrupar indivíduos de cada categoria da variável
summarize(media=mean(idade, na.rm = T)) #Calcular a média
## # A tibble: 6 × 2
## estado_civil media
## <chr> <dbl>
## 1 casada(o) 39.6
## 2 divorciada(o) 38.7
## 3 separada(o) 38.0
## 4 solteira(o) 27.8
## 5 viúva(o) 48.8
## 6 <NA> 37