3.6 Calculando dados

library(dplyr)

Frequência

Um uso bem típico para a função summarize() é feito para contar a quantidade de observações dentro de cada grupo. Isto é feito ao utilizar o comando n() dentro da summarize() após definir os grupos.

Vamos contar o número de indivíduos que temos em cada categoria da variável trabalho. Para isso, utilizamos, primeiramente, a função group_by(), para indicar que queremos agrupar os indivíduos por categoria da variável trabalho.

Em seguida, utilizamos o comando n() para indicar que queremos contar o número de indivíduos em cada categoria da variável trabalho. Utilizamos o comando freq= para precisar que queremos que a coluna se chame freq (trabalharemos com apresentação de tabelas na Aula 4).

dados %>% 
  group_by(trabalho) %>% #Agrupar indivíduos de cada categoria da variável 
summarize(freq = n())  #Contar número de indivíduos em cada categoria

## # A tibble: 5 × 2
##   trabalho      freq
##   <chr>        <int>
## 1 autônomo      1024
## 2 fixo          2805
## 3 meio período   452
## 4 outros         171
## 5 <NA>             2

Média

Para obtermos a média de um grupo devemos utilizar o comando mean() na função summarize(). O código é feito em três partes:

-Utilizamos o operador media= para indicar o nome que queremos dar à coluna. -O comando mean(variável) indica de qual variável queremos medir a média. -O comando na.rm=T indica que queremos remover os valores NA do cálculo (falaremos sobre valores NA mais para a frente).

#Média de idade dos indivíduos por estado civil

dados %>% 
  group_by(estado_civil) %>% #Agrupar indivíduos de cada categoria da variável
  summarize(media=mean(idade, na.rm = T)) #Calcular a média

## # A tibble: 6 × 2
##   estado_civil  media
##   <chr>         <dbl>
## 1 casada(o)      39.6
## 2 divorciada(o)  38.7
## 3 separada(o)    38.0
## 4 solteira(o)    27.8
## 5 viúva(o)       48.8
## 6 <NA>           37