Capítulo 4 Transformando nuestros datos
Con las herramientas que ya conocemos podemos obtener información sobre nuestros datos. Por ejemplo, si importamos la información del Censo de población y vivienda 2020 del INEGI
Podemos conocer la población total del país, el porcentaje de población femenina, el promedio, desviación estándar u otros estadísticos de la población de entre 15 y 65 años en municipios del país, si es menor el número de niños de menos de 15 años que el número de adultos de más de 65, etc.
# Población total
<- poblacion$pobtot %>% sum()
total total
## [1] 126014024
# Porcentaje de población femenina
$pobfem %>% sum())/total * 100 (poblacion
## [1] 51.21702
# Promedio de personas de entre 15 y 65 en los municipios
$pob15_64 %>% mean() poblacion
## [1] 33885.56
# Es menor la población de menos de 15 años que la de más de 65?
$pob0_14 %>% sum() < poblacion$pob65_mas %>% sum() poblacion
## [1] FALSE
Sin embargo, si queremos realizar manipulaciones, el paquete dplyr
contiene varias funciones,
llamadas comúnmente verbos, que nos permitirán realizar todo tipo de transformaciones en nuestros datos.
Los principales verbos son:
filter()
para elegir observaciones basadas en sus valoresselect()
para elegir variables por sus nombresarrange()
para reordenar las filasmutate()
para crear nuevas variables aplicando funciones a las variables ya existentessummarise()
para condensar muchos valores en uno.
Además, estos verbos pueden combinarse con la función group_by()
para que las operaciones no se ejecuten
en todo el dataset sino grupo por grupo. Además, todos los verbos funcionan de forma similar: toman como primer
argumento un dataframe, después se describe qué se hace con las variables y el resultado es un nuevo
dataframe. Por lo tanto, funcionan muy bien con los pipes %>%