Capítulo 4 Transformando nuestros datos

Con las herramientas que ya conocemos podemos obtener información sobre nuestros datos. Por ejemplo, si importamos la información del Censo de población y vivienda 2020 del INEGI

Podemos conocer la población total del país, el porcentaje de población femenina, el promedio, desviación estándar u otros estadísticos de la población de entre 15 y 65 años en municipios del país, si es menor el número de niños de menos de 15 años que el número de adultos de más de 65, etc.

# Población total
total <- poblacion$pobtot %>% sum() 
total
## [1] 126014024
 # Porcentaje de población femenina
(poblacion$pobfem %>% sum())/total * 100
## [1] 51.21702
# Promedio de personas de entre 15 y 65 en los municipios
poblacion$pob15_64 %>% mean() 
## [1] 33885.56
# Es menor la población de menos de 15 años que la de más de 65?
poblacion$pob0_14 %>% sum() < poblacion$pob65_mas %>% sum() 
## [1] FALSE

Sin embargo, si queremos realizar manipulaciones, el paquete dplyr contiene varias funciones, llamadas comúnmente verbos, que nos permitirán realizar todo tipo de transformaciones en nuestros datos.

Los principales verbos son:

  • filter() para elegir observaciones basadas en sus valores
  • select() para elegir variables por sus nombres
  • arrange() para reordenar las filas
  • mutate() para crear nuevas variables aplicando funciones a las variables ya existentes
  • summarise() para condensar muchos valores en uno.

Además, estos verbos pueden combinarse con la función group_by() para que las operaciones no se ejecuten en todo el dataset sino grupo por grupo. Además, todos los verbos funcionan de forma similar: toman como primer argumento un dataframe, después se describe qué se hace con las variables y el resultado es un nuevo dataframe. Por lo tanto, funcionan muy bien con los pipes %>%