Chapter 4 Modulo Extra: dplyr

dplyr es tal vez el paquete más importante para R. Incluye comandos para la manipulación de datos: limpieza, manejo, wrnagling, filtrado, transformaciones. Lo potente de dplyr esque permite concatenar comandos de tal manera que podemos crear secuencias de instrucciones de manera muy limpia.

A continuación se muestran los comandos más útiles de dplyr:

Comando Utilidad
select Permite seleccionar solo algunas variables de todas
filter permite filtrar la base de acuerdo a alguna condición
mutate permite crear nuevas variables
%>% es el famoso “pipe” para concatenar instrucciones
#En caso de que no lo tengas instalado
#install.packages("dplyr")
library(dplyr)

datos %>% 
  select(mpg,cyl) %>% 
  mutate(mpg_per_cyn=mpg/cyl) %>%
  filter(mpg_per_cyn > 3)
##                 mpg cyl mpg_per_cyn
## Mazda RX4      21.0   6        3.50
## Mazda RX4 Wag  21.0   6        3.50
## Datsun 710     22.8   4        5.70
## Hornet 4 Drive 21.4   6        3.57
## Valiant        18.1   6        3.02
## Merc 240D      24.4   4        6.10
## Merc 230       22.8   4        5.70
## Merc 280       19.2   6        3.20
## Fiat 128       32.4   4        8.10
## Honda Civic    30.4   4        7.60
## Toyota Corolla 33.9   4        8.47
## Toyota Corona  21.5   4        5.38
## Fiat X1-9      27.3   4        6.83
## Porsche 914-2  26.0   4        6.50
## Lotus Europa   30.4   4        7.60
## Ferrari Dino   19.7   6        3.28
## Volvo 142E     21.4   4        5.35

Ejercicio:

  1. Selecciona 4 variables interesantes para analizar coches,

  2. Crea 1 variable nueva interesante

  3. Haz un histograma de la nueva variable

  4. Filtra la base de datos de acuerdo a un punto de corte en la nueva variable

  5. Haz un histograma de la nueva variable