B Lista de comandos útiles
Nota: Varios de estos comandos pertenecen a Tidyverse, por lo que se asume que se ha instalado y cargado tidyverse
.
Generales
Comando | Descripción | Ejemplo |
---|---|---|
install.packages() |
Instalar paquete (es necesario hacer sólo una vez y en la Consola) | install.packages("tidyverse") |
library() |
Cargar paquete | library(tidyverse) |
read_csv() |
Cargar datos en formato .csv (separado por comas) | read_csv("carpeta/misdatos.csv") |
read_excel() |
Cargar datos desde un archivo Excel (requiere cargar paquete readxl ) |
read_excel("misdatos.xlsx", sheet = "Hoja1") |
glimpse() |
Entrega un resumen de un data frame (variables y observaciones) | glimpse(mpg) |
$ |
Seleccionar una variable de un data frame | dataframe$edad |
table() |
Generar una tabla de frecuencia para la(s) variable(s) | table(dataframe$comuna, dataframe$carrera) |
Manipulación de datos (dplyr
)
Nota: Como varios de estos comandos se usan usualmente con el operador “pipe” (%>%
), en los ejemplos usamos df
como nombre del data frame sobre el cual se aplica la función.
Comando | Descripción | Ejemplo |
---|---|---|
filter() |
Seleccionar (filtrar) observaciones (filas) de un data frame | df %>% filter(edad >= 18 & comuna == "Concon") |
select() |
Seleccionar variables (columnas) de un data frame | df %>% select(edad, comuna, carrera) |
Al usar select() con - se seleccionan todas las variables, excepto las indicadas |
df %>% select(-comuna) |
|
rename() |
Renombrar variables de un data frame | df %>% rename(edad = edad.del.individuo) |
mutate() |
Modificar variables y entregar el resultado en otra variable | df %>% mutate(ptos.totales = ptos.local + ptos.visita) |
summarise() |
Generar alguna estadística a partir de las variables del data frame (reducir varios valores a uno solo) | df %>% summarise(edad.promedio = mean(edad)) |
group_by() |
Agrupar las observaciones según una o más variables para luego calcular alguna estadística por grupo | df %>% group_by(carrera) %>% summarise(edad.promedio = mean(edad)) |
arrange() |
Reordenar observaciones según una o más variables (usar - para orden descendiente) |
df %>% arrange(edad, -ingresos) |