B Lista de comandos útiles
Nota: Varios de estos comandos pertenecen a tidyverse, por lo que se asume que se ha instalado y cargado tidyverse
.
Generales
Comando | Descripción | Ejemplo |
---|---|---|
install.packages() |
Instalar paquete (es necesario hacer sólo una vez y en la Consola) | install.packages("tidyverse") |
library() |
Cargar paquete | library(tidyverse) |
read_csv() |
Cargar datos en formato .csv (separado por comas) | read_csv("carpeta/misdatos.csv") |
read_excel() |
Cargar datos desde un archivo Excel (requiere cargar paquete readxl ) |
read_excel("misdatos.xlsx", sheet = "Hoja1") |
glimpse() |
Entrega un resumen de un data frame (variables y observaciones) | glimpse(mpg) |
$ |
Seleccionar una variable de un data frame | dataframe$edad |
table() |
Generar una tabla de frecuencia para la(s) variable(s) | table(dataframe$comuna, dataframe$carrera) |
Manipulación de datos con tidyverse
Nota: Varios de estos comandos se usan con el operador “pipe” (%>%
), en los ejemplos usamos df
como nombre del data frame sobre el cual se aplica la función.
Comando | Descripción | Ejemplo |
---|---|---|
filter() |
Seleccionar (filtrar) observaciones (filas) de un data frame | df %>% filter(edad >= 18 & comuna == "Concon") |
select() |
Seleccionar variables (columnas) de un data frame | df %>% select(edad, comuna, carrera) |
Al usar select() con - se seleccionan todas las variables, excepto las indicadas |
df %>% select(-comuna) |
|
rename() |
Renombrar variables de un data frame | df %>% rename(edad = edad.del.individuo) |
mutate() |
Modificar variables y entregar el resultado en otra variable | df %>% mutate(ptos.totales = ptos.local + ptos.visita) |
summarise() |
Generar alguna estadística a partir de las variables del data frame (reducir varios valores a uno solo) | df %>% summarise(edad.promedio = mean(edad)) |
group_by() |
Agrupar las observaciones según una o más variables para luego calcular alguna estadística por grupo | df %>% group_by(carrera) %>% summarise(edad.promedio = mean(edad)) |
arrange() |
Reordenar observaciones según una o más variables (usar - para orden descendiente) |
df %>% arrange(edad, -ingresos) |
drop_na() |
Remover filas con valores faltantes | df %>% drop_na() |
Análisis de correlación
Nota: Varios de estos comandos se aplican sólo a variables cuantitativas, en los ejemplos se asume que df
es un dataframe sólo con variables cuantitativas. Además se sume que no hay valores faltantes.
Para comandos que requieren la librería corrr
, esta se debe instalar y luego cargar con library(corrr)
.
Comando | Descripción | Ejemplo |
---|---|---|
pairs() |
Crear una matriz de gráficos de dispersión para las variables en la base de datos | df %>% pairs() |
colpair_map(cov) |
Crea la matriz de covarianza para las variables en la base de datos (requiere la librería corrr ) |
df %>% colpair_map(cov) |
colpair_map(cor) |
Crea la matriz de correlación para las variables en la base de datos (requiere la librería corrr ) |
df %>% colpair_map(cor) |