Uno de los problemas más grandes cuando programamos en R es conseguir bases de datos, ya que éstas son las que nos ayudarán a practicar ciertos comandos, funciones, etc. He notado que en prácticamente todos los tutoriales que hay de R en internet se limitan a utilizar las bases de prueba más comunes, como gapminder
, USArrests
, crimtab
, cars
, diamonds
, iris
, entre otras cuantas. ¿Tenemos más opciones si quisieramos practicar con otra información?
Lo cierto es que existen cientos de bases de datos que podemos utilizar en R, ¿cómo accedemos a ellas?
datasets
Éste paquete es un compendio de más de 80 bases de datos disponibles para utilizar en R. Para utilizarlo basta con instalarlo (en la mayoría de los casos ya está preinstalado) de la siguiente manera:
# Descargamos el paquete
# install.packages("datasets")
# Leemos el paquete
library(datasets)
Esta de más decir que escribí el signo de gato antes de la función install.packages()
ya que yo ya tengo instalado el paquete.
¿Qué bases de datos tenemos disponibles en este paquete? Para verlas todas solo tenemos que escribir lo siguiente:
library(help = "datasets")
Y nos desplegará una ventana con la documentación, seguido de la lista de todas las bases de datos disponibles. A partir de aquí basta con escribir el nombre de la base de datos que necesitemos para poder trabajar con ella, por ejemplo, veamos la base chickwts
:
head(chickwts)
## weight feed
## 1 179 horsebean
## 2 160 horsebean
## 3 136 horsebean
## 4 227 horsebean
## 5 217 horsebean
## 6 168 horsebean
E igual podemos trabajar con ésta base de igual forma que con las que solemos usar para éstos ejemplos. Vamos a crear rápidamente una tabla para ver mejor los datos:
library(formattable)
formattable(head(chickwts))
weight | feed |
---|---|
179 | horsebean |
160 | horsebean |
136 | horsebean |
227 | horsebean |
217 | horsebean |
168 | horsebean |
Ojo: Estoy usando la función head()
para visualizar únicamente los primeros 6 datos de la base, esto para fines prácticos.
dataseries
Hasta ahora tenemos acceso a más de 80 bases de datos con el paquete mostrado anteriormente, pero en éste caso el paquete dataseries
nos da la opción de importar bases de datos de Suiza, en específico sus cuentas nacionales como el PIB o información económica de coyuntura (desempleo, salarios, etc). Para importar la información simplemente tenemos que entrar a la página de Data Series. Al entrar nos encontraremos con la siguiente pestaña:
Después debemos dar click donde se índica en color rojo a continuación:
Como vemos, esto nos desplegará una serie de variables económicas, simplemente escogemos la que queramos, por ejemplo, en este caso se escogió Employment evolution prospects, por lo que se nos desplegará una página con una gráfica de los datos. Para importar los datos solo debemos dar click en donde se indica a continuación, en la ventana que dice Import to R:
Finalmente nos desplegará una ventana pequeña con dos comandos, uno para descargar el paquete dataseries
y otro para importar esa base de datos. Solamente tenemos que copiar el segundo y pegarlo en la consola de R. El comando que debemos copiar es el señalado a continuación:
Ahora, si solamente copiamos el comando y lo pegamos tal cual entonces nos dará los datos en la consola, tal que:
head(dataseries::ds("ch_comb_outlook.596"))
## time ch_comb_outlook.596
## 1 2004-03-01 1.0078
## 2 2004-06-01 1.0174
## 3 2004-09-01 0.9957
## 4 2004-12-01 0.9954
## 5 2005-03-01 1.0160
## 6 2005-06-01 1.0183
Además podemos agregar funciones extra, como importar los datos como un Data Frame, una serie de tiempo, etc. Para ello solo debemos escribir en la función anterior al lado el argumento class =
y escogemos la forma de importación, por ejemplo, si importamos como Data Frame:
head(dataseries::ds("ch_comb_outlook.596", class = "data.frame"))
## time ch_comb_outlook.596
## 1 2004-03-01 1.0078
## 2 2004-06-01 1.0174
## 3 2004-09-01 0.9957
## 4 2004-12-01 0.9954
## 5 2005-03-01 1.0160
## 6 2005-06-01 1.0183
Sin embargo, si quisieramos trabajar con la base de datos para, por ejemplo, hacer análisis estadísticos, gráficos, etc, entonces podemos optar por crear un objeto que contenga los datos importados de la siguiente manera:
# Creamos el objeto
Employment <- dataseries::ds("ch_comb_outlook.596")
# Visualizamos los datos
head(Employment)
## time ch_comb_outlook.596
## 1 2004-03-01 1.0078
## 2 2004-06-01 1.0174
## 3 2004-09-01 0.9957
## 4 2004-12-01 0.9954
## 5 2005-03-01 1.0160
## 6 2005-06-01 1.0183
Y como ya creamos el objeto entonces es posible guardarlo para futuros análisis, exportarlo, etc.
Bastiaan, Q. (2020). Package ‘datasets’. Reference Manual. 15 de marzo de 2020, de CRAN Sitio web: https://cran.r-project.org/web/packages/datasets.load/datasets.load.pdf
Sax, C. (2017). Package ‘dataseries’. Reference Manual. 15 de marzo de 2020, de CRAN Sitio web: https://cran.r-project.org/web/packages/dataseries/dataseries.pdf