1 Variables y estadística descriptiva
#para correr este libro se debe poner:
#bookdown::render_book("index.Rmd", "bookdown::gitbook") borrando el archivo _main.Rmd
1.1 Instalar R
La primera parte consiste en instalar R y RStudio, y aprender a cargar paquetes. Esto es lo mas importante.
1.2 Tipos de Variables y bases de datos
En necesario que cargue los siguientes paquetes si desea replicar los códigos en su computador.
Para instalar paquetes en R,
library(tidyverse)
library(readr)
library(datasets)
En primer lugar, vamos a cargar un conjunto de datos que ya están precargado en R. Para realizar esto, se sigue el codigo de R:
<- mtcars
tusDatos head(tusDatos) #muestra la primera parte de los datos.
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
Estos datos extraidos de la revista Motor Trend, muestra 32 observaciones sobre 11 variables:
- mpg: Millas / (EE. UU.) Galón
- cyl: Número de cilindros
- disp: Desplazamiento (pulgadas cúbicas)
- hp: Caballos de fuerza brutos
- drat: Relación del eje trasero
- wt: Peso (1000 libras)
- qsec: 1/4 de milla de tiempo
- vs: frente al motor (0 = en forma de V, 1 = recto)
- am: Transmisión (0 = automático, 1 = manual)
- gear: Número de marchas de avance
- carb: Número de carburadores
\textcolor{red}
NOTA: ?
significa AYUDA. Corra la siguiente linea de R, esto le ayudara a entender la base. Haga clic en “Run Code” para ver la ayuda:
?mtcars
NOTA:
$
Este signo, significa que voy a tomar solamente esa columna de datos:
$mpg mtcars
## [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8 16.4 17.3 15.2 10.4 10.4 14.7
## [18] 32.4 30.4 33.9 21.5 15.5 15.2 13.3 19.2 27.3 26.0 30.4 15.8 19.7 15.0 21.4
Una de las variables de la base de datos mtcars
es: Número de marchas de avance (Number of forward gears). Puede llamar únicamente esa columna:
?mtcars
$gear mtcars
## [1] 4 4 4 3 3 3 3 4 4 4 4 3 3 3 3 3 3 4 4 4 3 3 3 3 3 4 5 5 5 5 5 4
1.3 Cargar datos en R
Hay varios modos de leer una base de datos en R. Por ejemplo, se sugiere dar los siguientes pasos:
Introducir los datos en una hoja de cálculo de Excel: cada columna corresponderá a una variable. La primera fila de cada columna debe llevar el nombre de la variable. Los decimales deben estar separados por puntos y no por comas. Tampoco se pueden usar tildes (acentos) ni la letra ñ ni otros signos: solo se escribir á n números y nombres breves de variables. Además, hay que asegurarse de que no haya casillas en blanco.
Guardar los datos desde Excel como texto MS-DOS (formato .txt, sin hacer caso de posibles avisos de Excel).
Puedes descargar los datos en:
- Quedará guardado un archivo (canga25R.txt) en el disco duro, por ejemplo en la siguiente dirección:
c://r/canga25.txt
- Abrir R/Splus y usar el menú para definir como directorio de trabajo aquel en el que esté contenido el fichero que se quiere abrir. Esto puede hacerse desde el menú como:
Session → Set working directory → Choose directory o bien usando Ctrl + D
Resulta más útil dejar fijado permanentemente el directorio donde se guardarán los datos. La fijación de directorio permanente de trabajo puede hacerse desde el menú general de R:
R → Preferences → General (startup) → Initial working directory
- Dar la siguiente orden: Si después se escribe simplemente
<- read.table("canga25.txt", header = TRUE) d
Después se escribe simplemente
d
## id sexo edad inicio numcig peso talla grupo ecivil dia_0 mes_0 year_0 estudios interes
## 1 1 2 59 20 20 49 150 2 1 19 3 1998 3 2
## 2 2 1 21 13 20 78 173 1 2 11 2 1998 7 0
## 3 3 1 54 13 11 83 178 2 1 11 3 1998 6 2
## 4 4 1 66 15 20 75 . 2 1 13 6 1998 6 1
## 5 5 1 51 45 60 80 170 1 1 6 2 1998 7 1
## 6 6 2 27 13 20 57 158 1 2 26 1 1998 7 0
## 7 7 1 41 16 40 51 157 2 2 13 1 1998 6 3
## 8 8 2 59 20 15 47 155 1 2 21 1 1998 5 1
## 9 9 1 31 16 20 61 163 1 2 26 1 1998 8 1
## 10 10 1 62 14 10 48 155 2 2 11 4 1998 2 2
## 11 11 1 22 14 7 63 173 2 2 14 1 1998 6 2
## 12 12 1 51 15 8 78 . 2 1 12 6 1998 5 2
## 13 13 1 50 21 30 77 164 1 1 15 1 1999 5 1
## 14 14 1 67 19 30 64 169 2 1 17 3 1998 4 1
## 15 15 2 56 17 20 100 155 1 4 3 2 1998 2 1
## 16 16 1 19 13 15 68 170 2 2 19 5 1998 5 2
## 17 17 2 20 14 15 52 165 2 2 15 4 1998 5 2
## 18 18 1 69 . 30 71 166 2 1 14 5 1998 2 2
## 19 19 2 42 20 20 55 167 1 1 16 2 1998 8 1
## 20 20 1 64 16 10 67 175 1 1 28 2 1998 5 2
## 21 21 1 72 9 20 90 170 2 2 19 2 1998 2 1
## 22 22 1 71 22 20 67 165 1 1 3 3 1998 2 1
## 23 23 1 75 10 20 75 165 1 1 2 3 1998 1 1
## 24 24 1 47 10 30 90 175 1 1 16 2 1998 4 2
## 25 25 1 77 10 20 68 170 1 1 3 2 1998 2 1
## dia_5 mes_5 year_5 abandono
## 1 25 5 1998 2
## 2 28 5 1998 2
## 3 12 8 1998 2
## 4 22 10 1998 2
## 5 12 6 1998 2
## 6 13 6 1998 2
## 7 15 6 1998 2
## 8 15 6 1998 1
## 9 16 6 1998 1
## 10 16 6 1998 2
## 11 17 6 1998 2
## 12 27 2 1999 2
## 13 18 9 1999 2
## 14 19 6 1998 2
## 15 19 6 1998 2
## 16 22 6 1998 2
## 17 13 7 1998 2
## 18 13 7 1998 2
## 19 13 7 1998 2
## 20 13 7 1998 2
## 21 13 7 1998 2
## 22 15 7 1998 2
## 23 17 7 1998 2
## 24 16 7 1998 2
## 25 16 7 1998 2
el programa mostrará la base de datos.
header
significa que los datos tienen algun tipo de encabezado, tiene que fijarse si lo tiene. Note la diferencia si pone FALSE
, en lugar de TRUE
en el comando.
También se puede llamar los datos desde cualquier pagina Web. Sin embargo, siempre se debe tener cuidado el formato de los datos:
<- read.table("https://stats.idre.ucla.edu/stat/data/test.txt")
test head(test)
## V1 V2 V3 V4 V5 V6
## 1 prgtype gender id ses schtyp level
## 2 general 0 70 4 1 1
## 3 vocati 1 121 4 2 1
## 4 general 0 86 4 3 1
## 5 vocati 0 141 4 3 1
## 6 academic 0 172 4 2 1
Por ejemplo, los datos test
tienen los nombres de las columnas y no fueron tomado en cuenta. Escriba el comando correcto para que R reconozca los nombres del encabezado y mueste la primera parte de los datos:
<- read.table("https://stats.idre.ucla.edu/stat/data/test.txt", header = TRUE)
test head(test)
## prgtype gender id ses schtyp level
## 1 general 0 70 4 1 1
## 2 vocati 1 121 4 2 1
## 3 general 0 86 4 3 1
## 4 vocati 0 141 4 3 1
## 5 academic 0 172 4 2 1
## 6 academic 0 113 4 2 1
¡MANOS A LA OBRA!
Cargue los datos canga25
en su computador.