Chapter 10 Module IX

10.1 Pruebas de medias

La prueba t es la más sencilla y en R se hace con el comando t test. Esta es la misma prueba que harás para hacer prueba de hipótesis de parámetros de la regresión lineal.

# Podemos realizarla con la sintaxis más dplyr o con la sintaxis más mosaic
t.test(~mpg, data=datos)
## 
##  One Sample t-test
## 
## data:  mpg
## t = 19, df = 31, p-value <0.0000000000000002
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  17.9 22.3
## sample estimates:
## mean of x 
##      20.1
t.test(datos$mpg)
## 
##  One Sample t-test
## 
## data:  datos$mpg
## t = 19, df = 31, p-value <0.0000000000000002
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  17.9 22.3
## sample estimates:
## mean of x 
##      20.1

Como podemos ver, es un comando del estilo de summary, es decir que nos arroja distinta información y distintos estadísticos.

Al igual que con summary, podemos acceder solo determinada información o estadñisticos. Por ejemplo, al intervalo de confianza.

t_summary<-t.test(datos$mpg)

#con el comando confint
confint(t_summary)
##   mean of x lower upper level
## 1      20.1  17.9  22.3  0.95
#con la sintaxis más tidy
# recordemos que podemos acceder a objetos anidados dentro de un objeto con el signo de pesos.
t_summary$conf.int
## [1] 17.9 22.3
## attr(,"conf.level")
## [1] 0.95

10.2 Remuestreo aplicado

Ahora aprenderemos un poco de remuestreo. Primero accedemos a la media.

mean(datos$mpg)
## [1] 20.1
mean(~mpg, data=datos)
## [1] 20.1

Ahora remuestramos con diferentes datos con el comando resample, donde el parámetro son nuestros datos. Es decir, le estamos diciendo que nos haga un remuestreo con reemplazo de los mismos datos y que nos arroje un nuevo dataframe con dicho remuestreo y del mismo tamaño que los datos originales.

mean(~mpg, data=resample(datos))
## [1] 20.4
mean(~mpg, data=resample(datos))
## [1] 20.7
mean(~mpg, data=resample(datos))
## [1] 20.6
mean(~mpg, data=resample(datos))
## [1] 20.4

Finalmente en este histográma estamos graficando la media que en cada uno de los 1000 remuestreos nos da.

trials <- do(1000) * mean(resample(datos$mpg))
hist(trials$mean)

Como vimos anteriormente, esta técnica nos permite sacar intervalos de confianza de mánera más orgánica. Simplemente tomando los cuantiles .025 y el .975 para un intervalo de confianza al 95%.