Chapter 9 Module VII

9.1 Remuestreo

Tradicionalmente realizamos intervalos de confianza con base en supuestos y en inferencia estadística. Este es un enfoque tradicionalista. Por ejemplo de los datos anteriores:

stargazer(model, type="text")
## 
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                                 hp             
## -----------------------------------------------
## mpg                          -8.830***         
##                               (1.310)          
##                                                
## Constant                    324.000***         
##                              (27.400)          
##                                                
## -----------------------------------------------
## Observations                    32             
## R2                             0.602           
## Adjusted R2                    0.589           
## Residual Std. Error      43.900 (df = 30)      
## F Statistic           45.500*** (df = 1; 30)   
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

el intervalo de confianza se calcula asumiendo que el parámetro βmpg muestral de interés se distribuye normal con media en el βmpg real. Por lo tanto para calcular el intervalo de confianza al 95% basta con despejar βmpg±z.025σ para obtener los limites.

-8.830-1.310*1.96
## [1] -11.4
-8.830+1.310*1.96
## [1] -6.26
#aproximadamente.. porque perdemos decimales
confint(model)
##             2.5 % 97.5 %
## (Intercept) 268.1 380.11
## mpg         -11.5  -6.16

Graficamente estamos acotando el valor del parámetro a estimar dentro de ahí.

xpnorm(c(-11.4,-6.26) , mean=-8.830, sd=1.310)
## 
## If X ~ N(-8.83, 1.31), then
##  P(X <= -11.40) = P(Z <= -1.962) = 0.02489   P(X <=  -6.26) = P(Z <=  1.962) = 0.97511
##  P(X >  -11.40) = P(Z >  -1.962) = 0.97511   P(X >   -6.26) = P(Z >   1.962) = 0.02489
## 

## [1] 0.0249 0.9751

Pero no es el mejor método porque parte de supuestos fuertes, veamos que pasa cuando queremos estimar la media:

mean(datos$mpg)
## [1] 20.1
sd(datos$mpg)
## [1] 6.03

el intervalo de confianza se calcula asumiendo que el parámetro βmpg muestral de interés se distribuye normal con media en el βmpg real. Por lo tanto para calcular el intervalo de confianza al 95% basta con despejar ˆx±z.025σn para obtener los limites.

20.1-6.03*1.96/sqrt(32) #inferior
## [1] 18
20.1+6.03*1.96/sqrt(32) #superios
## [1] 22.2

Graficamente estamos acotando el valor del parámetro a estimar dentro de ahí.

xpnorm(c(18,22.2) , mean=20.1, sd=6.03)
## 
## If X ~ N(20.1, 6.03), then
##  P(X <= 18.0) = P(Z <= -0.3483) = 0.3638 P(X <= 22.2) = P(Z <=  0.3483) = 0.6362
##  P(X >  18.0) = P(Z >  -0.3483) = 0.6362 P(X >  22.2) = P(Z >   0.3483) = 0.3638
## 

## [1] 0.364 0.636

Pero existen métodos más orgánicos que aprovechan el poder computacional para no tener que hacer supuestos, como el que veremos a contnuación.

Bootstrap

El bootstrap es un método de estadística que se basa en el remuestreo de la misma variable. En este caso, vamos a remuestrear con reemplazo una variable y sobre la variable calcularemos los intervalos de confiana al elegir los cuantiles .025 y .975, de esta manera obtenemos un intervalo de confianza más orgánico y sin asumir supuestos de la distribución de la variable.

mean(datos$mpg)
## [1] 20.1
trials <- do(1000) * mean(resample(datos$mpg))

qdata(trials$mean, c(.025, .975))#05% de confianza
##  2.5% 97.5% 
##  18.2  22.2
hist(trials$mean)