7.4 Intervalos de confianza

La estimación puntual aproxima mediante un número el valor de una característica poblacional o parámetro desconocido (la altura media de los españoles, la intención de voto a un partido en las próximas elecciones generales, el tiempo medio de ejecución de un algoritmo, el número de taxis…) pero no nos indica el error que se comete en dicha estimación.

Lo razonable, en la práctica, es adjuntar, junto a la estimación puntual del parámetro, un intervalo que mida el margen de error de la estimación. La construcción de dicho intervalo es el objetivo de la estimación por intervalos de confianza.

Un intervalo de confianza para un parámetro con un nivel de confianza $1-\alpha$ ( $0<\alpha <1$ ), es un intervalo de extremos aleatorios $(L,U)$ que, con probabilidad $1-\alpha$ , contiene al parámetro en cuestión. $P\left( \text{parámetro} \in (L,U)\right)=1-\alpha.$

Los valores más habituales del nivel de confianza $1-\alpha$ son $0.9, 0.95$ o $0.99$ (la confianza es del $90\%, 95\%$ o $99\%$ ). En ocasiones también se emplea la terminología nivel de significación para el valor $\alpha$ .

En la estimación por intervalos de confianza partimos de una muestra $x_{1},\ldots ,x_{n}$ . A partir de estos valores obtenemos un intervalo numérico. Por ejemplo, podríamos hablar de que, con una confianza del $99$ por ciento, la proporción de voto al partido político “Unidas Ciudadanas” está entre el $29$ y el $31$ por ciento. O que, con una confianza del $90$ por ciento, la estatura media está entre $1.80$ y $1.84$ .

7.4.1 Interpretación

Igual que vimos antes con las encuestas de las estaturas, o de la proporción de gente que cree en los extraterrestres, con cada muestra obteníamos $n$ datos diferentes, y valores diferentes (de la media muestral o de la proporción muestral).

De cada muestra también puede obtenerse un intervalo de confianza. Entonces, con cada muestra diferente, obtendremos un intervalo también diferente. A medida que aumenta la cantidad de intervalos que hemos construido, el porcentaje de intervalos que contienen el verdadero valor del parámetro se aproximará al $100(1-\alpha)\%$ .

Así, por ejemplo, un intervalo de confianza al $95\%$ garantiza que, si tomamos $100$ muestras, el verdadero valor del parámetro estará dentro del intervalo en aproximadamente el $95$ de los intervalos construidos.

Veamos un ejemplo mediante simulación. Vamos a simular que realizamos encuestas, en este caso preguntando a $n=12$ personas (de nuevo si creen en los extraterrestres). De cada muestra podemos obtener una estimación puntual (calculada mediante la proporción en la muestra), y también un intervalo de confianza (que más adelante veremos cómo se calcula). Haremos este proceso $B=20$ veces.

set.seed(1) 
n<-12
B<-20
muestras <- as.data.frame(matrix(rbinom(n*B, 
                          1, 0.61), ncol=n))
rownames(muestras) <- paste("muestra", 1:B, sep="")
colnames(muestras) <- paste(" obs ", 1:n , sep="") 
#muestras
pander(muestras)

Table continues below
	obs 1	obs 2	obs 3	obs 4	obs 5	obs 6	obs 7	obs 8
muestra1	1	0	0	0	1	0	0	0
muestra2	1	1	0	1	0	1	1	1
muestra3	1	0	0	1	1	1	1	1
muestra4	0	1	1	1	1	0	1	1
muestra5	1	1	1	0	0	0	0	0
muestra6	0	1	0	1	1	1	1	1
muestra7	0	1	1	1	0	1	1	1
muestra8	0	1	1	0	1	1	1	0
muestra9	0	0	0	1	1	0	1	1
muestra10	1	1	0	0	1	1	1	0
muestra11	1	1	1	1	1	0	1	0
muestra12	1	1	0	0	1	0	1	1
muestra13	0	1	1	1	0	1	1	1
muestra14	1	1	1	1	0	1	0	1
muestra15	0	0	1	1	0	1	0	1
muestra16	1	0	1	0	0	1	1	1
muestra17	0	0	1	0	1	0	1	1
muestra18	0	1	1	1	1	1	1	1
muestra19	1	0	0	0	0	1	0	1
muestra20	0	1	1	0	1	0	1	1

	obs 9	obs 10	obs 11	obs 12
muestra1	1	1	1	1
muestra2	0	1	1	1
muestra3	1	0	1	1
muestra4	0	1	1	1
muestra5	0	0	1	0
muestra6	1	1	1	1
muestra7	1	0	1	1
muestra8	1	0	1	1
muestra9	0	0	1	1
muestra10	1	1	0	0
muestra11	0	0	0	1
muestra12	0	1	1	1
muestra13	0	1	0	1
muestra14	1	0	0	0
muestra15	1	1	0	1
muestra16	0	1	1	0
muestra17	0	1	0	0
muestra18	0	0	0	1
muestra19	1	1	0	1
muestra20	0	0	1	1

muestras$mean <- rowMeans(muestras[,1:n])

alfa <- 0.05
z <- qnorm(1 - alfa/2)
p <-muestras$mean
muestras$ici <- p - z*sqrt(p*(1-p)/n)
muestras$ics <- p + z*sqrt(p*(1-p)/n)
esta<-0
b=ifelse(0.61<=muestras$ics & 0.61 >= muestras$ici, 
                                    "SI", "NO")
Resultado<-data.frame(muestras$mean, muestras$ici ,
                                  muestras$ics, b)
colnames(Resultado)<-c("ptilde", "L", "U", 
                       " 0.61 está o no?")
pander(Resultado)

ptilde	L	U	0.61 está o no?
0.5	0.2171	0.7829	SI
0.75	0.505	0.995	SI
0.75	0.505	0.995	SI
0.75	0.505	0.995	SI
0.3333	0.06662	0.6001	NO
0.8333	0.6225	1.044	NO
0.75	0.505	0.995	SI
0.6667	0.3999	0.9334	SI
0.5	0.2171	0.7829	SI
0.5833	0.3044	0.8623	SI
0.5833	0.3044	0.8623	SI
0.6667	0.3999	0.9334	SI
0.6667	0.3999	0.9334	SI
0.5833	0.3044	0.8623	SI
0.5833	0.3044	0.8623	SI
0.5833	0.3044	0.8623	SI
0.4167	0.1377	0.6956	SI
0.6667	0.3999	0.9334	SI
0.5	0.2171	0.7829	SI
0.5833	0.3044	0.8623	SI

Vemos que, en la mayoria de las ocasiones, el intervalo de confianza contiene al verdadero valor del parámetro ( $0.61$ en este caso), pero en otras (las menos) no. En este ejemplo hemos utilizado un tamaño de muestra pequeño y hemos repetido el proceso pocas veces, pero ahí está el código para replicar el procedimiento con otros valores. Se puede comprobar que, con tamaños de muestra un poco más grandes y repetido el proceso un número grande de veces, $95$ de cada $100$ veces (aquí hemos usado un nivel de confianza del $95\%$ ) los intervalos contendrán el valor $0.61$ , y aproximadamente $5$ de cada $100$ veces no lo contendrán.

Observemos el mismo proceso, ahora para $500$ muestras de tamaño $10$ , de estaturas (de hombres mayores de $18$ años en España). Simulamos que seleccionamos aleatoriamente a $10$ hombres, les medimos la estatura, calculamos la estatura media de la muestra y el intervalo de confianza para dicha estatura media, con confianza del $95\%$ . Realizamos este proceso $500$ veces.

Ahora, además, hacemos un dibujo de los 50 primeros intervalos, para comprobar cuáles contienen al verdadero valor buscado (la estatura media real o teórica, en este caso, que es $177.7$ ).

set.seed(54321) 
nsim <- 500
nx <- 10

# Valores teóricos:
mux <- 177.7
sdx <- 5.9
# 
# Simulación de las muestras  
muestras <- as.data.frame(matrix(rnorm(nsim*nx, 
                 mean=mux, sd=sdx), ncol=nx))
rownames(muestras) <- paste("muestra", 1:nsim, sep="")
colnames(muestras) <- paste("obs", 1:nx, sep="")
 
#  Estimaciones
muestras$mean <- rowMeans(muestras[,1:nx])
muestras$sd <- apply(muestras[,1:nx], 1, sd)

alfa <- 0.05
z <- qnorm(1 - alfa/2)
muestras$ici <- muestras$mean - z*sdx/sqrt(nx)
muestras$ics <- muestras$mean + z*sdx/sqrt(nx)

# Cobertura de las estimaciones por IC:
muestras$cob <- (muestras$ici < mux) & (mux < muestras$ics) 
ncob <- sum(muestras$cob) 

# Nº de intervalos que contienen la verdadera media
ncob

[1] 480


# Proporción de intervalos
100*ncob/nsim

[1] 96

Como vemos, de los intervalos calculados, el 96 por ciento de los mismos contiene el verdadero valor $177.7$ . Este valor es casi el $95\%$ , que es el nivel utilizado.

Hacemos ahora el gráfico de los primeros 50 intervalos (Figura 7.9:). Los intervalos de color rojo no contienen al verdadero valor del parámetro; los otros sí.

m <- 100
tmp <- muestras[1:m,]
attach(tmp)
color <- ifelse(cob,"blue","red")
plot(1:m, mean, col = color, 
     ylim = c(min(ici),max(ics)), 
     main = "Cobertura de las estimaciones por IC", 
          xlab = "Muestra", ylab = "IC")
arrows(1:m, ici, 1:m, ics, angle = 90, 
       length = 0.05, code = 3, col = color)
abline(h = mux, lty = 3)

Figura 7.9: Fijémonos que hay intervalos que no contienen al parámetro verdadero.

detach(tmp)

7.4.2 Ejemplo: Meta-análisis de eficacia de Antidepresivos

Se llama meta-análisis a un procedimiento basado en técnicas estadísticas, mediante el que se analizan datos de diferentes estudios realizados sobre el mismo tema (revisión sistemática). El esquema básico consiste en elegir un grupo de artículos científicos en donde se haya medido el mismo parámetro (efecto medio, proporción… ) y estudiar la variabilidad existente entre unos resultados y otros.

En el gráfico 7.10: se considera un meta-análisis del efecto de los antidepresivos más comunes, siendo el parámetro considerado el llamado odds-ratio entre la efectividad de cada antidepresivo contra placebo.

Si $p_1$ es la probabilidad de que el antidepresivo sea efectivo, y $p_2$ la del placebo, el odds-ratio -“razón de momios” o “razón de posibilidades”- es: $\dfrac{p_1/(1-p_1)}{p_2/(1-p_2)}.$

De manera general, el odds-ratio entre dos sucesos expresa las posibilidades de uno frente al otro. Si, por ejemplo, las odds de que llueva son de dos a uno, $(2/1)=2$ , quiere decir que es dos veces más probable que llueva que no llueva; con lo cual, la probabilidad de lluvia sería $2/3$ y de no lluvia $1/3$ . Si, de un grupo de 100 personas, $85$ presentan síntomas de una enfermedad, la probabilidad de enfermedad será $85/100$ mientras que las odds serán de $85$ a $15$ , es decir $5.7$ . Las odds exceden de la unidad siempre que haya más posibilidades del suceso de “arriba” (numerador) frente al de “abajo” (denominador). Con respecto al intervalo de confianza, es importante ver si incluye o no el valor $1$ . Si lo incluye, significa que la asociación no es estadísticamente significativa, y que los resultados sólo pueden deberse a la casualidad. Si no lo incluye, indicaría mayor probabilidad de ocurrencia de un suceso frente al otro. El $1$ equivale a la misma probabilidad (llover o no llover, o, en este caso, efecto de un antidepresivo frente al efecto de un placebo).

Figura 7.10: Gráfico llamado Forest-Plot del meta-análisis para los medicamentos antidepresivos.

Como observamos en el gráfico 7.10, ninguno de los intervalos de confianza para ninguno de los antidepresivos considerados contiene al $1$ (lo que significaría que su eficacia sería equivalente a un placebo). En cambio, todos los intervalos de confianza están situados a la derecha, lo que significa que, con un $95\%$ de confianza (este nivel es el más utilizado), el efecto de un antidepresivo es siempre mayor (y tanto más cuanto más grande el odds-ratio, o la raya este más a la derecha). En este meta-análisis, se observó que el antidepresivo de mayor eficacia (comparándolo con un placebo) es la Amitriptilina.

Fuente: https://ourworldindata.org/happiness-and-life-satisfaction