7.7 Intervalo de confianza para la desviación típica

(Para la varianza, simplemente se elevan los valores al cuadrado).

7.7.1 Conociendo la media

\[ \left( \sqrt{\frac{\sum_{i=1}^{n}(x_{i}-\mu )^{2}}{\chi _{n,\alpha /2}^{2}}} \ ,\ \sqrt{\frac{\sum_{i=1}^{n}(x_{i}-\mu )^{2}}{\chi _{n,1-\alpha /2}^{2}}} \right) \] siendo \(\chi _{n,\alpha /2}^{2}\) el valor de una Chi-cuadrado con \(n\) grados de libertad que deja a la derecha \(\alpha /2\) de área.

7.7.2 Desconociendo la media

\[ \left( \sqrt{\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{\chi _{n-1,\alpha /2}^{2}}}\ ,\ \sqrt{\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{\chi _{n-1,1-\alpha /2}^{2}}}\right) = \]

\[ =\left( \sqrt{\frac{(n-1)\hat{S}_{n-1}^{2}}{\chi _{n-1,\alpha /2}^{2}}}, \sqrt{\frac{(n-1)\hat{S}_{n-1}^{2}}{\chi _{n-1,1-\alpha /2}^{2}}}\right) =\left( \sqrt{\frac{n\hat{S}_{n}^{2}}{\chi _{n-1,\alpha /2}^{2}}},\sqrt{ \frac{n\hat{S}_{n}^{2}}{\chi _{n-1,1-\alpha /2}^{2}}}\right) , \] siendo \(\chi _{n-1,\alpha /2}^{2}\) el valor de una Chi-cuadrado con \(n-1\) grados de libertad que deja a la derecha \(\alpha /2\) de área.

7.7.3 I.C. para una proporción

El objetivo es construir un intervalo de confianza para la proporción de elementos {\(p\)}} de una población que poseen una determinada característica (votantes de un partido político, alumnos que usan una determinada red social, elementos defectuosos, …) a partir de una muestra aleatoria simple de la población.

De esta forma, consideramos la variable

\(X\)	\(P(X=x_{i})\)
\(0\)	\(1-p\)
\(1\)	\(p\)

Es decir, la variable aleatoria que toma los valores \(1\) y \(0\) (\(1\) si tiene la característica con probabilidad \(p\), \(0\) si no la tiene)

Tomamos entonces una muestra aleatoria simple \(X_1,\ldots,X_n\) de la variable \(X\in B(1,p)\)

Dado el nivel de confianza \(1-\alpha\), elegimos el estadístico pivotal que \[ T=\frac{\widehat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\approx N(0,1) \]

Teniendo en cuenta que \(\frac{\alpha}{2} =P(Z\geq z_{\frac{\alpha}{2}})\), sabemos que \[ 1-\alpha \approx P\left( - z_{\alpha /2}<\frac{\widehat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}< z_{\alpha /2}\right) \]

Despejando obtenemos el intervalo \[ \left( \widehat{p}- z_{\alpha /2}\sqrt{\frac{ p\cdot (1- p)}{n}}\ ,\ \widehat{p}+ z_{\alpha /2}\sqrt{\frac{ p \cdot(1- p )}{n}}\right) \] Puesto que \(p\) es desconocido, en la práctica lo sustituiremos por \(\widehat{p}\) o por \(0.5\) (el valor que da lugar a un I.C. con longitud máxima).

Si sustituimos \(p\) por \(\widehat{p}\), obtenemos el intervalo de confianza

\[ \left( \widehat{p}- z_{\alpha /2 }\sqrt{\frac{\widehat{p}(1-{\widehat{p}})}{n}} \ , \ \widehat{p}+ z_{\alpha /2} \sqrt{\frac{\widehat{p}(1-{\widehat{p}})}{n}}\right). \]

Si sustituimos \(p\) por \(0.5\), obtenemos el intervalo de confianza

\[ \left(\widehat{p}-z_{\alpha/2}\sqrt{\frac{1}{4n}}\text{ },\text{ } \widehat{p}+z_{\alpha/2}\sqrt{\frac{1}{4n}}\right). \]

Al finalizar un ensayo clínico para un trabajo fin de master, la profesora Chifuentes dispuso de una m.a.s. de \(100\) pacientes, de las cuales \(7\) dijeron no haber notado mejoría. Determinar un intervalo de confianza (con un nivel de confianza aproximado del \(99\%\)) para \(p\), proporción de pacientes que notan mejoría en la población en general.

¿Qué tamaño muestral \(n\) recomendarías para que la longitud del intervalo de confianza (con un nivel de confianza aproximado del \(95\%\)) para la proporción \(p\) fuera inferior a \(0.01\) unidades?

Solución:

Tenemos que \(n=100\) pacientes y que la proporción muestral es \(\hat{p}=\dfrac{93}{100}=0.93\)

El I.C. para p al nivel de confianza aproximado \(1-\alpha\) es: \[ \left( \widehat{p}- z_{\alpha /2 }\sqrt{\frac{ p \cdot (1- p )}{n}} \ , \ \widehat{p}+ z_{\alpha /2 }\sqrt{\frac{ p \cdot (1- p )}{n}}\right) \]

Tenemos dos opciones:

Primera opción: aproximar \(p\) por \(\hat{p}\). \[ \left(0.93\pm 2.575{\sqrt{\dfrac{0.93\times 0.07}{100}}}\right)=\left(0.93\pm 0.0657 \right)=\left(0.8643,0.9957\right) \]

Segunda opción: aproximar \(p\) por \(0.5\). \[ \left(0.93\pm 2.575{\sqrt{\dfrac{1}{400}}}\right)=\left(0.93\pm {0.1275}\right)=\left(0.8025,1.0575\right) \]

7.7.3.1 Cálculo del tamaño muestral necesario para obtener una cierta precisión

Sea \(L\) la longitud máxima del intervalo.

\[ 2\cdot z_{\alpha /2 }{\sqrt{\dfrac{p(1-p)}{n}}}\leq L\iff n\geq \dfrac{ 4p(1-p) z_{\alpha /2}^{2} }{L^{2}}=4p(1-p)\left(\dfrac{1.96}{0.01}\right)^2 \] Tenemos dos opciones:

Primera opción: aproximar \(p\) por \(\hat{p}=0.93\).

En este caso obtenemos que \(n\ge 10003.53\). Hay que preguntarle a 10004 pacientess.

Segunda opción: aproximar \(p\) por \(0.5\).

En este caso obtenemos que \(n\ge 38416\) pacientess.

7.7.4 Intervalo de confianza para la diferencia de proporciones.

Ahora suponemos dos poblaciones en donde se considera la misma característica \(A.\) \(p_{1}\) es la proporción de elementos con dicha característica en la primera población, y \(p_{2}\) es la proporción en la segunda población. Se toma una muestra de tamaño \(n_{1}\) de la primera población y otra de tamaño \(n_{2}\) en la segunda, y se calculan las respectivas proporciones muestrales \(\hat{p_{1}}\) y \(\hat{p_{2}}\). El intervalo de confianza para la diferencia \(p_{1}-p_{2}\) es \[ \left( (\hat{p_{1}}-\hat{p_{2}})\pm Z_{\alpha /2}\sqrt{\frac{\hat{p_{1}}(1-\hat{p_{1}})}{n_{1}}+\frac{\hat{p_{2}}(1-\hat{p_{2}})}{n_{2}}}\right) . \]

Análogamente al caso anterior, se puede considerar el intervalo más largo posible: \[ \left( (\hat{p_{1}}-\hat{p_{2}})\pm Z_{\alpha /2}\sqrt{\frac{1}{4n_{1}}+% \frac{1}{4n_{2}}}\right) . \]