5.2 El error estándar y su interpretación

La variabilidad de las medias muestrales se puede medir por su desviación estándar. Esta medida se conoce como el error estándar y tiende a disminuir cuando aumenta el tamaño de la(s) muestra(s).

Definición 5.1 (Error estándar) \[ SE = {\sigma\over{\sqrt{N}}} \]

si conocemos la desviación estándar de la población, y

\[ SE = {s\over{\sqrt{N}}} \]

si usamos la desviación estándar de la muestra.

donde:

  • SE: el error estándar (por sus siglas en inglés «Standard Error»)
  • \(\sigma\): la desviación estándar de la población
  • s: desviación estándar de la muestra
  • N: número de observaciones de la muestra

Nótese que el error estándar no disminuye en relación directamente proporcional con el tamaño de la muestra. Ya que tomamos la raíz cuadrada de N, es necesario cuadruplicar el tamaño de la muestra para reducir el error estándar a la mitad.

5.2.1 Intervalos de confianza

Volvemos a nuestro ejemplo de la estatura de las argentinas entre 19 y 49 en 2007. Si sacamos una muestra aleatoria de esta población de tan solo 30 observaciones. de manera que:

Muestra = {163, 171, 171, 167, 164, 160, 153, 176, 162, 171, 166, 164, 169, 160, 151, 155, 156, 147, 162, 170, 164, 160, 158, 159, 157, 159, 156, 162, 159, 174}

podemos calcular la media y la desviación estándar de la muestra. Obtenemos \(\bar{x}=160,94\) y s = 6,89 respectivamente. Con esto podemos calcular el error estándar:

\[ SE = {s\over{\sqrt{N}}} = {6,89\over{\sqrt{30}}} = {s\over{5,477}} = 1,257 \] Ahora podemos estimar que la media de la población es de 160,94 \(\pm\) 1,257. Hemos reportado muestra estimación con un margen de error. Pero ¿cómo se interpreta este número?

Sea \(\mu\) la media real –por convención se usa la letra griega \(\mu\) que corresponde a m para la media de la población. La desviación de la media de la muestra entonces es de \(161,94 - \mu\). Podemos normalizar esta variable por división con la desviación estándar de la muestra: \[ z = {161,94 - \mu\over1,257} \]

Recordemos que se usa z para la variable normalizada. Para muestras desde más o menos 30 observaciones, z tiene una distribución normal, con lo cual nos podemos valer de la regla empírica y mirar la figura 4.5 para darnos cuenta qué tan probable es que nuestro valor caiga dentro o fuera de los rangos esperados. El error estándar es, entonces, el rango de valores que caen dentro de una desviación estándar en la curva normal del error, es decir que hay un 68% de probabilidad de que el valor real esté dentro del rango reportado.

Podemos valernos de esta información para calcular rangos que nos den más confianza en nuestra estimación. La regla empírica dice que el 95% de las observaciones se encuentran entre dos desviaciones estándar de la media. Si se expresa con un poco más de precisión es de 1,96. Este número mágico o valor crítico de usa mucho en los textos con análisis cuantitativo ya que se puede demostrar matemáticamente que: \[ \text{media de la muestra} \pm(1,96\times{SE}) \] es un estimado de la media de la población con un 95% de confianza.

De la misma manera tenemos:

\[ \text{media de la muestra} \pm(2,58\times{SE}) \]

que nos da un rango con 99% de confianza.

Entonces, para nuestra muestra de argentinas podemos decir que estimamos que la media de la población (\(\mu\)) es:

  • entre 160,94 y 162,20 con un 68% de confianza
  • entre 159,73 y 164,66 con un 95% de confianza
  • entre 158,94 y 165,44 con un 99% de confianza