4.3 Evaluar la normalidad

Hemos visto que el hecho de que una variable tenga una distribución normal nos resulta muy útil para extraer información sobre sus propiedades. También nos permite realizar algunos tests estadísticos que veremos en capítulos posteriores.

En la sección ?? decidimos usar la media como medida de centralización porque las tres medidas disponibles –media, mediana y moda– se aproximaban unas a otras. Si queremos saber si una variable se aproxima a la curva normal podemos generar un histograma y sobreponer una curva normal. Así podemos sacar alguna conclusión inspeccionando el gráfico.

También podemos valernos del conocimiento de la proporción de observaciones que deben estar dentro de la primera y segunda desviación estándar y verificar si nuestros datos se conforman con estas predicciones.

Ejemplo 4.2

Si tomamos nuestros datos de las notas de nuestros dos cursos que vimos en la sección ?? y que fuimos desarrollando a lo largo de los capítulos anteriores podemos realizar este análisis.

Grupo A: {15, 12, 11, 18, 15, 15, 9, 19, 14, 13, 11, 12, 18, 15, 16, 14, 16, 17, 15, 17, 13, 14, 13, 15, 17, 19, 17, 18, 16, 14}

Grupo B: {11, 16, 14, 18, 6, 8, 9, 14, 12, 12, 10, 15, 12, 9, 13, 16, 17, 12, 8, 7, 15, 5, 14, 13, 13, 12, 11, 13, 11, 7}

  • Grupo A:
    • Media: 14.93
    • Desviación estándar: 2,49
    • Entre \(\pm{1}\) desviación: 66%
    • Entre \(\pm{2}\) desviaciones: 96%
  • Grupo B:
    • Media: 11,76
    • Desviación estándar: 3,31
    • Entre \(\pm{1}\) desviación: 66%
    • Entre \(\pm{2}\) desviaciones: 96%

Observamos que nuestras notas carecen en cierta medida de valores extremos, sin embargo la muestra es relativamente pequeña con lo cual nos conformamos con estos resultados y consideramos normales las distribuciones.

Ejemplo 4.3 (Ejemplo en R)

Si no queremos hacer estos cálculos a mano los podemos hacer también en R, así:

grupo.A = c(15, 12, 11, 18, 15, 15, 9, 19, 14, 13, 11, 12, 18, 15, 16, 14, 16, 17, 15, 17, 13, 14, 13, 15, 17, 19, 17, 18, 16, 14)

media= mean(grupo.A)
desviacion = sd(grupo.A)
N = 30
sum( 
    grupo.A <  media + desviacion 
    &
    grupo.A > media - desviacion  
)/N
## [1] 0.6666667
sum( 
    grupo.A <  media + desviacion * 2
    &
    grupo.A > media - desviacion  * 2
)/N
## [1] 0.9666667

Existen también tests más formales de normalidad que desarrollaremos en capítulos posteriores.