6.3 Tests de hipótesis

Vimos en la sección 5.2 que podemos estimar los valores de la población en base a muestras y que podemos calcular un margen de error y niveles de confianza de estas estimaciones. Podemos valernos de los mismos conceptos para concluir algo sobre la relación entre variables: independiente y dependiente por ejemplo.

6.3.1 Tests estadísticos de significanza

En el caso de nuestros dos grupos de estudiantes (véase: 3.1.4) ya vimos que existe una diferencia entre los dos grupos en la media de la nota obtenida. De la figura 2.1 vimos que igual las dos distribuciones de solapan en gran medida. Por tanto no podemos afirmar con absoluta certeza que las diferencias observadas son el efecto de la metodología pedagógica aplicada o si son producto de la inherente variabilidad de las muestras.

El objetivo de un test estadístico de significanza es determinar si las diferencias observadas el resultado de variación aleatoria o si pueden razonablemente ser atribuidos a la variable independiente.

6.3.2 La hipótesis nula y alternativa

Para testear una hipótesis el primer paso es establecer una hipotesis nula. Esta hipótesis afirma que no existe el efecto que estamos investigando. Siguiendo los lineamientos del método cientifico, ahora nuestra labor es, a través de mediciones u observaciones, refutar esta hipótesis, con lo cual podemos proponer otra, llamada hipótesis alternativa. Una hipótesis nula se formula como una afirmación precisa y empiricamente refutable. En el ejemplo de los dos grupos de estudiantes la hipotesis nula podría expresarse como: «No existe diferencia entre la media de notas entre los dos grupos».

También debemos formular una o dos hipotesis alternativas. Si formulamos dos, una va a afirmar que la media de notas del grupo A es superior a la del grupo B y la otra que la media de notas del grupo B es mayor a la media de notas del grupo A. Si usamos una sola hipótesis alternativa esta simplemente plantea que la media notas de los dos grupos es desigual.

Notación formal

En notación formal, muy frecuente en textos académicos, se usa la letra H (mayuscula) para significar una hipótesis y tiene subindice «0» o «null». Las hipótesis alternativas reciben subindice numérica (1 y 2 etcétera). En el caso descrito en la sección anterior se podría expresar así:

\(H_0: \text{No hay diferencia entre los grupos}\)

\(H_1: \text{Hay diferencia}\)

o, includo más formal:

\(H_0: \mu_A=\mu_B\)

\(H_1: \mu_A\neq\mu_B\).

La estrategia del test de hipótesis acumular evidencia empírica que nos permita refutar la hipótesis nula y no intentar fomentar cualquiera de las alternativas directamente. Lo que temenos que hacer es aplicar un test estadístico y calcular la probabilidad de obtener las observaciones que hemos obtenido y si esa probabilidad es muy baja, refutamos \(H_0\) a favor de una de las alternativas.

Es preciso aclarar que nunca podemos estar absolutamente seguros de estar justificados en refutar \(H_0\). Siempre existe la posibilidad de que las diferencias observadas de deban a la aleatoriedad de las muestras. Lo que sí podemos mostrar es que la probabilidad de que así sea es muy baja.

6.3.3 Niveles de significanza

Dado que siempre existe la posibilidad de refutar injustificadamente nuestra \(H_0\), tenemos que determinar un nivel debajo del cual estamos dispuestos a equivocarnos en nuestra afirmación. Este se llama el nivel de significanza, también se describe con la letra griega \(\alpha\) y se llama nivel-\(\alpha\) (nivel alfa). El nivel de significanza está coneptual y matemáticamente ligado con los intervalos de confianza que vimos en el capítulo 5.

Si estamos dispuestos a rechazar \(H_0\) si la probabilidad (p) de hacerlo injustificadamente es igual o menor a 0,05, eligimos un nivel de significanza de 0,05, también llamado «nivel de 5%». Su notación a menudo se encuentra como: \(p\leqslant0,05\). Este nivel es bastante común en las ciencias humanas, en cambio en otras disciplinas de las ciencias exactas y médicas por ejemplo, a veces se opera con \(p\leqslant0,01\) o \(p\leqslant0,001\), lo que significa que se acepta rechazar injustificadamente \(H_0\) una vez en cien o una vez en mil respectivamente.

Para cada test estadístico y cada nivel de significanza eligido existirá un valor crítico o un rango crítico dentro del cual el valor del cálculo estadístico tiene que encontrarse para que las diferencias observadas en las muestras se consideren estadísticamente significativos. Si el valor del test estadístico no cae en ese rango no podemos rechazar \(H_0\) sobre la base este conjunto específico de observaciones, pero es posible que debamos repetir el estudio con muestras más grandes.

6.3.4 Tipos de error

Cuando tomamos la decisión de rechazar o aceptar la hipótesis nula hay dos errores que podemos cometer. Podemos rechazar \(H_0\) cuando \(H_0\) es correcta, o podemos aceptar \(H_0\), cuando es falsa. En el primer caso estamos hablando de un error de tipo I, también denominado error de tipo \(\alpha\) o falso positivo. En el segundo caso hablamos de un error de tipo II, error de tipo \(\beta\) (beta) o falso negativo.

6.3.5 Tests direcionales y no direcionales

En la sección 6.3.2 propusimos una hipótesis nula y su alternativa:

Ejemplo 6.1 (Hipotesis nula y una alternativa)

\(H_0: \mu_A=\mu_B\)

\(H_1: \mu_A\neq\mu_B\).

\(H_1\) se leería: «la media de A es desigual a la media de B». Este ejemplo 6.1 es de una predición no direcional. Es decir que no hemos tomado una posición a priori sobre si esperamos que las diferencias que observemos sean positivos o negativos.

A veces tenemos razones bien fundadas en creer que las diferencias, si las observamos, van a darse en una direción u otra. Si por ejemplo estamos midiendo la estaturas de muestras aleatorias de argentinas y argentinos podemos suponer de antemano que los hombres van a ser más altos que las mujeres ya que está comprobado que es así en otros países, hay razones biológicas etcétera. En ese caso podríamos formular una predicción direccional, lo cual significa que nuestra hipótesis alternativa es una sola y va en una dirección específica:

Ejemplo 6.2 (Hipotesis nula y una alternativa direccional)

\(H_0: \mu_M=\mu_F\)

\(H_1: \mu_M > \mu_F\).

La diferencia entre usar un test direccional o no direccional influye en los valores críticos de los diferentes tests. Si usamos un test direccional –y está justificado su uso, claro– disminuye el riesgo de cometer un error de tipo II. Está ilustrado en la figura 6.1: para un test no-direcional necesitamos un 2,5% en cada extremo de la curva para que sume 5%, en el test direccional «gastamos» todo el lado positivo.

Test no direccionales y test direccionales

Figura 6.1: Test no direccionales y test direccionales

Ejemplo 6.3 (¿cara o cruz?)

Para desarrollar un poco más el concepto de test de hipótesis vamos a imaginarnos que estamos jugando a cara o cruz. Si tiramos una moneda hay un 50 y 50 de que salga cruz o cara. Tiramos la moneda y sale cara. La tiramos dos veces y sale dos veces cara. Tres veces – tres caras… y seguimos perdiendo.

¿En qué momento empezamos a sospechar que la moneda tiene dos caras?

Aún sin conocimientos matemáticos o de la teoría de la probabilidad empieza a obrar nuestra intuición –basada en nuestra experiencia que por su naturaleza es empírica.

Podemos formalizar el problema de la siguiente manera:

\(H_0\): La moneda es honesta

\(H_1\): La moneda tiene dos caras.

Podemos también calcular las probabilidades de lo que está pasando. La probabilidad de que salga cara es 0,5 (50%) y de que salga cara dos veces es, por tanto, \(0,5\times0,5=0,25\). Podemos calcular las probabilidades de varios casos más:

3 caras: \(0,5\times0,5\times0,5=0,125\)

4 caras: \(0,5\times0,5\times0,\times0,55=0,0625\)

5 caras: \(0,5\times0,5\times0,\times0,55=0,03125\),

y vemos que si sale cara cinco veces de cinco ya podemos rechazar nuestra \(H_0\) con un nivel de significanza de 0,05 (\(p\leqslant0,05\)).

6.3.6 ¿Qué test usar?

En los capítulos que siguen vamos a desarrollar algunos tests de significanza estadística: el test de z, el test de t de Student, Mann-Whitney U, \(\chi^2\), Wilcoxon y sign-test. La elección de cuál de ellos usar en un caso específico dependerá de:

  1. Escala de medición de las variables
  2. Las características de su distribución
  3. Si las muestras son correlacionadas o no,

y los iremos detallando en cada caso.

6.3.7 Procedimiento

El diseño de una investigación cuantitativa se puede resumir en estos cuatro pasos:

  1. Formular hipotesis nula y alternativa(s)
  2. Decidir el nivel de significanza estadística
  3. Eligir un test estadístico a utilizarse
  4. Aplicar la estadística y decidir si rechazamos \(H_0\) o no.