8.2 Hipótesis estadísticas

Una hipótesis estadística es una afirmación que se hace sobre una o más características de una población (decir que la vida media de una batería son x horas, que un tratamiento reduce el dolor, que un determinado producto hace adelgazar, que a la gente le gusta mayoritariamente el morbo…). Un test o contraste de hipótesis es algún procedimiento para aceptar o rebatir dicha hipótesis o afirmación.

La ciencia se basa en la toma de decisiones. Estas decisiones a veces son acertadas, a veces no, y en ese sucesivo esfuerzo de “ensayo y error” el conocimiento avanza. Cualquier investigador está continuamente elaborando conjeturas y comprobando (o intentando comprobar) si son ciertas o no. La teoría de los test de hipótesis surge a partir de 1925, cuando Ronald Fisher publicó el libro Métodos estadísticos para investigadores. En él, Fisher definía los contrastes de significación.

Una prueba de significación consta de una prueba \(H_0\) que consiste en establecer que el valor de un párametro (llamémosle \(\theta\) ) es un número concreto (llamémosle \(\theta_0\)): \[H_0: \ \theta=\theta_0\] La hipótesis de partida del investigador fue bautizada con este nombre por Fisher porque significaba que no había cambio alguno con el uso de un nuevo fertilizante, que su efecto era nulo.

Un principio general de la investigación científica es escoger siempre la hipótesis más simple capaz de explicar la realidad observada. La razón es que una hipótesis simple es más fácil de contrastar empíricamente y descubrir sus deficiencias, lo que permite aprender de los datos con mayor rapidez y seguridad.

Este principio justifica que muchas investigaciones estadísticas tengan por objeto contrastar una hipótesis simplificadora del tipo: una población es idéntica a otra de referencia; dos o más poblaciones son iguales entre sí.

Se conoce que la vida media de los elementos resultantes de un proceso de fabricación (por ejemplo bombillas) es 5.000 horas. Se introducen cambios en el proceso y se desea contrastar que la vida media no ha variado.
Se desea saber si un tratamiento es efectivo para reducir el dolor en una lesión determinada. El tratamiento se realiza a una serie de pacientes y se comprueba si ha existido reducción del dolor (por término medio; unos pacientes reducirán más que otros, incluso alguno puede no ver reducido el dolor y alguno hasta podría aumentarlo) o no lo ha habido.

Una hipótesis se contrasta comparando sus predicciones con la realidad: si coinciden, dentro del margen de error admisible, mantendremos la hipótesis; en caso contrario, la rechazaremos, y buscaremos nuevas hipótesis capaces de explicar los datos observados.

A continuación, una vez que se delimita la hipótesis nula que se desea poner a prueba, la forma general de proceder es elegir una muestra de esa población, y ver si los resultados de esa muestra son coherentes con la afirmación que se está realizando. Básicamente, que la evidencia que nos proporcione la muestra sea lo suficientemente fuerte para poder tomar una decisión.

Para comprobar la coherencia de los resultados, o la fuerza de la evidencia, se tratará de ver la diferencia entre lo observado en la muestra y lo que dice la hipótesis nula. Para ello se elige el llamado estadístico \(T\) del test y se calcula su valor sobre los datos de una muestra observada \((x_1,x_2,...,x_n)\), lo que se denota como \(T(x_1,x_2,...,x_n)\). Dado que la distribución en el muestreo del estadístico \(T\) ha de ser conocida, se determina la probabilidad de que el estadístico tome un valor igual o más extremo que el valor observado \((x_1,x_2,...,x_n)\), bajo la suposición de que la hipótesis nula es cierta.

Se escribe simbólicamente \[P(T\geq T(x_1,x_2,...,x_n)/H_0),\] y este número se denomina p-valor.

Entonces, si el p-valor es excesivamente pequeño -en general, por debajo de 0.05-, el test se dice que es significativo, porque permite rechazar la hipótesis nula \(H_0\). En otro caso, el test no es significativo y no puede rechazarse esta hipótesis.

“un fenómeno es demostrable experimentalmente cuando se conoce como conducir un experimento que raramente falla para darnos un resultado estadísticamente significativo”

Sir Ronald Fisher

De acuerdo con esta lógica se entiende que, con un nivel de significación del 5%, en promedio cinco de cada 100 veces que la hipótesis nula sea cierta se rechazará por azar. Es decir, 5 de cada 100 veces que rechazamos la hipotesis nos estaremos equivocando, pues se asume que es cierta y la prueba no demuestra ni su falsedad ni su certeza.

La hipótesis nula sólo se rechaza si la probabilidad de observar una muestra como la dada es demasiado baja. Esto es, la hipótesis nula se rechaza si la muestra es demasiado raracuando la hipótesis nula es cierta. El razonamiento estadístico se basa en la siguiente disyunción lógica: “o bien ha ocurrido un suceso excepcional (muy improbable) o bien la hipótesis nula no es correcta.”

El p-valor o probabilidad de significación funciona como una suerte de la evidencia en contra de la hipótesis nula: cuanto menor es, más evidencia en contra. Un valor demasiado pequeño indica que la muestra observada se separa de lo esperado mucho más de lo que sería achacable al azar, a las circunstancias del muestreo aleatorio y, por lo tanto, el investigador se encuentra ante una hipótesis nula inverosímil, descartable.

Fisher describía los test de significación como un procedimiento para rechazar la hipótesis nula, que en ningún caso podía ser probada o establecida definitivamente. Este planteamiento refutacionista era coherente con la corriente falsacionista. La propuesta metodológica de Fisher era una especie de falsacionismo aplicado a la estadística: se trata de rechazar aquellas hipótesis para las cuales las observaciones sean relativamente inverosímiles.