8.3 Test de significación (NHST)

Una prueba de significación consta de una hipótesis $H_0$ (hipótesis nula) que consiste en establecer que el valor de un párametro (llamémosle $\theta$) es un número concreto (llamémosle $\theta_0$): \[H_0: \ \theta=\theta_0\] La hipótesis de partida del investigador fue bautizada con este nombre por Fisher porque significaba que no había cambio alguno con el uso de un nuevo fertilizante, que su efecto era nulo. Es decir, para poder demostrar que un nuevo fertilizante es efectivo, supondremos que no lo es, que tiene efecto nulo, y trataremos de falsar esta afirmación. El acrónimo NHST viene de “Null hypothesis signification testing”.

Se conoce que la vida media de los elementos resultantes de un proceso de fabricación (por ejemplo bombillas) es 5.000 horas. Se introducen cambios en el proceso y se desea contrastar que la vida media no ha variado.

Se desea saber si un tratamiento es efectivo para reducir el dolor en una lesión determinada. El tratamiento se realiza a una serie de pacientes y se comprueba si ha existido reducción del dolor (por término medio; unos pacientes reducirán más que otros, incluso alguno puede no ver reducido el dolor y alguno hasta podría aumentarlo) o no lo ha habido.

Entonces, una vez que se delimita la hipótesis nula que se desea poner a prueba, la forma general de proceder es elegir una muestra de esa población, y ver si los resultados de esa muestra son coherentes con la afirmación que se está realizando. Básicamente, que la evidencia que nos proporcione la muestra sea lo suficientemente fuerte para poder tomar una decisión.

Para comprobar la coherencia de los resultados, o la fuerza de la evidencia, se tratará de ver la diferencia entre lo observado en la muestra y lo que dice la hipótesis nula. Para ello se elige el llamado estadístico $T$ (estadístico pivote) del test y se calcula su valor sobre los datos de una muestra observada $(x_1,x_2,...,x_n)$, lo que se denota como $T(x_1,x_2,...,x_n)$. Dado que la distribución en el muestreo del estadístico $T$ ha de ser conocida, se determina la probabilidad de que el estadístico tome un valor igual o más extremo que el valor observado $(x_1,x_2,...,x_n)$, bajo la suposición de que la hipótesis nula es cierta.

Se escribe simbólicamente \[P(T\geq T(x_1,x_2,...,x_n)/H_0),\] y este número se denomina $p$-valor.

Entonces, si el $p$-valor es excesivamente pequeño -en general, por debajo de 0.05-, el resultado del test se dice que es significativo, porque permite rechazar la hipótesis nula $H_0$. En otro caso, el resultado del test no es significativo y no puede rechazarse esta hipótesis.

“un fenómeno es demostrable experimentalmente cuando se conoce como conducir un experimento que raramente falla para darnos un resultado estadísticamente significativo”

— Sir Ronald Fisher.

De acuerdo con esta lógica se entiende que, con un nivel de significación del $5\%$, en promedio cinco de cada 100 veces que la hipótesis nula sea cierta se rechazará por azar. Es decir, 5 de cada 100 veces que rechazamos la hipotesis nos estaremos equivocando, pues se asume que es cierta y la prueba no demuestra ni su falsedad ni su certeza.

La hipótesis nula sólo se rechaza si la probabilidad de observar una muestra como la dada es demasiado baja. Esto es, la hipótesis nula se rechaza si la muestra es demasiado rara cuando la hipótesis nula es cierta. El razonamiento estadístico se basa en la siguiente disyunción lógica: “o bien ha ocurrido un suceso excepcional (muy improbable) o bien la hipótesis nula no es correcta.”

El $p$-valor o probabilidad de significación funciona como una suerte de la evidencia en contra de la hipótesis nula: cuanto menor es, más evidencia en contra. Un valor demasiado pequeño indica que la muestra observada se separa de lo esperado mucho más de lo que sería achacable al azar, a las circunstancias del muestreo aleatorio. Por lo tanto, el investigador se encuentra ante una hipótesis nula inverosímil, descartable.

Fisher describía los test de significación como un procedimiento para rechazar la hipótesis nula, que en ningún caso podía ser probada o establecida definitivamente. Este planteamiento refutacionista era coherente con la corriente falsacionista. La propuesta metodológica de Fisher era una especie de falsacionismo aplicado a la estadística: se trata de rechazar aquellas hipótesis para las cuales las observaciones sean relativamente inverosímiles.