4.16 Teorema de Bayes (Versión de Laplace)

Disponemos de una partición \(A_1,A_2,\ldots,A_n\) y de las probabilidades \(P(A_i)\), conocidas como probabilidades a priori.
El objetivo es calcular en qué medida el conocimiento de un suceso \(B\) modifica las probabilidades a priori, dando lugar a las probabilidades a posteriori \(P(A_i \mid B)\). Reciben este nombre porque se calculan una vez obtenida la evidencia empírica \(B\).

Sean los sucesos \(A_1,A_2,\ldots,A_n\) una partición de \(\Omega\), y sea \(B\) un suceso cualquiera (las mismas hipótesis del teorema de la probabilidad total). Se cumple \[ P(A_i\mid B) = \frac{P(B \mid A_i)\cdot P(A_i)} {P(B)} = \] \[=\frac{P(B \mid A_i)\cdot P(A_i)} {P(B \mid A_1)\cdot P(A_1)+ \cdots + P(B \mid A_n)\cdot P(A_n)} \]

Como vemos, se trata de aplicar la fórmula de la probabilidad condicionada y, a continuación, aplicar en el denominador la fórmula de la probabilidad total.

En el año 1774, Laplace desarrolló (de forma independiente de Bayes) este teorema, que en todos los textos aparece como teorema de Bayes, en honor a Thomas Bayes. En base a este teorema, Laplace llegaría a concluir que un dato bien contrastado —el de que nacen más niños que niñas— tenía que emanar, casi con toda certeza, de una ley natural. En la gran mayoría de textos de enseñanza de la estadística, se llama a este teorema el teorema de Bayes, aunque en realidad sea de Laplace.

Ejemplo 4.3 En una clase el 70% de los alumnos son mujeres. De ellas, el 10% son fans de Pitingo. De los varones, son fans de Pitingo el 20%. ¿Qué porcentaje de fans de Pitingo hay en total?

Solución:

Empezamos construyendo una tabla con los datos que nos dan:

Fan No Fan Totales
Hombres 0.2 x 30 = 6
Mujeres 0.10 x 70=7 70
Totales 100

Completamos:

Fan No Fan Totales
Hombres 6 24 30
Mujeres 7 63 70
Totales 13 87 100

\[P(F) = 0.7\cdot 0.1 + 0.3 \cdot 0.2 = 0.13\]

Ahora se elije a un alumno/a al azar y va escuchando a Pitingo. ¿Probabilidad de que sea un hombre? \[P(H/F)=\frac{P(F/H)\cdot P(H)}{P(F)}=\frac{0.2\cdot 0.3}{0.13}=0.46\]

Ejercicio 4.6 Un estudiante, después de una semana terrible de exámenes, noches sin dormir, cafés, red-bull, alguna que otra sustancia no muy legal y muchos whatsapps de antiguos amantes, se encuentra con graves desvaríos mentales. Decide ir a un psiquiatra, quien, por sus síntomas, cree que puede tener esquizofrenia, a pesar de no tener ningún antecedente familiar de tal enfermedad.

Para comprobarlo, decide aplicarle un nuevo test con una alta eficacia: si una persona es esquizofrénica, lo detecta con probabilidad 0.99. Si no lo es, lo dice con probabilidad 0.98. El psiquiatra realiza el test y da positivo. Sabiendo que la prevalencia de la enfermedad en la población es del uno por ciento, ¿debería el estudiante preocuparse o no preocuparse demasiado?

Solución:

Llamemos \(E\)=“ser esquizofrénico”. Nos dicen que la proporción de esquizofrénicos en la población es del 1 por ciento, es decir, \(P(E)=0.01\).

Por otro lado, el test realizado verifica que: \(P(+ \mid E)=0.99,\) y \(P(-\mid \bar{E}) = 0.98\)

Por el teorema de Bayes: \[P(E\mid +)=\frac{P(+\mid E)\cdot P(E)}{P(+)},\]

y el denominador lo calculamos mediante el teorema de la probabilidad total: \[P(+)=P(+\mid E)\cdot P(E) + P(+\mid \bar{E})\cdot P(\bar{E})\]

Entonces (usamos que \(P(+\mid \bar{E})=1-P(-\mid \bar{E})\))

\[P(E\mid +)=\frac{0.99\cdot 0.01}{0.99\cdot 0.01+(1-0.98)\cdot 0.99}=\frac{0.0099}{0.0099+0.0198}=\frac{0.0099}{0.0297}=0.33.\]

Podemos plantearlo con una tabla:

Esquizofrenia No Esquizofrenia Totales
Test Positivo \(0.99\cdot 0.01\)
Test Negativo \(0.98\cdot 0.99\)
Totales \(0.01\) \(1\)

Completamos la tabla:

Esquizofrenia No Esquizofrenia Totales
Test Positivo \(0.0099\) \(0.0198\) \(0.0297\)
Test Negativo \(0.9702\)
Totales \(0.15\) \(0.99\) \(1\)

Como vemos, en realidad, la probabilidad de que tenga esquizofrenia, aún habiendo dado positivo en el test, es solo de 0.33. lo tanto, es mucho más probable que no la tenga (1-0.33). Esto se debe a que la probabilidad a priori (en este caso es la prevalencia de la enfermedad) es muy baja.

Observamos dos resultados importantes:

  • Por un lado, resaltar que no es lo mismo \(P(A/B)\) que \(P(B/A)\), por ejemplo comparemos \(P(+\mid E)\) con \(P(E\mid +\)).

  • En un test o prueba diagnóstica, se conoce como sensibilidad a la probabilidad de clasificar correctamente a un individuo enfermo \(P(+\mid E)\). Se llama especificidad a la probabilidad de clasificar correctamente a un individuo sano \(P(-\mid \overline{E})\).

  • Independientemente de lo bueno que sea el test, si tiene un margen de error pequeño (como en el ejemplo que hemos visto), la probabilidad REAL de que el individuo tenga o no la enfermedad está directamente relacionada con la prevalencia de la enfermedad en la población. Así pues, cuando alguien se hace un test que dice que puede tener cáncer u otra enfermedad grave, la preocupación puede dejarse en un segundo plano hasta el momento en que se haga una segunda prueba que diga definitivamente si la persona está enferma o no (biopsia, etc.)

Ejercicio 4.7 Una señora de 65 años, a la que le han dado vez en el seguro (para hacerse una resonancia) para dentro de 3 años, decide acudir a fisioterapia.

La señora tiene dificultad y dolor al mover una pierna. La fisioterapeuta, después de un análisis concienzudo según aprendió en la UDC, supone que el problema puede deberse a:

Artritis (\(A_1\)), ó sobrecarga por bailar zumba el sábado noche (\(A_2\)), con probabilidades 0.7 y 0.3 respectivamente.

La fisioterapeuta ve que lo mejor es aplicar un tratamiento estándar, que tiene probabilidad de mejora: \(P(M\mid A_1)=0.9\) y \(P(M\mid A_2)=0.7\).

Después del tiempo establecido, la paciente ha mejorado. ¿Cuál es la probabilidad de que tuviese artritis? Si no mejoró, ¿probabilidad de que el problema no fuese por artritis?