El teorema de Bayes se basa principalmente en la probabilidad condicional, es decir, dado que ocurre un evento, ¿qué probabilidad existe de que ocurra otro? Este teorema suele ser sumamente útil y bastante aplicado a algoritmos de Machine Learning como los árboles de decisión, pero ¿cómo se aplica en un ejercicio práctico? En realidad es muy sencillo, consideremos el siguiente ejemplo:

  1. Para determinar si una persona tiene hepatitis se le hace un examen de sangre de cierto tipo. La aceptación de éste procedimiento se basa en lo siguiente: entre personas con hepatitis, el 80% de los exámenes de sangre descubren la enfermedad pero el 20% fallan al hacerlo. Entre personas sin hepatitis, el 5% diagnostican erradamente como casos de hepatitis y el 95% de los exámenes dan el diagnóstico correcto. Tomemos una persona cualquiera de un numeroso grupo de los cuales el 1% tiene hepatitis ¿Cuál es la probabilidad de que realmente tenga la enfermedad dado que falló la prueba?

Respuesta: Dado que las probabilidades siguen dos caminos de fallos con diferentes probabilidades, se puede armar el siguiente árbol de decisión:

A partir del arbol de decisión podemos hacer uso de la fórmula del teorema de Bayes, la cual es:

\[ P(A \mid B) = \frac{P(B \mid A) · P(A)}{P(B)} \]

Donde \(A\) y \(B\) son los eventos ocurridos, \(P(A \mid B)\) la probabilidad de que ocurra \(A\) dado \(B\), \(P(B \mid A)\) la probabilidad de que ocurra \(B\) dado \(A\), \(P(A)\) y \(P(B)\) las probabilidades de cada evento individual. Ahora, sustituyendo los datos del problema en la fórmula:

\[ P(H \mid EH ) = \frac{P (H) * P (EH \mid H) }{ P(H) P(EH \mid H) + P(NH)*P(EH \mid NH) } \] Por tanto, tendríamos lo siguiente:

\[ P(H \mid EH ) = \frac{(0.01)*(0.8)}{(0.01)*(0.8)+(0.99)*(0.05)} \] En la consola de R podemos hacer rápidamente el cálculo, obteniendo:

(0.01*0.8)/((0.01*0.8)+(0.99*0.05))
## [1] 0.1391304

Por lo tanto, la probabilidad de que alguien realmente tenga la enfermedad dado que falló la prueba sería del 13%.