Processing math: 100%

El teorema de Bayes se basa principalmente en la probabilidad condicional, es decir, dado que ocurre un evento, ¿qué probabilidad existe de que ocurra otro? Este teorema suele ser sumamente útil y bastante aplicado a algoritmos de Machine Learning como los árboles de decisión, pero ¿cómo se aplica en un ejercicio práctico? En realidad es muy sencillo, consideremos el siguiente ejemplo:

  1. Para determinar si una persona tiene hepatitis se le hace un examen de sangre de cierto tipo. La aceptación de éste procedimiento se basa en lo siguiente: entre personas con hepatitis, el 80% de los exámenes de sangre descubren la enfermedad pero el 20% fallan al hacerlo. Entre personas sin hepatitis, el 5% diagnostican erradamente como casos de hepatitis y el 95% de los exámenes dan el diagnóstico correcto. Tomemos una persona cualquiera de un numeroso grupo de los cuales el 1% tiene hepatitis ¿Cuál es la probabilidad de que realmente tenga la enfermedad dado que falló la prueba?

Respuesta: Dado que las probabilidades siguen dos caminos de fallos con diferentes probabilidades, se puede armar el siguiente árbol de decisión:

A partir del arbol de decisión podemos hacer uso de la fórmula del teorema de Bayes, la cual es:

P(AB)=P(BA)·P(A)P(B)

Donde A y B son los eventos ocurridos, P(AB) la probabilidad de que ocurra A dado B, P(BA) la probabilidad de que ocurra B dado A, P(A) y P(B) las probabilidades de cada evento individual. Ahora, sustituyendo los datos del problema en la fórmula:

P(HEH)=P(H)P(EHH)P(H)P(EHH)+P(NH)P(EHNH) Por tanto, tendríamos lo siguiente:

P(HEH)=(0.01)(0.8)(0.01)(0.8)+(0.99)(0.05) En la consola de R podemos hacer rápidamente el cálculo, obteniendo:

(0.01*0.8)/((0.01*0.8)+(0.99*0.05))
## [1] 0.1391304

Por lo tanto, la probabilidad de que alguien realmente tenga la enfermedad dado que falló la prueba sería del 13%.