4.14 Notas históricas. La estadística Bayesiana

Sacado del libro La teoria que nunca murió (McGrayne 2012).

El teorema de Bayes aparece escrito en su ensayo An Essay Towards Solving a Problem in the Doctrine of Chances (Un ensayo hacia la solución de problemas en la disciplina del azar). Este ensayo puede leerse al español traducido por M. Villegas (Villegas 2001).

La regla de Bayes vino al mundo en la Inglaterra de la década de 1740, en medio de una polémica religiosa marcada por la siguiente cuestión: ¿es posible establecer conclusiones racionales relativas a la existencia de Dios sobre la base de las pruebas que nos proporciona el mundo a nuestro alrededor? Concretamente, Bayes se plantéo si es posible conciliar la presencia del mal con la presunta bondad divina. En 1731, Bayes escribirá su ensayo, en el que dice (entre otras muchas cosas) que Dios otorga a las personas «la máxima felicidad que les es dado alcanzar».

En el año 1761, fecha en la que fallece su autor, el descubrimiento de Bayes seguía acumulando polvo en sus estanterías. Llegado ese momento, los parientes del reverendo pidieron al joven Richard Price, buen amigo del difunto, que revisara los trabajos matemáticos de Bayes. Price, que también era ministro de la Iglesia presbiteriana y hombre de gran afición a las matemáticas, alcanzaría posteriormente una notable fama como abogado de las libertades civiles y defensor de las revoluciones estadounidense y francesa. Entre las instituciones y personas que habrían de profesarle admiración figurarían el Congreso Continental, que le sugeriría que emigrase y se encargara de gestionar las finanzas de la nación; Benjamin Franklin, que propondría su ingreso en la Real Sociedad de Londres; John Adams y Thomas Jefferson (segundo y tercer presidente de Estados Unidos, respectivamente); la feminista Mary Wollstonecraft, que acostumbraba a acudir a su iglesia; el reformador del sistema penitenciario John Howard, que era su mejor amigo; y Joseph Priestley, el descubridor del oxígeno, que diría de él en una ocasión: «me pregunto si el doctor Price ha tenido alguna vez a alguien que le superara».

En el año 1781, la Universidad de Yale, que acababa de decidir en esa fecha la concesión de dos doctorados honoris causa, entregaría uno de ellos a George Washington, reservando el otro a Price. Una revista inglesa llegó a manifestar que Price acabaría pasando a la historia de los Estados Unidos junto a Franklin, Washington, Lafayette y Paine. Sin embargo, si hoy recordamos el nombre de Price se debe principalmente a la ayuda que habría de proporcionar a su amigo Bayes. Al empezar a clasificar los papeles de Bayes, Price se encontró de pronto frente a «una imperfecta solución a uno de los problemas más difíciles de la doctrina de las probabilidades». Se refería al ensayo que Bayes había compuesto a fin de indagar en la probabilidad de las causas y ascender de las observaciones relativas al mundo real hasta su causa más probable.

En un primer momento, Price no vio razón alguna para dedicar demasiado tiempo al ensayo. Sin embargo, tan pronto como Price comprendió que el ensayo era la respuesta al ataque que Hume había dirigido contra la teoría de la causación, inició los preparativos para su publicación. En una carta de presentación dirigida a la Real Sociedad de Londres, Price apelará a los motivos religiosos como acicate para la publicación del ensayo. Al retroceder matemáticamente y ascender de las observaciones del mundo natural a su causa última, el teorema se proponía demostrar que «el mundo debía ser necesariamente una consecuencia de la sabiduría y el poder de una causa inteligente, de modo que con él se viene a confirmar […] partiendo de las causas finales […] la existencia de un Ser Divino». Bayes mismo habría mostrado una mayor reticencia, y lo cierto es que en la parte del ensayo no se menciona a Dios.

Pese a haber sido ignorada durante años, la solución de Bayes a la probabilidad inversa de las causas es una obra maestra. Este matemático aficionado transformó la probabilidad, logrando que dejara de ser simplemente la forma de la que se servía un jugador para evaluar la frecuencia de aparición de un determinado hecho para convertirse en una manera de medir la creencia informada. Un jugador de cartas podía comenzar la partida convencido de que el mazo de naipes que manejaba su oponente no estaba trucado e ir modificando poco a poco su opinión al ir realizando estimaciones más ajustadas acerca de la honestidad de su adversario. Hay que tener en cuenta que el ensayo de Bayes fue escrito bastantes años antes de que Laplace escribiera su famosa regla de los casos favorables entre casos posibles. La fórmula de la probabilidad total (y el teorema posterior) también son posteriores a la regla de Bayes. Es decir, Bayes dedujo su regla sin conocer no solo esto, sino la axiomática de Kolmogorov y las propiedades que se deducen de ella (que es como nosotros hemos calculado la probabilidad condicionada).

4.14.1 Aprendiendo de la experiencia: uso recursivo de la fórmula de Bayes

El teorema de Bayes y la fórmula de la probabilidad inversa no es sólo una fórmula. El uso de esta fórmula de una manera encadenada permite contemplar la probabilidad como una forma de conocimiento en función de la experiencia que se va adquiriendo.

Tras una relación sexual, una mujer sospecha que puede estar embarazada. Para estar segura de su estado compra un test del cual se conoce que tiene una eficacia del 90% en detectar embarazos. La mujer se realiza el test y obtiene un resultado positivo. ¿Cuál es la probabilidad de que dicha mujer esté embarazada? (suponemos que el test da falsos positivos el 50 por ciento de las veces, y que la probabilidad de quedarse embarazada tras una relación sexual es del 15 por ciento)

Solución:

Llamemos \(E\)=“estar embarazada”. Nos dicen que

\[P(E)=0.15, \ P(+ \mid E)=0.9, \ P(+\mid \bar{E}) = 0.5\] Por el teorema de Bayes: \[P(E\mid +)=\frac{P(+\mid E)\cdot P(E)}{P(+)},\] y el denominador lo calculamos mediante el teorema de la probabilidad total: \[P(+)=P(+\mid E)\cdot P(E) + P(+\mid \bar{E})\cdot P(\bar{E})\] Entonces \[P(E\mid +)=\frac{0.9\cdot 0.15}{0.9\cdot 0.15+0.15\cdot 0.85}=\frac{0.135}{0.135+0.425}=\frac{0.135}{0.56}=0.241.\] Como en otras ocasiones, quizá sea posible entenderlo mejor mediante una tabla

Embarazo No Embarazo Totales
Test Positivo \(0.9\cdot 0.15\) \(0.5\cdot 0.15\)
Test Negativo
Totales \(0.15\) \(1\)

Completamos la tabla:

Embarazo No Embarazo Totales
Test Positivo \(0.135\) \(0.075\) \(0.21\)
Test Negativo \(0.015\) \(0.775\) \(0.79\)
Totales \(0.15\) \(0.85\) \(1\)
  • Ahora supongamos que la mujer, para confirmar su estado, se realiza un nuevo test de embarazo y obtiene nuevamente un resultado positivo. Con esta información adicional, ¿cómo cambian las conclusiones?

Calculemos ahora la probabilidad de estar embarazada, sabiendo que el nuevo test ha dado positivo (la probabilidad de embarazo “a priori” ha cambiado a 0.241):

\[P(E\mid +)=\frac{P(+\mid E)\cdot P(E)}{P(+\mid E)\cdot P(E) + P(+\mid \bar{E})\cdot P(\bar{E})}=\] \[=\frac{0.9\cdot 0.241}{0.9\cdot 0.241+0.15\cdot 0.759}=0.364\] Si se repite sucesivamente el test de embarazo, obteniendo resultados positivos, la probabilida de embarazo sería: \(Test 3 = 0.507,\ Test4=0.649,\ Test5= 0.769, \ Test 6= 0.857, \ Test7= 0.915 \cdots \ Test10=0.984\).

4.14.2 Un argumento en pro de la divina providencia: Bayes contra Hume

Queremos resaltar la importancia histórica (y filosófico-religiosa) del argumento que empleó Richard Price en su trabajo “A method of calculating the exact probability of all conclusions founded on induction”.

Este trabajo constituyó una respuesta de Price a las tesis de David Hume en su trabajo “On Miracles”, acerca de que no debía darse validez a los reportes sobre milagros, puesto que no existía evidencia científica sobre los mismos. En particular, Hume hacía referencia a los testimonios históricos existentes que apoyaban la resurrección de Cristo (los cuales existen y pueden buscarse en internet).

Utilizando el resultado formulado por Bayes (que Price precisamente se había ocupado de transmitir) y con argumentos matemáticos del estilo de los utilizados por Bayes para su demostración, Richard Price concluyó lo siguiente: supongamos que \(p\) sea la probabilidad de que un hecho suceda en cada uno de \(n\) ensayos independientes (\(p\) podría ser la probabilidad de que ocurra un milagro en \(n\) dias consecutivos). Supongamos que este hecho ha ocurrido \(x\) veces. La distribución a posteriori para \(p\) bajo el supuesto de que todos los valores de \(p\), a priori, son igualmente probables, permite aceptar que, aunque el número \(x\) sea cero, la probabilidad \(p\) puede suponerse más grande que uno entre un millón seiscientos mil con probabilidad \(0.533\).

Este resultado no es fácil de obtenerse (por ello no lo exponemos) pero matemáticamente es correcto. Viene a decirnos que la probabilidad de un milagro en un dia concreto (aunque nunca se haya observado ninguno) es más grande que ese número (\(1/1.600.000\)) con probabilidad algo mayor que \(1/2\). Permite establecer una base matemática para la probabilidad de ocurrencia de un hecho muy anormal en la naturaleza:

Si \(p\) es la probabilidad de que un suceso (“milagro”) ocurra (tal como que mañana no salga el sol, en palabras de Price, o la resurrección de una persona), admitamos que \(p\) pueda ser \(1/1600000\). Esto es, admitimos que un milagro puede suceder, aunque con una probabilidad muy pequeña. Ahora nos planteamos: ¿Cuál es la probabilidad de que ocurra al menos un suceso de este tipo en un millón de ensayos independientes? (en el próximo millón de días, ¿cuál es la probabilidad de que ocurra algún milagro? -uno, al menos).

La probabilidad de que ocurra algún suceso puede calcularse como \(1\) menos la probabilidad del complementario (“no ocurra ningún suceso”), es decir \[ 1- \left(1-\dfrac{1}{1.600.000}\right)^{1.000.000} = 1- \left(\dfrac{1.599.999}{1.600.000}\right)^{1.000.000}\]

y este número es, aproximadamente, 0.46, lo cual no es tan pequeño.

Lo que se ha probado es que la probabilidad de que ocurra un suceso muy raro (probabilidad muy pequeña) es bastante alta (próxima a un medio, en este caso) siempre que se espere el tiempo suficiente. Obviamente, esto también sirve para argumentos que favorecen las supersticiones o le dan credibilidad a programas de televisión donde relatan sucesos paranormales.
(extraído del libro “el hombre anúmerico” de John Paulos (Paulos and Llosa 1990)) Supongamos que la probabilidad de un sueño profético sea de \(1/10.000\) (muy poco frecuente; cambiese este número por otro más pequeño si se quiere). Entendemos por sueño profético aquel donde alguien sueña con su tía y la ve muriendo en un accidente de coche y, efectivamente, muere en accidente de coche, etc. En una población con 10 millones de personas adultas, ¿cuántas tendrán al menos un sueño profético al año?

Solución:

Según suponemos en el enunciado, la probabilidad de que un sueño NO sea profético es muy grande: \(9.999/10.000.\)

Por consiguiente, la probabilidad de que una persona tenga al menos un sueño profético al cabo de un año es \[1-P(no\ tenga \ ninguno)= 1-\left(\dfrac{9999}{10000}\right)^{365}=1-(0.9999)^{365}=1-0.9641=0.0359.\]

Supongamos una población con 10 millones de adultos. Cada uno de ellos tiene probabilidad \(0.0359\) de tener al menos un sueño profético al año. Es decir, el 3.59 por ciento de los adultos (que son 3.590.000 adultos) tendrán al menos un sueño profético al año (lo cual, ciertamente, es un número muy alto).

Si se cambia la probabilidad inicial \(1/10.000\) por un número más pequeño, el porcentaje de personas con, al menos, un sueño profético al año, evidentemente disminuirá, pero seguirá siendo muy alto. Es por eso que en la prensa se recogen situaciones (verídicas) de gente que ha soñado con algo que se ha cumplido (accidentes de avión, etc.). Es evidente que somos muchas personas a soñar y se pueden tener muchos sueños diferentes. La probabilidad de que se cumpla algún sueño profético es alta, pero eso no significa que la persona que ha soñado algo que se ha cumplido tenga propiedades extrasensoriales.

Caso real:

4.14.3 Ejemplos importantes de aplicación de la estadística Bayesiana

En el mencionado libro La teoría que nunca murió (McGrayne 2012) se describen con detalle ejemplos reales de aplicación de métodos estadísticos basados en la regla de Bayes o, mejor dicho, en la Estadística Bayesiana. El nombre de estadística Bayesiana surgió como una especie de alternativa a la estadística llamada frecuentista, la cual, básicamente, se formó a partir de los trabajos de Ronald Fisher de inferencia matemática. La estadística Bayesiana parte del principio de que los parámetros que describen una población no son valores fijos e inmutables, sino que son variables aleatorias con una distribución a priori determinada. Asimismo, considera que las probabilidades de los sucesos pueden ser subjetivas, e irse modificando a medida que se van conociendo datos del problema en el que se trabaje (como en el ejemplo del test de embarazo del apartado anterior).

Fue precisamente Ronald Fisher uno de los mayores objetores a este tipo de pensamiento, por cuanto consideraba que las probabilidades deben calcularse, bien a través de la frecuencia relativa, bien por la regla de Laplace, y que los parámetros de las poblaciones no podían considerarse variables, sino valores fijos que había precisamente que estimar. Este hecho fue quizá lo que motivó que las técnicas basadas en el pensamiento bayesiano fuesen menos difundidas e investigadas durante varias décadas. Además, la derivación de muchas técnicas de tipo bayesiano y la resolución de problemas asociados no pudieron llevarse a cabo hasta la existencia de ordenadores con capacidad de cálculo adecuada, por cuanto, en muchas ocasiones, conllevan aparejados problemas de tipo numérico importantes.

En realidad, la estadística bayesiana y la estadística frecuentista, si bien en un principio (primeras décadas del siglo XX) parecían formas de pensar contrapuestas, en realidad son complementarias. Hoy en dia existe un campo de trabajo y de aplicación de la estadística bayesiana muy amplio, tanto a nivel teórico como aplicado, del cual puede uno hacerse idea sin más que teclear los términos “bayesian inference” en google.

A continuación, citamos algunas aplicaciones de la estadística bayesiana que han adquirido fama:

  • El índice de paternidad: La fórmula descrita por Essen-Moller es una consecuencia del teorema de Bayes. Puede verse, por ejemplo, en (Mickey, Gjertson, and Terasaki 1986).

  • En problemas legales (juicios) existen numerosos ejemplos de utilización del teorema de Bayes. Uno de los más conocidos es la llamada falacia del fiscal. The Guardian: A formula for justice . Asimismo, existen numerosos ejemplos de aplicación del teorema de Bayes para la resolución de casos judiciales. Muchos de ellos pueden consultarse en el libro de Gabriel Ruiz Garzón Condenados por la estadística (Ruiz-Garzón 2015).

  • Busqueda de barcos perdidos Busqueda Bayesiana. Un ejemplo de búsqueda de este tipo fue la realizada para localizar cuatro bombas atómicas que el ejercito americano perdió en el mar en Palomares (Almería), en 1966, tras el accidente aéreo de un B-52. El famosos suceso terminó con el famoso baño del ministro Fraga y el embajador americano en la playa, para demostrar que no existía radioactividad alguna.

Fraga saludando a los cientos de estadísticos bayesianos que se agolparon en la playa, y que la censura franquista impidió ver.

Figura 4.29: Fraga saludando a los cientos de estadísticos bayesianos que se agolparon en la playa, y que la censura franquista impidió ver.

En el paquete de R rSARP está implementada la busqueda bayesiana. El lector interesado encontrará en la viñeta (pequeño manual) del paquete anotaciones muy interesantes. viñeta

  • Los filtros de spam del correo electrónico son un ejemplo sencillo de lo que se conoce como filtros bayesianos. Un gestor de correo electrónico debe decidir, a partir de un efecto (el mensaje de correo que contiene cosas raras, como caracteres extraños, mensajes en lengua extranjera, declaraciones de amor de desconocidos…) si la causa es un mensaje o no de spam (y filtrar o no dicho correo). Para ello, el gestor irá “aprendiendo” de los datos que el usuario le va enseñando paulatinamente, con lo cual la probabilidad de acierto crece con el tiempo.

También, las redes bayesianas son un ejemplo de utilización del resultado de Bayes en la inteligencia artificial (Castillo, Gutiérrez, and Hadi 1997) (García 2012).

  • Los métodos actuariales proceden de la aplicación del teorema de Bayes a los seguros, a través de los trabajos del italiano Bruno de Finetti (1906-1985) (Bernardo 1998).
El estadístico italiano Bruno de Finetti.

Figura 4.30: El estadístico italiano Bruno de Finetti.

  • El famoso caso Dreyfuss

wikipedia (1894–1906), referente a un militar judío francés injustamente acusado de espionaje y encarcelado en la isla del diablo. En una revisión de las pruebas presentadas contra el militar (entre cuyos testigos favorables destacó el famoso matemático Henri Poincaré) se utilizó la regla de Bayes en varias ocasiones (Ruiz-Garzón 2015). Dreyfuss fue defendido públicamente por el escritor Émile Zola, en su famoso escrito Yo acuso, lo que originó la condena de este último a la cárcel y su exilio a Inglaterra.

  • La descodificación de los códigos generados por la máquina alemana Enigma en la II guerra mundial: en Blentchley Park, un equipo de científicos dirigido por el matemático Alan Touring (considerado el padre de la informática) utilizó la regla de Bayes de manera continuada, parece que sin haberla conocido previamente. BlogElPais (Mardia and Cooper 2016) (Good 1979)
Izquierda: Benedict Cumberbach en el papel de Alan Touring en la pelicula "The imitation game" (2015). Derecha: el verdadero Alan Touring.

Figura 4.31: Izquierda: Benedict Cumberbach en el papel de Alan Touring en la pelicula “The imitation game” (2015). Derecha: el verdadero Alan Touring.

  • La invasión alemana de Rusia en la II guerra mundial: como Kolmogorov usó la regla de Bayes para conseguir mejorar la precisión de la artilleria rusa contra el ejercito alemán que estuvo a punto de entrar en Moscú (Kolmogorov and Hewitt 1948).

  • Cálculo del riesgo de explosión de una bomba nuclear por accidente durante la guerra fría. (Barrett, Baum, and Hostetler 2013)

Estos y más ejemplos son citados y ampliamente comentados y documentados en el libro de Sharon McGrayne La teoría que nunca murió (McGrayne 2012).

Bibliografía

McGrayne, S.B. 2012. La Teoría Que Nunca Murió. Crítica.

Villegas, Miguel Angel Gómez. 2001. “El Ensayo Encaminado a Resolver Un Problema En La Doctrina Del Azar.” Revista de La Real Academia de Ciencias Exactas, Físicas Y Naturales 95 (1). Real Academia de Ciencias Exactas, Físicas y Naturales: 81–85.

Paulos, J.A., and J.M. Llosa. 1990. El Hombre Anumérico: El Analfabetismo Matemático Y Sus Consecuencias. Matatemas (Tusquets Editores). Tusquets.

Mickey, MR, DW Gjertson, and PI Terasaki. 1986. “Empirical Validation of the Essen-Möller Probability of Paternity.” American Journal of Human Genetics 39 (1). Elsevier: 123.

Ruiz-Garzón, G. 2015. Condenados Por La Estadística. Servicio de Publicaciones de la Universidad de Cadiz.

Castillo, Enrique, José Manuel Gutiérrez, and Ali S Hadi. 1997. “Sistemas Expertos Y Modelos de Redes Probabilisticas.” Academia de Ingenieria.

García, Alberto. 2012. Inteligencia Artificial: Fundamentos, Práctica Y Aplicaciones. Rc Libros.

Bernardo, José Miguel. 1998. “Bruno de Finetti En La Estadistica Contemporanea.” Historia de La Matématica En El Siglo XX, S. Rios (Ed.), Real Academia de Ciencias, Madrid, 63–80.

Mardia, Kanti V, and S Barry Cooper. 2016. “Alan Turing and Enigmatic Statistics.”

Good, Irving J. 1979. “Studies in the History of Probability and Statistics. Xxxvii Am Turing’s Statistical Work in World War Ii.” Biometrika. JSTOR, 393–96.

Kolmogorov, Andreĭ Nikolaevich, and Edwin Hewitt. 1948. “Collection of Articles on the Theory of Firing.” Rand Corporation.

Barrett, Anthony M, Seth D Baum, and Kelly Hostetler. 2013. “Analyzing and Reducing the Risks of Inadvertent Nuclear War Between the United States and Russia.” Science & Global Security 21 (2). Taylor & Francis: 106–33.