1.2 Variabilidad y correlación al origen de la moderna teoría estadística

Quetelet acuñó el término hombre medio, como expresión sinónima del “hombre perfecto”, del cual se producian desviaciones que eran producto del azar y que, cuanto más se diferenciasen de la media, más imperfectas serían. Sin embargo, Galton consideró la hipótesis contraria: la desviaciones en torno a la media no eran necesariamente un defecto. Como reformista social y fundador del movimiento eugenésico, le interesaba mejorar la raza, y por lo tanto, el hombre medio no era para nada el modelo ideal; era un mediocre cuyos caracteres debían ser mejorados en la descendencia. Por eso, Galtón necesitaba estudiar la forma de poder variar ese hombre medio hacia los valores más extremos (que constituyesen el mejor de los valores posibles, como la altura más elevada o la inteligencia más prodigiosa). Galton introdujo los nuevos conceptos de regresión y correlación para analizar la variabilidad de los fenómenos y sus relaciones. La ciencia, como pretendía Galileo, seguiría orientándose a la búsqueda de relaciones entre propiedades; pero éstas ya no serían consideradas necesarias ni inmutables.

La casi simultánea aparición del libro Natural Inheritance de Galton y del análisis de la correlación marca el inicio del período moderno de la estadística. La difusión de estos conceptos, en torno a 1890, comenzó a llamar la atención de notables estadísticos, como Francis Edgeworth (1845-1926), Frank Weldon (1860-1906) y Karl Pearson (1857-1936).

Dos famosos retratos de Karl Pearson (1857-1936), considerado, junto con Francis Galton, el creador de la estadística moderna. Su hijo Egon Pearson también haría muchos aportes a la estadística.

Figura 1.11: Dos famosos retratos de Karl Pearson (1857-1936), considerado, junto con Francis Galton, el creador de la estadística moderna. Su hijo Egon Pearson también haría muchos aportes a la estadística.

Hacia 1900, el carácter intelectual de la estadística salía completamente transformado gracias al trabajo de estos tres últimos científicos. En sus primeros cursos de estadística avanzada, impartidos en la universidad de Londres a finales del siglo XIX, Karl Pearson enseñaba que “estadística es […] un término utilizado para mediciones agregadas de cualquier hecho, sea social, físico o biológico. La teoría pura de la estadística es una rama de la matemática que se ocupa de la compilación, representación y tratamiento de [estos] agregados numéricos — independientemente de los hechos que tales números representen. La estadística aplicada [en fin] es el uso de los métodos de la estadística pura a clases especiales de hechos — observaciones biológicas, físicas o políticas.” (Yule 1938). De su colaboración con Frank R Weldon y Francis Galton surgió la Escuela Biométrica. Desde 1890 hasta los años veinte del siglo XX — cuando Ronald Fisher (1890-1962) estableció un centro de investigación en la estación experimental de Rothamstead — la Escuela Biométrica fue la única institución británica dedicada a la teoría estadística. Ya en la primera década de su creación, alrededor de la mitad de todos los artículos ingleses sobre teoría estadística se producían en este ambiente institucional.

Pearson dominó los avances de la teoría científica hasta la primera guerra mundial. Desde los años 20, la figura de Ronald Fisher tomó su testigo, constituyendo hoy en día, junto con Galton y Pearson, los pilares humanos fundamentales de la disciplina estadística como tal.

Ronald Fisher, uno de los padres de la estadística.

Figura 1.12: Ronald Fisher, uno de los padres de la estadística.

Sir Ronald Aylmer Fisher (1890 - 1962) fue un estadístico y biólogo inglés que utilizó las matemáticas para combinar la genética mendeliana y la selección natural. Richard Dawkins dijó de él que fue “el mejor biólogo desde Darwin”. Lo que nadie pone en duda es que proporcionó a los investigadores en biología y medicina sus herramientas de trabajo más importantes

Fisher obtuvo una beca para estudiar Matemáticas en la Universidad de Cambridge en 1909, obteniendo su primer título en Astronomía en 1912. En 1915 publicó un artículo sobre la evolución de las preferencias sexuales y la elección de pareja. En 1918 publicó el trabajo The Correlation Between Relatives on the Supposition of Mendelian Inheritance, en el que introdujo el término varianza y propuso su análisis formal. Presentó un modelo conceptual de genética que mostraba que la variación continua entre los rasgos fenotípicos podía producirse por la acción combinada de muchos genes discretos y, por lo tanto, ser el resultado de la herencia mendeliana. Este fue el primer paso hacia el establecimiento de la genética poblacional y la genética cuantitativa, que demostró que la selección natural podía cambiar las frecuencias alélicas de una población, reconciliando su naturaleza discontinua con la evolución gradual.

En 1919 comenzó a trabajar en el laboratorio de investigación de Rothamsted (Hertfordshire, Inglaterra). En 1925 publicó el famoso libro Métodos estadísticos para investigadores, una de las monografías más influyentes del siglo XX en esta ciencia. Este libro también popularizó el nivel crítico o \(p\)-valor. Posteriormente, en 1935, publicaría otro libro fundamental: El diseño de experimentos.

Pero, además de por su extraordinaria inteligencia y sus aportaciones a la ciencia, Fisher también dejaría para la posteridad bastantes anécdotas que, en muchas ocasiones, acompañan a la figura del que es catalogado como un genio. En su libro La teoría que nunca murió (McGrayne 2012) Sharon B. McGraney comenta que Fisher, además de tener una miopía enorme, solía ir tan enfrascado en sus pensamientos y problemas matemáticos que, habitualmente, tenía que ser apartado de sufrir un atropello por parte de los autobuses que no lograba distinguir. Además, era de un temperamento arrogante y tomaba muchas preguntas como un ataque personal, de modo que hasta él mismo reconocía que su exaltado temperamento le amargaba la existencia. William Kruskal dijo que la vida de Fisher no había sido más que “una interminable ristra de altercados científicos —que en ocasiones llegaban incluso a simultanearse—, ya fuera en las reuniones de la profesión o en los artículos propios del oficio” (Kruskal 1980). Y, en el retrato fundamentalmente amable de la carrera de Fisher hecho por otro famoso estadístico, Jimmie Savage, se puede leer: “a veces publicaba unos insultos que sólo un santo podría perdonar enteramente […]” (Savage 1976).

Fue también famosa la enemistad que mantuvo Fisher con otro de los padres de la estadística, Karl Pearson, a raiz de las críticas de este último a un artículo enviado por Fisher a la revista Biometrika, creada por Pearson, Galton y Weldon. Esta enemistad se trasladaría al hijo de Pearson, Egon Pearson (1895-1980) , que junto con Jerzy Neyman (1894-1981) crearon la teoría de los test de hipótesis que lleva sus nombres (Neymann-Pearson). Además, Fisher mantuvo siempre una animadversión severa hacia los estadísticos llamados bayesianos (los que utilizan un modo de pensamiento centrado en las probabilidades de tipo subjetivo), lo que seguramente motivo que la estadística bayesiana tardara más tiempo del deseado en tomar arraigo entre los investigadores de esta ciencia.

Es también muy conocido el siguiente hecho: En 1950 se pronunció públicamente en contra de un estudio que demostraba la correlación entre fumar y el cancer de pulmón; incluso llegó a argumentar que era posible que la existencia de un cancer motivara la posibilidad de adicción hacia el tabaco. Si bien fue cierto que Fisher había sido asesor de empresas tabacaleras, parece estar demostrado que sus motivaciones para dudar de la relación tabaco - cancer fueron estrictamente personales. Fisher era un fumador empedernido, capaz de bañarse en la piscina sin dejar de fumar en pipa, siempre había mantenido aversión hacia las tendencias puritanas de todo tipo y había encontrado gran consuelo personal en el tabaco. Años después publicaría una retractación de sus opiniones en este aspecto.

En la siguiente entrada del blog simplystatistics, el autor considera que Fisher es el científico más influyente de la historia, en base a las citas de sus trabajos en Google Scholar. En esta misma página, se indica que varios de los conceptos introducidos por Fisher son de la mayor importancia en la estadística. Por ejemplo:

  • el \(p\)-valor.

  • el análisis de la varianza o ANOVA.

  • el análisis discriminante lineal.

  • la matriz de información.

Cualquier estudiante de un curso de estadística, o cualquier científico, ingeniero, psicólogo o profesional de muchas disciplinas ha tenido que oir hablar, casi necesariamente, del \(p\)-valor. Piénsese que si los conceptos científicos pudiesen ser registrados igual que un software, o simplemente como una canción en la sociedad general de autores (SGAE), qué bien vivirían los nietos de Fisher sin tener que dar palo al agua.

1.2.1 Curiosidad para cinéfilos

El matemático Jerzy Neyman fue protagonista de la siguiente anecdota histórica: cuando daba clase en la universidad de Berkeley, en 1935, solía dejar en algunos encerados de las paredes laterales algunos problemas de matemáticas que no se habían logrado resolver. Un estudiante que llegó tarde a una clase pensó que uno de ellos era un problema que Neyman había dejado como ejercicio y se lo entregó correctamente resuelto al dia siguiente. Neyman se presentó el domingo a primera hora de la mañana en la residencia del estudiante para felicitarlo por semejante proeza. El estudiante era George B. Dantzig, famoso matemático que inventó el método del simplex, considerado uno de los algoritmos más importantes del siglo XX -por ejemplo, entre los 10 primeros según la SIAM (Society for Industrial and Applied Mathematics).

Esta anécdota fue tomada “prestada” por Matt Damon y Ben Affleck para el guión de la película El indomable Will Hungting (1997), que les valió el Oscar al mejor guión original de aquel año (en la que los dos trabajaron como actores).

En aquella película, Robin Williams sí gano el Oscar como mejor actor.

Figura 1.13: En aquella película, Robin Williams sí gano el Oscar como mejor actor.

Bibliografía

Yule, George U. 1938. “Notes of Karl Pearson’s Lectures on the Theory of Statistics, 1884-96.” Biometrika 30 (1/2). JSTOR: 198–203.

McGrayne, S.B. 2012. La Teoría Que Nunca Murió. Crítica.

Kruskal, William. 1980. “The Significance of Fisher: A Review of Ra Fisher: The Life of a Scientist.” Journal of the American Statistical Association 75 (372). Taylor & Francis Group: 1019–30.

Savage, Leonard J. 1976. “On Rereading Ra Fisher.” The Annals of Statistics. JSTOR, 441–500.