Capítulo 6 El perico jefe
Una persona se dirige a la tienda de mascotas decidido a comprar un perico. Una vez ahí, pregunta por el precio del perico más distinguido de la tienda. El precio que le da el vendedor supera por mucho su presupuesto, por lo que se ve obligado a considerar otro perico menos elegante que el primero. Cuando pregunta su precio, el vendedor dobla el precio. El comprador, molesto y desconcertado, discute con el vendedor por los precios tan elevados que tiene. ¿Cómo es posible que este perico valga el doble si es más chico y menos bonito que el primero?, dice. El vendedor, con toda la tranquilidad del mundo, contesta: Ah, lo que pasa es que este perico habla. Eso lo explica, piensa el comprador; después de todo cualquiera sabe que verbo mata carita. Más tranquilo, aunque no muy convencido, decide preguntar por el precio de otro perico que se ve algo descuidado. Para su sorpresa, el vendedor da un precio aún más alto. El cliente, sumamente molesto, exige una explicación por ese precio desorbitante, a lo que el vendedor, con esa calma tan exasperante, responde: Este perico cuesta lo que cuesta porque es bilingüe; además de hablar español también habla inglés. El cliente con el enojo reflejado en el rostro, pregunta a gritos al vendedor: ¿Dónde están los pericos que no hablan? El vendedor, sin exaltarse y con su habitual tranquilidad, señala un rincón donde se encuentra un perico de aspecto desalineado y con sobrepeso, descansando plácidamente. El comprador lo ve y se da cuenta que no es la mascota que desea, pero en su mente sigue fija la idea de comprar un perico; así que pregunta cuánto cuesta al vendedor y éste responde: no está a la venta. ¡Ahora sí, despertaste al dragón!, exclama furioso el comprador y sujeta al vendedor por el cuello tratando de estrangularlo, al tiempo que pregunta a gritos: ¿Por qué no vendes ese perico horrible que no habla ningún idioma? El vendedor, con una voz apenas audible y entrecortada por la falta de oxígeno, dice: Ya sé que no habla ni sabe hacer nada, pero todos los demás pericos le dicen jefe.
Así es la varianza no sabe hacer nada o no describe nada, pero es el jefe. Es vital que la entiendas si quieres paz en tu vida. ¿Y si no sabe hacer nada para qué la necesitamos?, te has de preguntar. Igualito que pasa con el perico jefe, todas las demás estadísticas requieren de ella. Para explicártelo partamos de lo más obvio, la palabra varianza viene de variar; todo lo que alcanzas a percibir y entender es fuente de esa variabilidad. Si no existiera la varianza todo sería igual. ¿Te imaginas un mundo donde no existiera la noche ni el día, la luz ni la obscuridad, lo bello ni lo feo, lo amargo ni lo dulce, la vida sin la muerte; en pocas palabras, un mundo sin nada? ¿Por qué crees que Dios empezó creando el cielo y la tierra, la luz y la obscuridad, la tierra y el mar? Dicho de otra forma, se puso a dividir las cosas. Él es el culpable de todas esas variaciones que le dan drama, alegría, color, y belleza a la vida. Seguramente, has escuchado a mucha gente preguntándose: ¿Por qué Dios permite esto o aquello? Esa pregunta carece de sentido, porque quieren experimentar placer sin sentir dolor, saciarse sin tener sed, vivir sin morir. Lamentablemente esa forma de pensar del humano le ha llevado a crear procedimientos idénticos, extremadamente homogéneos en la producción de absolutamente todo, sin darse cuenta que la varianza que eliminamos es necesaria para vivir; nos asegura la subsistencia (véase Wallace 2016)7. Quizá nunca te hayas detenido a pensar en esto, pero gracias a esas variaciones aprendes. El proceso es así, observas, percibes o sientes y comparas con algo que ya conoces; lo que te lleva a aprender y a reconocer el mundo. Este proceso se repite una y otra vez, en un ciclo ininterminable que se va perfeccionando y haciendo cada vez más complejo. La frase bíblica que pronuncia Dios: Yo soy el alfa y el omega, el principio y el fin se refiere a que él crea y tú aprendes en ese ciclo infinito; estudiar la varianza es la mejor forma de aprender.
La varianza no describe nada, pero te ayuda a separar las cosas para entenderlas. Este punto es tan fino, que te voy a pedir que prestes mucha atención, para entender o estudiar cualquier fenómeno primero hay que separarlo. Como ya lo explicamos anteriormente, la división es la operación más importante científicamente hablando. El caso es que la varianza se debe separar y esto se hace mediante una división. Si un promedio es el primer instrumento de medición, la varianza es tu primera regla de cálculo estadística8. Efectivamente, es más avanzada que la media, pero, toma nota, también es un promedio del conjunto de las variaciones de cada sujeto, animal o cosa medida. La fórmula se parece mucho a la ecuación de la media (5.1), la diferencia radica en que estas promediando desviaciones. ¿Desviaciones de qué o a partir de qué? Elemental, si la media es el cero o el punto de donde parten todas las mediciones, utiliza la media como tu vara de medir y compárala con cada medición independiente, y saca un nuevo promedio, pero ahora de la desviación. Las mismas propiedades de la media (mediámetro) aplican a la varianza (variámetro):
- Es un indicador preciso de variación.
- Sirve como instrumento de medición; aunque mucho más sofisticado.
Antes de ver y analizar la fórmula, es conveniente poner un ejemplo muy sencillo del cálculo de la varianza. Imagina que tres entrañables amigos tienen en total \(\$18.00\) pesos. Enrique tiene \(\$12.00\) pesos; Felipe tiene \(\$5.00\) pesos, y Andrés tiene sólo \(\$1.00\) peso. Si no existieran variaciones, diferencias entre estos amigos, ¿cuánto dinero de esos \(\$18.00\) pesos crees que traería cada uno de ellos? Fácil, cada uno traería \(\$6.00\) pesos: \(\$3\times\$6=\$18\). Si eres observador te darás cuenta que ese número es ni más ni menos que el promedio; el primer instrumento de medición. Por lo tanto, usa el promedio para comparar las diferencias que observamos entre estos amigos. Enrique tiene \(\$6.00\) pesos más que el promedio (\(12-6=6\)); Felipe tiene \(\$1.00\) peso menos que el promedio (\(5-6=-1\)), y Andrés \(\$5.00\) pesos menos que el promedio (\(1-6=-5\)). Para sacar la suma total de variación entre ellos tenemos que sumar lo que se desvia cada uno del promedio, pero si lo haces así, como va, sin miramientos, el resultado sería cero: \(\$6+(–\$1)+(–\$5)=\$0\). Debido a esa circunstancia es que se elevan al cuadrado las diferencias para eliminar los números negativos y poder sumarlos: \(\$6^2+(-\$1)^2+(-\$5)^2=\$62\); a la suma de esas desviaciones elevadas al cuadro se le llama suma de cuadrados. Ya estás enterado que el número más exacto es la media (promedio) y que ésta se obtiene dividiendo entre el numero de casos. Pues bien, a la media de esa suma de cuadrados se le llama varianza. Aquí es donde te das cuenta que la varianza sólo sirve para que las cosas funcionen; algo así como el jefe: el promedio de \(\frac{62}{3}=20.66\) no te dice nada. ¿Qué pasó con los \(\$18.00\) pesos que tenían en total los tres amigos? ¿Qué significa que están variando en promedio \(\$20.66\) pesos? Es muy difícil entender por qué la varianza y el perico jefe valen tanto. Para que ese número sea expresivo, el truco es regresar ese promedio a sus unidades originales obteniendo su raíz cuadrada: \(\sqrt{20.66}=4.54\). Este número sí significa algo; dice que hay casi \(\$5.00\) pesos de diferencia en promedio entre estos tres amigos. La varianza en reversa; es decir, sacándole raíz cuadrada, se llama desviación estándar (sección 6.1). La estandarización ayuda al investigador a describir, entender y comparar muchos fenómenos. Una frecuencia absoluta se estandariza cuando se convierte en porcentaje; una varianza hace lo propio cuando se convierte en desviación estándar; una covarianza se estandariza cuando se convierte en correlación (véase sección 13), etc. En términos sencillos, convertimos los resultados de una investigación en algo más amigable y entendible para el público en general y/o los investigadores.
Para finalizar, te pido que observes con detenimiento la ecuación de la varianza (6.1). ¿Por qué crees que el denominador de la ecuación es \(n-1\)9? Ya no suena a un promedio, ¿no es así? Puedes imaginarte que sucede cuando tienes \(n=200\), es casi imperceptible el cambio en la varianza. Lo que intento decir es que no te debe engañar ese \(-1\); al final de cuentas el resultado es un promedio. Por otro lado, observa que a cada elemento \(x\) del conjunto de variaciones se le resta la media \(\overline{x}\). Significa que si un elemento es más grande que la media el resultado es positivo; hay una variación por arriba del promedio o mayor que cero; si pensamos en la media como un cero. Por el contrario, si una variación es menor que la media, el resultado será negativo; sin embargo, cuando elevas al cuadrado nada de eso importa, lo que importa es la suma total de variación. De hecho, se podría trabajar la varianza y muchas otras estadísticas con puras sumas totales, sin promediarlas; pero no serían tan entendibles como cuando se estandarizan.
\[\begin{equation} s^2=\frac{\sum_{i=1}^{n}(x-\overline{x})^2}{n-1} \tag{6.1} \end{equation}\]
6.1 El Pentapichichi
En una ocasión preguntaron a Hugo Sánchez10 que pensaba de su rival que le había despojado del trofeo al mejor goleador de ese año. La respuesta fue simple, pero tremendamente insinuante, él dijo, palabras más palabras menos: no sé si mi rival sea otra vez campeón de goleo el próximo año, pero sí sé que yo seguiré metiendo goles; y efectivamente, Sánchez continuo haciendo goles durante los siguientes años, tantos que llegó a acumular cinco trofeos al mejor goleador de España; de allí el mote de Pentapichichi que se le dio en México, porque el trofeo al mejor goleador de la temporada se llamaba Pichichi. Ese año el futbolista que despojó de su trofeo al goleador Hugo Sánchez hizo casi 40 goles. Sin embargo, el siguiente año ni siquiera se acercó a los máximos goleadores. La consistencia es importante para poder comparar una medida con otra. Por esa razón los mercadólogos utilizan medidas de dispersión para evaluar la calidad de sus productos o servicios. La desviación estándar es una medida de dispersión y de ejecución de calidad. Alguien o algo que a veces es excelso y otras veces es malo tiene mucha variación; no es confiable.
Voy a tomar prestado este relato que leí en Internet para explicártelo. Un viejo ganadero llamó a sus dos hijos para heredarles su granja; sólo puso como condición que la herencia sería para aquel que criara el mejor ganado de puercos. El hijo que criara los puercos más pesados y los hiciera crecer uniformemente sería quien heredaría la granja. El primer hijo tomó \(30\) lechoncitos para criarlos mientras que el segundo se llevó \(20\). Pasado un tiempo prudente, el padre volvió a reunir a sus hijos y pesó el ganado de cada uno. El ganado del hijo que se había llevado \(30\) pesaba más que el ganado del que sólo tomó \(20\). Por supuesto, el hijo con menos puercos protestó argumentando que no era justo pues su hermano se había llevado más puerquitos. El padre, hombre justo y sabio, estuvo de acuerdo y para resolver el dilema calculó el peso medio11 del ganado de cada hijo, con eso quedaba resuelto el primer requisito, pero aún faltaba cubrir el segundo. ¿Cómo saber qué tan distinto es el ganado de cada uno? Fácil, el granjero volvió a obtener una media, pero ahora sólo promedió la suma total de las diferencias12; eso es lo que se llama desviación estándar. Obviamente, un promedio más grande de desviación estándar implica puerquitos más diferentes, lo que evidenciaba una calidad de crianza inferior. La desviación estándar no sólo es una medida de calidad; en general, representa un indicador de la fuerza y la coherencia de la media. Imagina un promedio que no tiene ninguna variación. ¿Puedes confiar en esa media?, ¿tiene la suficiente fuerza para evidenciar que es real el indicador y no sólo es un garbanzo de a libra?, obviamente sí. Sin embargo, difícilmente o más bien es casi imposible encontrar un indicador tan preciso que no tenga variación. Por otro lado, la variación tiene un aspecto predecible. Empíricamente, se sabe que el 68% de los resultados o el 68% de la variación se va encontrar dentro del rango de una desviación estándar; el 95% lo hará dentro de dos; y el 99% dentro de tres. Algunos resultados caerán fuera de estas tres desviaciones estándar; menos del 1%. La desviación y esa distribución de los resultados es el fundamento de la mayoría de las pruebas de inferencia estadística, el tema de la siguiente parte del libro.
La pandemia por covid-19 que vive el mundo hoy, tiene gran parte de su origen en la forma indiscriminada que el hombre utiliza los agroindustriales en la producción de ganado. Siempre que respetamos la diversidad -parafraseando a un colega nuestro- estamos dando un voto en favor de la vida.↩
Una regla de cálculo fue la primera calculadora moderna, no era electrónica sino mecánica, pero tenía una belleza que sólo hoy se entiende; tanto que se ha vuelto un objeto de colección.↩
Muchos profesionales, incluyendo a un servidor, batallan tratando de entender qué son los grados de libertad; responsable de ese menos \(1\). ¿Por qué es necesario dividir entre el tamaño de muestra menos uno?, ¿por qué no se toma en cuenta toda la muestra y ya? Matemáticamente tiene su razón de ser, no es posible calcular la varianza cuando sólo hay una observación. No hay variación posible en un caso ni libertad de movimiento. Imagina la ecuación más simple: \(1+x=5\). ¿Qué otra cosa puede ser \(x\) si no \(4\)? Filosóficamente, se puede entender como la pérdida de independencia, si los casos son independientes; éstos no dependen del resultado, sino al revés. ¿Qué sucede cuando hay un solo par de casos para calcular la varianza? una vez conocida ésta y un caso se puede determinar el valor del otro. Éste último pierde en automático su independencia; ya no sirve como predictor de la varianza. Lo dicho es un tema que requiere de mucha reflexión para todos los que no somos matemáticos. Por fortuna, su influencia ante tamaños de muestra más o menos grandes carece de importancia.↩
Sánchez es el futbolista más exitoso que ha tenido México, quien se hizo famoso internacionalmente cuando jugaba en España.↩
A estas alturas ya sabes que la media es el indicador más preciso porque elimina el error intencional o no y también establece un punto de comparación inicial.↩
Sabes que ese cálculo no puede hacerse directamente, sino a través de la varianza. Bueno, existe la desviación absoluta, la cual se obtiene sumando las diferencias sin considerar si son positivas o negativas.↩