Capítulo 13 Juntos, pero no revueltos

Algo que hacen los mercadólogos de forma periódica (i.e. mensual, trimestral o semestral, etc.) es medir la compra de sus marcas. Vamos a inventarnos los resultados de uno de estos estudios para ilustrar la correlación de datos, como los de la tabla 13.1. Salta a la vista que la compra de la marca de agua Heaven’s Dew disminuyó de enero a mayo \(30\) puntos porcentuales \(45-15=30\). Detectar esta diferencia es fácil porque aprendimos en la escuela primaria a sumar y restar con brinquitos de la ranita. Asimismo, tenemos una predisposición natural a ver las cosas linealmente; de allí el nombre que se da a los números naturales (los que sirven para contar). Si todos los problemas fueran unidimensionales, o sea hacia adelante o hacia atrás, estilo ranita, no habría problema, pero no es así. La vida se crea a partir de fuerzas que interactúan, en estas circunstancias la ranita queda obsoleta; es necesario emplear métodos más sofisticados de medición.

Tabla 13.1: Porcentaje de compradores de Heaven’s Dew
Mes Enero Febrero Marzo Abril Mayo
Compra 45 30 27 19 15

La lealtad a la marca es una medida que interactúa con la compra; ambas en conjunto (véase sección 2) son un mejor indicador del desempeño de marca. En la tabla 13.2 vienen nuestros datos fingidos de lealtad. Okey, según estos datos de enero a mayo Heaven’s Dew aumentó en \(14\) puntos porcentuales sus clientes leales: \(37–23=14\). ¡Ah, caray!, como que no checa, ¡¿verdad?! En el mismo período disminuyó el número de compradores, pero la lealtad aumentó. ¿Cómo explicas eso? ¿Será que la compra y la lealtad no se asocian? Nosotros los investigadores sabemos que sí están relacionadas, pero quizá no lo hacen como suponemos. Nuestra hipótesis es que la proporción de clientes leales aumentó porque los que dejaron de comprar la marca fueron los clientes menos leales.

Tabla 13.2: Porcentaje de clientes leales a Heaven’s Dew
Mes Enero Febrero Marzo Abril Mayo
Lealtad 23 28 24 29 37

Si empleamos el método universal de la ranita para conocer el desempeño de la marca en el mes de mayo quizá podríamos sumar el \(15\%\) de la compra en ese mes con el \(37\%\) de lealtad del mismo mes. Luego, dividir entre 2 para obtener un indicador más preciso (véase sección 5), el porcentaje promedio: \(15+37=52\); \(\frac{52}{2}=26\). Según este cálculo, el desempeño de la marca estuvo en un \(26\%\), pero espérame un momento, ¿no quedamos en que la lealtad aumenta cuando la compra baja? Mejor deberíamos de restar en lugar de sumar porque la relación es inversa. Entonces el desempeño de la marca sería de \(22\%\): \(15-37=-22\). No, no convence. ¿Qué pasará cuando tenga \(50\%\) de compra y \(50\%\) de lealtad? Si hacemos una resta el desempeño sería \(0\%\). Fíjate en este otro ejemplo, si tienes un \(1\%\) de compra y \(99\%\) de lealtad y procedes como la ranita, obtendrías un puntaje de \(50\%\) de desempeño de la marca: \(\frac{1+99}{2}=50\). El mismo puntaje resultaría si tienes \(50\%\) de compra y \(50\%\) de lealtad: \(\frac{50+50}{2}=50\). Sin embargo, si multiplicas en lugar de sumar, los puntajes que obtendrías serían totalmente distintos. En el primer caso obtendrías \(99\%\): \(99*1=99\). Mientras que en el segundo caso el resultado sería \(25\%\): \(50*50=2,500\) (\(\frac{2500}{100}=25\), recuerda que son porcentajes).

Karl Pearson, el padre de la correlación, se dio cuenta de que la forma más adecuada de cuantificar una relación como la anterior era multiplicando ambas variables; las multiplica porque supone que están interactuando. No se trata de una sola rana que brinca hacia adelante y hacia atrás; se trata de dos ranas que entran y salen de un charco, sepa Dios y Pearson en que momento y dirección. Imagina que los porcentajes de compra y lealtad son \(50\%\) para ambas variables, si los multiplicamos tenemos un desempeño de marca del \(25\%\). Este indicador sí tiene sentido; en buen cristiano, significa que el 25% del mercado es de Heaven’s Dew. Pearson hace la misma suposición que nosotros, cree que ambas variables actúan en conjunto; interactúan y comparten elementos comunes por eso es necesario multiplicarlas. Sin embargo, es necesario evaluar con que fuerza y en que dirección lo hacen. Porque, después de todo, podría ser que la fuerza con la que se relacionan fuera nula. En tal caso, la hipótesis de que se relacionan o actúan en conjunto es infundada.

La moraleja de esta historia es que nunca debes construir modelos de investigación de mercados con base exclusivamente en una resta o suma y mucho menos si involucran una sola variable (v.gr. NPS – Net Promoter Score); es necesario medir la varianza (véase sección 6). Ese es el foco principal de la estadística multivariable y, dentro de ella, probablemente la correlación lineal es el concepto más importante. Pero continuemos analizando nuestros datos. El problema radica en averiguar si existe una relación entre la compra y la lealtad, qué tan fuerte es y si es positiva o negativa. Así que Pearson echó a andar la ardilla para resolver este problema triple. Razonó que para saber si una variable aumenta mientras otra disminuye o ambas aumentan o disminuyen al mismo tiempo (a eso en estadística se le llama covarianza) tenía que compararlas sobre una misma base (véase sección 3) y se le ocurrió que el promedio es el mejor indicador sobre el cual se puede comparar. El promedio o media es algo así como el punto cero para cualquier grupo de mediciones. Si una observación (en este caso medición mensual) está por debajo del promedio se dice que es negativa y por el contrario si está por encima se dice que es positiva. De esta forma cada interacción (multiplicación) entre estas dos variables es positiva o negativa según su relación. La suma de estas interacciones es un indicador general de la dirección de la relación: si el resultado general es negativo entonces hay una relación inversa (mientras una variable aumenta la otra disminuye), si el resultado general es positivo entonces la relación es directa (mientras una variable aumenta la otra también lo hace o si disminuye la otra también lo hace). En la tabla 13.3 se ilustra el procedimiento anterior.

Tabla 13.3: Compra y lealtad de los clientes de Heaven’s Dew
Mes Compra Lealtad Compra_x Lealtad_y Producto_x_y
Enero 45.0 23.0 17.8 -5.2 -92.56
Febrero 30.0 28.0 2.8 -0.2 -0.56
Marzo 27.0 24.0 -0.2 -4.2 0.84
Abril 19.0 29.0 -8.2 0.8 -6.56
Mayo 15.0 37.0 -12.2 8.8 -107.36
—Suma 136.0 141.0 0.0 0.0 -206.20
—Media 27.2 28.2 0.0 0.0 -41.24

En la columna Compra_x restamos la media de compra a cada medición mensual de compra. Se procede de la misma forma con la lealtad; restamos su propia media a cada medición de lealtad (columna Lealtad_y). Analicemos detenidamente esta operación y su significado. En el mes de febrero la compra estuvo por encima de la media o promedio casi un \(3\%\): \(30-27.2=2.8\). Es decir, el resultado fue positivo. Durante ese mismo mes la lealtad se aproximó a \(0\%\): \(28-28.2=-0.2\). La conclusión del mes de febrero sería que la compra estuvo por arriba del promedio de compra general, pero, pon atención, la lealtad ni se movió; quedó en el promedio. Por esa razón la multiplicación (columna Producto_x_y) de ambos resultados señala que la covarianza es muy cercana a \(0\%\): \(-0.56\). Eso es para un solo mes, pero ¿qué pasó en marzo? Se invirtieron los papeles, la compra casi no se movió, fue muy cercana al promedio, tan sólo varío en un \(0.2\%\): \(27-27.2=-0.2\). En cambio, la lealtad disminuyó más del \(4\%\): \(24-28.2=-4.2\). En el mes de marzo la compra y la lealtad coincidieron en moverse hacia abajo de sus promedios generales, pero, presta atención nuevamente, en conjunto lo hicieron muy poco. Es decir, se relacionan, una baja y la otra también, aunque muy poco, menos de un \(1\%\): \(-.56*-4.2=0.8\). Observa que el resultado de esta interacción es positiva porque ambas variables se mueven en el mismo sentido. ¿Qué tal en mayo? La compra quedó por debajo del promedio \(-12.2\%\) y la lealtad por arriba de su promedio general en \(8.8\%\); por eso la relación es inversa: una baja y la otra sube. Enero y mayo son los meses donde más variación hay, pero es de tipo negativa; ya sabes que eso significa que una baja mientras la otra sube. Sólo para que estemos seguros de esta operación, si ambos resultados (compra y lealtad) son positivos o negativos el resultado de su multiplicación será positiva (menos por menos da más). La consecuencia de sumar todos los productos cruzados (así se llama a la multiplicación de estas desviaciones) es un indicador poderoso del sentido de la relación y la fuerza entre ambas variables. En otras palabras, hay ocasiones en las que la compra y la lealtad se mueven juntas (covarían) en la misma dirección y otras en las que la compra y la lealtad se mueven en sentido inverso: una crece mientras la otra baja. Si, y éste es el razonamiento que hizo el Sr. Karl Pearson, la suma de los productos cruzados, es decir, la suma de las variaciones conjuntas, es cero se infiere que hay un relajo entre las variables, a veces suben o bajan juntas; otras veces una baja mientras que la otra sube, no están variando conjuntamente; no hay relación alguna. En contraste, si el resultado es diferente de cero y positivo, tanto la compra como la lealtad se mueven en el mismo sentido. O sea que medidas de compra que están por encima de su propio promedio corresponden a medidas de lealtad que también están por encima del promedio de lealtad, o medidas de compra por debajo de su promedio (negativas) corresponden a medidas de lealtad que están por debajo de su promedio (negativas). Al promedio de todos esos sube y baja, mi estimado lector, se le llama covarianza. En este caso la covarianza es de \(-51.55\). No, no nos equivocamos, la covarianza es otra media, un promedio. No checa con el promedio de -41.24 (véase media de la columna producto_x_y, en la tabla 13.3) debido a los grados de libertad del denominador. En lugar de dividir tan sólo por el número de casos se divide por los casos menos uno, \(n-1\): \(\frac{-206.2}{5-1}=-51.55\). Karl Pearson era matemático y científico y no podía explicarte las cosas de la manera en que lo hemos hecho nosotros, porque eso le hubiera acarreado muchas críticas. Además, para qué hablar tanto si todo eso se puede decir con una sola fórmula (véase la ecuación de la covarianza (13.1)). Si esto no te hace ver la belleza e inteligencia detrás de la investigación y la estadística, perdona que te lo diga, pero tienes muy malos gustos:

\[\begin{equation} s_{xy}=\frac{1}{n-1}\sum_{i = 1}^{i = n}(x_{i}-\hat{x})(y_{i}-\hat{y}) \tag{13.1} \end{equation}\]

La tabla 13.4 contiene los cálculos de la suma de cuadrados. Mira la columna Compra_x2, es la desviación de la compra que se observa en la tabla 13.3 elevada al cuadrado: \(17.8^2=316.84\); lo mismo aplica para la columna de Lealtad_y2, \(-5.2^2=27.04\). La suma de las desviaciones de la compra elevadas al cuadrado es 540.8 y de las desviaciones de la lealtad es 122.8. Elocuentemente, a esa clase de totales se le dice suma de cuadrados. Para obtener la variación total simplemente multiplicamos esas sumas de cuadrados: \(540.8\times122.8=66,410.24\) (véase columna Variacion_xy de la tabla 13.4). Recuerda que elevar al cuadrado es solamente un artificio para poder operar con la varianza que, como el perico jefe, no sabe hacer nada, pero resulta indispensable. Así que, para llegar a un número útil, saca la raíz cuadrada de esa variación total: \(\sqrt{66,410.24}=257.7\). Ese es el número (denominador) que debes usar para hacer relativo el indicador de covarianza y convertirlo en correlación. Al final, la correlación es igual a \(\frac{-206.2}{257.7}=-.80\). Si lo prefieres también puedes usar los promedios que son los mismos indicadores en forma condensada: \(\frac{-41.24}{51.54}=-.80\); el resultado es el mismo (da lo mismo operar con absolutos que con relativos, véase sección 25). La media \(51.54\) se ha calculado dividiendo la variación total entre cinco (los cinco meses): \(\frac{257.5}{5}=51.54\).

Tabla 13.4: Suma de cuadrados de la compra y lealtad
Mes Compra Lealtad Compra_x2 Lealtad_y2 Variacion_xy
Enero 45.0 23.0 316.84 27.04
Febrero 30.0 28.0 7.84 0.04
Marzo 27.0 24.0 0.04 17.64
Abril 19.0 29.0 67.24 0.64
Mayo 15.0 37.0 148.84 77.44
—Suma 136.0 141.0 540.80 122.80 66,410.24
—Media 27.2 28.2 108.16 24.56

¿Puedes ver cuál es la diferencia entre la covarianza y la correlación? Radica en que la correlación es relativa (véase sección 4), por eso es más comprensible que la covarianza y se puede comparar con otros estudios. Por ejemplo, ¿qué significa una covarianza total de \(206.2\) o promedio de \(-51.5\)? No lo sabemos, depende de las unidades de medición (no es lo mismo hablar de dólares que de pesos). Lo único que podemos decir es que de toda la variación que podrían tener en conjunto la compra y la lealtad sólo quedó ese \(-51.5\), porque la restante variación se anuló mutuamente debido a que no había un patrón de variaciones conjuntas entre ambas variables. Por esta razón Pearson se preguntó: ¿a qué porcentaje de variación total equivale esa covarianza? Para responder a esa pregunta simplemente dividió la covarianza entre el promedio de variación total y lo convirtió en una medida relativa (i.e. relacionada). Al igual que cualquier porcentaje esta nueva medida va de 0 a 1 (0 a 100%, si lo deseas ver como porcentajes de variación) con la salvedad de que puede ser positiva o negativa. Si el resultado es \(-1\) significa que las variables oscilan en conjunto de forma perfecta, pero en sentidos opuestos: una aumenta y la otra disminuye; si el resultado es \(1\) entonces las variables oscilan en la misma dirección: una aumenta y la otra también o una disminuye y la otra también. En general, se entiende que cuando el resultado es \(-1\) o \(1\) la covarianza es igual al producto cruzado de la suma de cuadrados de ambas variables. Si no es exactamente \(1\) o \(-1\), se comprende que la covarianza es sólo una parte del total de la variación. Asimismo, se infiere que si es cero no hay covarianza. Para ilustrar este punto, observa nuestro resultado de \(-.80\). En buen cristiano, este número dice que por cada unidad o punto porcentual que aumenta o disminuye una variable la otra lo hace en sentido inverso en un 80%. A estas alturas ya debes de saber leer por ti mismo(a) la ecuación de correlación (13.2) de Karl Pearson. En el numerador se encuentra la covarianza; o sea la variación conjunta y sincronizada de ambas variables, la que no se sincroniza se elimina naturalmente. En el denominador está el producto cruzado de la suma de cuadrados de las dos variables; es decir, su variación total, ya sea que estén o no variando en conjunto. Esa simple división da cuenta del porcentaje de variación que hay entre dos variables. ¿Qué opinas de Pearson, era un genio, verdad?

\[\begin{equation} r_{xy}=\frac{S_{xy}}{S_{x}S{y}} \tag{13.2} \end{equation}\]