Capítulo 25 Cuestión de peso, no de pesos

¿Cuánto gana en promedio un trabajador de la ciudad de México? ¿Qué te parece si hacemos una miniencuesta para averiguarlo? Imagina que seleccionas 10 trabajadores asalariados al azar y les preguntas cuánto ganan mensualmente. En la tabla 25.1 se aprecian las respuestas de los entrevistados así como el promedio general de su ingreso mensual. No está nada mal, $19,400 pesos por cholla. Con ese dinero cualquiera paga la renta, el teléfono, la luz y todavía le alcanza para echarse un alipuz, como diría Chava Flores. ¡Espérate, no te esponjes! Sabemos que eso no es lo que gana un chilango, es sólo un supóngando que sirve para ilustrar la ponderación de casos.

Tabla 25.1: Salario mensual promedio de México
Sujeto Salario Clase
1 $6,000 Baja
2 $6,000 Baja
3 $35,000 Alta
4 $35,000 Alta
5 $35,000 Alta
6 $6,000 Baja
7 $12,000 Media
8 $12,000 Media
9 $12,000 Media
10 $35,000 Alta
Total $19,400

¿Por qué o para qué sirve ponderar los datos y cómo se hace? Bueno, sirve para no andar por allí como secretario de economía diciendo que un mexicano gana bien. En otras palabras, para que la estimación o resultado de una encuesta sea más preciso. Algunas personas le llaman a este procedimiento corrección de sesgo, porque sucede que cuando se hace una encuesta, todos los grupos de estudio deben estar bien representados. Es decir, deben estar incluidos en proporción a la población de estudio. Si la mitad de la población son mujeres y la otra mitad hombres, no se debe entrevistar un \(80\%\) de hombres y \(20\%\) de mujeres, sino \(50\%\) y \(50\%\), esa es la forma correcta de hacerlo.

Regresando a la encuesta de 10 casos, imagina que hay 10 millones de personas que trabajan en la ciudad de México, de esas, 7 millones son de clase social baja, 2 millones de clase media y 1 millón de clase alta. O sea, en la ciudad de México, y casi en cualquier ciudad, hay más gente pobre que rica. Sin embargo, en nuestra encuesta entrevistamos a casi la misma cantidad en cada clase social (véase tabla 25.1). Por esa razón concluimos que un asalariado mexicano gana \(19,400\) en promedio; la verdadera conclusión es que los datos están sesgados. Para corregir el sesgo se debe ponderar, o sea, equilibrar las cosas. ¿Cómo?, si en la encuesta hay \(3\) personas de clase baja, equivalentes al 30%, hay que darles mayor peso para convertirlos en siete casos, 70%. ¿Por qué?, porque recuerda que hay 10 millones que trabajan como asalariados en la Ciudad de México de los cuáles siete millones: 70%, son de clase baja, o lo que es lo mismo, siete de cada diez asalariados son pobres. La misma lógica aplica para las otras dos clases sociales.

Para corregir este sesgo se reparte o divide cada clase social con base en lo que le corresponde. Así, el asunto se convierte en un cuánto tienes y cuánto te toca para saber cuánto te compenso o te quito. Ejemplo, a la clase baja le toca el 70% de todos los casos, esto es 7 casos, pero tiene 3, entonces es \(\frac{7}{3}=2.33\). A la clase media le tocan 20% de los casos levantados, o sea 2, y tiene 3. La fórmula para ponderar sería así: \(\frac{2}{3}=.66\). Finalmente, a la clase social alta le toca 1 caso de 4 que tiene. Corregimos de esta forma: \(\frac{1}{4}=.25\). Los cálculos se hacen utilizando frecuencias absolutas: casos entre casos o frecuencias relativas: porcentajes entre porcentajes; es exactamente lo mismo. Nunca dividas casos entre porcentajes; son dos cosas distintas. Por ejemplo \(\frac{7}{.30}=23.33\). En mis 30 años de investigador he visto de todo, he visto empresas de investigación de mercados que dividen el número de casos de la población real entre el número de casos levantados en su encuesta, no sé si todavía lo hacen o ya aprendieron. Algo así como \(\frac{7,000,000}{3}=2,333,333.33\). Es absurdo, porque cuando reportaban sus resultados no había manera de saber cuántas entrevistas habían hecho realmente. Uno se confundía sobre la verdadera importancia de los resultados, ya que decían que eran dos millones trescientos treinta y tres mil trescientos treinta y tres asalariados que ganaban 6 mil pesos, pero sólo entrevistaron a tres sujetos. La verdad era bastante loco eso, ¿o lo está todavía? Hay dos moralejas en esta historia: la primera es que si hiciste 10 entrevistas, los resultados totales deben sumar 10 entrevistas, ni más ni menos, ponderadas o no (mira la fila del total de la tabla 25.2 en la columna Factor). La segunda es que siempre debes reportar la base ponderada y la base no ponderada, los casos para que me entiendas, si no deseas que el cliente te llame preguntando: ¿Cómo obtuviste tus factores de ponderación? Los factores son los porcentajes con los que corriges el sesgo.

Mira la tabla 25.2, observa que aplicando el factor de ponderación, es decir, multiplicando el salario en cada caso por el factor de ponderación, el salario ponderado promedio cambia. Ahora tenemos que un trabajador de la ciudad de México gana en promedio $10,070 pesos (fila del Total). ¡¿Verdad, que es cuestión de peso y no de pesos?!

Tabla 25.2: Salario ponderado mensual promedio de México
Sujeto Salario Clase Factor Salario_Ponderado
1 $6,000 Baja 2.33 $13,980
2 $6,000 Baja 2.33 $13,980
3 $35,000 Alta 0.25 $8,750
4 $35,000 Alta 0.25 $8,750
5 $35,000 Alta 0.25 $8,750
6 $6,000 Baja 2.33 $13,980
7 $12,000 Media 0.66 $7,920
8 $12,000 Media 0.66 $7,920
9 $12,000 Media 0.66 $7,920
10 $35,000 Alta 0.25 $8,750
Total $19,400 10** $10,070

Ahora sí, podemos empezar con las preguntas:

  1. No, no es lo que ganan en realidad, este es sólo un ejemplo ficticio y cualquier semejanza con la vida real es pura coincidencia.

  2. La suma total de la columna Factor en la tabla 25.2 da 10 porque siempre se debe obtener como resultado de la base ponderada el mismo número de casos o entrevistas levantadas. En realidad, nos dio 9.97, pero eso es por los decimales.

  3. ¿Qué tanto afectan los decimales en la ponderación? Depende del programa. Por ejemplo, SPSS ajusta el caso a 0 (cero) cuando es menor a 0.5 y a 1 (uno) cuando es igual o mayor que 0.5. Excel aplica el mismo criterio, pero cuando utilizas la función truncar o entero, no importa si eres 0.5, 0.9 o 0.25 lo convierte en 0 (cero). En términos generales, te puedo decir que con dos decimales que incluyas en tu factor de ponderación no debes tener ningún problema.

  4. ¿Qué cómo sé quién es de clase baja, media y alta? Bueno, lo pregunté en la encuesta. Eso nos dice que siempre se deben preguntar los sociodemográficos en una encuesta, ya que las respuestas dependen de las características de las personas entrevistadas: de su sexo, edad, nse, estado civil, ciudad, etc. Si, por ejemplo, se entrevistan más jóvenes que personas maduras podría haber necesidad de corregir por edad. ¿Y qué tal que se nos olvida preguntar la edad?, ¡sopas, carnal(a), ya valiste!

  5. ¿Cómo sabemos cuántas personas hay de cada sexo, edad, clase social, ciudad, etc.? Presumiblemente, siempre hay datos disponibles en las distintas instancias de gobierno. En México existe el INEGI (Instituto Nacional de Geografía e Informática), el INE (Instituto Nacional Electoral), la Secretaría de Economía, entre otros organismos públicos. También hay institutos autonómos o internacionales (v.gr. la ONU, el FMI, entre muchos más.).

  6. ¿Siempre se debe ponderar? No, depende de si el sesgo es muy importante, si se desean hacer proyecciones por regiones, a nivel nacional, etc.

  7. ¿Qué es una muestra autoponderada? Un jefe que tuve me decía que un estudio hecho en varias ciudades debe estar ponderado. Tal vez, pero muchas empresas determinan a priori el tamaño de sus muestras según el tamaño de la ciudad y las características sociodemográficas más importantes de la población en esas ciudades. Así, si saben que van a hacer 100 entrevistas en Guadalajara, Monterrey y Ciudad de Mexico, hacen 50 en México, 30 en Guadalajara y 20 en Monterrey que corresponde al tamaño de cada una de estas ciudades, aproximadamente. Además, si saben que hay 6 mujeres por cada diez habitantes procuran entrevistar 60% de mujeres y 40% de hombres. Asimismo, si las proporciones por sexo varían por ciudad, levantan una muestra acorde en cada una de ellas. A eso se llama muestra autoponderada.

  8. ¿Se puede ponderar o corregir utilizando múltiples variables? Sí. Por ejemplo, si quieres equilibrar el número de hombres y mujeres dependiendo de su clase social, obtienes el ponderador de la misma forma, sopesando que proporción o número de personas hay de cada sexo en cada clases social y lo multiplicas por cada caso que tenga esas características. A eso se llama multiponderación y es la forma más fina de corregir un sesgo. En la práctica, es difícil utilizar muchas variables para ponderar, quizá tres sea lo máximo.