Capítulo 9 Para muestra un botón

En mis primeros años de investigador no entendía cómo era posible calcular el error de un estudio con una fórmula; se me hacía raro. Mi desconcierto residía, como decimos acá, en que confundía la gimnasia con la magnesia. Calcular un error de muestreo no tiene nada que ver con los errores en que se incurre en un estudio: preguntas mal planteadas, omisiones del encuestador, invención de respuestas, entrevistados que no son los especificados, mala codificación, procesamiento de datos equivocado, análisis sesgados, etc. No, nada que ver. Cuando se calcula un error de muestreo se evalúa exclusivamente qué tan alejada está la media obtenida a través de una muestra de la media real de la población. Casi todos los estudios reportan el error de muestreo para darle credibilidad al estudio, incluso los que están hechos con las patas o de mala fe; no te tragues ese anzuelo. Ese error se deriva de una fórmula que nada tiene que ver con la calidad del estudio, sino con la teoría estadística. Por ejemplo, en un estudio de \(400\) entrevistas el error típico de muestreo es de \(+/-5.0\%\), eso significa que el resultado de la investigación puede variar un \(5\%\), ya sea de más o de menos del porcentaje real. Supón que para evaluar un concepto nuevo haces \(400\) entrevistas, si encuentras que un \(35\%\) del público investigado está dispuesto a comprar el producto, se infiere que el porcentaje de compradores anda entre un \(30\%\) y \(40\%\); eso es todo. Es lo que dice la probabilidad, que el valor real del resultado obtenido de una muestra oscila dentro de un rango de probabilidades. El tamaño de la muestra es clave para estimar ese rango. El propósito de este breve capítulo es enseñarte a calcular el tamaño de muestra necesario para minimizar el error de muestreo. Pero recuerda que cualquier pronóstico no sirve de nada si el estudio está mal hecho. ¿Me captas?

Probablemente la duda más frecuente que asalta a un investigador al momento de planear o hacer un estudio es el tamaño de muestra a escoger. Para un investigador experimentado la respuesta es simple, no así para el cliente o alguien que apenas está aprendiendo la profesión. Para llegar a una respuesta satisfactoria hay tres aspectos que considerar, en orden de importancia éstos son:

  1. La decisión que se va a tomar con base en el resultado.
  2. El alcance del estudio.
  3. El cálculo del tamaño de la muestra.

La primera requiere de un conocimiento profundo del responsable del área de marketing o cliente. Él sabe mejor que el investigador las repercusiones que puede tener un resultado poco confiable. Por ejemplo, una pérdida importante de dinero, una mala inversión, guiar a un cliente al fracaso, como en el caso de un político que se confía en que va a ganar cuando en realidad no es así. La exactitud de los resultados está directamente vinculada con el tamaño de muestra. Si se va a tomar una decisión importante con base en los resultados de un estudio, es preferible contar con una muestra robusta que disminuya eso que se llama error de muestreo. La segunda es propia de las necesidades de información. Por ejemplo, es muy distinto evaluar la preferencia de una sola bebida que hacerlo para tres bebidas. En este caso tiene que haber una muestra suficiente por cada bebida a efecto de poder compararlas entre sí. Lo mismo sucede si se necesita comparar por edad, sexo, región, etc. y analizar las diferencias entre esos grupos demográficos. En ambos casos, el tamaño de la muestra elegida es, casi siempre, consecuencia del presupuesto con que cuenta el investigador o cliente; no obstante, el error de muestreo es una guía de la confianza que se puede tener en el resultado. El tercer aspecto está vinculado directamente con la teoría estadística; se trata de una fórmula muy sencilla que permite calcular el error estándar y el tamaño de muestra necesario para alcanzar ese error. Muchos investigadores de mercado la aplican, pero no estoy seguro de que todos conozcan su origen. Esperemos remediar eso y, de paso, concientizar al investigador sobre lo que sí es y lo que no es. Sin más demora vamos a ver la ecuación (9.1) del error de muestreo más cool que hay para estos casos.

\[\begin{equation} E=\frac{1}{\sqrt{n}} \tag{9.1} \end{equation}\]

Las ecuaciones (9.1) y (9.2) son las mismas; la primera es como ver el motor de un Oldsmobile de principios del siglo 20; la segunda sería la versión del motor de un automóvil moderno lleno de mangueras por todos lados.

\[\begin{equation} E=Z\sqrt{\frac{P*(1-P)}{n}} \tag{9.2} \end{equation}\]

El uso de la ecuación (9.1) es muy sencillo. Ejemplo, tienes que estimar cuánta gente estaría dispuesta a pedir comida italiana a domicilio; porque es la forma en que se te ha ocurrido que puedes crecer las ventas del restaurante. La investigación es necesaria antes de hacer publicidad, imprimir folletos, hacer empaques especiales, acondicionar la cocina, crear un sitio web o quizá un operador telefónico, etc. En otras palabras, implica hacer gastos. ¿De qué tamaño tiene que ser la muestra del estudio? Primero piensa en qué tan exactos quieres que sean los resultados del estudio. Te gustaría equivocarte por un \(10\%\); es decir, que si el resultado del estudio arroja que hay un \(50\%\) de interesados en comprar comida italiana a domicilio, el parámetro (así se le nombra al valor real de la población) estuviera entre un \(40\%\) a \(60\%\). No parece tan malo el pronóstico, ¡¿verdad?! Utilizando la ecuación (9.1), la muestra que debes elegir es de \(100\) entrevistados \(\frac{1}{\sqrt{100}}=.10\) (multiplica ese \(.10\) por cien para verlo en porcentajes). ¿Se te hace un error muy grande?, cuadrúplica la muestra para reducir el error a la mitad: \(\frac{1}{\sqrt{400}}=.05\). Eso es todo, ya estás armado con un conocimiento práctico, pero ¿de dónde sale esa fórmula? ¿Recuerdas la fórmula: \(s/\sqrt{n}\), la cual se vio en la sección 8? Se parece mucho a la ecuación (9.1), ¡¿no es así?!, casi como hermanos. El numerador simboliza la variación de una muestra y el denominador su tamaño, el cual tiene el poder de reducir esa variación proporcionalmente y de forma inversa. Es decir, si aumentamos la muestra la desviación disminuye; eso es lo que susurra la raíz cuadrada. Esa reducción se debe a que la variación entre varias muestras siempre es menor que la variación que hay dentro de una sola, y estamos calculando la variación entre ellas. La lógica sigue siendo la misma; nada ha cambiado, excepto que en lugar de \(s\) (desviación estándar) tienes un \(1\) ¿Desviación de \(1\), cómo es eso?

A toro pasado es fácil juzgar y entender muchas cosas. Una vez que haces un estudio puedes determinar de qué tamaño es la desviación y aplicar cualquier fórmula para evaluar el error de muestreo. Cuando no cuentas con el dato de la desviación estándar, ¿cómo es posible calcular el error de muestreo? En realidad, es difícil hacerlo de antemano para una variable continua; no así para una variable discreta o binomial. Una variable continua puede adoptar infinidad de resultados. Mira este caso, se necesita saber cuánto pagaría en promedio el consumidor por un celular nuevo. Este tipo de investigación se llama estudio de elasticidad de precios. Aunque hay técnicas refinadas para ello, vamos a pretender que se hace con una sola pregunta en la que se pide al consumidor que nos diga: ¿Cuánto estaría dispuesto a pagar por un celular nuevo (se le enseña el celular y se le muestran sus características)? En teoría el rango de precios que puede dar el entrevistado es amplio y adopta cualquier valor, \(\$3,000\) pesos, \(\$5,000\) pesos, \(\$5,500\) pesos, \(\$10,000\) pesos; incluso precios con decimales, \(\$9,550.99\) pesos; esa es una variable continua. Bajo esas circunstancias es muy difícil saber cuál sería la variación máxima o desviación estándar antes de hacer el estudio. Eso no sucede con una variable discreta o binomial19; de antemano es posible contar el número en que aparece cada resultado y establecer su probabilidad. ¿Cuál es la probabilidad de que alguien compre un libro?, el rango va de \(0\) a \(1\). Cero significa que nadie compra el libro y uno que el \(100\%\) lo compraría. ¿Cuál es la probabilidad de que alguien se gane la lotería?, la probabilidad es muy baja, pero tambien va en rangos de \(0\) a \(1\). No hay más posibilidades, todas se encuentran dentro de ese rango. Esa es la razón por la que siempre se reporta un error de muestreo previo a un estudio en proporciones (porcentajes), derivados de una distribución binomial. Ésta es igual a la distribución normal, aunque en lugar de construirla con medias se construye con porcentajes y, para efectos prácticos, se utiliza igual que ella. Sin embargo, la forma de estimar la desviación estándar de una distribución binomial cambia ligeramente.

Piensa en lo que sigue. Cuando hablas de opiniones divididas estás diciendo que la mitad opina de una forma y la otra mitad lo hace de manera distinta. Por ejemplo, un \(50\%\) está de acuerdo con el presidente de un país y otro \(50\%\) en contra. Esa es la variación máxima, porque con un solo sujeto más que opine a favor de cualquiera de los dos lados la balanza se inclinaría hacia ese lado. Hay un consenso minúsculo, pero lo hay. Así que la variación máxima en una variable binomial (se dice así cuando el resultado es a favor o en contra; éxito o fracaso, sí o no, etc.) es \(.5\) a favor y \(.5\) en contra; no puede haber mayor variación que esa. Con base en ello, es muy fácil calcular la dispersión máxima que existe en una variable binomial; esa se calcula con la ecuación: \(P(1-P)\). \(P\) es la proporción (probabilidad, recuerda que un porcentaje es una probabilidad de ocurrencia) a favor o, como se dice en estadística, de éxito de un experimento; y \((1-P)\) es el complemento de esa variación, la proporción en contra o de fracaso del experimento. Ambas probabilidades representan toda la variación, se multiplican porque en conjunto nos dan una idea de la variación de los datos; además están interactuando. Para convertir esa varianza en desviación estándar, se necesita extraer su raíz cuadrada. Lo demás es muy sencillo, dividimos entre la distribución teórica de las medias alrededor de la media real (parámetro), representada por \(\sqrt{n}\). Como el resultado representa sólo una desviación estándar, hay que multiplicarlo por \(2\), porque sabemos que el \(95\%\) de todos los posibles resultados van a estar a lo mucho dentro de dos desviaciones estándar del parámetro o media poblacional. Haz estas operaciones y date cuenta cómo la ecuación (9.2) se transforma en la ecuación (9.1). Nota que \(Z\) se refiere al número de desviaciones estándar, en este caso \(2\) para alcanzar un \(95\%\) de confianza. \(E=2\frac{\sqrt{.5*(1-.5)}}{\sqrt{n}}=2\frac{\sqrt{.5*.5}}{\sqrt{n}}=2\frac{\sqrt{.25}}{\sqrt{n}}=\frac{1}{\sqrt{n}}\). Si utilizas cualquier aplicación de las que hay en internet para calcular el error de muestreo notarás que el resultado es ligeramente distinto; se debe a que la teoría estadística señala que el \(95\%\) de las muestras se encuentran entre \(1.96\) errores estándar, no \(2\). No es un asunto de vida o muerte, pero conviene que lo sepas.


  1. Es así porque sus valores son finitos: sí y no, hombre y mujer, éxito y fracaso, etc. El coeficiente binomial es la manera en que se cuentan estos resultados y se puede sacar su probabilidad de ocurrencia. Se recomienda asimilar a consciencia estás técnicas de conteo pues tienen mucho que ver con estudios de variables discretas como conjoint. Un página excelente y que explica el fenómeno de forma maravillosa es www.disfrutalasmatematicas.com