7.1 Muestreo aleatorio simple:
Se llama así al procedimiento de seleccionar una muestra cumpliendo dos propiedades fundamentales:
- Todos los individuos de la población tienen la misma probabilidad de ser elegidos.
- Todas las muestras del mismo tamaño son igualmente probables.
Desde un punto de vista matemático, el muestreo aleatorio simple se realiza suponiendo que la población tiene infinitos elementos. En la práctica, suele ocurrir que las poblaciones a considerar tienen un número muy grande de elementos, con lo cual puede equipararse a una situación con infinitos elementos.
Supongamos, por ejemplo, que nos interesa realizar una estimación del sueldo medio de la población trabajadora de un pais. Desde un punto de vista meramente intuitivo, una forma de realizar una inferencia consistiría en seleccionar una muestra de individuos de la población y preguntarles el sueldo, para posterioremente calcular la media (aritmética, por ejemplo).
La población de trabajadores de un pais no tiene infinitos elementos, pero suele ser muy grande. Cuando seleccionamos una muestra (aleatoria simple) de elementos de la población, estamos considerando que todos los individuos se seleccionan de manera independiente; esto es, no hay sesgo de ninguna clase a la hora de distinguir un individuo de otro para preguntarle su sueldo.
A la hora de seleccionar una muestra aleatoria simple, se supondría que todos los miembros a los que se puede encuestar están numerados del 1 al \(N\). Se realizaría un sorteo en el que se sacarían \(n\) números, y esas serían las personas seleccionadas.
El motivo de trabajar con un muestreo aleatorio con reeemplazamiento es de naturaleza matemática, ya que permite estudiar propiedades de los distintos procesos de inferencia (decir si lo que se hace está bien o está mal, si una estimación es mejor que otra, etc.).
Una muestra aleatoria simple de tamaño \(n\) de una variable aleatoria \(X\) (relativa a una población) viene dada por las variables aleatorias \(X_1,\ldots,X_n\), que serán independientes e idénticamente distribuidas a \(X\).
En la práctica, una muestra aleatoria simple de tamaño \(n\) de una variable aleatoria \(X\) es un conjunto de datos \((x_1,x_2,\ldots,x_n)\), obtenidos al observar la variable \(X\) en \(n\) individuos. Por ejemplo, \(n\) datos de la variable \(X\)=estatura
.
Debe tenerse en cuenta que, si la población se compone de grupos importantes que deben considerarse por separado (por sexo, grupos de edad, nivel educativo… ), ha de realizarse un muestreo aleatorio estratificado. Este consistirá en tener en cuenta el tamaño de cada estrato dentro de la población (por ejemplo, 70 por ciento hombres, 30 por ciento mujeres) y, a la hora de seleccionar la muestra total, mantener el porcentaje de cada estrato dentro de la misma.
Nuestro objetivo es obtener información sobre un parámetro o característica desconocida de la población a partir de una muestra. Para ello podemos:
Aproximar el parámetro por un valor. Esto se conoce como Estimación puntual.
Construir un intervalo que, con cierta seguridad, contenga el verdadero valor del parámetro. Esto se llama un Intervalo de confianza o estimador por intervalo.
Verificar si cierta hipótesis sobre el parámetro es coherente con los datos observados. Contraste de hipótesis.
Dos son los resultados fundamentales sobre los que se plantea gran parte de la introducción a la teoría de la inferencia estadística: el teorema central del límite y la ley de los grandes números de Poisson. Hemos hablado de ellos anteriormente, pero no está de más recordarlos, desde el punto de vista intuitivo.
El teorema central del límite nos permite considerar que una variable sigue una distribución aproximadamente normal, cuando sea suma de un conjunto relativamente grande de variables (también si es la media aritmética de un conjunto relativamente grande de variables).
La ley de los grandes números dice que “grandes números de individuos, actuando independientemente en un sistema, producen regularidades que no dependen de su coordinación mutua, de manera que es posible razonar sobre la colectividad sin ningún conocimiento detallado de los individuos”. No se puede predecir el comportamiento individual, pero si el comportamiento promedio. Significa que elaborar predicciones sobre la media de una variable es matemáticamente viable (y, entre comillas, sencillo). A través de los datos de una muestra podremos, por ejemplo, predecir con bastante fiabilidad una estatura media, el tiempo medio para la realización de una actividad, anticipar la efectividad media de un medicamento. No va a ser posible, en general, predecir el resultado de una variable para un caso particular (para un paciente determinado, qué grado de efectividad tendrá el medicamento, o el tiempo de curación para ese paciente, o la estatura que tendrá esa persona cuando alcance su madurez).
Si tenemos la oportunidad de medir la estatura de todos los miembros de una población concreta (por ejemplo los varones mayores de 18 años), obviamente podemos obtener su media y su desviación típica. Pero si podemos disponer de todos los miembros de la población, no necesitamos la estadística para nada. Ahora bien, lo habitual no es poder disponer de todos los miembros de la población, con lo cual lo que se hace es estimar esos valores teóricos a través de la muestra.