1.1 Poblaciones y muestras

En su uso diaro usamos población para designar un grupo de personas, por ejemplo la población del Gran Buenos Aires; o por lo menos de seres vivos como por ejemplo la población de ratas de la CABA. En estadísticas, en cambio, se usa el término de manera más general para significar cualquier recolección de un conjunto, elementos, artículos o sujetos que gozan de características comunes con el fin de estudiarlos y de esta forma se sacar conclusiones específicas para determinar sus resultados. Así podemos hablar de la población de sustantivos en las obras de Jorge Luis Borges o de la población de notas asignadas en los cursos a nivel universitario.

Podemos distinguir entre poblaciones finintas e infinitas. La población de motocicletas vendidas en Buenos Aires en septiembre es finita. En cambio la población de temperaturas medidas en el Campus de San Martín es infinita, ya que, por lo menos teóricamente, podemos seguir midiendo para siempre.

Cuando una población fininta no es demasiado grande podemos investigar la totalidad de la población. Pero, si la población es muy grande o potencialmente infinita tenemos que estar contentos con muestras extraídas de esta población. Por ejemplo: si queremos saber quién va a ganar las próximas elecciones podríamos preguntar a todo aquel que tiene derecho a votar cómo piensa votar para sacar el resultado. En la práctica esta metodología resultaría demasiado costosa, por lo que hacemos una muestra representativa de votantes, les preguntamos y generalizamos.

Resulta evidente que hay que tener cuidado al selecionar una muestra para análisis. Los métodos estadísticos, los que nos permiten generalizar e inferir, suponen que las muestras están tomadas de manera aleatoria o al azar. Esto no significa que la muestra sea arbitraria, sino que cualquier unidad de la población que estamos estudiando tiene la misma probabilidad de ser selecionada para hacer parte de la muestra.

Figura 1.1: Población y muestra.

1.1.1 Muestra aleatoria

Para tener una muestra verdaderamente aleatoria de una población deberíamos asignar un número u otro identificador único a cada una de las unidaded de la población –a cada persona si se trata de una población humana– escribir cada número en un papel y echarlos en una tómbola. Luego de virarla por algún tiempo y mesclar bien los papeles, podríamos de allí sacar la cantidad de papeles que corresponda al tamaño de nuestra muestra. Obviamente esto no resulta muy práctico por lo que se suele empezar con una secuencia de números aleatorios del tamaño de la muestra y extraer unidades de la población basado en ello. Por ejemplo, si quisieramos sacar veinte libros al hazar de un estante de la biblioteca que contiene doscientos libros, necesitamos veinte números aleatorios entre uno y doscientos, y sacamos los libros que desde algún punto de referencia (primer libro del primer nivel) está a esa distancia.

Ahora, ¿dónde encontramos números aleatorios? Hay secuencias en libros de estadísticas, usados principalmente antes de la existencia de computadoras. También se pueden generar esas secuencias en linea. Finalmente, R tienen un generador de números aleatorios que nos permite generar los de números de nuestra muestra con un solo comando usando la función de R sample.

Ejemplo 1.1 (Generar muestra en R)

sample(x = 1:200, size = 20)

## [1] 166  46  42 179 188 143 126 135 102  93  72 193  13 107 198 100  88  67  33  99

Acá le estamos pidiendo a R que nos de una muestra aleatoria (sample ) de números entre uno y doscientos (x = 1:200), y que la muestra sea de veinte size = 20 ). Con estos números podemos ir al estante y sacar los libros que queremos estudiar.

Si corren este comando desde su consola de R los números deben salir diferentes, se hace una muestra aleatoria cada vez.

Ejemplo 1.2 (Ordenar los datos en R) También es posible ordenar los números, lo cual nos ahorra un poco de tiempo al retirar los libros. Se logra con la función sort.

sort(
  sample(x = 1:200, size = 20, replace = TRUE)
)
## [1]  29  35  38  41  54  74  75  79  85  92 103 112 114 120 127 153 173 185 187 188

1.1.2 Muestra cuasialeatoria

Otra estrategia que podría emplearse para sacar veinte libros al azar del estante que describimos en la sección anterior sería decidir que vamos a sacar cada diez libros ya que \({200\over20} = 10\). Este tipo de muestra lleva el epíteto cuasialeatoria, y funciona bien si el orden original de la población es aleatorio. Sin embargo, hay que tener en cuenta que esta estrategia puede generar una muestra no representativa si existe una estructura en ese orden. Típicamente puede resultar problemática si existe periodicidad en la población que estamos analizando. Si, por ejemplo, queremos tener una muestra de cuantos ómnibus pasan delante de mi casa por día sería mala idea decir que vamos a contarlos cada siete días. Si el día que empezamos es un domingo obtendremos seguramente una muestra con cantidades inferiores a la población real (en este caso definida como todos los ómnibus que pasan por mi casa en un día); y si empezamos a contar un lunes las cantidades serían superiores.

Ejemplo en R: Generar una sequencia

Si bien sacar la secuencia para sacar cada diez libros resulta trivial, existe la manera que hacerlo también con una función de R.

seq( from = 10, to = 200 , by=10 )
## [1]  10  20  30  40  50  60  70  80  90 100 110 120 130 140 150 160 170 180 190 200

La función seq (de secuencia), toma tres parámetros, desde dónde empezamos (from=10), hasta dónde queremos llegar (to=200), y con qué distancia (by=10).

Por lo pronto se vuelve más útil si estamos trabajando con números menos redondos. Digamos que queremos sacar cada siete libros de un estante que contiene cien empezando por el número seis.

seq( from = 6, to = 100 , by = 7 )
## [1]  6 13 20 27 34 41 48 55 62 69 76 83 90 97

1.1.3 Muestra estratificada

Cuando conocemos algunos parámetros de la población que queremos estudiar también nos podemos asegurar que nuestra muestra tenga parámetros similares. Esta estrategia puede resultar particularmente útil si suponemos que este parámetro puede tener alguna influencia en otra variable cuya distribución queremos conocer. Si por ejemplo suponemos que el sexo puede influir en la opinión de una persona sobre la ley del aborto podemos asegurarnos de que nuestra muestra tiene una distribución similar a la de la población en general. Se sabe que hay más o menos mitad y mitad¹ en la población general por lo que convendría que nuestra muestra tenga la misma distribución. Así podemos sacar, para una muestra de veinte, diez hombres y diez mujeres al azar². Lo mismo se puede aplicar a otras variables, por ejemplo, clase social, país de origen etcétera.

En realidad 51 y 49%↩︎
En este ejemplo hemos usado sexo como la variable biológica es decir ausencia o presencia de un cronozoma Y. Si queremos en cambio usar género obviamente también podemos incluir más categorías que las clásicas masculino y femenino si lo consideramos conveniente.↩︎