7.2 Estimación puntual

El objetivo de la estimación puntual es aproximar el valor del parámetro desconocido (tiempo medio de ejecución de un algoritmo, altura media de las mujeres de una población, diferencia del resultado medio entre dos tratamientos médicos, …)

Para ello se utiliza la información de la muestra. Dicha información es gestionada por un estimador.

Algunos estimadores frecuentes son:

  • Media muestral, para estimar la media teórica de una variable \(X\)

\(\bar{X}=\dfrac{x_{1}+\cdots +x_{n}}{n}\)

  • Proporción muestral, para estimar una proporción \(p\):

\(\widehat{p}=\dfrac{x_{1}+\cdots +x_{n}}{n},\) siendo \(x_1, \ldots, x_n\) una muestra aleatoria simple. de la variable \(X\in B(1,p)\), es decir, son unos o ceros.

  • Varianza muestral:

\(S^{2}=\dfrac{\left( x_{1}-\bar{x}\right)^{2}+\cdots +( x_{n}-\bar{x}) ^{2}}{n}\)

  • Cuasi-varianza muestral:

\(S^{2}_{n-1}=\dfrac{( x_{1}-\bar{x}) ^{2}+\cdots +( x_{n}-\bar{x}) ^{2}}{n-1}\)

La evaluación del estimador sobre la muestra fija da lugar a una estimación puntual.

Cálculo de la media muestral tomando la muestra fija \((x_1,x_2,x_3)=(2,7,1)\). \[ \bar{x}=\dfrac{2+7+1}{3}=\dfrac{10}{3} \]

7.2.1 Propiedades de los estimadores

Una primera propiedad deseable para un estimador es que el centro de la distribución de los valores que puede tomar coincida con el valor del parámetro que queremos aproximar.

7.2.1.1 Estimadores insesgados

Un estimador insesgado es aquel cuya media coincide con el valor del parámetro a estimar.

Supongamos que deseamos tener una estimación de la estatura media de los varones mayores de 18 en una población. Podriamos ponernos en medio de la calle y seleccionar aleatoriamente una muestra de \(n\) personas, medir su estatura (o preguntársela) y calcular después la media aritmética de los datos obtenidos. Esa sería una estimación puntual, llamémosla \(\bar{x}_1\).

Por medio de R podemos hacer lo que se llama una simulación de este proceso. En vez de bajar a la calle y parar a la gente y preguntarle lo que mide, simulamos cien datos correspondientes a 100 estaturas de varones mayores de 18. Esto es porque es posible “simular” o “generar aleatoriamente” datos que sigan una determinada distribución. En este caso, tenemos que “simular” que medimos a cien personas, de una población de varones españoles mayores de 18. En este caso, se conoce que la estatura de los varones mayores de 18 en España sigue una distribución normal, de media 176.6 cm y desviación típica aproximadamente 10 cm.

# Consideremos n =100 personas 
set.seed(1)
n=100
X1=rnorm(n,176.6,10)  #asi se simulan n datos que siguen una distribución normal de media
                   # 176 y desviación típica 10 (Se sabe que en España la estatura
                   # sigue una distribució normal de esos parámetros)
hist(X1, probability = TRUE, col = 'lightblue', main="100 estaturas de varones mayores de 18")
rug(X1)
lines(density(X1), col="red",lwd=2)

La media muestral de esos 100 valores es \(\bar{x}_1\)= 177.6889.

Si vamos al dia siguiente a la misma calle y seleccionamos aleatoriamente otra muestra del mismo número \(n\) de personas, medimos su estatura y calculamos la media aritmética, tenemos otra estimación puntual (\(\bar{x}_2\)).

# Otras 100 personas 
n=100
X2=rnorm(n,176,10)

La media es \(\bar{x}_2\)=175.6219.

Obviamente, estos valores no tienen por qué coincidir. La media \(\bar{x}_1\) no es igual a la media \(\bar{x}_2\). Por lo tanto, la media muestral es una variable aleatoria.

Vamos ahora a suponer que realizamos este proceso un número grande \(B\) de veces; es decir, salimos a la calle, medimos a 100 personas, calculamos la media muestral. Al día siguiente volvemos a hacer lo mismo, y así sucesivamente, haste \(B\)=250 veces, por ejemplo. Mediante el siguiente procedimiento en R, simulamos este procedimiento y hacemos una gráfica de la distribución de los 250 valores obtenidos.

n=100;B=250
s<-0
for (i in 1:B) s[i]=mean(rnorm(n,176.6,10))
hist(s, probability = TRUE, col = 'lightblue', main="250 datos de la media")
rug(s)
lines(density(s), col="red",lwd=2)

La media de estos 250 valores es 176.6347 que es muy próxima al verdadero valor \(176.6\)

Vemos que la media muestral es un estimador insesgado.


Supongamos que hacemos una encuesta en la calle de si la gente cree o no en los extraterrestres. En este caso, las respuestas van a ser “Sí” o “No”, que anotaremos como \(0\) o \(1\), es decir valores de una variable aleatoria de Bernoulli de parámetro \(p\), siendo \(p\)=proporción de gente que cree en los extraterrestres, que es el 61 por ciento (sacado de aqui). Hacemos como en el caso anterior, cogemos una muestra de tamaño 100 (o cualquier otro número un poco grandecito), preguntamos y anotamos la respuesta. Pero, en vez de hacerlo realmente, lo podemos simular con el ordenador, de esta forma:

# Consideremos n =100 personas 
set.seed(1)
n=100
Y1=rbinom(n,1,0.61)  #asi se simulan n datos que siguen una distribución de Bernoulli de parámetro 0.61
barplot(table(Y1))

El número de unos en esta encuesta (gente que dijo que creía en los extraterrestres) es de 58, con lo que la proporción muestral es \(\hat{p}_1=\) 0.58.

Si vamos al dia siguiente a la misma calle y seleccionamos aleatoriamente otra muestra del mismo número \(n\) de personas, les preguntamos lo mismo, tendremos otra estimación puntual del número de gente que cree en los extraterrestres (\(\hat{p}_2\)).

n=100
Y2=rbinom(n,1,0.61)   
barplot(table(Y2))

El número de unos en esta encuesta (gente que dijo que creía en los extraterrestres) es de 62, con lo que la proporción muestral es \(\hat{p}_2=\) 0.62.

Vamos ahora a suponer que realizamos este proceso un número grande \(B\) de veces; es decir, salimos a la calle, le preguntamos a 100 personas, calculamos la proporción muestral; al día siguiente volvemos a hacer lo mismo, y así sucesivamente, haste \(B\)=250 veces, por ejemplo. Mediante el siguiente procedimiento en R, simulamos este procedimiento y hacemos una gráfica de la distribución de los 250 valores obtenidos.

n=100;B=250
x<-0
for (i in 1:B) x[i]=sum(rbinom(n,1,0.61))/n
hist(x, probability = TRUE, col = 'lightblue', main="250 encuestas")
rug(x)
lines(density(x), col="red",lwd=2)

La media de estos 250 valores es 0.6119 que es muy próxima al verdadero valor \(0.61\)

n=8
B=15
muestras <- as.data.frame(matrix(rbinom(n*B, 1, 0.61), ncol=n))
rownames(muestras) <- paste("muestra", 1:B, sep="")
muestras$mean <- rowMeans(muestras[,1:n])
ptilde<-muestras$mean
colnames(muestras) <- c(paste(":obs", 1:n , sep=""), ":ptilde")
#muestras 
library(pander)
pander(muestras)
Table continues below
  :obs1 :obs2 :obs3 :obs4 :obs5 :obs6 :obs7 :obs8
muestra1 0 1 1 0 0 0 0 0
muestra2 0 1 1 1 0 1 1 1
muestra3 0 1 1 1 0 0 1 1
muestra4 0 1 0 0 1 0 1 1
muestra5 1 1 1 0 0 1 0 0
muestra6 0 1 0 1 1 0 0 0
muestra7 0 0 1 1 1 1 0 0
muestra8 1 0 1 1 1 0 1 0
muestra9 1 0 1 0 1 0 1 1
muestra10 1 1 1 1 1 1 0 0
muestra11 0 1 1 1 1 1 1 1
muestra12 1 1 0 0 1 0 1 0
muestra13 1 0 0 0 1 0 1 1
muestra14 1 1 1 1 1 0 1 0
muestra15 1 0 0 1 1 1 1 0
  :ptilde
muestra1 0.25
muestra2 0.75
muestra3 0.625
muestra4 0.5
muestra5 0.5
muestra6 0.375
muestra7 0.5
muestra8 0.625
muestra9 0.625
muestra10 0.75
muestra11 0.875
muestra12 0.5
muestra13 0.5
muestra14 0.75
muestra15 0.625
mean(ptilde)
## [1] 0.5833

Observamos que la proporción muestral también es un estimador insesgado.

7.2.1.2 Estimadores consistentes

Un estimador insesgado es consistente cuando su varianza tiende a 0 si \(n\) crece hacia infinito.

Recordemos que la varianza mide la dispersión. A mayor varianza, mayor dispersión entre los valores de la variable, y a menor varianza menor dispersión. La propiedad de consistencia indica que, si tomamos muestras muy grandes (\(n\) muy grande, creciendo hacia infinito), la varianza se hará próxima a cero, es decir que obtendremos siempre valores muy próximos entre sí.

Pensemos en los ejemplos que hemos estado viendo donde realizabamos encuestas en la calle (o mediamos la estatura). Lo hacíamos en muestras de tamaño 100, y obteníamos valores diferentes para nuestro estimador (o bien la media muestral, o bien la proporción muestral). Parece lógico pensar que, si en vez de tomar muestras de tamaño 100, tomamos muestras muy grandes, los valores que obtengamos de cada vez se parezcan mucho entre si (por lo tanto la dispersión o varianza tiende a cero), puesto que es como si estuviésemos de cada vez midiendo a (casi) toda la población.

Sobre los estimadores que hemos estado viendo, tenemos que:

La media muestral \(\bar{X}=\dfrac{X_{1}+\cdots +X_{n}}{n}\):

  • Es un estimador de la media poblacional \(\mu\).

  • Es insesgado.

  • Es consistente.

  • Si \(X\in N(\mu ,\sigma )\) entonces \(\bar{X}\in N(\mu ,\sigma\sqrt{n})\)

Esta última propiedad nos dice que, si consideramos muestas de una variable normal (como la estatura), la media muestral (la media de las muestras, que es otra variable aleatoria, como hemos visto), sigue también una distribución normal (recordemos que, en el ejemplo de arriba, si simulabamos 250 muestras de cien estaturas, el histograma de las medias muestrales tiene la forma de la campana de Gauss).

El resultado nos dice que \(\bar{X}\in N(\mu ,\sigma\sqrt{n})\), es decir que el parámetro media es precisamente la media teórica (la misma de la variable \(X\)), y la desviación típica es la misma que la teórica, dividida por \(\sqrt{n}\). Esto se conoce como el error estándar de la media muestral. Por ejemplo, en muestras de tamaño 100, la desviación típica o error estándar es la de la variable \(X\) dividida por 10. En muestras de tamaño 10000, \(\sigma\) aparece dividida solo por 100. Esto nos mide, en cierta manera, la “velocidad” en que la dispersión se va acercando a cero. Y vemos que con tamaños de muestra, por ejemplo, de un millón (que es una muestra grandecita), la desviación típica solo aparece dividida por mil.

En el capítulo 10 del libro “Pensar rápido, pensar despacio” (D. Kahneman 2014) Daniel Kahneman explica que la mente humana tiende automáticamente a sacar conclusiones y explicaciones causales de resultados que, procedentes de muestras pequeñas y poco representativas, son meras ilusiones estadísticas, carentes de significado. Kahneman llama a ese frecuente error la “ley de los pequeños números”.

Ilustra el fenómeno con los resultados de un estudio sobre la distribución geográfica del cáncer de riñón entre los más de 3.000 condados de Estados Unidos, que mostró que los porcentajes más bajos de ciudadanos que lo padecían se daban en condados rurales poco poblados del Oeste, Medio Oeste y Sur de los Estados Unidos, de esos -añade con picardía- que votan mayoritariamente al Partido Republicano.

Como no es concebible que esa preferencia política proteja contra la enfermedad, lo más natural es atribuir el resultado a otra razón: la vida rural, sana, sin contaminación y con una dieta rica en alimentos naturales, reduce el riesgo de cáncer.

Pero el estudio mostró que la incidencia más alta del cáncer de riñón se daba también… ¡en condados rurales poco poblados del Oeste, Medio Oeste y Sur de los Estados Unidos! Si hubiéramos oído primero este resultado ¿no lo habríamos atribuido a la pobreza de los condados rurales, a la lejanía de grandes hospitales y a las grasas de la dieta rural?

El gráfico adjunto muestra los resultados citados: en rojo, los condados con porcentajes más altos de cáncer de riñón; y, en azul, aquellos con porcentajes más bajos.

Pero como explica el estadístico americano Howard Wainer en el artículo “The most dangerous equation” (Wainer 2007) -de donde procede el gráfico y Kahneman toma el caso-, las llamativas diferencias en la incidencia del cáncer entre condados obedecen al azar.

En efecto, si en Estados Unidos se dan en promedio 5 casos de cáncer de riñón por cada 100.000 habitantes, la “ley de los grandes números” hará que la incidencia de la enfermedad esté muy próxima a ese valor en los condados muy poblados -como Los Angeles-. Pero en los que tengan poca población, ese promedio oscilará mucho, pues la variabilidad (desviación estándar) de la media aritmética de la variable analizada -en nuestro caso, el número de casos de cáncer de riñón por habitante- guarda una relación inversa con el tamaño de la muestra usada para calcularla (o, para ser exactos, de su raíz cuadrada).

Por eso, según Wainer, la gran diferencia estadística entre condados en la incidencia de la enfermedad no es un genuino “hecho” (fact), sino un “artefacto” (arti-fact), es decir un resultado artificial nacido de la interacción entre el azar y el tamaño de las “muestras” utilizadas para calcular la incidencia media.

Así, cuando el tamaño de las muestras (n) es muy grande -como ocurre en condados con mucha población-, la variabilidad de los valores medios que salgan será muy pequeña: tales valores medios nos saldrán muy parecidos al valor medio de la variable en el conjunto de la población (en nuestro ejemplo, el 5 por 100.000 habitantes con cáncer de riñón que se da en Estados Unidos, considerado como un todo). Esa idea se conoce también como la “Ley de los grandes números”.

Wainer explica que la gran variabilidad de los valores medios en muestras pequeñas se da también en las notas medias de los alumnos de una escuela o clase: cuanto más pequeña sea la escuela o clase, más frecuente será que la nota media de sus alumnos tome valores extremos, altos o bajos. Así, que muchas de las mejores notas medias se alcancen en escuelas pequeñas no obedecerá necesariamente a que sean mejores, sino al puro azar.

Wainer señala que la Fundación Gates ignoró esa relación cuando en los 90 dedicó muchos millones de dólares a fomentar las escuelas pequeñas, a la vista de que un elevado porcentaje de las escuelas con mejores resultados académicos tenían pocos alumnos. Pero abandonaron la idea cuando advirtieron que ese fenómeno estadístico podía obedecer al azar: también las escuelas pequeñas estaban sobre-representadas entre las que obtenían los peores resultados.

Pero creo que también acertó el presidente Rajoy cuando en un acto público en Nueva York manifestó: “Permítanme que haga un reconocimiento a la mayoría de españoles que no se manifiestan, que no salen en las portadas de la prensa y que no abren los telediarios. No se les ve pero están ahí”.

Sacado de http://www.expansion.com/accesible/blogs/conthe/2012/10/21/como-inventar-la-realidad.html

La cuasi-varianza muestral \(S^{2}_{n-1}=\dfrac{ ( X_{1}-\bar{X} ) ^{2}+\cdots + ( X_{n}-\bar{X}) ^{2}}{n-1}\):

  • Es un estimador de la varianza poblacional \(\sigma^2\).

  • Es insesgado.

  • Es consistente.

  • Además, \(S^{2}_{n-1}=\frac{n}{n-1}S^{2}.\)

La proporción muestral \(\widehat{p}=\dfrac{X_{1}+\cdots +X_{n}}{n}\):

  • Es un estimador de la proporción poblacional \(p\).

  • Es insesgado.

  • Es consistente.

  • Para \(n\) grande (\(n>30\)), por el Teorema Central del Límite se tiene que \(\widehat{p}\approx N(p,\sqrt{p(1-p)/n})\)

Ejercicio 1: En una clínica de fisioterapia desean saber el número medio de grados que puede doblar una rodilla destrozada, tras un tratamiento de diez sesiones de rehabilitación (el seguro no paga más) con un método nuevo recién salido al mercado. Se seleccionan diez pacientes y, tras dos semanas de tratamiento, se mide el número de grados que dobla la rodilla hasta que los gritos son inaguantables: \[41.60, 41.48, 42.34, 41.95, 41.86, 42.41, 41.72, 42.26, 41.81, 42.04.\]

Para estimar la media poblacional (parámetro desconocido en este caso) podemos considerar la media muestral:

\[\bar{x}=\dfrac{1}{n}{{\displaystyle\sum_{i=1}^{10}}x_i}=\dfrac{419.47}{10}=41.947\]

Si nos pidiesen estimar una proporción; por ejemplo, proporción de pacientes que doblarán más de 42 grados, (\(p=P(X>42)\)) podríamos utilizar la proporción muestral:

\[\hat{p}=\dfrac{1}{n}{{\displaystyle\sum_{i/ x_i >42}}1}=\dfrac{4}{10}=0.4\]

Bibliografía

Kahneman, D. 2014. Pensar Rápido, Pensar Despacio / Thinking, Fast and Slow. Debolsillo Mexico.

Wainer, Howard. 2007. “The Most Dangerous Equation.” American Scientist 95 (3): 249.