7.3 Ejemplos de interés.

7.3.1 El problema de los tanques alemanes

Se recomienda leer el trabajo de (Luque 2013)

Color Numero Tres cuatro
Junio de 1940 169 1000 122
Junio de 1941 244 1550 271
Agosto de 1942 327 1550 342
Fecha Estimación estadística Servicios de inteligencia Valor real
Junio de 1940 169 1000 122
Junio de 1941 244 1550 271
Agosto de 1942 327 1550 342

Esta tabla está extraida del artículo de (Ruggles and Brodie 1947). En ella aparecen las estimaciones sobre el número de tanques que poseía el ejercito aleman, realizadas por el servicio de inteligencia militar, el departamento de estadística, y el número verdadero.

Como podemos comprobar, los estadísticos lograron acercarse a la cifra real de los tanque smucho más que los servicios de inteligencia. La estimación de esta cifra corresponde con el resultado del llamado problema de estimación del número de taxis de una ciudad: si en una ciudad hay \(N\) taxis en servicio, ¿cómo puede una persona que llega a dicha ciudad obtener un número aproximado a \(N\), es decir, una estimación?

Habitualmente, los taxis llevan el número en la puerta. A partir de la observación de una muestra de \(n\) taxis, ¿cómo podría estimarse el total \(N\)? El problema de los tanques alemanes en la segunda guerra mundial se planteó de la misma forma, al darse cuenta los aliados de que los tanques alemanes recogidos tras una batalla tenían números de serie consecutivos.

Supongamos que el número de taxis en una ciudad es \(N=50\) y que se observa una muestra de \(n\) taxis. Una estimación lógica podría ser, si conocemos el número \(m\) medio, considerar que hay \((m-1)\) taxis a cada lado, es decir, \(\hat{N}=(m-1)+1+(m-1)=2m-1\).

Pongamos un caso práctico: observamos 5 taxis con números \(2,10,15,25,40\). Una estimación de la media podría ser la media muestral o la mediana muestral. La media muestral es \(\bar{x}=18.4\) y la mediana muestral es \(15\). Las estimaciones de \(N\) son, por lo tanto, \(\bar{N}=2\cdot 18.4+1=35.8\) (36 taxis) o \(\bar{N}=2\cdot 15-1=29\).

Claramente, el número obtenido infraestima el valor verdadero de 50. Además, está claro que cualquiera de los dos números obtenidos no serían buenos estimadores del tamaño real, puesto que 40 es un dato de la muestra, es decir hay 40 o más taxis seguro.

Una posibilidad podría ser considerar un estimador de la siguiente manera: \(\hat{N}_1 =max\{x_1,x_2,...,x_n\}\).

Otra posibilidad sería considerar que hay, por simetría, tantos datos a la derecha de \(x_n\) como antes de \(x_1\), es decir \(N-x_n=x_1-1\), de donde obtenemos \[\hat{N}_2=x_n-x_1+1\] En nuestro ejemplo sale \(\hat{N}_2=40-2+1=39\).

Otra aproximación es considerar que el número de taxis a la derecha de \(x_n\) es aproximadamente igual al promedio de las distancias entre cada dos valores de la muestra: \[ N-x_n=\frac{(x_1-1)+(x_2-x_1-1)+...+(x_n-x_{n-1}-1)}{n}=\frac{x_n}{n}-1 \] Asi tenemos otro estimador: \[\hat{N}_3=x_n+\frac{x_n}{n}-1\] En nuestro ejemplo sale \(\hat{N}_3=47\), y es de las mejores opciones que pueden darse, junto con una estimación de tipo bayesiano (no es posible dar una descripción intuitiva de este): \[\hat{N}=(x_n-1)\cdot\frac{n-1}{n-2} \pm \sqrt{\frac{(n-1)\cdot (x_n-1)\cdot (x_n-n+1)}{(n-3)\cdot (n-2)^2 }}\]

Bibliografía

Luque, Bartolo. 2013. “El Problema de Los Tanques Alemanes.” Investigación Y Ciencia.

Ruggles, Richard, and Henry Brodie. 1947. “An Empirical Approach to Economic Intelligence in World War Ii.” Journal of the American Statistical Association 42 (237). Taylor & Francis Group: 72–91.