7.3 Ejemplos de interés.

7.3.1 El problema de los tanques alemanes

Recomiendo la lectura del trabajo de (Luque 2013) sobre este famoso ejemplo.

La tabla siguiente está recogida en el artículo de (Ruggles and Brodie 1947). En ella se ven las estimaciones sobre el número de tanques que poseía el ejercito aleman (II guerra mundial) en tres fechas distintas. Las estimaciones fueron realizadas por el departamento de estadística y por el servicio de inteligencia militar y, como vemos, son muy diferentes. En la columna de la derecha está anotado el número verdadero. Como podemos comprobar, los estadísticos lograron acercarse a la cifra real de tanques mucho más que los servicios de inteligencia.

Fecha Est.estadística Est. Militares Valor real
Junio de 1940 169 1000 122
Junio de 1941 244 1550 271
Agosto de 1942 327 1550 342
Tanque Panzer alemán, de la II guerra mundial.

Figura 7.8: Tanque Panzer alemán, de la II guerra mundial.

La estimación de estas cifras se corresponde con el resultado del llamado problema de estimación del número de taxis de una ciudad: si en una ciudad hay \(N\) taxis en servicio. Si una persona acaba de llegar a la ciudad, ¿cómo puede obtener un número aproximado a \(N\), es decir, una estimación?

Habitualmente, los taxis llevan el número en la puerta. A partir de la observación de una muestra de \(n\) taxis, ¿cómo podría estimarse el total (\(N\))? El problema de los tanques alemanes en la segunda guerra mundial se planteó de la misma forma, al darse cuenta los aliados de que los tanques alemanes recogidos tras una batalla tenían números de serie consecutivos.

Supongamos que el número de taxis en una ciudad es \(N=50,\) y que se observa una muestra de \(n\) taxis. Una estimación lógica podría ser, si conocemos el número \(m\) medio, considerar que hay \((m-1)\) taxis a cada lado, es decir, \(\hat{N}=(m-1)+1+(m-1)=2m-1\).

Pongamos un caso práctico: observamos 5 taxis con los números \(2,10,15,25,40\). Una estimación de la media podría ser la media muestral o la mediana muestral. La media muestral es \(\bar{x}=18.4,\) y la mediana muestral es \(15\). Las estimaciones de \(N\) son, por lo tanto, \(\bar{N}=2\cdot 18.4-1=36.8\) (\(36\) o \(37\) taxis) o \(\bar{N}=2\cdot 15-1=29\).

Claramente, el número obtenido infraestima el valor verdadero de \(50\). Además, está claro que cualquiera de los dos números obtenidos no serían buenos estimadores del tamaño real, puesto que \(40\) es un dato de la muestra, es decir hay \(40\) o más taxis seguro.

Una posibilidad podría ser considerar un estimador de la siguiente manera: \(\hat{N}_1 =max\{x_1,x_2,...,x_n\}\).

Otra posibilidad sería considerar que hay, por simetría, tantos datos a la derecha de \(x_n\) como antes de \(x_1\), es decir \(N-x_n=x_1-1\), de donde obtenemos \[\hat{N}_2=x_n-x_1+1\] En nuestro ejemplo sale \(\hat{N}_2=40-2+1=39\).

Otra aproximación es considerar que el número de taxis a la derecha de \(x_n\) es aproximadamente igual al promedio de las distancias entre cada dos valores de la muestra: \[ N-x_n=\frac{(x_1-1)+(x_2-x_1-1)+...+(x_n-x_{n-1}-1)}{n}=\frac{x_n}{n}-1 \] Asi tenemos otro estimador: \[\hat{N}_3=x_n+\frac{x_n}{n}-1\] En nuestro ejemplo sale \(\hat{N}_3=47\), y es de las mejores opciones que pueden darse, junto con una estimación de tipo bayesiano (no es posible dar una descripción intuitiva de este): \[\hat{N}=(x_n-1)\cdot\frac{n-1}{n-2} \pm \sqrt{\frac{(n-1)\cdot (x_n-1)\cdot (x_n-n+1)}{(n-3)\cdot (n-2)^2 }}\]

References

Luque, Bartolo. 2013. “El Problema de Los Tanques Alemanes.” Investigación Y Ciencia.

Ruggles, Richard, and Henry Brodie. 1947. “An Empirical Approach to Economic Intelligence in World War Ii.” Journal of the American Statistical Association 42 (237). Taylor & Francis Group: 72–91.