6.4 Reproductividad de la variable normal

Igual que sucede con otras variables, como la de Bernoulli, la binomial o la de Poisson, la variable aleatoria normal es reproductiva; esto quiere decir que, si sumamos variables aleatorias normales, la variable suma también es otra variable normal.

Supongamos que juntamos a 5 personas. La altura, por ejemplo, sigue una distribución normal, según hemos visto anteriormente. Sin embargo, si de esas 5 personas 2 son hombres y 3 mujeres, de entrada ya tendremos que los parámetros media y desviación típica de hombres y mujeres diferirán. Si, además, los 2 hombres son de raza diferente, también tendrán parámetros diferentes entre sí.

La altura suma de las alturas de las cinco personas, a pesar de que tengán parámetros diferentes, será también una variable normal. De manera que, para un grupo de 5 personas determinado cumpliendo esas características (2 hombres de distinta raza, 3 mujeres de la misma), la altura total será un valor, llamémosle \(y_1\).

Si juntamos otro grupo de 5 personas con esas mismas características, la altura suma será otro valor \(y_2\).

Si realizamos esto (juntar grupos de 5 personas verificando las mismas características) \(n\) veces, tendremos \(n\) valores \(y_1,y_2,...,y_n\).

La reproductividad de la variable normal nos asegura que la densidad de estos valores (o un histograma) tendrá el aspecto de la curva de Gauss. La forma de saber los parámetros concretos (media y desviación típica) de la variable suma nos la da el siguiente resultado teórico:

La suma de variables aleatorias normales independientes es otra variable aleatoria normal, con media la suma de las medias y varianza la suma de varianzas.

Sean \(X_{i}\in N(\mu_{i},\sigma _{i}),\) \(i=1,...,n.\) Se verifica que la suma \[ Y= X_{1}+X_2+...+X_n \in N\left( \mu _{1}+\mu _{2}+...+\mu _{n},\sqrt{ \sigma _{1}^{2}+\sigma _{2}^{2}+...+\sigma _{n}^{2}}\right) . \] Vamos a realizar una simulación con R de lo que acabamos de comentar. Supongamos que juntamos 2 hombres (un español y un ciudadano de Timor Oriental) (mayores de 18 años) y 3 mujeres españoles, también mayores de 18 años. La altura de los hombres españoles mayores de 18 vimos antes que sigue una distribución normal de media \(177.7\) y desviación típica \(5.9\). Las mujeres siguen una distribución normal de media \(164.7\) y desviación típica \(5.4\). La altura de los hombres de Timor Oriental es normal de media \(159.8\)cm, y vamos a suponer que su desviación típica es \(4.6\).

x1=rnorm(1, mean=177.7, sd=5.9)
x2=rnorm(1, mean=159.8, sd=4.6)
x3=rnorm(1, mean=164.7, sd=5.4)
x4=rnorm(1, mean=164.7, sd=5.4)
x5=rnorm(1, mean=164.7, sd=5.4)
y=x1+x2+x3+x4+x5
x1;x2;x3;x4;x5;y
## [1] 170.7
## [1] 158.7
## [1] 154.1
## [1] 157.5
## [1] 164.4
## [1] 805.5

Con esto hemos simulado la medición de las estaturas de esas 5 personas, y hemos sumado las mismas. Nos da 805.4911.

Si realizamos este proceso, por ejemplo, 1000 veces, los 1000 valores que obtengamos de \(y\) deberán dibujar la densidad de una variable normal, con media la suma de las medias, es decir \(157.7+159.8+3*164.7=811.6\) y desviación típica la raiz cuadrada de las varianzas, es decir \[ \sigma=\sqrt{5.9^2 + 4.6^2 + 3*5.4^2}=11.97.\]

Veamos como se puede simular este proceso en R, y la densidad de la suma ( Figura 6.24).

y<-c()
for (i in 1:1000) {
x1=rnorm(1, mean=177.7, sd=5.9)
x2=rnorm(1, mean=159.8, sd=4.6)
x3=rnorm(1, mean=164.7, sd=5.4)
x4=rnorm(1, mean=164.7, sd=5.4)
x5=rnorm(1, mean=164.7, sd=5.4)
y[i]=x1+x2+x3+x4+x5
}
mean(y)
## [1] 831.9
sd(y)
## [1] 11.65
plot(density(y))
Densidad de la suma de cinco variables aleatorias.

Figura 6.24: Densidad de la suma de cinco variables aleatorias.

Comprobamos que la media de los 1000 valores \(y\) obtenidos es un número muy próximo a \(811.6\), y la desviación típica también se aproxima mucho a \(11.97.\) Además, vemos que la estimación de la densidad es una campana de Gauss.

De esta forma, hemos simulado el proceso de medir 1000 grupos de personas con las características citadas, cada vez sumando las estaturas. Obtenemos 1000 sumas, que, por ser cada una de ellas una suma de números procedentes de variables normales, el número resultante también pertenece a una distribución normal.

Este resultado todavía se puede generalizar más, si, en vez de considerar una simple suma, se considera una combinación lineal de las variables de partida \(X_i\).

Sean \(X_{i}\in N(\mu_{i},\sigma _{i}),\) \(c_{i}\) cualesquiera números reales, \(i=1,...,n.\) Se verifica: \[ Y=\sum_{i=1}^{n}c_{i}X_{i}\in N\left( \sum_{i=1}^{n}c_{i}\mu _{i},\sqrt{ \sum_{i=1}^{n}c_{i}^{2}\sigma _{i}^{2}}\right) . \]

El indicador de una carretilla elevadora dice “Máximo 1200 kg”. Un repartidor de mercancía introduce 10 cajas grandes, cuyo peso se distribuye según una distribución normal de media 140 kg y desviación típica 10 kg. ¿Cuál es la probabilidad de que meta 10 cajas en la carretilla y esta se quede bloqueada?

Solución:

La variable \(Y=\) Peso de 10 cajas corresponde a la suma de \(10\) variables normales \(X_{i}\in N(140,10).\)

\[ Y=X_{1}+...+X_{10},\]

Por lo tanto, por la fórmula anterior (serían todos los números \(c_{i}=1\)), tenemos que

\[Y\in N(140\cdot 10,\sqrt{10\cdot 10^{2}})\equiv N(1400, 31.623).\]

Entonces

\[P( \text{la máquina se bloquee})=P(Y>1200)=\] \[ =P(Z>\frac{1200-1400}{31.623})=P(Z>-6.\,32)\simeq 1. \] Por lo tanto, la máquina se bloquea seguro.