5.5 Varianza de una variable aleatoria

Se representa \(\sigma^{2}=Var \left( X \right),\) y la desviación típica \(\sigma\) es la raiz cuadrada (con signo positivo) de la varianza.

Igual que en el caso de variables estadísticas, mide la dispersión de la variable, y se calcula como la media de las desviaciones (elevadas al cuadrado) de los valores a su media:
\[\sigma ^{2}=Var \left( X \right) =E \left[ \left( X- \mu \right) ^{2} \right] . \]

También puede calcularse como
\[ \sigma ^{2}=E \left[ X^{2} \right] - \mu ^{2}\]

Si \(X\) es una variable discreta , la forma de hacer los cálculos será
\[ \sigma ^{2}= \sum _{i=1}^{k} \left( x_{i}- \mu \right) ^{2}p_{i}= \left( \sum _{i=1}^{k} x_{i}^{2}p_{i} \right) - \mu ^{2}. \]

Si \(X\) es una variable continua, \[ \sigma ^{2}= \int _{- \infty}^{ \infty} \left( x- \mu \right) ^{2}f \left( x \right) dx, \] y que también puede calcularse como
\[ \sigma ^{2}= \left( \int _{- \infty}^{ \infty} x^{2}f \left( x \right) dx \right) - \mu ^{2}. \]

Ejemplo de dos variables discretas con prácticamente la misma media y diferente varianza (dispersión).

Figura 5.4: Ejemplo de dos variables discretas con prácticamente la misma media y diferente varianza (dispersión).

Consideremos la variable aleatoria que representa el número que puede salir en una ruleta:
La ruleta francesa: números del 1 al 36, y además el cero.

Figura 5.5: La ruleta francesa: números del 1 al 36, y además el cero.

La ley de probabilidad de esta variable es la de la tabla siguiente:

\(X\) \(P(X=x_{i})\)
\(0\) \(1/37\)
\(1\) \(1/37\)
: :
\(36\) \(1/37\)

Mediante la fórmula, \[E(X)= \sum _{i=1}^{k}x_{i}\cdot p_{i} = \sum _{i=0}^{36} i\cdot \frac{1}{37} = \frac{1}{37}\sum_{i=0}^{36}= \frac{1}{37}\cdot 666 =18,\] lo que quiere decir que, si jugásemos a la ruleta infinitas veces, y fuésemos anotando el número que sale, la media aritmética de esos infinitos números daría 18.

Por medio de una simulación, podemos comprobarlo: vamor a ver qué sucede si jugamos en la ruleta y anotamos los números durante un gran número de jugadas. Esto juego lo “simulamos” en R generando números aleatorios que tomen valores enteros entre 0 y 36, lo cual se hace con el comando runif, del siguiente modo:

x=runif(1000,0,36) # 1000 números 
x=round(x)  # les quitamos los decimales
mean(x)
## [1] 17.96

Si, en vez de hacerlo 1000 veces, lo hacemos, por ejemplo, 10.000 veces:

x=runif(10000,0,36)
x=round(x)
mean(x)
## [1] 17.94

Observamos que, en efecto, la media de los números obtenidos se aproxima al valor medio o esperado que es 18.

Vamos a considerar ahora la variable \(X\)=ganancia al apostar a un número concreto. Las reglas de la ruleta francesa (la que tiene un cero) son: cuando apostamos una cantidad a un número concreto entre 1 y 36 (al cero no podemos apostar) y no acertamos, perdemos la cantidad apostada; si acertamos, recibimos 35 veces la cantidad apostada.

De esta forma, si llamamos \(c\) a la cantidad apostada, vemos que la variable \(X\) toma sólo dos valores: \(-c\) si perdemos (sale cualquier número, incluido el cero, excepto el que hemos apostado), y \(c\cdot 35\) si ganamos (sale el número apostado).

La variable \(X\) tiene la siguiente ley de probabilidad:

\(X\) \(P(X=x_{i})\)
\(-c\) \(36/37\)
\(35\cdot c\) \(1/37\)

Esto es, de cada 37 jugadas, teóricamente 1 vez ganamos y el resto perdemos, y la variable \(X\) mide la cantidad que recibimos.

La esperanza o valor esperado de esta variable es \[ E(X)=-c\cdot \frac{36}{37} + 35\cdot c \cdot \frac{1}{37}= -c\cdot \frac{1}{37}\] Como vemos, para un jugador, la media o valor esperado siempre es negativo. ¿Qué significa este valor? Que, si se juega a la ruleta infinitas veces, el valor medio que se espera ganar es negativo (para el jugador; para la banca es positivo). En la práctica, si \(N\) es un número muy grande de jugadas, el total de dinero que ganará el jugador va a ser \(N\cdot E(X)\) =\(-N\cdot c\cdot \frac{1}{37}.\)

Si consideramos un juego tan simple como lanzar una moneda, apostar 1, ganar 1 si sale cara y perder 1 si sale cruz, la variable aleatoria es

\(X\) \(P(X=x_{i})\)
\(-1\) \(1/2\)
\(1\) \(1/2\)

La esperanza es \(E(X)=1\cdot 0.5 -1 \cdot 0.5=0\). Esto se llama juego de suma nula, que significa que, en teoría, si juegan 2 jugadores, los dos pierden tantas veces como ganan. Vemos que no es lo que ocurre en el caso de la ruleta. La ruleta está pensada para que, a la larga, gane el casino.

Vamos a jugar a la ruleta 100 veces y ver cuanto dinero podríamos ganar:
X=round(runif(100,0,36))
# Vamos a suponer que siempre apostamos 1 euro al número 12
premio=ifelse(X==12, 35, -1)
sum(premio) # contamos la cantidad que ganamos (o perdemos)
## [1] 44

Si, en vez de jugar 100 veces, jugamos 100.000 veces, veamos qué podría ocurrir.

X=round(runif(10000,0,36))
# Vamos a suponer que siempre apostamos 1 euro  al número 12
premio=ifelse(X==12, 35, -1)
sum(premio)
## [1] 152

Estos dos ejemplos son simulaciones. En algunos casos ganaremos y otras perderemos, pero nunca van a ser cantidades desorbitadas, y habrá que jugar muchas horas para llegar a 100.000 apuestas

5.5.1 La falacia del jugador

En el siguiente trozo de programación construimos una variable \(X\) que va desde 10 al valor tope (número que elijamos). Para cada valor de \(X\) tiramos una moneda y contamos el número de caras y de cruces y los vamos anotando. Es decir, si \(X=12,\) lanzamos la moneda 12 veces. Si \(X=23,\) lanzamos la moneda 23 veces, y así sucesivamente…

Una vez realizados los lanzamientos, en la tabla de resultados guardamos los resultados obtenidos: número de lanzamientos de la moneda, número de caras, número de cruces, diferencia entre número de caras y número de cruces y proporción entra ambos números.

Empezamos lanzando la moneda 10 veces porque así nos “aseguramos” de que el número de cruces no sea cero (evidentemente puede ocurrir, pero sería raro), y así la proporción no nos dé infinito al dividir por cero.

tope=1000
X<-seq(from=10,  to=tope, by=1 )
N=length(X)
n_caras<-c(0)
n_cruces<-c(0)
A<-c(0)
for (i in 1:N)
{
  A=runif(X[i])
  a=length(A[A<0.5])
  n_caras[i]<- a
  n_cruces[i]<- X[i]-a
}
dif<-n_caras-n_cruces
prop<-n_caras/n_cruces
resultados<-data.frame(lanzamientos=X, 
                       caras=n_caras, 
                       cruces=n_cruces, 
                       diferencia=dif, 
                       proporcion=prop)
datatable(resultados, options = list(pageLength = 10))

Fijémonos que ocurre si dibujamos el resultado anterior en una gráfica que nos muestre las diferencias entre caras y cruces según que lanzamos la moneda \(N\) veces, con \(N\) de 10 a 1000.

 plot(X, abs(dif), 
     col="red",
     type="l",
     #ylim=c(0.7,1.4),
     xlab="lanzamientos",
     ylab="diferencia entre caras y cruces")

Según podemos observar, la diferencia se agranda cuanto mayor sea \(N\). A la derecha del gráfico vemos que, lanzando la moneda cerca de 1000 veces, hay diferencia de 80 resultados entre caras y cruces. Este hecho puede resultar un poco extraño, a primera vista: cuantas más veces lancemos la moneda, el número de caras y el de cruces debería tender a acercarse, puesto que cara y cruz son igual de probables.

Realmente es lo que sucede, pero para verlo mejor hay que considerar no la diferencia, sino las proporciones:

  plot(X, prop, 
       col="blue",
       type="l",
      ylim=c(0.1,3),
      xlab="lanzamientos",
      ylab="proporcion caras/cruces")

La ley de estabilidad de las frecuencias (que la frecuencia converge a la probabilidad) nos garantiza que la proporción entre el número de caras y de cruces tiende a ser 1 cuantas más veces se arroje la moneda. La diferencia entre el número de caras y cruces también tiende a cero, pero hay que ver que una diferencia de 80, en 1000 lanzamientos, es un número pequeño, proporcionalmente.

La conocida como falacia del jugador consiste en creerse que, porque hayan salido de forma continuada un número de caras relativamente grande, en la siguiente jugada deberá salir cruz puesto que los resultados deberán compensarse. Así, en una ruleta, si han salido 3 o 4 veces seguidas números de color rojo, pensar que en el siguiente movimiento de la ruleta es más probable que salga negro es una falacia. Cada jugada es independiente de la anterior. La probabilidad de que salga negro o rojo va a ser \(1/2,\) independientemente de que hayan salido 2,3 o 40 negros seguidos.

En particular, está documentado que, en el Casino de Monte Carlo, el 18 de agosto de 1913, la bola cayó 26 veces consecutivas en números de color negro. Por eso, a esta falacia también se le conoce como “falacia de Monte Carlo”.

Otros planteamientos (incorrectos) equivalentes son: «Un resultado aleatorio tiene más probabilidades de ocurrir, si no ha ocurrido durante cierto periodo de tiempo»; o «Un resultado tiene menos probabilidades de ocurrir, si no ha ocurrido durante cierto periodo de tiempo».