5.9 Variables aleatorias continuas notables

5.9.1 La variable uniforme continua

Una variable aleatoria continua \(X\) se dice que sigue una distribución uniforme entre dos valores \(a\) y \(b\) (se representa \(X\in U(a,b))\) si su función de densidad tiene la siguiente expresión: \[f(x)= \frac{1}{b-a}, \ x\in [a,b]\] y vale 0 en cualquier otro caso.

Gráfica de la función de densidad de una variable aleatoria uniforme entre a y b

Gráfica de la función de densidad de una variable aleatoria uniforme entre a y b

Esta variable es la generalización, al caso continuo, de la variable uniforme discreta (la que da a todos los valores la misma probabilidad). La variable uniforme reparte de manera continua y equivalente la probabilidad, es decir, intervalos de igual longitud (dentro de \([a,b]\)) tienen igual probabilidad.

Recuérdese que, en las variables continuas, la probabilidad entre 2 puntos \(v_1\) y \(v_2\) es el área bajo la función de densidad. En este caso, el área sería el área de un rectángulo, es decir: \[ P(v_1<X<v_2 )=\int_{v_1}^{v_2} f(t)dt=(v_2-v_1 )\cdot \frac{1}{b-a} \]

Gráficamente, está claro que intervalos de igual longitud tienen el mismo área y, por lo tanto, igual probabilidad. Matemáticamente, también es muy simple:

\[ \int_{c_1}^{c_2} f(t)dt=(c_2-c_1 )\cdot \frac{1}{b-a} =\int_{d_1}^{d_2} f(t)dt=(d_2-d_1 )\cdot \frac{1}{b-a} \]

5.9.1.1 Media y Varianza

Puede comprobarse que \(E(X)=\dfrac{a+b}{2}\) y \(Var(X)=\dfrac{(b-a)^2}{12}.\)

Un estudiante llega a la parada del bus justo cuando este acaba de marcharse. El siguiente tardará en llegar como mínimo una hora, y puede llegar en cualquier momento en el transcurso de la hora siguiente. ¿Cuál es la probabilidad de que el estudiante tenga que esperar más de una hora y cuarenta y cinco minutos?

Solución

El tiempo que tarda en llegar el bus es una variable uniforme \(X\in [60,120]\). La probabilidad de que tarde más de 45 minutos en llegar (pasada la primera hora) es \(P(X>60+45)=0.25\).

La probabilidad es el área del rectángulo que va desde 105 a 120

La probabilidad es el área del rectángulo que va desde 105 a 120

Cuando en R generamos números aleatorios entre 0 y 1 (o entre 2 números cualesquiera), estamos trabajando con una variable aleatoria uniforme.

Esto, por ejemplo, genera 10 números aleatorios con distribución uniforme entre 0 y 1.

X=runif(10,0,1) 
X
##  [1] 0.453736 0.003107 0.778872 0.899398 0.181979
##  [6] 0.953981 0.557412 0.153268 0.681759 0.897789

Vemos que nos aparecen, en efecto, 10 números entre 0 y 1. Si en vez de 10 números generamos unos cuantos más, por ejemplo, 2000, y hacemos un histograma o una estimación de la densidad, veremos que se parece a la densidad de la distribución uniforme.

X=runif(2000,0,1)
datos=data.frame(X)
histogram(~X, data=datos,   col="snow3", dcol="mediumblue", h=1, type='density', width=0.05, lwd=2 ) 

5.9.2 La variable exponencial

Una variable continua \(X\) se dice que sigue una distribución exponencial de parámetro \(\lambda\) (siendo \(\lambda\) cualquier número real mayor que cero) si su función de densidad es: \[f(x)= \lambda \cdot e^{-\lambda \cdot x},\ x>0\] y vale cero en cualquier otro caso.

Se escribe \(X \in Exp(\lambda).\) Puede comprobarse que, independientemente de cuánto valga \(\lambda\), la integral \(\int_0^{\infty} \lambda \cdot e^{-\lambda \cdot x}dx=1.\)

En la siguiente gráfica dibujamos la forma de la función de densidad para 3 valores diferentes de \(\lambda\):

### Exponencial
curve(dexp(x, rate = 0.5), xlim = c(0, 4), ylim = c(0, 2), 
  xlab = "x", ylab = "Función de densidad")
curve(dexp(x, rate = 1), col = "red", lty = 3, add = T)
curve(dexp(x, rate = 2), col = "blue", lty = 4, add = T)
abline(h = 0, col = "gray")
legend("topright", c("Exp(0.5)", "Exp(1)", "Exp(2)"), col = c("black", 
  "red", "blue"), lty = c(1, 3, 4), bty = "n")

Existen numerosos ejemplos de variables que siguen esta ley. La duración de componentes electrónicos, baterías, células en enfermedades, tienen este tipo de comportamiento: los valores más altos son mucho menos probales que los valores más bajos.

El tiempo de espera, en muchas ocasiones, también sigue una distribución exponencial: tiempo en ser atendidos en una cola en una ventanilla, tiempo entre la llegada de dos taxis a una parada…

La magnitud de los terremotos que se producen en una determinada región sigue, por regla general, una distribución de este tipo. En la terminología de seísmos, se le conoce como ley de Gutenberg-Richter. También es una ley de este tipo la que rige la velocidad de los vientos que atraviesan una determinada región. La idea básica es que terremotos (o huracanes) de magnitudes bajas hay muchos más (por suerte) que terremotos con magnitud alta.

El físico (además de matemático y pacifista) británico Lewis Fry Richardson (1881-1953) acumuló datos de las estadísticas de “disputas mortales”, en las que incluyó la guerra entre los tipos de asesinatos. Observó que existía una especie de ley de Gutenberg-Richter de los conflictos en la que todos los acontecimientos, desde el asesinato de una persona (“conflictos de magnitud 0”) a las dos guerras mundiales (“magnitud 7”), obedecían a una distribución de probabilidades también de este tipo.

También se verifica que la duración de las relaciones entre parejas sigue una distribucion exponencial: hay muchas parejas que duran poco y pocas que duran mucho (Newman 2005).

5.9.2.1 Media y Varianza

Puede comprobarse que \(E(X)=\dfrac{1}{\lambda}\) y \(Var(X)=\dfrac{1}{\lambda ^2}.\)

La duración media de una prótesis de cadera se estima en 20 años. La duración se corresponde con una variable aleatoria de tipo exponencial.

En este caso, al ser la media 20, tenemos que \[E(X)=\frac{1}{\lambda} = 20 \longrightarrow \lambda = \frac{1}{20}=0.05\] De acuerdo con esto, podemos calcular probabilidades del tipo probabilidad de que la prótesis dure como mínimo r años como \[P(X>r)=1-P(X\leq r)=1-(1-e^{-\lambda \cdot r})= e^{-\lambda \cdot r}\] Aquí hemos utilizado que la probabilidad acumulada \[P(X\leq r)=\int_0^{r} \lambda \cdot e^{-\lambda \cdot t}dt=1-e^{-\lambda \cdot r}\] mediante integración por partes.

Si, por ejemplo, \(r=25\), la probabilidad de que la prótesis dure más de 25 años será \[P(X>25)= e^{-0.05 \cdot 25}=0.28\]

De hecho, la media de una prótesis de cadera es 20 años, pero este valor corresponde al siguiente percentil: \[P(X>20)= e^{-0.05 \cdot 20}=0.3678,\] lo que significa que deja 36.78 por ciento del área a la derecha, luego corresponde al percentil 63.22. Vemos que, en la distribución exponencial la media queda por la derecha de la mediana, siempre es el percentil 63.

5.9.3 Las leyes de potencias (power law)

(Clauset, Shalizi, and Newman 2009)

La distribución exponencial es un caso particular de lo que se conoce como leyes de potencias. Matemáticamente, una variable \(X\) sigue una ley de potencias si su función de densidad es de la forma \[f(x)\propto x^{-\alpha },\] donde \(\alpha\) es el parámetro de escala, que habitualmente cae entre 1 y 3 aunque puede haber excepciones. El símbolo \(\propto\) significa proporcional (por ejemplo, la densidad exponencial \(e^{-x}\) es de este tipo, pues \(e^{-x}\propto x^{-2}\)).

En la práctica, pocos fenómenos empíricos obedecen las leyes de potencias para todos los valores de \(x\). En general, la ley de potencias se aplica a partir de un valor mínimo \(x_{min}\). En tal caso, se dice que la cola de la distribución sigue una ley de potencias. Estas distribuciones se llaman heavy-tail distributions (colas pesadas). Significa que su cola (habitualmente a la derecha) es descendente, pero de forma muy pausada, es decir que pueden aparecer valores extremadamente grandes y muy alejados del valor modal o del valor mediana.

La probabilidad de que \(X\) sea mayor que un número \(x\) viene dada por: \[Pr(X>x) = \begin{cases} \left(\frac{x_\mathrm{min}}{x}\right)^\alpha & \text{si }x\ge x_\mathrm{min}, \\ 1 & \text{si } x < x_\mathrm{min}. \end{cases}\]

Uno de los ejemplos más conocidos es el relativo a la distribución de la riqueza de un país. En este caso, el parámetro \(\alpha\) es conocido como índice de Pareto. Esto se debe a que, en 1897, Vilfredo Pareto (1848-1923) afirmó que las rentas hacia el extremo más rico del espectro social están distribuidas de acuerdo a una ley de potencias. Esto implica que una gran parte de la riqueza de la nación está en manos de unos pocos individuos. En general, los porcentajes son del tipo 80-20, es decir el 20 por ciento de unos pocos poseen el 80 por ciento de la riqueza, mientras que el 80 por ciento restante solo tiene el 20 por ciento. Este tipo de regla 80-20 también se da en otras situaciones, como vamos a ver (buscad en google “regla 80 20” y encontraréis mucha más información y curiosidades).

En la gráfica de los salarios de España en 2015 se ve perfectamente esta forma. El valor modal del salario (el más frecuente) es 16.498 euros. El valor mediana es 19.466. Vemos que a partir de algún valor cercano a 30.000 o 40.000 euros brutos anuales la cola desciende pero lo hace muy pausadamente, puesto que hay personas que pueden ganar mucho más que la mayoría, pero son pocas. El cálculo del valor exacto \(x_{min}\) a partir del cual la cola de la distribución sigue una ley de potencias es un problema matemático con una cierta complejidad (Resnick 2007).

Una variable aleatoria que siga una ley de potencias puede ser tanto continua como discreta. Hemos visto cual es su función de densidad si la variable es continua. Si es discreta, su ley de probabilidad es \(P(X=x)=C\cdot x^{-\alpha }\) para \(x> x_{min}\).

Seguramente todos hemos oído hablar de leyes de este tipo en algún momento. El tamaño de los grupos de amigos, por ejemplo. Habitualmente, hay mucha gente que tiene pocos amigos y poca gente que tiene muchos. Muchos novelistas que tienen pocos lectores y pocos novelistas que tienen muchos. Muchos trabajos científicos son poco o escasamente leídos, y unos pocos son leídos o consultados por muchos…

Una representación muy habitual de las leyes de potencias es un diagrama llamado log-log plot. Es un gráfico en el que, en el eje horizontal, se representa la variable \(X\) en escala logarítmica, y en el eje vertical el logaritmo de \(1-F(x),\) que corresponde a la probabilidad \(P(X>x)\). De esta forma, se obtiene una función descendente. En cierto momento, ese descenso se convierte en una línea recta, cuya pendiente (salvo el signo) corresponde al índice \(\alpha\) de la ley de potencias.

Veamos un ejemplo con una variable exponencial (las unidades del gráfico son logarítmicas, pero aparecen las originales para facilitar la interpretación del mismo).

En (Clauset, Shalizi, and Newman 2009) realizan la descripción de los siguientes ejemplos (ver a continuación las Figuras 8 y 9 del artículo):

  1. La frecuencia de aparición de palabras únicas en la novela Moby Dick (Herman Melville).
  2. Los grados (es decir, el número de compañeros de interacción distintos) de las proteínas en la red de interacción proteica parcialmente conocida de la levadura Saccharomyces cerevisiae.
  3. Los grados de metabolitos en la red metabólica de la bacteria Escherichia coli.
  4. Los grados de nodos en la representación de la red de Internet en mayo de 2006.
  5. El número de llamadas recibidas por los clientes de la compañía telefónica AT&T, en los Estados Unidos, durante un solo día.
  6. La intensidad de las guerras entre 1816 y 1980, medida como el número de muertos en combate por cada 10.000 habitantes de las naciones en guerra.
  7. La gravedad de los atentados terroristas perpetrados en todo el mundo, entre febrero de 1968 y junio de 2006, medida como el número de muertes directamente resultantes.
  8. El número de bytes de datos recibidos como resultado del comando http en un gran laboratorio de investigación durante las 24 horas del día en junio de 1996. En términos generales, esta distribución representa la distribución del tamaño de archivos web transmitidos a través de Internet.
  9. El número de especies por género de mamíferos. Este conjunto está compuesto principalmente de especies vivas hoy en día, pero también incluye algunas especies recientemente extinguidas, donde “reciente” en este contexto significa “en los últimos miles de años”.
  10. El número de avistamientos de aves de diferentes especies en América del Norte en el año 2003.
  11. El número de clientes afectados por cortes de electricidad en los Estados Unidos entre 1984 y 2002.
  12. El número de copias de los libros más vendidos en los Estados Unidos durante el período de 1895 a 1965.
  13. La población de las ciudades en el Censo de los Estados Unidos del año 2000.
  14. El tamaño de las libretas de direcciones de correo electrónico de los usuarios de computadoras de una universidad.
  15. El tamaño en acres de los incendios forestales que ocurrieron en tierras federales de EE.UU. entre 1986 y 1996.
  16. Intensidad máxima de rayos gamma de las erupciones solares entre 1980 y 1989.
  17. La intensidad de los terremotos que ocurrieron en California entre 1910 y 1992.
  18. El número de seguidores de religiones y sectas, según consta en el sitio web adherents.com.
  19. La frecuencia de ocurrencia de apellidos en los Estados Unidos en el censo de 1990.
  20. El patrimonio neto agregado en dólares de los individuos más ricos de los Estados Unidos en octubre de 2003.
  21. El número de citas recibidas por los artículos científicos del Science Citation Index entre 1981 y 1997.
  22. El número de trabajos académicos escritos o co-autorizados por matemáticos en la base de datos MathSciNet de la Sociedad Matemática Americana.
  23. El número de “hits” recibidos por los sitios web de AOL en un sólo dia.
  24. El número de enlaces a sitios web, encontrados en un rastreo de la Web en 1997, de unos 200 millones de páginas web .

Bibliografía

Clauset, Aaron, Cosma Rohilla Shalizi, and Mark EJ Newman. 2009. “Power-Law Distributions in Empirical Data.” SIAM Review 51 (4). SIAM: 661–703.

Newman, Mark EJ. 2005. “Power Laws, Pareto Distributions and Zipf’s Law.” Contemporary Physics 46 (5). Taylor & Francis: 323–51.

Resnick, Sidney I. 2007. Heavy-Tail Phenomena: Probabilistic and Statistical Modeling. Springer Science & Business Media.