1.1 Variables aleatorias
Introducimos una serie de conceptos básicos.
Definición 1.1 Una variable aleatoria es una función que asigna un número real a cada uno de los posibles resultados de un experimento o característica de interés susceptibles de ser observados o medidos en una población objetivo.
Las variables aleatorias pueden ser discretas o continuas en función de sus posibles valores. Si los valores o resultados posibles se pueden contar (sin ser infinitos), se dice que la variable aleatoria es ‘discreta’; en caso contrario, se dice que es ‘continua.’ Veamos varios ejemplos.
Ejemplo 1.1 Un proveedor vende huevos por cajas que contienen 144 huevos. El proveedor desea estudiar el número de huevos que se suelen romper en cada una de las cajas durante el proceso de distribución. Es de interés pues, la variable aleatoria \(N\) que contabiliza el número de huevos rotos en una caja, y cuyos valores posibles son \(0, 1, 2,..., 144\). Se trata por tanto de una variable de tipo discreto.
Ejemplo 1.2 Se desea realizar un estudio para estimar la estatura de los habitantes de una ciudad. Se define la variable aleatoria \(X\) como la altura en cm de cada uno de los habitantes de la ciudad. Dado que los posibles resultados son infinitos, diremos que dicha variable es de tipo continuo.
Definición 1.2 Se define el espacio probabilístico \(S\) asociado a una variable aleatoria como el conjunto de todos los valores posibles o con probabilidad que puede tomar dicha variable.
1.1.1 Función de probabilidad
Para caracterizar completamente cualquier variable aleatoria es necesario definir la función de distribución, que nos da la probabilidad acumulada por debajo de un valor plausible en el espacio probabilístico \(S\) en el que está definida dicha variable.
Definición 1.3 La función de distribución para una variable \(X\) en un punto \(a\) del espacio probabilístico \(S\) se define como la probabilidad acumulada por debajo de dicho valor:
\[\begin{equation*} F(a) = P(X \leq a). \end{equation*}\]En el caso de variables aleatorias de tipo discreto podemos caracterizar su comportamiento mediante las probabilidades asociadas a cada uno de los elementos del espacio probabilístico Esto se hace a través de la ‘función puntual de probabilidad’ o ‘función de masa de probabilidad.’
Definición 1.4 La función de masa de probabilidad (fmp) para una variable discreta \(X\) en un punto \(a\) del espacio probabilístico \(S\) se define como la probabilidad de que la variable \(X\) tome dicho valor:
\[\begin{equation*} f(a) = P(X = a). \end{equation*}\]En el caso de variables aleatorias de tipo discreto, la función de distribución de probabilidad se puede obtener a partir de la función de masa de probabilidad como:
\[\begin{equation*} F(a) = \sum_{k \leq a} f(k) = 1 - \sum_{k > a} f(k). \end{equation*}\] para cualquier valor de \(a\) en \(S\).
Sim embargo, en las variables aleatorias de tipo continuo no es posible asignar una probabilidad a cada uno de los infinitos valores de la variable, dado que en ese caso la probabilidad del espacio probabilístico íntegro excedería el valor 1 y por lo tanto no sería una probabilidad. En estas variables es preciso definir otra función que permita cuantificar cualquier situación que involucre los resultados del espacio probabilístico \(S\) asociado a la variable aleatoria. Surge la ‘función de densidad de probabilidad.’
Definición 1.5 La función de densidad de probabilidad (fdp), \(f\), asociada a una variable \(X\) de tipo continuo permite calcular la probabilidad acumulada en un intervalo cualesquiera \((a,b]\) del espacio probabilístico \(S\) a través de la integral en dicho intervalo:
\[\begin{equation*} \int_{a}^{b} f(s)ds = Pr(a < X \leq b) = F(b) - F(a). \end{equation*}\]De esta forma la ‘función de distribución’ de una variable continua se puede obtener como:
\[\begin{equation*} F(a) = \int_{r_{min}}^{a} f(s)ds. \end{equation*}\]donde \(r_{min}\) es el valor mínimo de \(X\) en el espacio probabilístico \(S\).
1.1.2 Variables relevantes
Hay muchas funciones de distribución que se utilizan con tanta frecuencia que se conocen con nombres especiales, y que presentamos en las Secciones Distribuciones Discretas y Distribuciones continuas. Para estas variables resulta bastante sencillo realizar cualquier calculo de probabilidad, ya que la mayoría de programas informáticos tienen implementadas sus funciones de distribución. Utilizaremos no obstante la simulación para realizar cálculos probabilísticos.
En \(R\) se puede acceder directamente a la función de densidad, función de distribución, quantiles y simulación de valores de cualquiera de las distribuciones que presentamos a continuación mediante las funciones:
- \(dXXXX(par)\): función de densidad,
- \(pXXXX(par)\): función de distribución,
- \(qXXXX(par)\): quantiles,
- \(rXXXX(par)\): generación de valores de la variable,
donde \(XXXX\) identifica la distribución/variable de interés y \(par\) son los parámetros que la caracterizan.
1.1.3 Media y varianza
Muchas variables aleatorias tienen funciones de distribución complicadas y, por tanto, es difícil obtener una comprensión intuitiva del comportamiento de la variable conociendo simplemente la función de distribución. Dos medidas, la media o valor esperado y la varianza se definen para ayudar a describir el comportamiento de una variable aleatoria. El valor esperado equivale a la media aritmética de infinitas observaciones de la variable aleatoria y la varianza es una indicación de la variabilidad o dispersión de los valores de dicha variable.
Definición 1.6 Dada una variable aleatoria \(X\) discreta sobre un espacio probabilístico \(S\), se define el valor esperado o esperanza de \(X\), \(E(X)\), como \[E(X) = \sum_{k \ in S} kf(k)\] donde \(f\) es la fmp de \(X\).
Cuando \(X\) es una variable aleatoria continua, su valor esperado se define a partir de la fdp de \(X\): \[E(X) = \int_S xf(x)dx.\]
Esta definición se puede aplicar a cualquier función o transformación de una variable aleatoria, \(h(X)\), para obtener su valor esperado \(E[h(X)]\), y así por ejemplo en el caso continuo tendríamos: \[E[h(X)]=\int_S h(x)f(x)dx.\]
El valor esperado nos da una medida de localización para la variable aleatoria \(X\), pero es bien sabido que dichas medidas de localización se deben acompañar siempre de una medida de dispersión, como la varianza o desviación típica.
Definición 1.7 Dada una variable aleatoria \(X\) con valor esperado \(E(X)\) se define la varianza de \(X\), \(V(X)\) como:
\[V(X) = E[(X-E(X))^2]=E(X^2) - E(X)^2\]A partir de la varianza se define la desviación típica de la variable \(X\) como la raíz cuadrada de su varianza. Las propiedades siguientes se derivan directamente a partir de la definición de esperanza y varianza:
Si \(X\) e \(Y\) son dos variables aleatorias y \(c\) una constante, entonces:
- \(E(c) = c\)
- \(E(cX) = cE(X)\)
- \(E(X+Y) = E(X) + E(Y)\)
- \(V(cX) = c^2 V(X)\)