La probabilidad o el azar juega un papel muy importante en el razonamiento científico. Ejemplos de procesos biológicos donde la probabilidad juega un papel relevante son: i) la segregación de cromosomas en la formación de gametos o la ocurrencia de mutaciones genéticas. En otras ocasiones es el propio diseño experimental el que introduce la aleatoriedad como por ejemplo cuando dividimos un grupo de sujetos en función del tratamiento al que se van a ver sometidos.
Las conclusiones del análisis estadístico de datos se expresan en muchas ocasiones en términos de probabilidad, ya que implícitamente se está introduciendo la aleatoriedad debida a la muestra de sujetos con el que estamos trabajando, y que generalmente no coincide con toda la población bajo estudio.
En las unidades anteriores hemos visto que el estudio estadístico se centra en la información recogida sobre alguna variable relacionada directamente con el objetivo u objetivos del diseño experimental planteado. Un hecho cierto es que debido a la aleatoriedad e los sujetos resulta imposible saber con certeza el valor de dicha variable para un sujeto en particular. Se introduce de esta forma el concepto de variable aleatoria que hace referencia a todas aquellas en las que intrínsecamente se reconoce variabilidad en la respuesta de los sujetos.
En este punto introducimos algo de notación que nos resultará de utilidad de aquí en adelante. Las variables aleatorias siempre se denotan en mayúsculas, \(Y\), mientras que los valores observados para un conjunto de sujetos en esa variable (muestra) se denotan por minúsculas e indicando la posición que el sujeto ocupa en el banco de datos \(y_1,y_2,...,y_n\).
Por razones obvias se definen entonces las variables aleatorias discretas y las variables aleatorias continuas. Una variable discreta es aquella que sólo puede tomar un número finito o contable de posibles resultados, de forma que es posible conocer de antemano cuales son los posibles resultados que se pueden observar. Una variable continua es aquella que puede tomar infinitos valores numéricos, y por tanto es imposible identificar cada uno de los posibles valores de la variable, aunque si es posible conocer el rango de posibles resultados que se pueden observar. De forma natural se puede establecer una equivalencia entre la definición de variables categóricas y numéricas introducidas en unidades anteriores con las variables discretas y continuas.
Se puede describir de forma completa una variable aleatoria sin más que especificar la probabilidad asociada a cada uno de sus posibles valores. Esta especificación se conoce con el nombre de distribución de probabilidad. Sin embargo, la forma en que se puede especificar dicha distribución de probabilidad depende del tipo de variable aleatoria con la que estemos trabajando. En el caso de variables discretas basta con determinar la probabilidad de cada uno de los posibles resultados observables de la variable, pero no ocurre así en las variables continuas donde es imposible conocer todos sus posibles valores.
Imaginemos la situación donde tenemos dos dados iguales y deseamos estudiar el comportamiento de la variable aleatoria \(X\) definida como la suma obtenida al lanzar los dos dados. Nos encontramos ante una variable discreta con posibles resultados ${2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Para establecer la distribución de probabilidad es necesario calcular: \[P(X = x), x = 2,3,...,12\]
Dichas probabilidades se pueden obtener de forma sencilla contando todas la combinaciones de los dos dados que podemos obtener (casos favorables) y los que corresponden con el valor asociado (casos posibles) para cada uno de los resultados, obteniéndose la distribución de probabilidad:
x | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|---|---|---|---|---|---|---|---|---|---|---|
\(P(X = x)\) | \(\frac{1}{36}\) | \(\frac{2}{36}\) | \(\frac{3}{36}\) | \(\frac{4}{36}\) | \(\frac{5}{36}\) | \(\frac{6}{36}\) | \(\frac{5}{36}\) | \(\frac{4}{36}\) | \(\frac{3}{36}\) | \(\frac{2}{36}\) | \(\frac{1}{36}\) |
A partir de la especificación de esta distribución resulta posible obtener cualquier probabilidad que involucre los valores de la variable.
\[P(X > 10) = P(X = 11) + P(X = 12) = 3 / 36 = 1/12 \]
\[P(X \leq 4) = P(X = 2) + P(X = 3) + P(X = 4) = 6 / 36 = 1/6 \]
\[P(7 \leq X \leq 9) = P(X = 7) + P(X = 8) + P(X = 9) = 15 / 36 \]
La función de densidad, \(f\), es una representación matemática y lo más compacta posible de la distribución de probabilidad asociada con una variable aleatoria.
En el caso de variables discretas dicha función de densidad viene dada por: \[f(x) = P(X = x)\]
En el ejemplo visto en la introducción la función de densidad asociada con la suma de la puntuación obtenida al lanzar dos dados viene dada por:
\[f(x) = \frac{1}{36} min(x-1,13-x), \text{ con } x = 2,3,...,12\]
La función de densidad para variables de tipo continuo no se puede especificar directamente, ya que como vimos en el tema anterior no es posible obtener la probabilidad de cada de los infinitos posibles resultados que puede tomar la variable. En el punto siguiente veremos como es posible obtenerla a partir de lo que definiremos con función de distribución.
Las propiedades principales de la función densidad son:
Las funciones de densidad se pueden representar gráficamente para dar una idea general del reparto de probabilidades para el Rango de valores de la variable. En realidad si seleccionamos dos valores del rango de valores de la variable, el área bajo la curva de densidad entre esos dos puntos corresponde con la probabilidad de dicho intervalo. Como en la práctica resulta complicado poder realizar estos cálculos se recurre a la función de distribución.
La funicón de distribución, \(F\), asociada con una variable aleatoria \(X\) se define como:
\[F(x) = P(X \leq x)\] Esta función se puede especificar tanto para variables aleatorias discretas como continuas, y sus propiedades son:
A partir de la última propiedad resulta posible obtener la probabilidad de cualquier rango de valores dado que: \[P(a \leq X \leq b) = P(X \leq b) - P(X \leq a) = F(b) - F(a)\]
Para variables aleatorias de tipo continuo se define la función de densidad asociada como la derivada de la función de distribución:
\[f(x) = \frac{d}{dx} F(x).\]
En algunos casos (distribuciones de variables notables) ya se dispone de una expresión para la función de densidad y no hace falta hacer ningún cálculo matemático para obtenerla. Para representar la función de distribución se usa un gráfico de lineas que muestra la probabilidad acumulada para cada valor de la variable aleatoria considerada.
En la Unidad anterior se ha visto que el objetivo principal de muchos análisis estadísticos es estudiar el comportamiento de los sujetos de una población, a partir de la información recogida en una muestra de sujetos seleccionados de dicha población. Sin embargo, cuando hablamos de una población lo hacemos teniendo en mente las variables que se han medido sobre ellos. Imaginemos que estamos interesados en conocer la nota media de acceso de todos los estudiantes de primero de grado en la Universidad Miguel Hernández de Elche (UMH). En este caso es evidente que la población objetivo son todos los estudiantes de primero de grado que han accedido a la UMH, aunque esa población contiene información sobre muchas otras variables (sexo, edad, localidad de residencia,…).Por lo tanto, todas las poblaciones se considerarán poblaciones de valores de alguna variable especificada. Si la población es infinita, nunca podremos obtener todos sus valores, e incluso si la población es finita, generalmente no queremos medir todos sus valores. En cualquier caso, deseamos obtener información sobre características particulares de la población a partir de un número restringido de valores de muestra. Por ejemplo, en el estudio de la nota de acceso podríamos querer utilizar la media de la nota media de todos los estudiantes como referencia de la población, aunque podríamos utilizar otros como el percentil 80, etc…
Para proceder de esta forma, necesitamos formular un modelo adecuado para los valores \(x\) que componen la población, relacionar las características de interés con los aspectos apropiados del modelo y luego usar los datos de la muestra para proporcionar estimaciones de estos aspectos.La característica esencial de tales valores \(x\) en su imprevisibilidad, y lo mejor que podemos hacer es especificar la probabilidad de obtener un valor dado o un valor en un rango dado. Por lo tanto, las distribuciones de probabilidad proporcionan los modelos más apropiados para las poblaciones variables de respuesta. Más específicamente, la función de densidad de probabilidad \(f(x)\) o la función de distribución de probabilidad \(F(x)\) proporcionan la información necesaria, por lo que constituye el modelo de población para la variable aleatoria \(X\). Por supuesto, dado que nunca conocemos esta distribución con una certeza total, debemos suponer una forma funcional específica (modelo matemático) para \(f(x)\) y \(F(x)\). Esta forma funcional usualmente involucra uno o más parámetros que pueden ser variados, y leso que se espera es que habrá algunos valores específicos de estos parámetros para los cuales la distribución resultante se ajusta adecuadamente a nuestros datos observados. Tal modelo se llama modelo paramétrico para \(X\). En el tema siguiente se presentarán los modelos paramétricos más frecuentes para una variable aleatoria \(X\).
Por el momento, supongamos que hemos especificado alguna función adecuada \(f(x)\) como la densidad de probabilidad de nuestra población. ¿Qué valores resumen de esta densidad se relacionan con las características de la población que generalmente son de interés? Para responder a esta situación, centrémonos en las variables discretas e interpretemos la probabilidad como una frecuencia relativa. Si la variable aleatoria \(X\) tiene valores posibles \(x_1, x_2, x_3, ... ,x_n\) y si \(p_i = P(X = x_i)\), entonces podemos pensar en \(p_i\) como la frecuencia relativa con la que el valor \(x_i\) ocurre en toda la población.
Definimos el valor esperado de \(X\) por la ecuación:
\[E(X) = \sum_{i=1}^n x_i p_i\]
Utilizando la interpretación de frecuencia relativa de \(p_i\) dada anteriormente, \(E(X)\) puede interpretarse como el promedio de los valores \(X\) en toda la población, por lo que es la media poblacional. Este es claramente uno de los principales valores de resumen para la población. A menudo se denota \(\mu\) y como mide el “centro” de la población también se lo conoce como el parámetro de localización de la población.
De forma similar se define la varianza de la población, \(\sigma2\), como:
\[\sigma^2 = V(X) = E\{(X-\mu)^2\} = \sum_{i=1}^n (x_i - \mu)^2 p_i\]
La desviación típica poblacional, \(\sigma\), se obtiene a partir de la raíz cuadrada de la varianza poblacional:
\[\sigma = DT(X) = \sqrt{V(X)}\]
Siguiendo con el ejemplo de la variable aleatoria que representa la suma del lanzamiento de dos dados ¿Cuál es el valor esperado de la suma de ambos lanzamientos? ¿Cuál es la desviación típica? En este caso ¿la distribución es aproximada o la distribución poblacional?
En el caso de variables aleatorias continuas, donde denotamos por \(R\) el rango de todos los valores posibles, se define la media, varianza y desviación típica poblacional como
\[\mu = E(X) = \int_R x f(x) dx\]
\[\sigma^2 = V(X) = \int_R (x - \mu)^2 f(x) dx\]
\[\sigma = DT(X) = \sqrt{V(X)}\]
Para las variables de tipo continuo más habituales la esperanza, varianza y desviación típica poblacionales se aproximan de forma precisa (si la muestra de trabajo es adecuada) por la media, varianza y desviación típica muestral.
Como se ha explicado en el punto anterior se debe utilizar la información muestral para aproximar la función de densidad de una variable aleatoria. En este punto estudiamos como obtener dichas aproximaciones (distribuciones empíricas) desde un punto de vista gráfico, aunque en la unidad siguiente se plantearan los métodos numéricos necesarias para obtener dicha aproximación. Si la muestra es representativa de la población, tanto la función de densidad como de distribución empíricas que obtendremos se deben parecer a las de toda la población, con lo que sería posible conocer la probabilidad de cualquier valor o rango de valores en la población. Para ejemplificar utilizaremos el banco de datos storm
que venimos usando en los temas anteriores.
En primer lugar cargamos los datos de trabajo
library(tidyverse)
library(forcats)
library(nasaweather)
storm <- nasaweather::storms # Guardamos los datos en un nuevo objeto
En primer lugar vamos a trabajar con la variable discreta tipo de tormenta. Reordenamos el factor para mantener la relevancia de cada tipo de tormenta y obtenemos la tabla de frecuencias relativas y acumuladas de cada nivel de respuesta para aproximar tanto la función de densidad como la función de distribución:
# Generamos nuevo factor ordenado
type_levels <- c("Tropical Depression", "Extratropical", "Tropical Storm", "Hurricane")
storm$type2 <- factor(storm$type,levels = type_levels)
# Calculamos las frecuencias relativas
tabla_tipo <- storm %>%
group_by(type2) %>%
summarise(n=n())
mutate(tabla_tipo,frel=n/sum(n),facum=cumsum(frel))
## # A tibble: 4 x 4
## type2 n frel facum
## <fct> <int> <dbl> <dbl>
## 1 Tropical Depression 513 0.187 0.187
## 2 Extratropical 412 0.150 0.337
## 3 Tropical Storm 926 0.337 0.674
## 4 Hurricane 896 0.326 1
Esta tabla nos proporciona la probabilidad de que ocurra cada uno de los eventos considerados o lo que hemos definido como función de densidad de la variable tipo de tormenta.
Para representar la función de densidad hacemos uso de la función ..prop..
que nos proporciona los porcentajes asociados a cada nivel del factor.
ggplot(storm, aes(type2)) +
geom_bar(aes(y = ..prop.. , group = 1), width = 0.5) +
xlab("Tipo de Tormenta") + ylab("Frecuencia relativa")
Para representar la función de distribución hacemos uso de la función cumsum
que nos permite las suma acumulados e los porcentajes que obtenemos con ..prop..
.
Se selecciona ahora la variable presión atmosférica. De nuevo estamos interesados en obtener una aproximación de la función de densidad y de distribución. Dado Que estamos con una variable continua no podemos calcular la probabilidad en un punto sino en un intervalo. La mejor forma de representar dicha información es con el histograma.
En primer lugar representamos la función de densidad. Se utiliza tanto el histograma de frecuencias relativas como la aproximación de la densidad con la función geom_density
.
ggplot(storm, aes(x = pressure)) +
geom_histogram(aes(y = ..density..), binwidth = 7) +
geom_density(color="red")+
xlab("Presión Atmosférica (mbar)") + ylab("Densidad")
Para obtener la función de distribución se hace uso de la función stat_ecdf
que permite obtener la función de distribución empírica para una variable de tipo numérico.
ggplot(storm, aes(x = pressure)) +
stat_ecdf(geom = "step", pad = FALSE) +
scale_y_continuous(breaks = seq(0,1,0.1)) +
xlab("Presión Atmosférica (mbar)") + ylab("Frecuencia acumulada")
Podemos que ver que la probabilidad de observar una presión atmosférica menor o igual a 1000 milibares se sitúa en torno a 0.6. De forma similar, la probabilidad de observar un viento entre 950 y 975 milibares es aproximadamente \(0.20 - 0.05 = 0.15\), con lo que a partir de esta función resulta posible cualquier probabilidad.
Comparamos ahora el comportamiento de la variable presión atmosférica con respecto al tipo de tormenta. En primer lugar obtenemos las funciones de densidad de la variable presión atmosférica para cada tipo de tormenta.
ggplot(storm, aes(x = pressure, color = type2)) +
geom_density()+
xlab("Presión Atmosférica (mbar)") + ylab("Densidad")
Se puede apreciar que los rangos de valores con mayores probabilidades varían en función del tipo de tormenta, lo que implica que las poblaciones definidas por ese factor tienen comportamientos diferentes.
A continuación se obtienen las funciones de distribución asociadas
ggplot(storm, aes(x = pressure, color = type2)) +
stat_ecdf(geom = "step", pad = FALSE) +
scale_y_continuous(breaks = seq(0,1,0.1)) +
xlab("Presión Atmosférica (mbar)") + ylab("Frecuencia acumulada")
Podemos ver en este caso que las probabilidades de observar presiones atmosféricas por debajo de 1000 milibares son: 1 (Tropical Depression); 0.6 (Extratropical y Tropical Storm); y 0.05 (Hurricane). En este caso resulta posible calcular cualquier probabilidad pero además podemos establecer comparaciones en función del tipo de tormenta. Esta forma de proceder sienta las bases de los procedimientos que se presentan en la unidad siguiente.
Sería muy complicado y farragoso si para cada experimento aleatorio ligeramente diferente de otro ya realizado, tuviéramos que determinar las distribuciones de probabilidad desde cero. Afortunadamente, podemos hacer uso de las similitudes que existen entre ciertos tipos o familias de experimentos y ciertas distribuciones de probabilidad, conocidas con le nombre de distribuciones notables, que nos permiten el desarrollo de las funciones de distribución que representen las características generales del experimento.
Por ejemplo, muchos experimentos comparten el elemento común de que sus resultados se pueden clasificar en uno de dos eventos: una moneda puede salir cara o cruz; un niño puede ser hombre o mujer; una persona puede morir o no morir; una persona puede ser empleada o desempleada. Estos resultados a menudo se etiquetan como “éxito” o “fracaso”, teniendo en cuenta que aquí no hay connotación de “bondad”; por ejemplo, al observar los nacimientos, el estadístico podría calificar el nacimiento de un niño como un “éxito” y la el nacimiento de una niña como un “fracaso”, pero los padres no necesariamente verían las cosas de esa manera. Esta situación experimental se conoce como experimento Bernouilli, asignando probabilidad \(\theta\) al suceso calificado como éxito y probabilidad \(1-\theta\) al suceso calificado como de fracaso. Dichas probabilidades son diferentes para cada situación y se pueden aproximar mediante la obtención de datos experimentales. La distribución de probabilidad que surge en este experimento se conoce como distribución Bernouilli y es la primera distribución de probabilidad notable conocida.
En los puntos siguientes se presentan las otras tres distribuciones notables más habituales: Binomial, Poisson y Normal. Las dos primeras se usan en situaciones experimentales donde la variable aleatoria que se relaciona con el objetivo del experimento aleatorio es de tipo categórico, mientras que la última se utiliza para variables aleatorias de tipo continuo.
A menudo nos interesa el resultado de los ensayos independientes y repetidos de Bernoulli, es decir, el número de éxitos en ensayos repetidos. En esta situación se considera:
Una distribución binomial nos da las probabilidades asociadas con los ensayos independientes y repetidos de Bernoulli. En una distribución binomial, las probabilidades de interés son las de observar un cierto número de éxitos, \(r\), en \(n\) ensayos independientes, cada uno de los cuales tiene solo dos resultados posibles y la misma probabilidad, \(\theta\), de éxito. Por ejemplo, usando una distribución binomial, podemos determinar la probabilidad de obtener 4 caras en 10 lanzamientos de una misma moneda.
La distribución de probabilidad para este experimento queda completamente determinado si conocemos \(n\) (número de repeticiones realizadas) y \(\theta\) (probabilidad de éxito). Si \(X\) denota la variable aleatoria asociada con este experimento, la función de densidad de probabilidad se define como: \[P(X = x) = {n \choose x} \theta^x (1-\theta)^{n-x}\] donde \({n \choose x}\) representa el número combinatorio de \(n\) sobre \(x\), y \(x\) el número de éxitos observados. Dicha distribución se denota habitualmente: \[ X \sim Bi(n, \theta)\]
Esta distribución se puede evaluar para cualquier valor entre 0 y el número de repeticiones del experimento \(n\). En R
la función dbinom
permite obtener cualquier probabilidad de la distribución binomial una vez fijamos el valor que deseamos evaluar (\(x\)), el número de repeticiones (\(n\)), y la probabilidad de éxito asociada (\(\theta\)). Por ejemplo, podemos obtener la función de densidad de probabilidad asociada a un experimento binomial con 5 repeticiones y probabilidad de éxito 0.2 (\(X \sim Bi(5,0.2)\)) de la siguiente forma:
library(tidyverse)
# Establecemos los posibles resultados del experimneto (número de éxitos posibles)
exito <- 0:5
# Obtenemos ahora la función de densidad
fden <- dbinom(exito,5,0.2)
# Tabla
res <- as.data.frame(cbind(exito,fden))
colnames(res) <- c("Exito","Probabilidad")
res
## Exito Probabilidad
## 1 0 0.32768
## 2 1 0.40960
## 3 2 0.20480
## 4 3 0.05120
## 5 4 0.00640
## 6 5 0.00032
# Representamos gráficamente
ggplot(res,aes(Exito,Probabilidad)) +
geom_bar(stat = "identity", width = 0.05) +
labs(xlab = "Número de éxitos",ylab = "Probabilidad",title = "Binomial(5, 0.2)")
A la vista de los resultados podemos concluir que el la situación más probable es que observemos un éxito en las cinco repeticiones con una probabilidad de 0.41.
Una vez establecida la función de densidad de probabilidad resulta posible obtener el valor esperado del número de éxitos, así como conocer su variabilidad haciendo uso de las definiciones expuestas en el tema anterior. En concreto, para una variable que sigue una distribución de probabilidad Binomial (\(X \sim Bi(n,\theta)\)) tenemos que: \[E(X) = n \theta\] \[V(X) = n \theta (1-\theta)\] \[DT(X) = \sqrt{n \theta (1-\theta)}\]
En nuestro ejemplo tendríamos que el número esperado de éxitos se situaría en \(5 * 0.2 = 1\) y la variabilidad (en términos de la desviación típica) en \(\sqrt{5 * 0.2 * 0.8} = 0.89\), lo que implica que los valores más probables se sitúan entre 1 y 3 éxitos (\(1 \pm 1\)).
A continuación se presentan diferentes situaciones prácticas para ilustrar el cálculo de probabilidades con la distribución Binomial.
En la situación experimental anterior, \(X \sim Bi(5,0.2)\) ¿Cuál es la probabilidad de observar 3 éxitos?
## [1] 0.0512
La función pbinom
permite la evaluación de la función de distribución de probabilidad en las situaciones de cálculo en que es necesaria. Los parámetros de la función son los mismos que los de la función dbinom
.
En la situación experimental anterior (\(n=5\) y \(\theta = 0.2\)) ¿Cuál es la probabilidad de observar como mucho dos éxitos? En otras palabras: \[P(X \leq 2)\] que es el valor de la función de distribución Binomial para \(X = 2\).
## [1] 0.94208
En la situación experimental anterior (\(n=5\) y \(\theta = 0.2\)) ¿Cuál es la probabilidad de observar al menos tres éxitos? En otras palabras: \[P(X \geq 3) = 1 - P(X \leq 2)\]
## [1] 0.05792
En la situación experimental anterior (\(n=5\) y \(\theta = 0.2\)) ¿Cuál es la probabilidad de observar entre dos y cuatro éxitos (ambos incluido)? En otras palabras: \[P(2 \leq X \leq 4) = P(X \leq 4) - P(X \leq 2)\]
## [1] 0.0576
En este enlace se pueden representar y calcular tanto la función de densidad como la función de distribución para diferentes situaciones experimentales relacionadas con la distribución Binomial.
Utilizando la aplicación anterior o calculando directamente con las funciones de R
contesta a las siguientes situaciones:
En este apartado vemos como obtener la distribución Binomial asociada a una muestra de datos correspondientes a un estudio experimental. El ajuste de dicha distribución nos permitirá obtener la probabilidad asociada a cualquier situación experimental de la población bajo estudio.
Ejemplo 1. Los estudiantes de una clase de botánica van a realizar un experimneto para conocer el grado de germinación de un tipo de planta. Para ello cada estudiante planta en un semillero cinco semillas de dicha planta y contabiliza cuantas de ellas han germinado al cabo de una semana. Los datos obtenidos para el conjunto de todos los estudiantes (280 en total) se muestran en la tabla siguiente:
Semillas germinadas | Semillas no germinadas | Número de estudiantes |
---|---|---|
0 | 5 | 17 |
1 | 4 | 53 |
2 | 3 | 94 |
3 | 2 | 79 |
4 | 1 | 33 |
5 | 0 | 4 |
El estudio desea conocer cual es la probabilidad de germinación y el número esperado de germinaciones en base a dicha información experimental.
# En primer lugar cargamos los datos
germinadas <- 0:5
estudiantes <- c(17,53,94,79,33,4)
design <- data.frame(Germinadas = germinadas, Frecuencia = estudiantes)
# Para calcular la probabilidad de germinacion utilizamos la definición de probabilidad
# Casos favorables: semillas germinadas por frecuencia de estudiantes
favorables <- sum(germinadas*estudiantes)
# Casos posibles: 5 semillas por cada estudiante
posibles <- 5*280
# Probabilidad de germinación
probabilidad <- round(favorables/posibles,4)
# Número esperado de semillas germinadas
esperanza <- posibles*probabilidad
c(probabilidad,esperanza)
## [1] 0.45 630.00
La probabilidad de germinación es de 0.45 y el número esperado de semillas germinadas es de 630 sobre las 1400 plantadas por los estudiantes.
Podemos obtener ahora la función de densidad de probabilidad asociada con un experimento donde deseamos sembrar 20 semillas de dicha planta.
# Establecemos los posibles resultados del experimneto (número de éxitos posibles)
exito <- 0:20
# Obtenemos ahora la función de densidad
fden <- round(dbinom(exito,20,0.45),6)
# Tabla
res <- as.data.frame(cbind(exito,fden))
colnames(res) <- c("Exito","Probabilidad")
res
## Exito Probabilidad
## 1 0 0.000006
## 2 1 0.000105
## 3 2 0.000816
## 4 3 0.004006
## 5 4 0.013930
## 6 5 0.036471
## 7 6 0.074600
## 8 7 0.122072
## 9 8 0.162300
## 10 9 0.177055
## 11 10 0.159349
## 12 11 0.118524
## 13 12 0.072731
## 14 13 0.036620
## 15 14 0.014981
## 16 15 0.004903
## 17 16 0.001254
## 18 17 0.000241
## 19 18 0.000033
## 20 19 0.000003
## 21 20 0.000000
# Representamos gráficamente
ggplot(res,aes(Exito,Probabilidad)) +
geom_bar(stat = "identity", width = 0.05) +
labs(xlab = "Número de éxitos",ylab = "Probabilidad",title = "Binomial(20, 0.45)")
Los valores más probables son los correspondientes a los valores de germinación entre 7 y 11.
Ejemplo 2. Una empresa que se dedica a la elaboración de alimentos funcionales desea estudiar la línea de producción de sus nuevos embutidos con quinoa. Para ellos toma muestras de cinco productos durante 559 días y valora si el producto cumple con los estándares de calidad necesarios para su venta. Lo datos obtenidos se muestran en la tabla siguiente:
Cumplen con los estándares | Número de días | |
---|---|---|
0 | 16 | |
1 | 27 | |
2 | 80 | |
3 | 152 | |
4 | 180 | |
5 | 104 |
El estudio desea conocer cual es la probabilidad de cumplir con el estádar y el número esperado de productos que cumplen con el estándar en base a dicha información experimental.
# En primer lugar cargamos los datos
grado <- 0:5
dias <- c(16,27,80,152,180,104)
design <- data.frame(Grado = grado, Dlias = dias)
# Casos favorables:
favorables <- sum(grado*dias)
# Casos posibles:
posibles <- 5*559
# Probabilidad de germinación
probabilidad <- round(favorables/posibles,4)
# Número esperado de semillas germinadas
esperanza <- posibles*probabilidad
c(probabilidad,esperanza)
## [1] 0.6737 1882.9915
La probabilidad de cumplir con el estándar es de 0.6737 y el número esperado de productos que cumplene es de 1883 sobre las 2795 que han sido probados.
Podemos obtener ahora la función de densidad de probabilidad asociada con un experimento donde deseamos saber que ocurriría con 25 nuevos embutidos.
# Establecemos los posibles resultados del experimneto (número de éxitos posibles)
exito <- 0:25
# Obtenemos ahora la función de densidad
fden <- round(dbinom(exito,25,0.6737),6)
# Tabla
res <- as.data.frame(cbind(exito,fden))
colnames(res) <- c("Exito","Probabilidad")
res
## Exito Probabilidad
## 1 0 0.000000
## 2 1 0.000000
## 3 2 0.000000
## 4 3 0.000000
## 5 4 0.000000
## 6 5 0.000001
## 7 6 0.000010
## 8 7 0.000053
## 9 8 0.000247
## 10 9 0.000965
## 11 10 0.003186
## 12 11 0.008971
## 13 12 0.021610
## 14 13 0.044617
## 15 14 0.078959
## 16 15 0.119551
## 17 16 0.154270
## 18 17 0.168626
## 19 18 0.154736
## 20 19 0.117702
## 21 20 0.072905
## 22 21 0.035839
## 23 22 0.013454
## 24 23 0.003623
## 25 24 0.000623
## 26 25 0.000051
# Representamos gráficamente
ggplot(res,aes(Exito,Probabilidad)) +
geom_bar(stat = "identity", width = 0.05) +
labs(xlab = "Número de éxitos",ylab = "Probabilidad",title = "Binomial(25, 0.6737)")
Los valores más probables son los correspondientes a los valores comprendidos entre 15 y 20, es decir, que esperamos que de los nuevos 25 que vamos a producir entre 15 y 20 cumplan con el estándar de calidad.
La distribución de Poisson se emplea como un modelo para variables aleatorias de tipo discreto cuando se quieren obtener las probabilidades de ocurrencia de un evento que se distribuye al azar en el espacio o el tiempo. Algunos ejemplos de esta distribución son:
Como se puede ver en los ejemplos la distribución de Poisson es muy habitual en los campos de la biología y la medicina. En una distribución de Poisson, las probabilidades de interés son las de observar un número de eventos, \(x\), en un tiempo o espacio determinado. La distribución de probabilidad para este experimento queda completamente determinada si conocemos el número de eventos y \(\lambda\) la tasa o media del número de eventos que ocurren por unidad de tiempo o espacio. Si \(X\) denota la variable aleatoria asociada con este experimento, la función de densidad de probabilidad se define como: \[P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!}\] Dicha distribución se denota habitualmente: \[ X \sim Po(\lambda)\]. Esta distribución se puede evaluar para cualquier valor entre 0 y el número de máximo de ocurrencias que pueden ocurrir. Dado que este valor no se conoce de antemano se debe prefijar un valor máximo que asegure que la probabilidad de ese valor sea cero.
En R
la función dpois
permite obtener cualquier probabilidad de la distribución de Poisson una vez fijamos el valor que deseamos evaluar (\(x\)), y la tasa o media del número de eventos (\(\lambda\)). Por ejemplo, podemos obtener la función de densidad de probabilidad asociada a un experimento de Poisson con media de ocurrencias de 5:
# Establecemos los posibles resultados del experimneto (número de ocurrencias)
eventos <- 0:20
# Media del número de eventos
media <- 5
# Obtenemos ahora la función de densidad
fden <- dpois(eventos,media)
# Tabla
res <- as.data.frame(cbind(eventos,fden))
colnames(res) <- c("Eventos","Probabilidad")
res
## Eventos Probabilidad
## 1 0 6.737947e-03
## 2 1 3.368973e-02
## 3 2 8.422434e-02
## 4 3 1.403739e-01
## 5 4 1.754674e-01
## 6 5 1.754674e-01
## 7 6 1.462228e-01
## 8 7 1.044449e-01
## 9 8 6.527804e-02
## 10 9 3.626558e-02
## 11 10 1.813279e-02
## 12 11 8.242177e-03
## 13 12 3.434240e-03
## 14 13 1.320862e-03
## 15 14 4.717363e-04
## 16 15 1.572454e-04
## 17 16 4.913920e-05
## 18 17 1.445271e-05
## 19 18 4.014640e-06
## 20 19 1.056484e-06
## 21 20 2.641211e-07
# Representamos gráficamente
ggplot(res,aes(Eventos,Probabilidad)) +
geom_bar(stat = "identity", width = 0.05) +
labs(xlab = "Número de eventos",ylab = "Probabilidad",title = "Poisson(5)")
Como se puede ver en el gráfico los valores más probables se concentran alrededor de la tasa media de ocurrencia del evento.
Una vez establecida la función de densidad de probabilidad resulta posible obtener el valor esperado del número de eventos ocurridos, así como conocer su variabilidad haciendo uso de las definiciones expuestas en el tema anterior. En concreto, para una variable que sigue una distribución de probabilidad Poisson (\(X \sim Po(\lambda)\)) tenemos que: \[E(X) = \lambda\] \[V(X) = \lambda\] \[DT(X) = \sqrt{\lambda}\]
En nuestro ejemplo tendríamos que el número esperado de eventos se situaría en \(5\) y la variabilidad (en términos de la desviación típica) en \(\sqrt{5} = 2.24\), lo que implica que los valores más probables se sitúan entre 3 y 7 eventos (\(5 \pm 2\)).
A continuación se calculan las probabilidades de interés para cada uno de los ejemplos anteriores.
## [1] 0.8646647
## [1] 0.6065307
ppois
que nos permite calcular la función de distribución asociada.## [1] 0.3711631
Exploramos ahora situaciones donde necesitamos reajustar la tasa de eventos para el calculo de probabilidades. Un laboratorio es capaz de realizar 20 análisis de cierto tipo en un hora. ¿Cuál es la probabilidad de realizar entre 30 y 36 análisis en las próximas dos horas?¿y la probabilidad de realizar más de 36?
En este caso conocemos la tasa media por hora pero al preguntarnos por una unidad de tiempo mayor es necesario adaptar dicha tasa.
# Tasa por hora
tasa <- 20
# Unidad de tiempo
horas <- 2
# Tasa en el intervalo de tiempo solicitado
media <- tasa*horas
media
## [1] 40
## [1] 0.2346519
## [1] 0.7575858
En este apartado vemos como obtener la distribución de Poisson asociada a una muestra de datos correspondientes a un estudio experimental. El ajuste de dicha distribución nos permitirá obtener la probabilidad asociada a cualquier situación experimental de la población bajo estudio.
Ejemplo 1. Se ha contabilizado el número de reacciones químicas (en realidad cambios de temperatura) que se producen en un compuesto durante un período de cinco horas. Las mediciones se han realizado todos los días durante 20 semanas. Las mediciones obtenidas aparecen en la tabla siguiente:
Reacciones químicas | Número de días | |
---|---|---|
0 | 12 | |
1 | 10 | |
2 | 19 | |
3 | 17 | |
4 | 10 | |
5 | 8 | |
6 | 7 | |
7 | 5 | |
8 | 5 | |
9 | 3 | |
10 | 3 | |
11 | 1 |
Ajustamos la distribución de Poisson correspondiente y calculamos cuál es la probabilidad de que ocurran más de 9 reacciones químicas
# En primer lugar cargamos los datos
reacciones <- 0:11
frecuencia <- c(12,10,19,17,10,8,7,5,5,3,3,1)
design <- data.frame(reacciones, frecuencia)
# Para calcular la tasa debemos calcular la media ponderada del número de eventos
# Mediciones totales
total <- sum(frecuencia)
# Media ponderada
media <- sum(reacciones*frecuencia)/total
# Número esperado de reacciones
media
## [1] 3.64
La media de reacciones químicas se sitúa en 3.64. Calculamos ahora la probabilidad de interés
## [1] 0.012455
Ejemplo 2. La probabilidad de que un individuo sufra una reacción al inyectarle un suero es 0.001. Determinar la probabilidad de que de un total de 2000 personas más de dos individuos sufran una reacción. Para poder ajustar la distribución de Poisson es necesario ajustar la tasa media de eventos que en este caso viene dada por el producto del número de repeticiones por la probabilidad de sufir una reacción
## [1] 0.5939942
Hay una probabilidad de 0.59 de observar dos reacciones entre los 2000 sujetos. Este problema también se podría haber resuelto a partir de la distribución Binomial pero cuando el tamaño de la muestra multiplicado por la probabildiad de exíto (\(n\theta\)) es muy pequeña en comparación con dicho tamaño (2000),se considera la denominda aproximación de la Binomial por la Poisson que es lo que hemos hecho en este caso. Esto implica que en los caso de uso de la Binomial habrá que comprobar esta propiedad en primer lugar para conocer si el cálculo de probabilidad lo debemos hacer con la distribución de Poisson obtenida de esta forma.
Hasta ahora todas las distribuciones consideradas eran de tipo de discreto. En este punto tratamos la distribución de probabilidad de tipo continuo y más concreta mente la más famosa y utilizada de todas ellas: la distribución de probabilidad Normal. Una variable de tipo continuo es aquella que puede tomar cualquier valor dentro de un rango de valores, es decir, existe un infinito número de valores posibles para la variable aleatoria. Para representar gráficamente una distribución de una variable aleatoria continua se debe construir un subconjunto de clases o intervalos consecutivos para el rango de valores de la variable considerada y considerar el histograma resultante. Cuando consideramos un número muy grande de clases o intervalos podríamos obtener la curva suavizada que representa la función de densidad de probabilidad de la variable aleatoria. A continuación se muestra la representación gráfica de una variable continua cuando consideramos 5, 10, 20, 50 0 75 clases, así como la función de densidad teórica correspondiente. Como se observa cuanto mayor es el número de intervalos considerados más se parece el histograma a la función de densidad de probabilidad.
set.seed(1492)
df <- data.frame(x = rnorm(5000))
x <- df$x
# 5 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 5) + stat_function(fun = dnorm, colour = "red")
base
# 10 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 10) + stat_function(fun = dnorm, colour = "red")
base
# 20 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 20) + stat_function(fun = dnorm, colour = "red")
base
# 50 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 50) + stat_function(fun = dnorm, colour = "red")
base
# 75 clases
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 75) + stat_function(fun = dnorm, colour = "red")
base
Esta aproximación gráfica nos permite extraer varias conclusiones muy relevantes para el cálculo de probabilidades en variables aleatorias de tipo continuo: 1. Dado que la probabilidad total para el rango de valores de la variable debe ser uno esto implica que el área bajo la curva de densidad obtenida debe ser igual a uno, ya que representa la función de densidad de probabilidad de todos ellos. 2. La función de densidad de probabilidad en un único valor es siempre cero ya que el área de un punto del eje x es cero 3. Solo podemos calcular probabilidades para una rango de valores de la variable, que coincide exactamete con el area bajo la curva que queda englobada entre los dos valores del eje x correspondientes a la variable de interés.
Para el ejemplo anterior ¿cuál es la probabilidad entre los valores de x comprendidos entre -1 y 1?
set.seed(1492)
df <- data.frame(x = rnorm(5000))
x <- df$x
base <- ggplot(df, aes(x)) + geom_histogram(aes(x,..density..),bins = 75) + stat_function(fun = dnorm, colour = "red")
base
# Shading from x = -1 to x = 1 (within one std deviation):
dnorm_one_sd <- function(x){
norm_one_sd <- dnorm(x)
# Have NA values outside interval x in [-1, 1]:
norm_one_sd[x <= -1 | x >= 1] <- NA
return(norm_one_sd)
}
# Plot:
base + stat_function(fun = dnorm) +
stat_function(fun = dnorm_one_sd, geom = "area", fill = "yellow", alpha = 0.3)
Por tanto, el histograma se trata de una aproximación a la probabilidad real, lo que resulta de una gran relevancia ya que si asumimos una distribución teórica para el conjunto de datos experimentales sera posible evaluar cualquier probabilidad asociada con ella.
La función de densidad de probabilidad para una variable aleatoria \(X\) que sigue una distribución Normal con parámetros \(\mu\) y \(\sigma\), denotada por \(N(\mu, \sigma^2)\) viene dada por: \[f(x) = \frac{1}{2\pi\sigma^2} exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)\] Los dos parámetros de la distribución son \(\mu\) que representa la medida de localización y \(\sigma\) la medida de dispersión. Habitualmente los conocemos por sus nombres más habituales como son la media y la desviación típica. En concreto, para una variable que sigue una distribución de probabilidad Normal (\(X \sim N(\mu, \sigma^2)\)) tenemos que: \[E(X) = \mu\] \[V(X) = \sigma^2\] \[DT(X) = \sigma\]
A continuación se representan diferentes funciones de densidad para diferentes valores de los parámetros:
normal2 <- function(x){dnorm(x, mean = 0, sd = 3)}
grafico <- ggplot(data.frame(x = c(-10, 10)), aes(x)) + stat_function(fun = dnorm)
grafico <- grafico + stat_function(fun = normal2,colour = "red")
grafico
normal2 <- function(x){dnorm(x, mean = 3, sd = 1)}
grafico <- ggplot(data.frame(x = c(-10, 10)), aes(x)) + stat_function(fun = dnorm)
grafico <- grafico + stat_function(fun = normal2,colour = "red")
grafico
A continuación se presentan algunas de las características más importantes de la distribución Normal:
\[ X \sim N(\mu, \sigma^2) \Longrightarrow aX \sim N(a\mu, a^2\sigma^2)\] * Dada dos variables aleatorias Normales, \(X e Y\), con medias y desviaciones típicas respectivas: \(\mu_1\), \(\sigma_1\) y \(\mu_2\), \(\sigma_2\) y dos escalares \(a\) y \(b\) tenemos que
\[ X \sim N(\mu_1, \sigma^2_1), Y \sim N(\mu_2, \sigma^2_2) \Longrightarrow aX + bY\sim N(a\mu_1+b\mu_2, a^2\sigma^2_1+b^2\sigma^2_2)\]
Esta última propiedad se puede generalizar para el caso de \(m\) variables aleatorias en lugar de 2.
Si las variables aleatorias \(X_1,...X_n\) son una muestra aleatoria de una distribución con media \(\mu\) y desviación típica \(\sigma\) entonces las variables aleatorias suma (\(T = X_1+...+X_n\)) y media (\(M = (X_1+...+X_n)/n\)) tienen distribuciones: \[ T \sim N\left(n\mu,n\sigma^2\right)\] \[ M \sim N\left(\mu,\frac{\sigma^2}{n}\right)\] Ejemplo. Supóngase que las personas que asisten a una fiesta sriven bebidas de una botella que contiene 63 onzas de un cierto líquido. Su el tamaño esperado de cada bebida es de 2 onzas con una deviación típica de 0.5 onzas. ¿Cuál es la probabilidad de que la botella no está vacia después de haber servido 36 bebidas?
Ejemplo. Imaginemos que los valores de colesterol de una cierta población pueden asimilarse a una distribución Normal con media de 200 mg/100 ml y desviación típica de 20 mg/100 ml. Si se selecciona a un individuo de la población y se analiza su nivel de colesterol: i) ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?, ii) ¿Cuál es la probabilidad de que el nivel de colesterol sea inferior a 150 mg/100 ml?, iii) ¿Cuál es la probabildiad de que el nivel de colesterol sea superior a 225 mg/100 ml?, iv) ¿Cuál es la probabilidad de que el nivel de colesteril se sitúe entre 190 y 210 mg/100 ml?
Para realizar los calculos de probabilidad utilizamos la función pnorm()
que nos permite obtener la función de disttribución normal
# ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?
pnorm(200, mean = 200, sd = 20) - pnorm(100, mean = 200, sd = 20)
## [1] 0.4999997
# ¿Cuál es la probabilidad de que el nivel de colesterol sea inferior a 150 mg/100 ml?
pnorm(150, mean = 200, sd = 20)
## [1] 0.006209665
# ¿Cuál es la probabildiad de que el nivel de colesterol sea superior a 225 mg/100 ml?
1 - pnorm(225, mean = 200, sd = 20)
## [1] 0.1056498
# ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?¿Cuál es la probabilidad de que el nivel de colesteril se sitúe entre 190 y 210 mg/100 ml?
pnorm(210, mean = 200, sd = 20) - pnorm(190, mean = 200, sd = 20)
## [1] 0.3829249
Dada una variable aleatoria \(X\) con distribución de probabilidad \(N(\mu,\sigma^2)\) la variable aleatoria \(Z\) definida como \[Z=\frac{X-\mu}{\sigma}\] tiene una distribución de probabilidad \(N(0,1)\) (denominada Normal estándar), es decir, \[Z \sim N(0,1)\]
La tipificación toma la distribución de una variable aleatoria y la transforma en otra sin más que restar por la media y dividir por la desviación típica. Esta distribución tipificada se utiliza habitualmente para el cálculo de probabilidades y para representar variables que no dependen de la media ni la desviación típica. En este caso \(E(Z) = 0\) y \(V(Z) = 1\).
En este enlace se pueden realizar los cálculos de probabilidad (así como su representación gráfica) asociados con la normal estándar.
Para los datos del ejemplo anterior, los valores tipificados en cada situación vienen dados por:
# ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?
(200 - 200) / 20
## [1] 0
## [1] -5
# ¿Cuál es la probabilidad de que el nivel de colesterol sea inferior a 150 mg/100 ml?
(150 - 200) / 20
## [1] -2.5
# ¿Cuál es la probabildiad de que el nivel de colesterol sea superior a 225 mg/100 ml?
(225 - 200) / 20
## [1] 1.25
# ¿Cuál es la probabilidad de que el nivel de colesterol se sitúe entre 180 y 200 mg/100 ml?¿Cuál es la probabilidad de que el nivel de colesteril se sitúe entre 190 y 210 mg/100 ml?
(210 - 200) / 20
## [1] 0.5
## [1] -0.5
Utilizando el enlace anterior comprueba que las probabildiades obtenidas son las mismas que las obtenidas anteriormente.
A partir de la distribución de probabilidad Normal se pueden obtener otras distribuciones de probabilidad que resultan de gran utilidad para los procesos de generalización de resultados de un diseño experimental a una población que veremos en la unidad siguiente.
Sean n variables aleatorias \(X_1,...,X_n\) independientes entre sí cuya distribución de probabilidad es idéntica para todas ellas e igual a una Normal estándar (\(N(0,1)\)). Si definimos la variable aleatoria suma como: \[X = X_1 + ... + X_n,\] entonces decimos que \(X\) se distribuye según una distribución Chi-cuadrado con \(n\) grados de libertad y la denotamos por \[X \sim \chi^2_n.\]
Si tenemos dos variables aleatorias independientes \(Y\) y \(Z\) con distribuciones de probabilidad \[Z \sim N(0,1); Y \sim \chi^2_n,\] y consideramos la variable aleatoria \(X\) dada por: \[X = \frac{Z}{\sqrt{Y/n}},\] entonces decimos que dicha variable sigue una distribución \(t\) de Student con \(n\) grados de libertad, y se denota por \[X \sim t_n.\]
Si tenemos dos variables aleatorias independientes \(Y\) y \(Z\) con distribuciones de probabilidad \[Z \sim \chi^2_n; Y \sim \chi^2_m,\] y consideramos la variable aleatoria \(X\) dada por: \[X = \frac{Z/n}{Y/m},\] entonces decimos que dicha variable sigue una distribución \(F\) de Snedecor con \(n\) y \(m\) grados de libertad, y se denota por \[X \sim F_{n,m}.\]
En este punto se presentan otras distribuciones de probabilidad que aunque resultan muy habituales en la práctica no son el objetivo de este temario. Se muestran como ejemplos de otros tipos de distribuciones.
La distribución de probabilidad Geométrica es de tipo discreto y se utiliza para modelizar situaciones experimentales donde se está interesado en saber cuantos fracasos han ocurrido hasta que aparece un éxito. Un ejemplo habitual es contar el número de piezas sin defectos hasta que encontramos una con defecto. Si \(\theta\) denota la probabilidad de éxito, la función de densidad de probabilidad de una variable aleatoria \(X\) de tipo geométrica, \(X \sim Ge(\theta)\) viene dada por: \[f(x) = (1 - \theta)^k \theta, k=1,2,3,...\] donde \(k\) representa el número de fracasos, es decir, que la función de densidad representa la probabilidad de encontrar \(k\) fracasos hasta el primer éxito. Una vez especifica la probabilidad de éxito \(\theta\) tenemos que: \[E(X) = \frac{1}{\theta}\] \[V(X) = \frac{1-\theta}{\theta^2}\] \[DT(X) = \sqrt{\frac{1-\theta}{\theta^2}}\] Para los cálculos de probabilidad debemos usar las funciones dgeom()
y pgeom()
.
La distribución exponencial es el equivalente continuo de la distribución geométrica discreta. Esta distribución describe procesos en los que nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, el tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un instante tf, no depende del tiempo transcurrido anteriormente en el que no ha pasado nada.
Ejemplos de este tipo de distribuciones son:
La distribución exponencial viene completamente especificada, a través del parámetro \(\lambda >0\) que mide el número medio de veces que ocurre el evento de interés, mediante la función de densidad: \[f(x) =\lambda e^{-\lambda t}, t \geq 0\] Si \(X \sim Exp(\lambda)\) entonces tenemos que: \[E(X) = \frac{1}{\lambda}\] \[V(X) = \frac{1}{\lambda^2}\] \[DT(X) = \frac{1}{\lambda}\] Para los cálculos de probabilidad debemos usar las funciones dexp()
y pexp()
.
Funciones para el cálculo de probabilidades onjunta, marginales, teorema de Bayes y teorema de la probabilidad total:
# Cálculo de probabilidades
calculo.probabilidades <- function(npmarg,etimarg,probmarg,npcond,etimarg2,probcond)
# Suceso A
# npmarg = número de probabildiades marginales
# etimarg = etiquetas para las probabilidades marginales
# probmarg = probabilidades marginales
# Suceso B dado A
# npcond = número de probabildiades condicionadas por cada valor de A
# etimarg2 = etiquetas para las probabilidades marginales por cada valor de A
# probcond = probabilidades marginales ordenadas para lemento de A
{
# Probabilidad marginal P(A)
pmarginal <- matrix(rep(probmarg,npcond),nrow = npmarg)
# Probabilidad condicionada P(B|A)
pcondicional <- matrix(probcond, nrow = npmarg, byrow=T)
# Probabilidad conjunta P(A,B)
pconjunta <- pmarginal*pcondicional
rownames(pconjunta) <- etimarg
colnames(pconjunta) <- etimarg2
# Probabilidad Total
ptotal <- apply(pconjunta,2,sum)
# Teorema de Bayes
res <-matrix(rep(ptotal,npmarg),nrow = npmarg, byrow =T)
pbayes <- pconjunta / res
# Resultado
return(list(Conjunta = round(pconjunta,4), Total = round(ptotal,4), Bayes = round(pbayes,4)))
}
Función para probabilidad de screening
Screening <- function(positivos,negativos,etitest,etienfermedad,incidencia)
# positivos = resultados positivos del test empezando por los que padecen la enfermedad
# negativos = resultados negativos del test empezando por los que padecen la enfermedad
# etitest = etiquetas del test diagnóstico
# etienfermedad = etiquetas de enfermos y sanos
# incidencia = incidencia de la enfermedad en la población
{
# Tabla de resultados
tabla <- matrix(c(positivos,negativos), ncol = 2, byrow = T)
rownames(tabla) <- etitest
colnames(tabla) <- etienfermedad
# Calculo de totales
total.test <- apply(tabla,1,sum)
total.enfermedad <- apply(tabla,2,sum)
total <- sum(total.test)
# Probabilidades marginales
marginal.enfermos <- tabla[,1]/total.enfermedad[1]
marginal.sanos <- tabla[,2]/total.enfermedad[2]
# Resultados
Sensibilidad <- marginal.enfermos[1]
Especificidad <- marginal.sanos[2]
Predictivo.positivo <- (Sensibilidad*incidencia)/(Sensibilidad*incidencia + (1-Especificidad)*(1-incidencia))
Predictivo.negativo <- (Especificidad*(1-incidencia))/(Especificidad*(1-incidencia) + (1-Sensibilidad)*incidencia)
return(round(data.frame(Sensibilidad,Especificidad,Predictivo.positivo,Predictivo.negativo),4))
}
Calculo de probabilidades
## $Conjunta
## Rendimiento 1 Rendimiento 2 Rendimiento 3
## Proyecto A 0.10 0.3 0.10
## Proyecto B 0.15 0.2 0.15
##
## $Total
## Rendimiento 1 Rendimiento 2 Rendimiento 3
## 0.25 0.50 0.25
##
## $Bayes
## Rendimiento 1 Rendimiento 2 Rendimiento 3
## Proyecto A 0.4 0.6 0.4
## Proyecto B 0.6 0.4 0.6
Screening
## Sensibilidad Especificidad Predictivo.positivo Predictivo.negativo
## + 0.9689 0.99 0.9251 0.996
Colección de ejercicios
Ejercicio 1. Se hacen dos inversiones de 10000 € en dos proyectos. Se supone que el proyecto A va a producir un rendimiento neto de 800, 1000 y 1200 euros con probabilidades respectivas de 0.2, 0.6, 0.2. Se supone que el proyecto B va a producir una ganancia neta de 800, 1000, y 1200 euros con probabilidades respectivas 0.3, 0.4, 0.3. Si asumimos que lo que se gana con un proyecto es independiente de lo que se gana con el proyecto.
Ejercicio 2. Un fabricante de galletas presenta muchos productos nuevos cada año, de los cuales cerca del 60% fracasan, 30% tienen un éxito moderado y un 10% tienen un gran éxito. Para mejorar sus posibilidades, el fabricante somete a una prueba sus nuevos productos ante un grupo de clientes, que actúa como jurado calificador. De los fracasos, 50% se califican como malos, 30% como regulares y 20% como buenos. Para los que tuvieron un éxito moderado, la calificación es mala para un 20%, regular para un 40% y buena para otro 40%. Para los que tuvieron gran éxito, los porcentajes son: malos 10%, regulares 30% y buenos 60%.
Ejercicio 3. El 1% de los préstamos que hace cierta empresa financiera no son saldados (es decir, la cantidad prestada no le es devuelta en su totalidad). La compañía efectúa un estudio rutinario de las posibilidades crediticias de los solicitantes. Encuentra que el 30% de los préstamos no saldados se hicieron a clientes de alto riesgo, el 40% a clientes de riesgo moderado y el restante 30% a clientes de bajo riesgo. De los préstamos que fueron saldados, el 10% se hicieron a clientes de alto riesgo, el 40% a clientes de riesgo moderado y el 50% a clientes de bajo riesgo.
Ejercicio 4. Una empresa manufacturera tiene tres operarios para una máquina que produce cierto tipo de componentes. El operario A tiene una tasa de defectos del 5%; el operario B, del 3%, y el operario C, del 2%. Los tres operarios producen el mismo número de componentes. Si un componente elegido al zar resulta defectuoso ¿cuál es la probabilidad de que el componente haya sido producido por A, B, o C?
Ejercicio 5. Un departamento de compras encuentra que el 75% de sus pedidos especiales se reciben a tiempo. De los pedidos que se reciben a tiempo, el 80% cumple totalmente las especificaciones; de los pedidos que llegan con retraso, el 60% cumple con las especificaciones.
Estudio de caso. Los problemas de inventario tratan de dar respuesta a las necesidades de almacenamiento de las empresas para satisfacer la demanda de los consumidores. En concreto, en este caso se plantea el problema de un distribuidor del mercado central especializado en la venta de fresas. Dicho comerciante compra cajas al precio de 20€, y las vende por 50€, y se plantea dos problemas relacionados directamente con lo que denominamos “inventario”:
Para tratar de determinar el número de cajas que debe comprar y almacenar recoge información sobre la demanda realizada por los clientes en la campaña anterior cuyos datos vienen dados en la tabla siguiente:
Cajas vendidas | Número de días | |
---|---|---|
10 | 15 | |
11 | 20 | |
12 | 40 | |
13 | 25 |
La empresa te proporciona en la tabla siguiente las ganancias esperadas diarias (en euros) asociadas con el número de cajas vendidas y las cajas que debería almacenar:
Demanda | Almacenar 10 cajas | Almacenar 11 cajas |
---|---|---|
10 | 300 | 280 |
11 | 300 | 330 |
12 | 300 | 330 |
13 | 300 | 330 |
En base a esta información se debe obtener la ganancia esperada para cada acción de inventario, y determinar aquella que proporcione mayores beneficios, es decir, las mayores ganancias diarias. ¿Qué recomendación se debería hacer al distribuidor?
Por otro lado, los asesores convencen al distribuidor de que para tener mayor certeza de sus ganancias debería realizar un estudio marginal, que se basa en el hecho de que cuando se compra una unidad adicional de un artículo (en este caso una caja) pueden ocurrir dos cosas: la unidad se vende o no se vende. De esta forma:
Ejercicio 1. Se quiere estudiar la capacidad predictiva de un nuevo síntoma a la hora de detectar cierta enfermedad. Se toma una muestra aleatoria de 775 sujeto enfermos de los cuales 744 muestran el síntoma. Por otro lado se toma una muestra de 1380 sujetos sin la enfermedad de los cuales 21 muestran el síntoma.
Ejercicio 2. En la siguiente tabla se muestran los resultados de un estudio para evaluar la utilidad de una tira reactiva para el diagnóstico de infección urinaria.
Tira reactiva | Con infección | Sin infección |
---|---|---|
Positiva | 60 | 80 |
Negativa | 10 | 200 |
¿Cuál es la sensibilidad y especificidad del test? ¿Podríamos representar el valor predictivo positivo en función de la incidencia de la enfermedad?¿Como lo harías?
Ejercicio 3. El jefe de enfermería del Hospital ha decidido evaluar la validez de la determinación de la palidez palmar para diferenciar los niños y niñas que tienen baja concentración de hemoglobina de aquellos que tienen una concentración de hemoglobina normal. De esta manera, podrá ampliar la detección del problema que actualmente está reducida por falta de capacidad del laboratorio para procesar las muestras de sangre de los centros de salud. Para esto capacitará a personal de enfermería de los Centros de Salud en la identificación de la palidez palmar y les pedirá que clasifiquen a los niños y niñas atendidos para consulta de control durante una semana en dos grupos: CON PALIDEZ PALMAR y SIN PALIDEZ PALMAR. Otra enfermera realizará una toma de muestra de sangre capilar para realizar un hematocrito, la que será enviada al laboratorio del Hospital donde se determinará la concentración de hemoglobina de cada niño o niña. Luego de una semana de trabajo, la jefa de enfermería obtuvo 124 informes de niños y niñas en los que el personal de enfermería evaluó la palidez palmar. Entre estos encontró que 28 fueron clasificados como CON PALIDEZ PALMAR mientras que el resto fue clasificado como SIN PALIDEZ PALMAR. Luego verificó los resultados obtenidos para cada niño o niña según los informes de laboratorio. Encontró que entre los 28 niños o niñas CON PALIDEZ PALMAR 18 tenían una concentración de hemoglobina baja mientras que el resto tenía concentración normal de hemoglobina. A su vez, encontró que, entre los niños y niñas SIN PALIDEZ PALMAR, 14 tenían concentración de hemoglobina baja, mientras que el resto tenía concentración normal de hemoglobina. Obtén la sensibilidad, especificidad y valores predictivos para esta situación.
Ejercicio 4. Se ha decidido incorporar una nueva técnica de diagnóstico de infección por Streptococo en pacientes con sospecha de faringitis con el fin de disminuir la indicación empírica de antibióticos en el consultorio ambulatorio del Hospital. Previo a incorporar esta nueva técnica se ha decidido evaluar su validez comparándola con el cultivo de fauces como prueba patrón. Para ello se estudiaron 320 personas que consultaron durante una semana por dolor de garganta y a todas ellas se les realizó la nueva técnica de diagnóstico rápido y se envió una muestra de fauces para el cultivo. La nueva técnica de diagnóstico rápido identificó a 212 personas como positivas para Streptococco. Luego de estudiarse las muestras en el laboratorio, se encontró que hubo 128 casos con aislamiento de Streptococco por cultivo, 84 de los cuales habían sido identificados por la nueva técnica rápida como positivos. Obtén la sensibilidad, especificidad y valores predictivos para esta situación.
Ejercicio 1. Se conoce que la probabilidad de que el vapor se condense en un tubo de aluminio de cubierta delgada a 10 atm de presión es de 0.40. Si se prueban 12 tubos de ese tipo y bajo esas condiciones, determina la probabilidad de que: a) el vapor se condense en 4 de los tubos, b) en más de 2 tubos se condense el vapor, c) el vapor se condense en exactamente 5 tubos.
Ejercicio 2. La probabilidad de que el nivel de ruido de un amplificador de banda ancha exceda de 2 dB (decibelios) es de 0.15, si se prueban 10 amplificadores de banda ancha, determina la probabilidad de que; a) en solo 5 de los amplificadores el nivel de ruido exceda los 2 dB, b) por lo menos en 2 de los amplificadores, el ruido exceda de 2 dB, c) encuentra el número esperado de amplificadores que se exceden de un nivel de ruido de 2 dB y su desviación estándar.
Ejercicio 3. En un experimento se comprobó que la aplicación de un tratamiento químico aumentaba la resistencia a la corrosión de un material en un 80 % de los casos. Si se tratan ocho piezas, determina: (i) probabilidad de que el tratamiento sea efectivo para más de cinco piezas, (ii) probabilidad de que el tratamiento sea efectivo para al menos tres piezas, (iii) número de piezas para las que espera que el tratamiento sea efectivo.
Ejercicio 4. Se dispone de un cristal que tiene dos tipos de impurezas que absorben radiación de la misma longitud de onda. Una de ellas emite un electrón tras la absorción de un fotón, mientras que la segunda no emite electrones. Las impurezas están en igual concentración y distribuidas homogéneamente en el cristal. Sin embargo, la sección eficaz de absorción, que es una medida de la probabilidad de absorber un fotón, es 90 veces mayor para la impureza que emite electrones que el de la impureza que no los emite. Suponiendo que sobre el cristal inciden 200 fotones y que este es lo suficientemente grande para absorber todos, calcula la probabilidad de que al menos se emitan tres electrones.
Ejercicio 5. Un contrato estipula la compra de componentes en lotes grandes que deben contener un máximo de 10% de piezas con algún defecto. Para comprobar la calidad se toman 11 unidades y se acepta el lote si hay como máximo 2 piezas defectuosas. ¿Es un buen procedimiento de control?
Ejercicio 6. Las piezas de un proceso de fabricación pueden ser aceptables o defectuosas. Cuando el proceso está bajo control, el porcentaje de piezas defectuosas fabricadas es 3%. De la producción de cada hora se toma una muestra de 200 piezas al azar.
Ejercicio 7. El ingeniero de calidad decide que si el número de defectuosas en la muestra es 8 o más, se detenga el proceso y se analice si está bajo control.
Ejercicio 8. El 0.1$ de una población son alérgicos a una cierta vacuna. Se inyecta esta vacuna a 1200 personas. Calcular la probabilidad de que tengan una reacción alérgica:
Ejercicio 1. En la inspección de una hojalata producida por un proceso electrolítico continuo, se identifican 0.2 imperfecciones en promedio por minuto. Determina las probabilidades de identificar a) una imperfección en 3 minutos, b) al menos dos imperfecciones en 5 minutos, c) un máximo de una imperfección en 15 minutos.
Ejercicio 2. Consideremos que el número de trozos de chocolate en una determinada galleta sigue una distribución de Poisson. Queremos que la probabilidad de que una galleta seleccionada al azar tenga por lo menos tres trozos de chocolate sea mayor que 0.8. Encontrar el valor entero más pequeño de la media de la distribución que asegura esta probabilidad.
Ejercicio 3. Un fabricante de maquinaria pesada tiene instalados en el campo 3840 generadores de gran tamaño con garantía. Sí la probabilidad de que cualquiera de ellos falle durante el año dado es de 1/1200 determine la probabilidad de que a) 4 generadores fallen durante el año en cuestión, b) que más 1 de un generador falle durante el año en cuestión.
Ejercicio 4. En un proceso de manufactura, en el cual se producen piezas de vidrio, ocurren defectos o burbujas, ocasionando que la pieza sea indeseable para la venta. Se sabe que en promedio 1 de cada 1000 piezas tiene una o más burbujas. ¿Cuál es la probabilidad de que en una muestra aleatoria de 8000 piezas, menos de 3 de ellas tengan burbujas?
Ejercicio 5. Un fabricante cultiva virus (para la fabricación de una vacuna) que guarda en un medio líquido. Se supone que los virus se distribuyen al azar y, por tanto, el número de virus por \(cm^3\) cada una, se han obtenido los datos siguientes:
n virus | 0 | 1 | 2 | 3 | 4 | |
---|---|---|---|---|---|---|
frecuencia | 45 | 24 | 7 | 1 | 1 |
¿Cuál es la distribución teórica asumida? En base a la información obtenida ¿cuál es el parámetro de interés? ¿Cuál es la función de densidad de probabilidad? ¿Cuanto se parecen las frecuencias experimentales con las teóricas obtenidas a partir de la distribución de probabilidad?
Ejercicio 6. Se sabe que el número de microorganismos por gramo de una cierta muestra de suelo diluida en agua destilada se distribuye según una variable aleatoria de media 0.08. Si una preparación con un gramo de esta disolución se vuelve turbia, este gramo contiene al menos un microorganismo. Hallar la probabilidad de que una preparación que se ha vuelto turbia contenga:
Ejercicio 7. En un monte, el número de plantas de romero por círculo de un metro de radio, se distribuye según una variable aleatoria. Se eligen 1o plantas al azar y se mide la distancia a la planta que tiene más próxima. Las distancias observadas fueron (medidas en metros): 0.7, 1.7, 1.2, 0.4, 0.2, 0.5, 0.7, 0.8, 1.5, y 2.1. A partir de estos datos estima los parámetros de interés de la distribución y calcula cuantas plantas es de esperar que habrá en una zona del monte de unos 12500 \(m^2\) de superficie.
Ejercicio 1. Una fuente radiactiva emite partículas según un proceso de Poisson de media 10 partículas por minuto. Se desea calcular:
Ejercicio 2. En un experimento de laboratorio se utilizan 10 gramos de \(\,_{84}^{210}\!Po\). Sabiendo que la duración media de un átomo de esta materia es de 140 días, ¿cuantos idas transcurrirán hasta que haya desaparecido el \(90\%\) de este material?
Ejercicio 3. Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una distribución exponencial con media de 16 años. ¿Cuál es la probabilidad de que a una persona a la que se le ha implantado este marcapasos se le deba reimplantar otro antes de 20 años? Si el marcapasos lleva funcionando correctamente 5 años en un paciente, ¿cuál es la probabilidad de que haya que cambiarlo antes de \(25\%\) años?
Ejercicio 4. En una tienda departamental el tiempo promedio de espera para ser atendido en cajas al pagar la mercancía es de 7 minutos. Determine la probabilidad de que: a) Un cliente espere menos de 4 minutos. b) Un cliente espere más de 9 minutos.
Ejercicio 5. La vida media de un dispositivo es de 7 años. ¿Cuál es la probabilidad de que un dispositivo de este tipo falle después del 7°-año de uso?
Ejercicio 6. Los administradores de cierta industria han notado que su producto tiene un tiempo de duración que puede considerarse una variable aleatoria con distribución exponencial con una vida media de 5 años. a)¿cuál es la probabilidad de que al elegir un artículo de dicha producción dure más de 10 años? b)¿si el tiempo de garantía asignado por los administradores es de 1 año, qué porcentaje de sus productos tendrá que reparar la industria durante el periodo de garantía?
Ejercicio 7. Un motor eléctrico tiene una vida media de 6 años. Si la vida útil de este tipo de motor puede considerarse como una variable aleatoria distribuida en forma exponencial. ¿Cuál debe ser el tiempo de garantía que debe tener el motor si se desea que a lo más el 15 % de los motores fallen antes de que expire su garantía?.
Ejercicio 1. Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta el nacimiento de una hija. Calcular el número esperado de hijos (entre varones y hembras) que tendrá el matrimonio. Calcular la probabilidad de que la pareja acabe teniendo tres hijos o más.
Ejercicio 2. Se estima que el 70 % de una población de consumidores prefiere una marca en particular de pasta de dientes A ¿cuál es la probabilidad que al entrevistar a un grupo de consumidores.
Ejercicio 3. La probabilidad de que una muestra de aire contenga una molécula rara es de 0.01 si se supone que las muestras son independientes con respecto a la presencia de la molécula rara.¿Cuál es la probabilidad de que sea necesario analizar exactamente 125 muestras antes de detectar una molécula rara?
Ejercicio 4. Sea una máquina despachadora de refrescos que arroja un poco más de 20 ml por vaso derramándose el líquido en un 5% de los vasos despachados. Podemos definir la variable aleatoria X: “cantidad de vasos despachados hasta obtener el primero que se derramará” Considere que la forma de despachar el líquido por la máquina es independiente de vaso en vaso.
Ejercicio 1. Cierto tipo de batería de almacenamiento dura,en promedio, 3.0 años, con una desviación típica de 0.5 años. Suponga que la duración de las baterías se distribuye normalmente, encuentre la probabilidad de que una batería dure menos de 2.3 años.
Ejercicio 2. Una empresa eléctrica fabrica focos que tienen una duración media de 800 horas y una desviación típica de 40 horas. Si la duración de los focos sigue una distribución normal, encuentre la probabilidad de que un foco se funda en el intervalo de 778 a 834 horas.
Ejercicio 3. En un proceso industrial el diámetro de un cojinete es una parte importante de un componente. El comprador establece que las especificaciones en el diámetro sean 3.0 ± 0.1 cm. Se sabe que en el proceso el diámetro de un cojinete tiene una distribución normal con media 3.0 cm y una desviación típica de 0.005 cm. En promedio, ¿cuántos cojinetes se descartarán?.
Ejercicio 4. El 6.3% de las observaciones de una magnitud que sigue una distribución normal tiene un valor superior a 3.287, mientras que el 51.2 % tiene valores mayores que 2.897. Calcule la media y la varianza de la distribución.
Ejercicio 5. Considere un experimento de medida del pH de una disolución acuosa caracterizado por \(\mu_{pH}\)= 5.50 y \(\sigma^2_{pH}\) = 0.06. Determine el intervalo de valores en el que espera encontrar el 95% de las medias muestrales de los experimentos que combinen el resultado de 25 determinaciones del pH de la disolución indicada.
Ejercicio 6. La longitud X de ciertos tornillos es una variable aleatoria con distribución normal de media 30 mm y desviación típica 0.2 mm. Se aceptan como válidos aquellos que cumplen \(29.5 \leq X \leq 30.4\). Obtén:
Ejercicio 7. Un país está habitado por dos grupos étnicos: A (alpinos) y N (nórdicos), que se encuentran en las proporciones 0.75 y 0.25. Se sabe que la talla de los individuos adultos varones sigue una distribución aleatoria con media 170 cm y desviación típica de 7 cm para los del grupo A, y media de 176 cm y desviación típica de 7 cm para el grupo N. Se considera que un individuo varón es “alto” si su talla es superior a 180 cm. Se pide:
Ejercicio 8. La longitud L (en micras) de ciertas larvas parásitas de moluscos, sigue la distribución Normal, pero de media y desviación típica distinats, según la larva se encuentre en estadio 1 o en estadio 2 de su crecimiento. La media y la desviación típica son: 219 y 20 para el estadio 1, y 241 y 14 para el estadio 2. Para identificar el estadio en que se encuentra la larva, se adopta el criterio siguiente: Si \(L \leq 230\) pertenece al estadio 1, en otro caso pertenece al estadio 2. Resolver las siguientes cuestiones:
Ejercicio 9. Se ha tomado una muestra de 45 piezas de un proceso que fabrica un promedio de 25% de piezas fuera de especificación. ¿Cuál es la probabilidad de que en la muestra haya exactamente 13 elementos defectuosos? ¿Cuál es la probabilidad de que la muestra contenga 13 o más piezas defectuosas?
Ejercicio 10. El abastecimiento de energía eléctrica de una comarca depende de tres centrales: una nuclear, una téermica de carbón y una hidráulica con potencias instaladas de 500 MW, 300 MW y 200 MW, respectivamente. Desde el punto de vista de fiabilidad, cada central sólo puede estar en uno de estos dos estados: disponible (con toda su potencia) o averiada (con potencia cero). En un díıa, la probabilidad de avería de la central nuclear es 0.10, de la térmica es 0.12 y de la hidráulica 0.05. Las averíaıas son independientes y supondremos como hipóotesis simplificadora que a lo largo de un díıa la central no cambia de estado.
Ejercicio 11. En el proceso de fabricación de unas piezas intervienen dos máquinas: la máquina A produce un taladro cilíndrico y la máquina B secciona las piezas con un grosor determinado. Ambos procesos son independientes. El diámetro del taladro producido por A (en mm.) se distribuye según una N(23,0.5). El grosor producido por B (en mm.) se distribuyes según una N(11.5,0.4).
Ejercicio 12. Supongamos que el diámetro de las aceitunas rellenas de anchoa varía entre 15 y 17 mm. Debido a al sequía del último año, la producción de aceituna verde se ha distribuido según una normal de media 15.5 mm. y desviación típica 1.2 mm. ¿Qué porcentaje de aceitunas podría ser aprovechado para rellenar de anchoa?
Ejercicio 13. La duración media de un lavavajillas es de 15 años y su desviación típica 0.5. Sabiendo que la vida útil del lavavajillas se distribuye normalmente, hallar la probabilidad de que al adquirir un lavavajillas, este dure más de 15 años.
Ejercicio 14. Una normativa europea obliga a que en los envases de yogur no debe haber menos de 120 gr. La máquina dosificadora de una empresa láctea hace los envases de yogur según una distribución normal de desviación típica de 2 gr. y media 122 gr.
Ejercicio 15. Una barra recta se forma conectando tres secciones A,B y C, cada una fabricada con una máquina distinta. La longitud de la sección A, en pulgadas, tiene una distribución normal con media 20 y varianza 0.04. La longitud de la sección B tiene una distribución normal con media 14 y varianza 0.01. La longitud de la sección C tiene una distribución normal con media 26 y varianza 0.04. Las tres secciones e unen de forma que se superponen 2 pulgadas en cada conexión. Si la barra se utiliza en la construcción del ala de un avión y su longitud debe estar entre 55.7 y 56.3 pulgadas ¿cuál es la probabilidad de que la barra sea utilizada?
Ejercicio 16. Los diámetros de los pernos de una caja siguen una distribución normal con una media de 2 centímetros y una desviación típica de 0.03 centímetros. Además tenemos unas tuercas de otra caja que siguen una distribución normal con media 2.02 centímetros y desviación típica de 0.04 centímetros. Un perno y una tuerca ajustarán si el diámetro del agujero de la tuerca es mayor que el diámetro del perno y la diferencia entre estos diámetros no es mayor de 0.05 centímetros. Si seleccionamos ala azar un perno y una tuerca ¿cuál es la probabilidad de que ajusten?
Ejercicio 17. En un experimento de laboratorio se mide el tiempo de una reacción química. Se ha repetido el experimento 98 veces y se obtiene que la media de los 98 experimentos es de 5 segundos con una desviación de 0,05 segundos. ¿Cuál es la probabilidad de que la media poblacional m difiera de la media muestral en menos de 0,01 segundos?
Javier Morales, email: j.morales@.umh.es.
Mª Asunción Martínez, email: am.mayoral@umh.es.