Instituto de Investigación en Ciencias Biomédicas
2024-04-10
A los trabajadores de un hospital les interesa saber si el tiempo promedio que se tarda en atender a los pacientes en el departamento de urgencias ha cambiado con respecto al tiempo estándar de 30 minutos. Se conoce que la desviación estándar de estos tiempos, basada en datos históricos, es de 8 minutos.
Supongamos que se toma una muestra de 100 pacientes recientes y se encuentra que el tiempo promedio de atención es de 32 minutos.
En ese mismo hospital se ha implementado un nuevo sistema de gestión para mejorar el tiempo de atención en el departamento de urgencias. Sin embargo, no se conoce la desviación estándar histórica de los tiempos de atención con este nuevo sistema.
Supongamos que se selecciona una muestra aleatoria de 25 pacientes atendidos bajo el nuevo sistema y se encuentra que el tiempo promedio de atención es de 28 minutos, con una desviación estándar de la muestra de 5 minutos.
Dado que no conocemos la desviación estándar de la población se podría utilizar la prueba T para comparar el tiempo promedio de atención bajo el nuevo sistema con el estándar.
La prueba de hipótesis para este caso es la prueba t student para una muestra
Comparación de media con Distribución normal y varianza poblacional conocida
Cuando se tiene una población con distribución normal (o aproximada a la normal) y se conoce la varianza es posible emplear el estadístico \(Z\) para la prueba de hipótesis.
Se parte del supuesto que \(H_0: \mu= \mu_0\)
El estadístico de prueba es:
\[z= \frac{ \bar{x}- \mu_0}{\sigma/ \sqrt{n}}\] Donde: \(\bar{x}\) es la media de mis datos, \(\mu_0\) es la media hipotética con la que me quiero comparar, \(\sigma\) es la desviación estándar poblacional y \(n\) provienen de mis datos de estudio.
Un grupo de investigadores desean conocer la edad media de cierta población. Saben por estudios anteriores, que la edad de los individuos en la población se distribuye normalmente con \(\sigma^2=27\). Para iniciar su estudio se preguntan ¿Si la media de edad de la población es diferente de 30?. Los investigadores quieren realizar su estudio con un 95% de confianza
Los investigadores tomaron una muestra 50 sujetos con las siguiente edades:
Se sabe por experiencia que los datos provienen de una población aproximadamente normal.
Del problema obtenemos:
5.Evaluación de los supuestos
¿Qué quiero probar?¿Las medias son iguales? ¿las proporciones son distintas?¿Qué quiero hacer con mi prueba estadística?
¿La media de edad de la población es diferente de 30?
Del problema obtenemos:
Min. 1st Qu. Median Mean 3rd Qu. Max.
20.00 26.00 30.50 32.02 38.75 45.00
Del problema obtenemos:
Tomando en cuenta mi hipótesis, la distribución de mis datos y los datos del problema ¿Qué tipo de prueba voy a utilizar?
Z-test
Es la probabilidad de ocurrencia de los valores del estadístico en la región de rechazo cuando la Hipótesis Nula es verdadera.
El valor de \(\alpha\), también denominado nivel de significación, es definido por el investigador antes de recoger los datos, y la costumbre es hacer \(\alpha\)=0.05 o \(\alpha\)=0.01
Cuando la hipótesis es bilateral el valor \(\alpha\) se divide en ambas regiones
Cuando el valor de \(p\) es menor que \(\alpha\) se rechaza la \(H_0\)
¿Qué rechazamos y qué aceptamos?
Dado que elegimos \(\alpha=0.05\) y dado que nuestra hipótesis es bilateral buscamos en tablas el valor \(Z\) adecuado.
En r
lo podemos estimar con la función qnorm
[1] -1.959964
[1] 1.959964
y <- (rnorm(10000000, mean=0, sd=1))
den <- density(y)
plot(den, main="Regla de decisión ejemplo práctico 1", xlab="Valores de Z")
value <- 1.96
polygon(c(den$x[den$x >= value ], value),
c(den$y[den$x >= value ], 0),
col = "slateblue1",
border = 1)
value <- -1.96
polygon(c(den$x[den$x <= value ], value),
c(den$y[den$x <= value ], 0),
col = "slateblue1",
border = 1)
\[z= \frac{ \bar{x}- \mu_0}{\sigma/ \sqrt{n}}\] - Sustituyendo con los datos del Ejemplo 1
\[z= \frac{ mean(edades)-30}{\sqrt{27/50}}\]
\[z= \frac{ mean(edades)-30}{\sqrt{27/50}}\]
R
es:Con base en la regla de decisión, se puede rechazar la hipótesis nula porque 2.7489 está en la región de rechazo. Se puede decir que el valor calculado de la prueba estadística tiene un nivel de significación de .05 a dos colas
El valor que estimamos es mayor al valor de referencia de tablas
y <- (rnorm(10000000, mean=0, sd=1))
den <- density(y)
plot(den, main="Regla de decisión ejemplo práctico 1", xlab="Valores de Z")
value <- 1.96
polygon(c(den$x[den$x >= value ], value),
c(den$y[den$x >= value ], 0),
col = "slateblue1",
border = 1)
value <- -1.96
polygon(c(den$x[den$x <= value ], value),
c(den$y[den$x <= value ], 0),
col = "slateblue1",
border = 1)
legend(x="topleft", legend = "Zona aceptación zona blanca y
la linea verde estadístico obtenido")
abline(v=2.7489, col="green", lw=4)
y <- (rnorm(10000000, mean=0, sd=1))
ggplot(mapping = aes(x=y))+
geom_density()+
ylab("Densidad")+
xlab("Valores de Z")+
ggtitle("Gráfico de decisión",
subtitle = "Zona de aceptación entre las lineas")+
geom_vline(xintercept = c(1.96, -1.96),
color = "red", size=1.5)+
geom_vline(xintercept = 2.7489,
color = "green", size=1.5)
Con un 95% de confianza podemos decir que la media es distinta de 30
r
lo podemos calcular con la función pnorm
[1] 0.002989781
[1] 0.002989781
Tome en cuenta que: lower.tail
debe ser verdadero cuando \(P[X≤ x]\)
P < 0.05 | P ≥ 0.10 |
---|---|
Se rechaza la hipótesis nula | No se puede rechazar la hipótesis nula |
No parece que el azar lo explique todo | No se puede descartar que el azar lo explique todo |
El “efecto” es mayor que el “error” | El “efecto” es similar al “error” |
Hay diferencias estadísticamente significativas | No hay diferencias estadísticamente significativas |
Existen evidencias a favor de la hipótesis alternativa | No existen evidencias a favor de la hipótesis alternativa |
Los datos encontrados son poco compatibles con H0 | Los datos encontrados son compatibles con H0 |
Nota: Los límites 0,05 y 0,10 son arbitrarios, pero comúnmente aceptados.
Otro grupo de investigadores decidió replicar el estudio con el siguiente conjunto de datos:
Todos los pasos del 1 al 5 son iguales al problema anterior
Con base en la regla de decisión, NO existen argumentos para rechazar la \(H_0\) 0.73 está en la región de aceptación.
El valor que estimamos es mayor al valor de referencia de tablas
No existen argumentos para decir que la media es distinta de 30 con un 95% de confianza
r
lo podemos calcular con la función pnorm
R
lo podemos calcular de la siguiente manera:Con base en la regla de decisión, podemos rechazar la \(H_0\)
Existe evidencia con un 95% de confianza de que la media es mayor que 30
El valor de \(p\) quedaría repartido en un solo lado
R
?R
?R
?R
?Si buscamos \(H_A: \mu>30\)
R
?Algunos autores sugieren que la prueba Z sea utilizada para muestras de \(n>30\) basados en el teorema del límite central
El Teorema del Límite Central afirma que, si se toma una cantidad suficientemente grande de muestras aleatorias de una población, con una media y varianza definidas, entonces la distribución de las medias de esas muestras tenderá a seguir una distribución normal (o gaussiana), no importa la forma de la distribución de la población original.
Cuando se conoce la varianza poblacional y los datos siguen una distribución normal podemos emplear el estadísticos \(Z\) para:
La gran desventaja de emplear el estadístico \(Z\) es que difícilmente se conoce la varianza o la desviación estándar poblacional
Cuando no se conoce la varianza poblacional debemos de emplear la prueba t de student
\[t= \frac{ \bar{x}- \mu_0}{s/ \sqrt{n}}\]
\[t= \frac{ \bar{x}- \mu_0}{s/ \sqrt{n}}\]
En matemáticas: Se definen como la dimensión del dominio de un vector aleatorio
En estadística: Se definen frecuentemente como el número de observaciones (piezas de información) en los datos que pueden variar libremente al estimar parámetros estadísticos
Los valores de tablas (de referencia) se pueden obtener
En R
se utiliza la función qt()
dada por:
qt(p, df, ncp, lower.tail = TRUE, log.p = FALSE)
Por ejemplo el valor de \(t\) para una probabilidad de 0.05 para la cola inferior para una \(n\) de 50 es:
En R
se utiliza la función qt()
dada por:
qt(p, df, ncp, lower.tail = TRUE, log.p = FALSE)
Por ejemplo el valor de \(t\) para una probabilidad de 0.05 para la cola superior para un n de 50 es:
R
se utiliza la funciónLa parte de la derecha de la curva se utiliza por ejemplo cuando se busca una media mayor a…
La parte de la derecha de la curva se utiliza por ejemplo cuando se busca una media menor a…
t.test
Los investigadores Castillo y Lillioja describieron una técnica, desarrollada por ellos, para la canulación linfática periférica en seres humanos. Los autores afirman que su técnica simplifica el procedimiento y permite la recolección de volúmenes convenientes de linfa para estudios metabólicos y cinéticos. Los individuos estudiados fueron 14 adultos varones sanos representativos de un rango amplio de pesos corporales. Los datos provienen de una población normal. Una de las variables de medición fue el índice de masa corporal IMC. Los resultados se muestran en objeto llamado “IMC”. 1
t.test
Se pretende saber si es posible concluir que la media del IMC para la población de la que se extrajo la muestra no es 35. Resuelva el ejercicio utilizando los pasos para la prueba de hipótesis.
¿Qué es lo que ser pretende responder?
Si la media del IMC en un grupo de individuos es distinto de 35
La media del IMC para un grupo de individuos no es 35
La media la población para el IMC de cual se extrajeron los datos no es 35
\[t= \frac{ \bar{x}- \mu_0}{s/ \sqrt{n}}\] Necesitamos conocer por lo tanto: - \(s\) - \(n\) - \(\mu_0\)
R
En este punto se identifican los valores críticos que definirán nuestro zona de aceptación.
R
utilizamos la función qt
Estamos buscando cuales el valor de la distribución t para una probabilidad de 0.025 a cada lado de la curva
R
utilizamos la función qt
Estamos buscando cuales el valor de la distribución t para una probabilidad de 0.025 a cada lado de la curva
o de la siguiente manera
Se creo una gráfica con 1000 datos, 999 grados de libertad. Está gráfica es solamente ilustrativa y permite identificar visualemte cuál es nuestra zona de rechazo y cual la de aceptación.
El código fue:
y <- (rt(1000000, df=999999))
den <- density(y)
plot(den, main="Regla de decisión prueba t", xlab="Valores de t")
value <- qt(0.975, df=13)
polygon(c(den$x[den$x >= value ], value),
c(den$y[den$x >= value ], 0),
col = "slateblue1",
border = 1)
value <- qt(0.025, df=13)
polygon(c(den$x[den$x <= value ], value),
c(den$y[den$x <= value ], 0),
col = "slateblue1",
border = 1)
legend(x="topleft", legend = "Zona aceptación en blanco")
Es neceserio calcular el valor de t de nuestros datos para después compararlo con los valores críticos
\(t= \frac{ \bar{x}- \mu_0}{s/ \sqrt{n}}\)
\(t= \frac{ 30.5-35}{10.64 /\sqrt{14}}\)
R
lo podemos hacer utilizando el siguiente código:Con base en la regla de decisión (valores críticos), no existe evidencia para rechazar la hipótesis nula porque \(-1.58\) no es mayor que 2.1603687 ni menor que -2.1603687
y <- (rt(1000000, df=999999))
den <- density(y)
plot(den, main="Regla de decisión prueba t", xlab="Valores de t")
value <- qt(0.975, df=13)
polygon(c(den$x[den$x >= value ], value),
c(den$y[den$x >= value ], 0),
col = "slateblue1",
border = 1)
value <- qt(0.025, df=13)
polygon(c(den$x[den$x <= value ], value),
c(den$y[den$x <= value ], 0),
col = "slateblue1",
border = 1)
legend(x="topleft", legend = "Zona aceptación en blanco")
abline(v=(-1.58), col="green", lw=4)
Con un 95% de confianza podemos decir que la media para IMC de la población no es distinta de 35
En r
lo podemos calcular con la función pt
[1] 0.06906086
[1] 0.06906086
Dado que nuestra hipótesis es unilateral debemos de sumar probabilidades. Da como resultado= 0.1381217.
Podemos concluir que existe una alta probabilidad que los resultados sean debidos al azar. Da como resultado= 0.1381217.
El valor de p es mayor que \(\alpha\) no existen argumentos para rechazar la \(H_0\)
R
?t.test
R
podemos utilizar la función t.test
para determinar si una media de una población es igual a otra media hipotéticat.test
t.test
t.test
t.test
t.test
t.test
t.test
t.test
Ahora los investigadores se pregunta si la media del IMC es menor que 32, resuelva esta pregunta utilizando la función t.test
Bioestadística básica/Posgrados CUCS