Prueba de hipótesis para la comparación de dos proporciones
Bioestadística básica
Pérez-Guerrero EE; PhD
Posgrados CUCS
Contenido
Distribución \(\chi^2\)
Tablas de contingencia
Prueba de \(\chi^2\)
Prueba exacta de Fisher
Introducción
Un grupo de investigadores desea conocer si saltarse el desayuno se asocia con la obesidad. Para ello, plantean un estudio en el que se incluyó dos grupos de individuos: uno integrado por individuos que si se saltaban el desayuno y otro grupo en el que los individuos desayunaban todos los días. Se identificó cuantas personas con sobrepeso había en cada uno de los grupos y se realizó la prueba estadística pertinente.
La prueba indicada para resolver esta pregunta es la prueba \(\chi^2\)
Distribución \(\chi^2\)
Propiedades de la distribución \(\chi^2\)
Es una distribución que contiene solo valores positivos
No sigue un forma de campana
Esta formada por cada uno de los valores de \(Z\) de datos aleatorios elevada al cuadrado
Se describe por una función exponencial
Tiene \(n\) grados de libertad
Definición de la distribución \(\chi^2\)
Dada una variable aleatoria \(y\) que sigue una distribución normal, con media \(\mu\) y varianza \(\sigma^2\) cada valor puede transformarse en la variable normal estándar \(z\) por medio de la siguiente formula:
\[z= \frac{y_i-\mu}{\sigma}\]
Definición de la distribución \(\chi^2\)
Cada valor de \(z\) puede elevarse al cuadrado para obtener \(z^2\). Cuando se estudia la distribución muestra de \(z^2\), se observa que sigue una distribución \(\chi^2\) con 1 grado de libertad. Es decir:
Si todos los datos aleatorios de una muestra se eleva al cuadrado se obtiene:
\[\chi^2_{(n)}= z^2_1+z^2_2+ \cdot \ \cdot \ \cdot+ z^2_n\] Es la suma de los valores \(z^2\) resultantes tendrá una distribución \(\chi^2\), con \(n\) grados de libertad
Después de realizar una integral, la formula matemática de las distribución \(\chi^2\) es la siguiente:
La media y la variancia de la distribución \(\chi^2\) son, respectivamente, \(k\) y \(2k\).
Gráfica de la distribución \(\chi^2\)
Funciones para la distribución \(\chi^2\) en R
dchisq es la función densidad, permite graficar una distribución
pchisq dado un valor de \(\chi^2\) con \(n\) grados de libertad devuelve la probabilidad de encontrar ese valor
qchisq dada una probabilidad devuelve de encontrar ese valor en la distribución \(\chi^2\) con \(n\) grados de libertad
rchisq genera datos a aleatorios de una distribución \(\chi^2\)
Tablas de contingencia
Las tablas de contingencia permiten resumir datos de variables categóricas, es el primer paso para la realización de una prueba \(\chi^2\)
Tablas de contingencia
Es una de las formas más comunes de resumir datos categóricos
Se realizan para estudiar si existe asociación entre una variable categórica (fila) y otra variable categórica (columna). De forma general, se acepta que en las filas se muestra la exposición y en las columnas el evento.
Una tabla de contingencia es una tabla que cuenta las observaciones por múltiples variables categóricas. Las filas y columnas de las tablas corresponden a estas variables categóricas.
Se consideran \(X\) y \(Y\) dos variables categóricas con \(I\) y \(J\) categorías
Ejemplo
Sea \(X\) una variable categórica que indica si toma aspirina o placebo (I=2)
Sea \(Y\) una variable categórica que indica si sufrió ataque cardíaco (J=3)
Si queremos conocer cuantos pacientes fuman y de forma separada cuantos recién nacidos presentaron bajo peso al nacer podemos emplear el siguiente código:
La función table en R
Si queremos conocer cuantos pacientes fuman y de forma separada cuantos recién nacidos presentaron bajo peso al nacer podemos emplear el siguiente código:
smoke
0 1
115 74
low
0 1
130 59
Las anteriores son solo tablas de frecuencias, no una tabla de contingencia.
La función table en R
Se pueden crear tablas de contingencia con la función table ingresando dos variables.
La prueba de ji cuadrado (\(\chi^2\)) de Pearson es una prueba estadística de contraste de hipótesis que se aplica para analizar datos recogidos en forma de número de observaciones en cada categoría (conteos):
Número de éxitos que ha tenido una intervención.
Porcentaje de pacientes que presentan una característica.
Proporción de resultados favorables obtenidos de grupo de pacientes con tratamientos distintos.
La prueba de chi-cuadrada se basa en la independencia de dos criterios de clasificación
Datos observados vs Datos esperados
La prueba de\(\chi^2\) utiliza la diferencia de valores observados vs los datos esperado
Las frecuencias observadas son el número de objetos o individuos en la muestra que caen dentro de las diversas categorías de la variable de interés
Las frecuencias esperadas son el número de objetos o de individuos en la muestra que se esperaría observar si alguna hipótesis nula respecto a la variable es verdadera
Entre más grande sea la diferencia entre los valores esperados y los observados menos probabilidad hay que los resultados sean debidos al azar
El estadístico de prueba
Para obtener el estadístico de prueba se emplea la siguiente formula:
donde: donde \(O_{ij}\) es la frecuencia observada y \(E_{ij}\) es la frecuencia esperada para la celda ij
Pasos para la prueba de \(\chi^2\)
Tomar muestras aleatorias de las poblaciones de interés. Las variables deben ser independientes
Clasificar cada sujeto según las categorías de cada variable en estudio. Tablas de contingencia
Anotar los conteos o frecuencias en un cuadro de contingencia.
Calcular las frecuencias esperadas para cada celda.
Comparar las frecuencias esperadas y observadas mediante.
Comparar el valor calculado de \(\chi^2\) con el valor tabulado de \(\chi^2\)
Determinar el valor de \(p\)
Determinación de las frecuencias esperadas
Cuando dos eventos son independientes, la probabilidad de su ocurrencia conjunta es igual al producto de sus probabilidades individuales. La probabilidad de que un sujeto tomado al azar en esta población esté caracterizado por algún nivel de ambos criterios se estima mediante:
Para calcular los grados de libertad se utiliza la fórmula: \(gl = (r – 1)(c – 1)\), donde \(gl\) son los grados de libertad, \(r\) es el número de renglones o filas y \(c\) es el número de columnas.
Para una tabla de dos por dos los grados de libertad son 1
Ejemplo 1
Ejemplo 1.
Dado el siguiente conjunto de datos, determine si la proporción con dos o más hipoglucemiantes orales es independiente entre los grupos. Utilice \(\alpha=0.10\)
Tratamiento
Dos hipoglucemiantes
Un hipoglucemiante
Total
Grupo 1
16 (a)
134 (b)
150 \((n_j)\)
Grupo 2
6 (c)
119 (d)
125 \((n_j)\)
Total
22 \((n_i)\)
253 \((n_i)\)
275 (n)
Hipótesis
\(H_0:\) el uso de dos o más hipoglucemiantes orales por parte de un enfermo de diabetes es independiente del grupo al que pertenece (no hay relación entre las variables)
\(H_A\):el uso de dos o más hipoglucemiantes orales por parte de un enfermo de diabetes no es independiente del grupo al que pertenece (hay relación entre la variables)
\(H_A\):el uso de dos o más hipoglucemiantes orales por parte de un enfermo de diabetes es dependiente del grupo al que pertenece (hay relación entre la variables)
Supuestos y datos
Descripción de la población que interesa y planteamiento de los supuestos necesarios.
La población es nominal. Para este caso, las respuestas son del tipo “sí” o “no”.
No existen frecuencias esperadas pequeñas (en todo caso, este supuesto puede confirmarse durante el procedimiento mediante el cual se calcula el estadístico de prueba).
Los sujetos que conforman las muestras han sido seleccionados de manera independiente.
El estadístico indicado es \(\chi^2\)
Determinar los valores esperados
Dado el siguiente conjunto de datos, determine si la proporción con dos o más hipoglucemiantes orales es independiente entre los grupos. Utilice \(\alpha=0.10\)
El valor crítico de la prueba, que define las regiones de rechazo y aceptación, se localiza de la siguiente manera:
La prueba de \(\chi^2\) siempre es una prueba a una cola (derecha).
Para la prueba de \(\chi^2\),la región de rechazo se encuentra a la derecha de la distribución y está formada por aquella parte de la distribución \(\chi^2\) que incluye todos los valores de \(\chi^2\) tales que, cuando \(H_0\) es verdadera, la probabilidad de ocurrencia aleatoria de una p de ese tamaño o menor es igual o mayor de \(alpha\)
Criterios de decisión
lo que intentamos probar es la dependencia de los datos
la región de rechazo se encuentra a la derecha de la distribución
Valor de \(\chi^2\) de tablas
qchisq(0.10, df=1, lower.tail = F)
[1] 2.705543
Para calcular los grados de libertad se utiliza la fórmula: \(gl = (r – 1)(c – 1)\), donde \(gl\) son los grados de libertad, \(r\) es el número de renglones o filas y \(c\) es el número de columnas.
Para una tabla de dos por dos los grados de libertad son 1
Gráfica hipotética para el valor crítico
Gráfica hipotética para el valor crítico
Gráfica hipotética para el valor crítico
Gráfica hipotética para el valor crítico
Decisión y conclusión.
Se rechaza la \(H_0\) porque 3.12 es mayor a 2.7, es decir, está más a la derecha de la curva. la región de rechazo se encuentra a la derecha de la distribución
Estos valores nos indican que los datos son dependientes, es decir, que el valor observado en las frecuencias del uso de dos hipoglucemiantes, si depende del grupo.
Decisión y conclusión.
La proporción de individuos con dos o más hipoglucemiantes es distinta entre los grupos. En el grupo 1 la proporción fue de 0.107 mientras que la del grupo 2 fue 0.048
Calculo de \(p\)
En R se utiliza la función pchisq
pchisq(q=3.12, df=1, lower.tail = F)
[1] 0.07733678
pchisq(3.12,1, lower.tail = F)
[1] 0.07733678
Ejemplo práctico
Ejemplo práctico
El propósito de un estudio realizado por Vermund et al. era investigar la hipótesis de que las mujeres infectadas con VIH que también están infectadas con el papiloma virus humano (PVR), tienen mas probabilidad de tener anormalidades citológicas cervicales que las mujeres con uno de los dos virus mencionados.
Ejemplo práctico
Los datos son los siguientes:
PVH
Seropositivo sintomático
Seropositivo asintomático
Seronegativo
Total
Positivo
23
4
10
37
Negativo
10
14
35
59
Total
33
18
45
96
Se pretende conocer si es posibles concluir que existe relación entre el estadio del PVH y la etapa de la infección
Hipótesis
\(H_0\):
Las variable son independientes.
No hay relación entre el estadio del PVH y la etapa de la infección por VIH.
Las proporciones de mujeres en las distintas etapas del VIH son iguales independientemente de la co-infección por PVH
Hipótesis
\(H_A\):
las variables son dependientes
Hay relación entre el estadio del PVH y la etapa de la infección por VIH.
Las proporciones de mujeres en las distintas etapas del VIH son diferentes independientemente de la co-infección por PVH
Frecuencias observadas y esperadas
Para la primer casilla en el lado superior izquierdo el cálculo es: 33*37/96
Para calcular los grados de libertad se utiliza la fórmula: \(gl = (r – 1)(c – 1)\), donde \(gl\) son los grados de libertad, \(r\) es el número de renglones o filas y \(c\) es el número de columnas.
\(gl = (2 – 1)(3 – 1)=2\)
Valor de \(p\)
pchisq(q=20.60, df=2, lower.tail = F)
[1] 3.36331e-05
pchisq(20.60, 2, lower.tail = F)
[1] 3.36331e-05
Ejercicio 2 de práctica
Ejercicio 2 de práctica
Un grupo de investigadores desea conocer, si el fumar en el primer trimestre del embarazo se asocia al bajo peso de los recién nacidos. Estos datos fueron capturados en la base de datos “birthwt”. Utilice \(\alpha\) de 0.05, construya un gráfico de barras y reporte los valores esperados por casilla
Ejercicio 2 de práctica
Se puede crear una tabla con los datos para facilitar la resolución del ejercicio.
tab1<-table(smoke, low)tab1
low
smoke 0 1
0 86 29
1 44 30
Ejercicio 2 de práctica
Se puede crear un gráfico de barras para que nos oriente de las frecuencias de los recién nacidos con peso bajo entre las mujeres que fumaron en el primer trimestre del embarazo y las que no
Ejercicio 2 de práctica
Ejercicio 2 de práctica
Para realizar la prueba de \(\chi^2\) utilice el siguiente código
chisq.test(tab1)
Pearson's Chi-squared test with Yates' continuity correction
data: tab1
X-squared = 4.2359, df = 1, p-value = 0.03958
chisq.test(smoke,low)
Pearson's Chi-squared test with Yates' continuity correction
data: smoke and low
X-squared = 4.2359, df = 1, p-value = 0.03958
Corrección de Yates
Con frecuencia utilizamos aproximaciones con distribuciones de probabilidad continuas para resolver contrastes de hipótesis con variables que siguen una distribución discreta. En estos casos, debemos aplicar una corrección de continuidad, siendo la más conocida la corrección de continuidad de Yates.
La distribución\(\chi^2\) puede perder su continuidad cuando se tienen valores pequeños en las casillas de la tabla de contingencia
¿Cómo concluiría?
¿Cómo concluirían?
Extraer parámetros
Es posible extraer parámetros de la función chis.test si se guarda en un objeto
En ggstastplot también se puede realizar la prueba de \(\chi^2\) aunque no permite la realización de la prueba exacta de Fisher (que veremos más adelante).
Responda la sigueinte pregunta:
¿Fumar durante el embarazo se asocia al bajo peso al nacer?
Utilizando ggstatplot
library(ggstatsplot)ggbarstats(data=birthwt,x=low,y=smoke, type ="parametric",title ="Asociación del bajo peso al nacer \n con el antecedente de fumar",subtitle ="Utilizando Ji cuadrada")
Utilizando ggstatplot
Prueba exacta de fisher
Frecuencias esperadas pequeñas
Cuando las frecuencias esperadas para cada celda son grandes, el estadístico X 2 calculado se aproxima a la distribución chi-cuadrada. Sin embargo, cuando las frecuencias esperadas son pequeñas, esta aproximación no es tan cercana y su utilización puede conducir a errores de interpretación.
Frecuencias esperadas pequeñas
Se considera que, cuando las frecuencias esperadas son iguales o mayores de 5, son lo suficientemente grandes para utilizar la distribución de chi-cuadrada, aunque generalmente se acepta como adecuada su utilización en cuadros de contingencia con más de cuatro celdascuando en menos de 20% de las celdas se encuentran frecuencias esperadas menores de 5
Corrección de Mantel-Haenszel
Cuando las muestras son pequeñas y las frecuencias esperadas menores de 5, se puede utilizar las correcciones propuestas por Mantel-Haenszel y por Yates. Estas correcciones modifican el valor de n en la fórmula de tal manera que, a medida que la muestra es más pequeña, la prueba es más estricta. La chi-cuadrada con corrección de Mantel-Haenszel se calcula mediante:
Es un procedimiento estadístico de prueba de hipótesis que se basa en los totales observados en columnas y renglones.
Al igual que para la prueba chi-cuadrada, con este procedimiento se evalúa la independencia entre las categorías correspondientes a los renglones y las columnas, y se puede probar la hipótesis nula.
A diferencia de otras pruebas estadísticas (p. ej., z o chi-cuadrada), el resultado de la prueba exacta de Fisher es el valor de p.
\[\frac{(a+c)!(a+b)!(b+d)!(c+d)!}{n!a!b!c!d!}\]
Prueba exacta de Físher
Suponga que en el ejercicio practico 2 se presentaron valores esperados menores a 5. Resuelva el mismo problema utilizando la prueba exacta de Físher
Fisher's Exact Test for Count Data
data: tab1
p-value = 0.03618
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
1.028780 3.964904
sample estimates:
odds ratio
2.014137
Ejercicio práctico 3
¿Es posible concluir que el peso de bajo al nacer depende de la raza de las mujeres embarazadas? Construya una gráfico de barras y reporte los valores esperados. Utilice las variables low y race
Ejercicio práctico 4
¿Es posible concluir que el estatus de los pacientes con melanoma se asocia a la presencia de úlceras y a al sexo de los pacientes?
utilice la base de datos Melanoma de la librería MASS, además compruebe sus resultados utilizando ggstatplot.