8.12 Algunos contrastes no paramétricos
8.12.1 Contrastes de normalidad
Si se dispone de una muestra \((x_1,...,x_n)\) aleatoria de una variable \(X\) y se quiere comprobar que esta variable sigue una distribución normal, es decir se plantea el contraste:
\(H_0:\ X\) sigue una distribución normal, frente a \(H_1: \ X\) no sigue una distribución normal,
lo más fácil que puede hacerse es un histograma o un gráfico de la estimacion de la densidad, y ver si se parece a la campana de Gauss.
Ejemplo:
X=rnorm(100)
op<-par(mfrow=c(1,2))
hist(X)
X=c(rnorm(100),4,5,6,8)
hist(X)
par(op)
Primero hemos simulado 100 datos de una distribución normal de media cero y desviación típica \(1\), y el histograma realizado se parece bastante a la campana de Gauss. Sin embargo, a continuación incluimos en el conjunto X los datos \(4,5,6\) y \(8\), que serían datos atípicos o anómalos, y el histograma deja de parecerse a la campana de Gauss.
Sin embargo,también existen procedimientos de cálculo para llevar a cabo un contraste de normalidad, como son el contraste de Kolmogorov-Smirnov (KS test), el de Anderson-Darling (AD test) o el de Shapiro-Wils (shapiro test). Este último test se encuentra directamente en el paquete base, los otros dos los podemos encontrar en el paquete nortest.
x=rnorm(100)
lillie.test(x )
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: x
## D = 0.064, p-value = 0.4
ad.test(x)
##
## Anderson-Darling normality test
##
## data: x
## A = 0.32, p-value = 0.5
shapiro.test(x)
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.99, p-value = 0.7
8.12.2 Contrastes de independencia entre caracteres
En el capítulo de estadística bidimensional se vieron las tablas de contingencia para atributos o caracteres. Vamos a recordar el ejemplo en el que usamos el conjunto de datos de pasajeros del Titanic, y comparabamos los supervivientes con la clase en que viajaban
Titanic <- read_excel("Data/Pasajeros-Titanic.xlsx")
t1<- table(Titanic$sobrevivio, Titanic$clase)
t2<-addmargins(t1)
pander(t2)
1st | 2nd | 3rd | Sum | |
---|---|---|---|---|
no | 123 | 158 | 528 | 809 |
yes | 200 | 119 | 181 | 500 |
Sum | 323 | 277 | 709 | 1309 |
dt<-data.frame(Titanic)
ggplot(dt, aes(x=clase))+geom_bar( aes(fill= sobrevivio), position="dodge")
Gráficamente, se intuye que las variables “sobrevivir” y “clase en la que viajaba” están relacionadas, pues no hay independencia entre las mismas.
De manera general, podemos plantear, para 2 variables categóricas \(X\) e \(Y\) de un fichero de datos, el test de hipótesis:
\(H_0: \ X\) e \(Y\) son independientes, frente a \(H_1:\) no lo son.
Esto puede realizarse mediante el llamado test \(\chi^2\) de Pearson o el test exacto de Fisher;
CrossTable(Titanic$sobrevivio, Titanic$clase, chisq=TRUE,fisher=TRUE)
##
##
## Cell Contents
## |-------------------------|
## | N |
## | Chi-square contribution |
## | N / Row Total |
## | N / Col Total |
## | N / Table Total |
## |-------------------------|
##
##
## Total Observations in Table: 1309
##
##
## | Titanic$clase
## Titanic$sobrevivio | 1st | 2nd | 3rd | Row Total |
## -------------------|-----------|-----------|-----------|-----------|
## no | 123 | 158 | 528 | 809 |
## | 29.411 | 1.017 | 18.411 | |
## | 0.152 | 0.195 | 0.653 | 0.618 |
## | 0.381 | 0.570 | 0.745 | |
## | 0.094 | 0.121 | 0.403 | |
## -------------------|-----------|-----------|-----------|-----------|
## yes | 200 | 119 | 181 | 500 |
## | 47.587 | 1.645 | 29.788 | |
## | 0.400 | 0.238 | 0.362 | 0.382 |
## | 0.619 | 0.430 | 0.255 | |
## | 0.153 | 0.091 | 0.138 | |
## -------------------|-----------|-----------|-----------|-----------|
## Column Total | 323 | 277 | 709 | 1309 |
## | 0.247 | 0.212 | 0.542 | |
## -------------------|-----------|-----------|-----------|-----------|
##
##
## Statistics for All Table Factors
##
##
## Pearson's Chi-squared test
## ------------------------------------------------------------
## Chi^2 = 127.9 d.f. = 2 p = 1.721e-28
##
##
##
## Fisher's Exact Test for Count Data
## ------------------------------------------------------------
## Alternative hypothesis: two.sided
## p = 1.871e-28
##
##
Inventario de Temperamento y Carácter
para evaluar las siete dimensiones de la personalidad descritas por Cloninger (Cloninger et al. 1994). El cuestionario fue respondido por 322 ciudadanos Belgas. La variable RD1 mide la Sentimentalidad. Vamos a ver si hay relación entre esta variable y el Sexo.
hansenne <- read_excel("Data/20011701_hansenne/data.xls")
t1<- table(hansenne$RD1, hansenne$SEXE)
t2<-addmargins(t1)
pander(t2)
Feminin | Masculin | Sum | |
---|---|---|---|
0 | 0 | 1 | 1 |
1 | 0 | 3 | 3 |
2 | 0 | 7 | 7 |
3 | 2 | 9 | 11 |
4 | 4 | 8 | 12 |
5 | 13 | 18 | 31 |
6 | 10 | 34 | 44 |
7 | 38 | 39 | 77 |
8 | 40 | 20 | 60 |
9 | 40 | 16 | 56 |
10 | 14 | 6 | 20 |
Sum | 161 | 161 | 322 |
dt<-data.frame(hansenne)
ggplot(dt, aes(x=RD1))+geom_bar( aes(fill= SEXE), position="dodge")
CrossTable(t2, chisq=TRUE)
##
##
## Cell Contents
## |-------------------------|
## | N |
## | Chi-square contribution |
## | N / Row Total |
## | N / Col Total |
## | N / Table Total |
## |-------------------------|
##
##
## Total Observations in Table: 1288
##
##
## |
## | Feminin | Masculin | Sum | Row Total |
## -------------|-----------|-----------|-----------|-----------|
## 0 | 0 | 1 | 1 | 2 |
## | 0.500 | 0.500 | 0.000 | |
## | 0.000 | 0.500 | 0.500 | 0.002 |
## | 0.000 | 0.003 | 0.002 | |
## | 0.000 | 0.001 | 0.001 | |
## -------------|-----------|-----------|-----------|-----------|
## 1 | 0 | 3 | 3 | 6 |
## | 1.500 | 1.500 | 0.000 | |
## | 0.000 | 0.500 | 0.500 | 0.005 |
## | 0.000 | 0.009 | 0.005 | |
## | 0.000 | 0.002 | 0.002 | |
## -------------|-----------|-----------|-----------|-----------|
## 2 | 0 | 7 | 7 | 14 |
## | 3.500 | 3.500 | 0.000 | |
## | 0.000 | 0.500 | 0.500 | 0.011 |
## | 0.000 | 0.022 | 0.011 | |
## | 0.000 | 0.005 | 0.005 | |
## -------------|-----------|-----------|-----------|-----------|
## 3 | 2 | 9 | 11 | 22 |
## | 2.227 | 2.227 | 0.000 | |
## | 0.091 | 0.409 | 0.500 | 0.017 |
## | 0.006 | 0.028 | 0.017 | |
## | 0.002 | 0.007 | 0.009 | |
## -------------|-----------|-----------|-----------|-----------|
## 4 | 4 | 8 | 12 | 24 |
## | 0.667 | 0.667 | 0.000 | |
## | 0.167 | 0.333 | 0.500 | 0.019 |
## | 0.012 | 0.025 | 0.019 | |
## | 0.003 | 0.006 | 0.009 | |
## -------------|-----------|-----------|-----------|-----------|
## 5 | 13 | 18 | 31 | 62 |
## | 0.403 | 0.403 | 0.000 | |
## | 0.210 | 0.290 | 0.500 | 0.048 |
## | 0.040 | 0.056 | 0.048 | |
## | 0.010 | 0.014 | 0.024 | |
## -------------|-----------|-----------|-----------|-----------|
## 6 | 10 | 34 | 44 | 88 |
## | 6.545 | 6.545 | 0.000 | |
## | 0.114 | 0.386 | 0.500 | 0.068 |
## | 0.031 | 0.106 | 0.068 | |
## | 0.008 | 0.026 | 0.034 | |
## -------------|-----------|-----------|-----------|-----------|
## 7 | 38 | 39 | 77 | 154 |
## | 0.006 | 0.006 | 0.000 | |
## | 0.247 | 0.253 | 0.500 | 0.120 |
## | 0.118 | 0.121 | 0.120 | |
## | 0.030 | 0.030 | 0.060 | |
## -------------|-----------|-----------|-----------|-----------|
## 8 | 40 | 20 | 60 | 120 |
## | 3.333 | 3.333 | 0.000 | |
## | 0.333 | 0.167 | 0.500 | 0.093 |
## | 0.124 | 0.062 | 0.093 | |
## | 0.031 | 0.016 | 0.047 | |
## -------------|-----------|-----------|-----------|-----------|
## 9 | 40 | 16 | 56 | 112 |
## | 5.143 | 5.143 | 0.000 | |
## | 0.357 | 0.143 | 0.500 | 0.087 |
## | 0.124 | 0.050 | 0.087 | |
## | 0.031 | 0.012 | 0.043 | |
## -------------|-----------|-----------|-----------|-----------|
## 10 | 14 | 6 | 20 | 40 |
## | 1.600 | 1.600 | 0.000 | |
## | 0.350 | 0.150 | 0.500 | 0.031 |
## | 0.043 | 0.019 | 0.031 | |
## | 0.011 | 0.005 | 0.016 | |
## -------------|-----------|-----------|-----------|-----------|
## Sum | 161 | 161 | 322 | 644 |
## | 0.000 | 0.000 | 0.000 | |
## | 0.250 | 0.250 | 0.500 | 0.500 |
## | 0.500 | 0.500 | 0.500 | |
## | 0.125 | 0.125 | 0.250 | |
## -------------|-----------|-----------|-----------|-----------|
## Column Total | 322 | 322 | 644 | 1288 |
## | 0.250 | 0.250 | 0.500 | |
## -------------|-----------|-----------|-----------|-----------|
##
##
## Statistics for All Table Factors
##
##
## Pearson's Chi-squared test
## ------------------------------------------------------------
## Chi^2 = 50.85 d.f. = 22 p = 0.0004495
##
##
##
Gráficamente podemos intuir que existen diferencias por sexo. El contraste Chi-cuadrado da un \(p\)-valor muy próximo a cero, con lo que la independencia entre las variables Sexo y RD1 se rechazarían.
Bibliografía
Cloninger, C Robert, Thomas R Przybeck, Dragan M Svrakic, and Richard D Wetzel. 1994. “The Temperament and Character Inventory (Tci): A Guide to Its Development and Use.” Center for Psychobiology of Personality, Washington University St. Louis, MO.
Hansenne, Michel, Olivier Le Bon, Anne Gauthier, and Marc Ansseau. 2001. “Belgian Normative Data of the Temperament and Character Inventory.” European Journal of Psychological Assessment 17 (1). Hogrefe & Huber Publishers: 56.