8.12 Algunos contrastes no paramétricos

8.12.1 Contrastes de normalidad

Si se dispone de una muestra \((x_1,...,x_n)\) aleatoria de una variable \(X\) y se quiere comprobar que esta variable sigue una distribución normal, es decir se plantea el contraste:

\(H_0:\ X\) sigue una distribución normal, frente a \(H_1: \ X\) no sigue una distribución normal,

lo más fácil que puede hacerse es un histograma o un gráfico de la estimacion de la densidad, y ver si se parece a la campana de Gauss.

Ejemplo

X=rnorm(100)
op<-par(mfrow=c(1,2))
hist(X)
X=c(rnorm(100),4,5,6,8)
hist(X)

par(op)

Primero hemos simulado 100 datos de una distribución normal de media cero y desviación típica 1, y el histograma realizado se parece bastante a la campana de Gauss. Sin embargo, a continuación incluimos en el conjunto X los datos 4,5,6 y 8, que serían datos atípicos o anómalos, y el histograma deja de parecerse a la campana de Gauss.

Sin embargo,también existen procedimientos de cálculo para llevar a cabo un contraste de normalidad, como son el contraste de Kolmogorov-Smirnov (KS test), el de Anderson-Darling (AD test) o el de Shapiro-Wils (shapiro test). Este último test se encuentra directamente en el paquete base, los otros dos los podemos encontrar en el paquete nortest.

library(nortest)
x=rnorm(100)
lillie.test(x )
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  x
## D = 0.064, p-value = 0.4
ad.test(x)
## 
##  Anderson-Darling normality test
## 
## data:  x
## A = 0.32, p-value = 0.5
shapiro.test(x)
## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.99, p-value = 0.7

8.12.2 Contrastes de independencia entre caracteres

En el capítulo de estadística bidimensional se vieron las tablas de contingencia para atributos o caracteres. Vamos a recordar el ejemplo en el que usamos el conjunto de datos de pasajeros del Titanic, y comparabamos los supervivientes con la clase en que viajaban

 library(gmodels)
library(readxl)
library(pander)
library(ggplot2)
Titanic <- read_excel("Data/Pasajeros-Titanic.xlsx")
t1<- table(Titanic$sobrevivio, Titanic$clase)
t2<-addmargins(t1)
 pander(t2)
  1st 2nd 3rd Sum
no 123 158 528 809
yes 200 119 181 500
Sum 323 277 709 1309
 dt<-data.frame(Titanic)
ggplot(dt, aes(x=clase))+geom_bar( aes(fill= sobrevivio), position="dodge")

Gráficamente, se intuye que las variables “sobrevivir” y “clase en la que viajaba” están relacionadas, pues no hay independencia entre las mismas.

De manera general, podemos plantear, para 2 variables categóricas \(X\) e \(Y\) de un fichero de datos, el test de hipótesis:

\(H_0: \ X\) e \(Y\) son independientes, frente a \(H_1:\) no lo son.

Esto puede realizarse mediante el llamado test \(\chi^2\) de Pearson o el test exacto de Fisher;

CrossTable(Titanic$sobrevivio, Titanic$clase, chisq=TRUE,fisher=TRUE)
## 
##  
##    Cell Contents
## |-------------------------|
## |                       N |
## | Chi-square contribution |
## |           N / Row Total |
## |           N / Col Total |
## |         N / Table Total |
## |-------------------------|
## 
##  
## Total Observations in Table:  1309 
## 
##  
##                    | Titanic$clase 
## Titanic$sobrevivio |       1st |       2nd |       3rd | Row Total | 
## -------------------|-----------|-----------|-----------|-----------|
##                 no |       123 |       158 |       528 |       809 | 
##                    |    29.411 |     1.017 |    18.411 |           | 
##                    |     0.152 |     0.195 |     0.653 |     0.618 | 
##                    |     0.381 |     0.570 |     0.745 |           | 
##                    |     0.094 |     0.121 |     0.403 |           | 
## -------------------|-----------|-----------|-----------|-----------|
##                yes |       200 |       119 |       181 |       500 | 
##                    |    47.587 |     1.645 |    29.788 |           | 
##                    |     0.400 |     0.238 |     0.362 |     0.382 | 
##                    |     0.619 |     0.430 |     0.255 |           | 
##                    |     0.153 |     0.091 |     0.138 |           | 
## -------------------|-----------|-----------|-----------|-----------|
##       Column Total |       323 |       277 |       709 |      1309 | 
##                    |     0.247 |     0.212 |     0.542 |           | 
## -------------------|-----------|-----------|-----------|-----------|
## 
##  
## Statistics for All Table Factors
## 
## 
## Pearson's Chi-squared test 
## ------------------------------------------------------------
## Chi^2 =  127.9     d.f. =  2     p =  1.721e-28 
## 
## 
##  
## Fisher's Exact Test for Count Data
## ------------------------------------------------------------
## Alternative hypothesis: two.sided
## p =  1.871e-28 
## 
## 
En el capítulo de la variable aleatoria normal describimos el trabajo de (Hansenne et al. 2001), donde se detalla un cuestionario de 226 items de el Inventario de Temperamento y Carácterpara evaluar las siete dimensiones de la personalidad descritas por Cloninger (Cloninger et al. 1994). El cuestionario fue respondido por 322 ciudadanos Belgas. La variable RD1 mide la Sentimentalidad. Vamos a ver si hay relación entre esta variable y el Sexo.
library(readxl)
library(pander)
library(ggplot2)
library(gmodels)
hansenne <- read_excel("Data/20011701_hansenne/data.xls") 
t1<- table(hansenne$RD1, hansenne$SEXE)
t2<-addmargins(t1)
pander(t2)
  Feminin Masculin Sum
0 0 1 1
1 0 3 3
2 0 7 7
3 2 9 11
4 4 8 12
5 13 18 31
6 10 34 44
7 38 39 77
8 40 20 60
9 40 16 56
10 14 6 20
Sum 161 161 322
dt<-data.frame(hansenne)
ggplot(dt, aes(x=RD1))+geom_bar( aes(fill= SEXE), position="dodge") 

CrossTable(t2, chisq=TRUE)
## 
##  
##    Cell Contents
## |-------------------------|
## |                       N |
## | Chi-square contribution |
## |           N / Row Total |
## |           N / Col Total |
## |         N / Table Total |
## |-------------------------|
## 
##  
## Total Observations in Table:  1288 
## 
##  
##              |  
##              |   Feminin |  Masculin |       Sum | Row Total | 
## -------------|-----------|-----------|-----------|-----------|
##            0 |         0 |         1 |         1 |         2 | 
##              |     0.500 |     0.500 |     0.000 |           | 
##              |     0.000 |     0.500 |     0.500 |     0.002 | 
##              |     0.000 |     0.003 |     0.002 |           | 
##              |     0.000 |     0.001 |     0.001 |           | 
## -------------|-----------|-----------|-----------|-----------|
##            1 |         0 |         3 |         3 |         6 | 
##              |     1.500 |     1.500 |     0.000 |           | 
##              |     0.000 |     0.500 |     0.500 |     0.005 | 
##              |     0.000 |     0.009 |     0.005 |           | 
##              |     0.000 |     0.002 |     0.002 |           | 
## -------------|-----------|-----------|-----------|-----------|
##            2 |         0 |         7 |         7 |        14 | 
##              |     3.500 |     3.500 |     0.000 |           | 
##              |     0.000 |     0.500 |     0.500 |     0.011 | 
##              |     0.000 |     0.022 |     0.011 |           | 
##              |     0.000 |     0.005 |     0.005 |           | 
## -------------|-----------|-----------|-----------|-----------|
##            3 |         2 |         9 |        11 |        22 | 
##              |     2.227 |     2.227 |     0.000 |           | 
##              |     0.091 |     0.409 |     0.500 |     0.017 | 
##              |     0.006 |     0.028 |     0.017 |           | 
##              |     0.002 |     0.007 |     0.009 |           | 
## -------------|-----------|-----------|-----------|-----------|
##            4 |         4 |         8 |        12 |        24 | 
##              |     0.667 |     0.667 |     0.000 |           | 
##              |     0.167 |     0.333 |     0.500 |     0.019 | 
##              |     0.012 |     0.025 |     0.019 |           | 
##              |     0.003 |     0.006 |     0.009 |           | 
## -------------|-----------|-----------|-----------|-----------|
##            5 |        13 |        18 |        31 |        62 | 
##              |     0.403 |     0.403 |     0.000 |           | 
##              |     0.210 |     0.290 |     0.500 |     0.048 | 
##              |     0.040 |     0.056 |     0.048 |           | 
##              |     0.010 |     0.014 |     0.024 |           | 
## -------------|-----------|-----------|-----------|-----------|
##            6 |        10 |        34 |        44 |        88 | 
##              |     6.545 |     6.545 |     0.000 |           | 
##              |     0.114 |     0.386 |     0.500 |     0.068 | 
##              |     0.031 |     0.106 |     0.068 |           | 
##              |     0.008 |     0.026 |     0.034 |           | 
## -------------|-----------|-----------|-----------|-----------|
##            7 |        38 |        39 |        77 |       154 | 
##              |     0.006 |     0.006 |     0.000 |           | 
##              |     0.247 |     0.253 |     0.500 |     0.120 | 
##              |     0.118 |     0.121 |     0.120 |           | 
##              |     0.030 |     0.030 |     0.060 |           | 
## -------------|-----------|-----------|-----------|-----------|
##            8 |        40 |        20 |        60 |       120 | 
##              |     3.333 |     3.333 |     0.000 |           | 
##              |     0.333 |     0.167 |     0.500 |     0.093 | 
##              |     0.124 |     0.062 |     0.093 |           | 
##              |     0.031 |     0.016 |     0.047 |           | 
## -------------|-----------|-----------|-----------|-----------|
##            9 |        40 |        16 |        56 |       112 | 
##              |     5.143 |     5.143 |     0.000 |           | 
##              |     0.357 |     0.143 |     0.500 |     0.087 | 
##              |     0.124 |     0.050 |     0.087 |           | 
##              |     0.031 |     0.012 |     0.043 |           | 
## -------------|-----------|-----------|-----------|-----------|
##           10 |        14 |         6 |        20 |        40 | 
##              |     1.600 |     1.600 |     0.000 |           | 
##              |     0.350 |     0.150 |     0.500 |     0.031 | 
##              |     0.043 |     0.019 |     0.031 |           | 
##              |     0.011 |     0.005 |     0.016 |           | 
## -------------|-----------|-----------|-----------|-----------|
##          Sum |       161 |       161 |       322 |       644 | 
##              |     0.000 |     0.000 |     0.000 |           | 
##              |     0.250 |     0.250 |     0.500 |     0.500 | 
##              |     0.500 |     0.500 |     0.500 |           | 
##              |     0.125 |     0.125 |     0.250 |           | 
## -------------|-----------|-----------|-----------|-----------|
## Column Total |       322 |       322 |       644 |      1288 | 
##              |     0.250 |     0.250 |     0.500 |           | 
## -------------|-----------|-----------|-----------|-----------|
## 
##  
## Statistics for All Table Factors
## 
## 
## Pearson's Chi-squared test 
## ------------------------------------------------------------
## Chi^2 =  50.85     d.f. =  22     p =  0.0004495 
## 
## 
## 

Gráficamente podemos intuir que existen diferencias por sexo. El contraste Chi-cuadrado da un p-valor muy próximo a cero, con lo que la independencia entre las variables Sexo y RD1 se rechazarían.

Bibliografía

Hansenne, Michel, Olivier Le Bon, Anne Gauthier, and Marc Ansseau. 2001. “Belgian Normative Data of the Temperament and Character Inventory.” European Journal of Psychological Assessment 17 (1). Hogrefe & Huber Publishers: 56.

Cloninger, C Robert, Thomas R Przybeck, Dragan M Svrakic, and Richard D Wetzel. 1994. “The Temperament and Character Inventory (Tci): A Guide to Its Development and Use.” Center for Psychobiology of Personality, Washington University St. Louis, MO.