3.2 Estructura de la información en variables bidimensionales

Hemos visto que, en variables unidimensionales, los datos podían organizarse en tablas de frecuencias (bien de valores en el caso de variables discretas, o bien de intervalos en el caso de variables continuas)

Cuando leemos un fichero de datos, como por ejemplo el del Titanic

 library(readxl)
 Titanic <- read_excel("Data/Pasajeros-Titanic.xlsx")
 datatable(Titanic, options = list(pageLength = 5, dom = 'tip')) # Esta instrucción es
                                                                 # para ver la tabla interactiva en html

disponemos de una serie de variables ordenadas en columnas. A partir de una tabla de datos podemos seleccionar diferentes variables unidimensionales (discretas, continuas o atributos). Si se seleccionan dos variables discretas (o atributos), en ocasiones se presenta la información construyendo una tabla de doble entrada con los valores de cada variable y las frecuencias (\(n_{(i,j)}\) es la frecuencia absoluta del valor \((x_i,y_j)\), o número de veces que se repite dicho par de valores).

En la última columna y en la última fila se presentan las sumas por fila y columna, respectivamente, siendo el total de datos \(n\).

Tabla de doble entrada para variable bidimensional.

Figura 3.2: Tabla de doble entrada para variable bidimensional.

Si X e Y son variables numéricas, la tabla suele llamarse llama tabla de correlación.

Si X e Y son (uno o los dos) atributos, la tabla suele llamarse tabla de contingencia.

Tabla de contingencia de supervivientes del fichero de datos Titanic. La variable “X” sería un atributo (sobrevivió o no) y la \(Y\) otro (clase en la que viajaba).
t1<- table(Titanic$sobrevivio, Titanic$clase)
t2<-addmargins(t1)
 pander(t2)
  1st 2nd 3rd Sum
no 123 158 528 809
yes 200 119 181 500
Sum 323 277 709 1309