2.6 Distribuciones de frecuencias

La organización de los datos constituye la primera etapa de su tratamiento, puesto que facilita los cálculos posteriores y evita posibles confusiones. Realmente, la organización de la información tiene una raíz histórica y, actualmente, con el desarrollo de los medios informáticos, tiene menos importancia desde un punto de vista aplicado. Cuando no existían ordenadores, o ni siquiera calculadoras, si se disponía de un conjunto de datos, era necesario dotarlos de alguna estructura que permitiera resumirlos y comprenderlos de una forma más o menos sencilla.

La organización va a depender del número de observaciones distintas que se tengan y de las veces que se repitan cada una de ellas. En base a lo anterior, se pueden estructurar los datos de maneras diferentes.

Cuando se tiene un gran número de observaciones, pero muy pocas distintas, se pueden organizar en una tabla de frecuencias, es decir, cada uno de los valores acompañado de la frecuencia (también llamada frecuencia absoluta) con la que aparece. Este es el tipo de tabla que acompaña a una variable discreta.

La siguiente tabla indica que los valores 1 y 3 se repiten 12 veces, el valor 5 se repite 3 veces, etc….

\(x_i\)	\(n_i\)
1	12
3	12
5	3
6	45
8	72

Este es también el formato con que suele representarse también una variable cualitativa o categórica, como por ejemplo la distribución del color del cabello de veinte personas:

Color del pelo	Número de personas
Rubio	2
Moreno	6
Castaño	5
Verde	7

El 10 de abril de 1912, el Titanic zarpaba con 1317 pasajeros a bordo, ante la admiración de una muchedumbre de curiosos que contemplaban atónitos como aquella mole de acero se alejaba majestuosamente del puerto. Cinco días después los medios de comunicación de todo el mundo se hicieron eco de la increíble noticia: el barco más grande jamás construido yacía a casi cuatro mil metros de profundidad.

Figura 2.5: ¿Por qué no termina bien?

Esta historia la conocemos todos desde 1997 (cuando se estrenó Titanic). Desde estas fechas (o quizá de antes) se trabaja muy a menudo con el fichero de datos que contiene la lista de pasajeros, junto con la distribución de los mismos según edad, sexo, supervivencia y clase social.

Este fichero lo utilizaremos en más de una ocasión a lo largo de estos apuntes. En el siguiente trozo de código (chunk), los datos, al estar en formato excel, los leemos mediante la libreria readxl. El comando datatable convierte la tabla en interactiva.

library(readxl)
Datos_Titanic <- read_excel("Data/Pasajeros-Titanic.xlsx")
# Interactive table 
datatable(Datos_Titanic, options = list(pageLength = 5))

2.6.1 Gráficos para variables discretas o categóricas

Como una imagen vale más que mil palabras, con las representaciones gráficas se puede obtener una idea del contenido de una variable (su forma, cómo se distribuye, qué valores aparecen más y cuáles menos…). Para una variable discreta (con pocos valores, en general) o categórica existen dos gráficos fundamentales: los diagramas de barra y los de sectores.

En R los comandos básicos para hacer estos diagramas son barplot y pie.Para hacer un diagrama de barras:

# Recordemos que, en R, para escoger una
# variable de un fichero, se usa Nombre_fichero$Variable
y=Datos_Titanic$clase 
# El comando table crea una tabla de frecuencias
# es necesario crear esta tabla para hacer los gráficos
x=table(y)            
# diagrama de barras
barplot(x, main="Titulo principal", 
        xlab="Titulo del eje horizontal")

Figura 2.6: Ejemplo de diagrama de barras.

Y uno de sectores:

y=Datos_Titanic$clase 
x=table(y)            
# diagrama de sectores 
pie(x, main="Diagrama de Sectores",
    xlab="Clase del pasajero")

Figura 2.7: Ejemplo de diagrama de sectores.

R permite hacer gráficos mucho más profesionales (y escalables). A lo largo de este manual usaremos varias veces la librería mosaic (que precisa de la libreria lattice a su vez), por ser cómoda de utilizar. Por ejemplo, un gráfico de barras se hace (Figura 2.8):

library(lattice)
library(mosaic)
#diagrama de barras
bargraph( ~ clase, data = Datos_Titanic, 
          main = "Gráfico de Barras")

Figura 2.8: Ejemplo de diagrama de barras con las librerias mosaic y lattice.

En principio, el gráfico no varía demasiado (tampoco la sintaxis). Con la librería mosaic, la sintaxis general es

comando( ~ variable, data = fichero de datos)

(la ~ es el apóstrofe de la ñ que está al lado del 4 en el teclado). Se escribe comando( ~ variable) cuando hacemos un análisis de una sola variable, y

comando( ~ variable_1, groups= variable_2 )

si queremos dividir la variable_1 por grupos, según la variable_2. Por ejemplo (Figura 2.9):

# diagrama de barras relacionando 2 variables
library(lattice)
library(mosaic)
bargraph(~ clase, groups=sexo, data = Datos_Titanic, 
         main = "Gráfico de Barras")

Figura 2.9: Diagrama de barras distinguiendo sexos.