2.6 Distribuciones de frecuencias

La organización de los datos constituye la primera etapa de su tratamiento, pues facilita los cálculos posteriores y evita posibles confusiones. Realmente, la organización de la información tiene una raíz histórica y, actualmente, con el desarrollo de los medios informáticos, tiene menos importancia desde un punto de vista aplicado. Cuando no existían ordenadores, o ni siquiera calculadoras, si se disponía de un conjunto de datos, era necesario dotarlos de alguna estructura que permitiera resumirlos y comprenderlos de una forma más o menos sencilla.

La organización va a depender del número de observaciones distintas que se tengan y de las veces que se repitan cada una de ellas. En base a lo anterior, se pueden estructurar los datos de tres maneras distintas:

Cuando se tiene un gran número de observaciones, pero muy pocas distintas, se pueden organizar en una tabla de frecuencias, es decir, cada uno de los valores acompañado de la frecuencia (también llamada frecuencia absoluta ) con la que aparece. Este es el tipo de tabla que acompaña a una variable discreta.

La siguiente tabla indica que los valores 1 y 3 se repiten 12 veces, el valor 5 se repite 3 veces, etc….
\(x_i\) \(n_i\)
1 12
3 12
5 3
6 45
8 72
Este es también el formato con que suele representarse también una variable cualitativa, como por ejemplo la distribución del color del cabello de veinte personas:
Color del pelo Número de personas
Rubio 2
Moreno 6
Castaño 5
Verde 7
El 10 de abril de 1912, el Titanic zarpaba con 1317 pasajeros a bordo, ante la admiración de una muchedumbre de curiosos que contemplaban atónitos como aquella mole de acero se alejaba majestuosamente del puerto. Cinco días después los medios de comunicación de todo el mundo se hicieron eco de la increíble noticia: el barco más grande jamás construido yacía a casi cuatro mil metros de profundidad.

Esta historia la sabemos todos desde 1997 (cuando se estrenó Titanic). Desde estas fechas (o quizá de antes) se trabaja muy a menudo con el fichero de datos que contiene la lista de pasajeros, junto con la distribución de los mismos según supervivencia y clase social.

Este fichero lo utilizaremos en más de una ocasión a lo largo de estos apuntes. En el siguiente trozo de código (chunk) los datos, al estar en formato excel, los leemos mediante la libreria readxl. El comando datatable convierte la tabla en interactiva.

 library(readxl)
 Datos_Titanic <- read_excel("Data/Pasajeros-Titanic.xlsx")
 datatable(Datos_Titanic, options = list(pageLength = 5)) # Interactive table 

2.6.1 Gráficos para variables discretas

Como una imagen vale más que mil palabras, con las representaciones gráficas se puede obtener una idea del contenido de una variable (su forma, cómo se distribuye, qué valores aparecen más y cuáles menos…). Para una variable de este tipo existen dos gráficos fundamentales: los diagramas de barra y los de sectores.

En R los comandos básicos para hacer estos diagramas son barplot y pie.

y=Datos_Titanic$clase # Recordemos que, en R, para escoger una
                      # variable de un fichero, se usa Nombre_fichero$Variable

x=table(y)            # El comando table crea una tabla de frecuencias
                      # es necesario crear esta tabla para hacer los gráficos

barplot(x, main="diagrama de Barras", xlab="Clase del pasajero")  # diagrama de barras

pie(x, main="diagrama de Sectores",xlab="Clase del pasajero")    # diagrama de sectores 

R permite hacer gráficos mucho más bonitos. A lo largo de este manual usaremos varias veces la librería mosaic, por ser fácil de utilizar. Por ejemplo, un gráfico de barras

library(lattice)
library(mosaic)
#diagrama de barras
bargraph( ~ clase, data = Datos_Titanic, main = "Gráfico de Barras")

En principio, el gráfico no varía demasiado (tampoco la sintaxis). Las utilidades de usar esta libreria las veremos enseguida.