3.2 Medidas de dispersión

En la sección anterior desarrollamos varias medidas de centralización y cuál eligir para describir el valor «más típico» de los datos. Cuando calculamos medidas de dispersión estamos contestando la pregunta: ¿cuán típico es este valor?

Cuando tratamos con variables nominales, como el ejemplo de religión en Alemania de la sección anterior, lo mejor que podemos hacer el indicar la proporción o porcentaje10, pero si los datos son de alguna escala ya numérica tenemos algunas posibilidades que nos permiten más exactitud.

3.2.1 Rango o amplitud

El rango de un conjunto de datos son dos números: el valor mínimo y el valor máximo. Por ejemplo el conjunto de datos {9, 11, 12, 15, 15 ,15, 18} tiene un rango 9 a 18; y el conjunto {2, 4, 5, 7, 7, 7, 9, 11, 12, 15, 15 ,15, 18} tiene un rango de 2 a 18.

En castellano se usa con alguna frecuencia también el término amplitud como equivalente a rango.

Ejemplo 3.3 (Ejemplo en R)

Para sacar el rango de un conjunto de datos en R podemos usar la función range. Así:

x = c(2, 4, 5, 7, 7, 7, 9, 11, 12, 15, 15 ,15, 18)
range(x)
## [1]  2 18

3.2.2 El rango intercuartílico

Otra medida de dispersión que tenemos a disposición es el rango intercuartílico o rango intercuartíl. Para calcularlo dividimos las observaciones en cuatro partes iguales y sacamos los valores de cada corte. Esto nos da cinco valores11, le los cuales el rango intercuartílico es la diferencia entre el segundo y el cuarto. Este sería el rango de las observaciones del 50% de los datos que se encuentran más cerca la mediana del mismo.

Cuartiles y rangos

Figura 3.3: Cuartiles y rangos

El rango intercuartílico da una idea de la dispersión de los datos y es por su naturaleza menos sensitivo a valores extremos.

Ejemplo 3.4 (Ejemplo en R)

Para sacar en rango intercuartílico podemos usar la función quantiles. Por defecto divide la distribución en cuartiles.

x = c(2, 4, 5, 7, 7, 7, 9, 11, 12, 15, 15 ,15, 18)
quantile(x)
##   0%  25%  50%  75% 100% 
##    2    7    9   15   18

Vemos que en este caso el rango intercuartíl es 7 y 15, que da una amplitúd de 8 ya que \(15 - 7 = 8\).

3.2.3 La varianza y desviación estándar

La medida de dispersión más usada en estadística es la desviación estándar, también conocida como desviación típica. Esta medida tiene una relación matemática muy estrecha con la varianza que tiene usos menos frecuentes. Ambas medidas tienen propiedades que los hacen útiles para otras técnicas estadísticas.

Para calcular la desviación estándar debemos primero calcular la varianza. Para ello tomamos la diferencia de cada observación de la media. Recordemos que la media se expresa con \(\bar{x}\) (equis con barra). Entonces la diferencia entre una observación de x y la media es \(x - \bar{x}\). Luego los llevamos al cuadrado \((x - \bar{x})^2\) los sumamos y dividimos por el número total de observaciones. Para expresarlo usamos la notación que ya vimos. Entonces \(\Sigma\) es «la suma de» y N es «el total de las observaciones». Juntando todo tenemos:

Definición 3.2 (Varianza) \[ \text{varianza} = {{\Sigma (x - \bar{x})^2}\over{N}} \]

Ahora para sacar la desviación estándar tomamos la raíz cuadrada de la varianza. La desviación estándar de la población se representa por la letra griega \(\sigma\) que es sigma pero en minúscula. Entonces tenemos la definición:

Definición 3.3 (Desviación estándar de la población) \[ \sigma = {\sqrt{{\Sigma (x - \bar{x})^2}\over{N}}} \]

Si estamos trabajando con una muestra en lugar de la población completa, que es el caso más común cuando trabajamos con estadísticas se usa la letra «s». También se hace un ajuste en el denominador de la fórmula ya que se ha comprobado que sin el ajuste la medida puede resultar sesgada si la muestra tiene pocas observaciones. La formula para una muestra es:

Definición 3.4 (Desviación estándar de la muestra) \[ s = {\sqrt{{\Sigma (x - \bar{x})^2}\over{N-1}}} \]

Finalmente. Ya que s y \(\sigma\) son la raíz cuadrada de la varianza, esta también se denomina por las mismas letras, pero llevado al cuadrado: \(s^2\) y \(\sigma^2\)

¿Por qué llevamos todo al cuadrado?

Puede parecer enredado llevar todo al cuadrado para luego volver a sacar la raíz cuadrada. La razón es que si se resta todas las obvervaciones de la media, gran parte de estas diferencias van a ser negativas. Sabemos que un número negativo llevado al cuadrado se vuelve positivo igual que un número positivo, entonces esta parte del procedimiento sirve para que todos los valores que sumamos tengan el mismo signo positivo.

Ejemplo 3.5 (Ejemplo en R)

Por suerte es sencillo sacar tanto la varianza como la desviación estándar en R. Usamos las funciones var y sd12.

x = c(2, 4, 5, 7, 7, 7, 9, 11, 12, 15, 15 ,15, 18)
var(x)
## [1] 24.69231
sd(x)
## [1] 4.969136

¿Por qué se prefiere la desviación estándar?

Hay varios motivos más bien técnicos por los que se prefiere la desviación estándar por sobre la varianza. Sin embargo tiene también algunas ventajas bastante práctica e incluso intuitivas. Una de las más importantes es que la dispersión se expresa en la misma unidad que los datos. Para profundizar esto vemos un ejemplo. Los salarios de una PYME son: $14.000, $14.000, $14.000, $16.000, $17.000, $18.000, $26.000 y $35.000. La media de estos es 19,250, y la desviación estándar es: 7,497. La interpretación de la desviación estándar en este caso es que los salarios en promedio tiene una diferencia de $7,497 (por arriba o abajo) del salario medio de $19,250.

3.2.4 Visualizar la dispersión

Puede resultar útil visualizar la dispersión de un conjunto de datos. Esto se logra con un diagrama de caja (box-plot). Vemos un ejemplo de ello en la figura 3.4.

Ejemplo de box-plot

Figura 3.4: Ejemplo de box-plot

En este tipo de visualización la mediana está representada por la linea horizontal más gruesa, la caja corresponde al rango intercuartíl y los extremos de la linea horizontal representan el rango de los datos. Lo podemos apreciar en la figura @(ref:box-plot-with-explanation)
Ejemplo de box-plot con explicaciones

Figura 3.5: Ejemplo de box-plot con explicaciones

Ejemplo 3.6 (Crear boxplot en R)

La función boxplot nos permite generar un boxplot en R.

notas = c(15, 12, 11, 18, 15, 15, 9, 19, 14, 13, 11, 12, 18, 
           15, 16, 14, 16, 17, 15, 17, 13, 14, 13, 15, 17, 19, 
           17, 18, 16, 14)
boxplot(notas)


  1. Las dos medidas son equivalentes ya que: 0,1 = 10%; 0,5 = 50% etcétera. En estadística y matemática se prefiere generalmente la expresión de proporción porque facilita ciertas operaciones aritméticas.↩︎

  2. Tres cortes más los valores extremos mínimo y máximo↩︎

  3. «sd» por la abreviación del inglés «standard deviation».↩︎