2.8 Medidas características de una variable

Una vez organizados los datos en su correspondiente distribución de frecuencias, procedemos a dar una serie de medidas que resuman, de la mejor forma posible, la información existente en los mismos y que, de alguna manera, representen a la distribución en su conjunto. El interés se centra en proporcionar un número reducido de valores que caracterizen bien, o lo mejor posible, el conjunto de datos, por grande que este sea. Hay tres tipos fundamentales: medidas de posición, medidas de dispersión y medidas de forma.

A partir de ahora trabajaremos con una variable \(X\), con valores \(x_{1},...,x_{n},\) ordenados de menor a mayor, que pueden repetirse o no, y así incluimos todos los casos descritos (variable discreta o variable continua).

El objetivo, a partir de un conjunto de datos, que puede ser muy grande, es obtener un conjunto pequeño de números que resuman bien al conjunto de datos. No deja de resultar curiosos que para describir la información, reduzcamos la misma. Pero veremos que, en efecto, con un conjunto pequeño de valores podemos resumir bastante bien a un conjunto muy grande.

2.8.1 Medidas de posición o de tendencia central

De alguna manera, estas medidas centralizan la información, y por ello se llaman de tendencia central o promedios. Con ellas, se pretende también facilitar la comparación entre distintas variables.

2.8.1.1 La media (media aritmética)

La media es una medida de representación o de tendencia central que se define de la siguiente manera:
\[ x=\frac{x_{1}+x_{2}+...+x_{n}}{n}.\]

La nota media de los exámenes de una asignatura, el tiempo medio de realización de los mismos, la estatura media, la ganancia media en comisiones ilegales, etc.

# Para calcular la media de una variable se utiliza mean(variable)
X=c(2,3,4,4.5,4.5,5.6,5.7,5.8,6,6.1,6.5,7,7,7,7.5,7.5,7.5,8.3,9,10.2,10.4,11,11.1,11.5,12,13)
mean(X)
## [1] 7.45
2.8.1.1.1 Características esenciales de la media aritmética
  1. Si a partir de una variable \(X\) creamos otra \(Y=aX+b,\) entonces la media de la nueva variable es \(\overline{y}=a\overline{x}+b\)

  2. La media aritmética se ve muy alterada por valores extremos de la variable. Supongamos, por ejemplo, que una variable toma los valores \(X=1,4,12.\) Su media es \(\overline{X}=5.66.\) Si añadimos un nuevo valor, por ejemplo \(100,\) ahora la media es \(\overline{X}=29.25.\) Es decir, valores grandes de \(X\) desplazan la media hacia la derecha. Lo mismo ocurre con valores pequeños de \(X,\) que desplazan la media hacia la izquierda.

Esta propiedad la conocen perfectamente los chavales.

Esta propiedad la conocen perfectamente los chavales.


En realidad, la media aritmética representa el centro de gravedad de la distribución de los datos. Si los datos son pesos, la media aritmética deja igual peso a un lado que al otro, por eso se desplazaría hacia los lados con valores extremos.

2.8.1.2 Media recortada

La Media recortada (media \(\alpha\)-trimmed) a un nivel \(\alpha\) es la media aritmética pero calculada quitando el \(\alpha\) por ciento de los datos inferiores y superiores.

# Para calcular la media recortada de una variable se utiliza mean(Variable, trim= 0 a 0.5) 
X <- c(0:10, 50)
mean(X, trim = 0.10)
## [1] 5.5
#frente a 
mean(X)
## [1] 8.75

2.8.1.3 La media ponderada

Consiste en asignar a cada valor \(x_{i}\) un peso \(w_{i}\) que depende de la importancia relativa de dicho valor, bajo algún criterio. Su expresión responde a:
\[ x_{p}=\frac{x_{1}⋅w_{1}+x_{2}⋅w_{2}+...+x_{n}⋅w_{n}}{w_{1}+w_{2}+...+w_{n}}.\]

wt <- c(5,  5,  4,  1)/15
x <- c(3.7,3.3,3.5,2.8)
xm <- weighted.mean(x, wt)
xm
## [1] 3.453

2.8.1.4 Otras medias

Son, por ejemplo, la media geométrica o la media armónica, esta última interesante puesto que es la media entre velocidades (en general, es la media resultante cuando las unidades son proporciones, como la velocidad que se mide en km/hora o metros/segundo). Ver, por ejemplo como consumir menos

2.8.1.5 El concepto histórico de media

2.8.1.5.1 Nominalismo, realismo, y la intervención de Occam para apoyar a los franciscanos contra el papa. (siglo XIV)

La media aritmética, desde un punto de vista matemático, existe desde la época de la escuela pitagórica. Sin embargo, no tuvo ningún significado de tipo estadístico hasta el siglo XVII, cuando los astrónomos empezaron a utilizarla para dar una medida única de datos de observaciones que presentaban discrepancias. Al realizar mediciones, por ejemplo de distancias de la tierra a estrellas o entre estas, siempre solían aparecer diferencias (los aparatos de medición no eran, obviamente, los mismos que hoy end día), y se decidió, realmente sin saber muy bien por qué, elegir como médida representativa de estas observaciones a la media aritmética.

Resulta por lo menos curioso aludir a las controversias política y filosófica durante la cual Guillermo de Ockham (fraile franciscano, filósofo y lógico escolástico inglés, 1285.1347) afirmó resueltamente su posición nominalista: Su punto de partida es el voto de pobreza pronunciado en el siglo 13 por San Francisco de Asís y asignado como regla a la orden de los franciscanos.

Ahora bien, los franciscanos prosperarán tanto que pronto comenzaron a dirigir numerosos monasterios y ricas propiedades agrícolas. Sin embargo, para permitirle respetar, al menos nominalmente, su voto de pobreza, aceptó tomar a su cargo la propiedad de estos bienes, aunque cediendo les el usufructo. Pero en el siglo XIV esta sutil construcción sufre severas críticas. El Papa, fatigado por la carga administrativa que conlleva la posesión de estos bienes, decide entregarlos a la orden de los franciscanos, lo que obviamente enriquecería a esta última, pero avivaría las críticas formuladas, en el seno mismo de la orden, por una corriente opositora que reclama el retorno a la posición inicial del voto de San Francisco.

En esta situación tan compleja Occam interviene para defender la posición de los franciscanos frente al papa. Argumenta que no es posible entregar los bienes a la orden considerada como un todo, ya que esto no es más que un nombre que designa a individuos franciscanos. Niega así la posibilidad de que existan personas colectivas distintas de las personas singulares, cuestión que traerá muchas consecuencias en el futuro. al individualismo lógico del nominalismo se asocia un individualismo moral, a su vez ligado a una concepción de la libertad del individuo, solo frente al Creador. (Desrosières 2004)

La ley de los grandes números permite dar un paso importante a Quetelet (Perrot 1992), cuando examina los cálculos necesarios para justificar un nuevo impuesto nacional: el diezmo real. El ministro necesita estimaciones variadas: la superficie del reino, los rendimientos agricolas, las cargas fiscales. En ciertos casos, dispone de varias estimaciones de una magnitud desconocida (la superficie total de Francia), de la que extrae una media proporcional. En otros en cambio utiliza informaciones -por ejemplo, sobre los rendimientos agrícolas-, referidas a parroquias o a distintos años. Efectúa entonces un cálculo análogo al precedente, pero no le da el nombre de media, sino de valor común. La operación de adición suprime las singularidades locales y permite que surja un objeto nuevo de orden más general, eliminando las contingencias no esenciales.

Perrot muestra la presencia de lógicas diferentes en cada uno de los cálculos. La media designa “lo que está entre dos extremos”. Proporcional se dice de una cantidad “en relación con otras cantidades del mismo género”. El género, por otro lado, está precisamente asociado con la identidad, con lo que implica la permanencia. El cálculo de la media supone, pues, que las cantidades sean del mismo género en este sentido estricto.

2.8.1.6 La mediana

La mediana es un valor que, previa ordenación, deja la mitad de las observaciones a su izquierda y la otra mitad a su derecha. Es decir, el \(50\%\) de los datos son menores o iguales que la mediana, y el otro \(50\%\) mayores o iguales a ésta.

Para su cálculo, y suponiendo que los valores están ordenados, se procede de la siguiente manera:

  • Si hay un número impar de datos, la mediana es el elemento que se encuentra en el centro, es decir, el valor que ocupa el lugar \(\left( \frac{n+1}{2} \right)\).

  • Si el número de datos fuera par habría dos elementos centrales, y la mediana se obtendría como la media de ambos.

Sea \(X\) la variable que toma los valores \(1,2,3,4,5\) (hay \(n=5\) datos). La mediana es \(Me=3\) (deja 2 valores a la izquierda y 2 a la derecha).

Si \(X\), en cambio, toma los valores \(1,2,2,3,4,5,\) ahora hay un número par de valores. En el medio tenemos los valores \(2\) y \(3.\) La mediana es \(Me=\left( 2+3 \right) /2=2.5.\)

Veamos ahora un ejemplo de película. Hablamos de Blancanieves y la leyenda del cazador (2012), en la cual no respetan demasiado el cuento, y, como vemos en la Ilustración 2, salen 8 enanos en vez de 7 (parece ser que el octavo es el padre de los otros).

Consideremos que todos los enanitos miden 1 metro. La mediana de los 8 datos sería 1 m. Si añadimos a Blancanieves al grupo (1.65 m), la mediana sigue siendo 1. Si añadimos a la madrastra, sigue siendo 1. Y aún añadiendo al cazador, que es un dato bastante separado de los otros (1.92), tenemos en el conjunto total 11 datos. Por lo tanto, la mediana ocupará el lugar sexto (deja 5 datos a cada lado), y sigue siendo 1. Esta propiedad que verifica la mediana, de no dejarse afectar por datos extremos, se llama robustez.

A la hora de hablar, por ejemplo, del sueldo promedio o renta media de un país, resulta evidente que debería indicarse la medida que se utiliza. Así, un sueldo medio dado por la mediana sería aquel tal que el 50 por ciento de la población tendría sueldo más bajo que la mediana, y el otro 50 por ciento un sueldo más alto que la mediana. En cambio, el sueldo media aritmética es el valor correspondiente a sumar todos los sueldos y dividir por el número de personas. Si existe poca gente con sueldos muy altos, el sueldo media aritmética puede ser alto, pero no será representativo del conjunto total de la población. Es otro ejemplo de la robustez de la mediana frente a la no robustez de la media aritmética: si hay un porcentaje de personas no muy grande con sueldo muy elevado, provoca que la media aritmética sea también elevada.

x=c(2,3,1,1,0,5,5,6,12,3,4,5,5,4,7)
Me <-median(x)
Me
## [1] 4

Nota histórica:

La idea de un medio o mediano (lo cual es una descripción) que sea excelente (lo cual es una evaluación) es una de las enseñanzas más familiares de Aristóteles. “La virtud es un medio entre dos vicios, uno de exceso y otro de deficiencia”. Aristóteles explícitamente restringió la aplicación del concepto de medio porque se trata de una excelencia que contrasta con el exceso o la deficiencia. “No todos los puntos medios son medios. El rencor y el adulterio, son en sí mismo bajos, y no son bajos a causa de exceso y deficiencia” (Hacking and Bixio 1995).

2.8.1.7 La moda

La moda (absoluta) de una distribución es el valor que más veces se repite (el valor con mayor frecuencia o más frecuente). Además de la moda absoluta, aquellos valores que tengan frecuencia mayor a la de los valores adyacentes serán modas relativas. Por ejemplo, si tenemos la variable \(X\) que toma los valores \(2,3,3,4,6,7,7,7,10\), la moda absoluta es \(7\), puesto que es el valor que se repite más veces. Además, el valor \(3\) es una moda relativa, puesto que su frecuencia es \(2\), superior a la de los valores \(2\) y \(4\), ambas iguales a \(1.\)

Población de gangsters: valores más frecuentes de abrigos, solapas y sombreros

Población de gangsters: valores más frecuentes de abrigos, solapas y sombreros

En el caso de una variable continua se habla de intervalo modal, que a su vez puede ser absoluto o relativo.

La moda es un valor que se ve directamente al observar el diagrama de barras si la variable es discreta, o el histograma si es continua.

Sobre el salario bruto anual en España (2013) que hemos visto en el video anterior. El salario más frecuente, o salario moda, fue todavía más bajo que el salario mediana. De nuevo hay que incidir en que, cuando se habla del salario medio, debe precisarse qué medida estadística se está utilizando. Quizá la medida más representativa en este caso es la moda (sueldo más frecuente), incluso preferible frente a la mediana.

“En cuestión de financiación autonómica, todas las comunidades autónomas quedarán por encima de la media”.

— José Luis Rodríguez Zapatero

(Sí, en efecto, sea cual sea la media es imposible que todos los datos estén por encima de ella. Así que, por favor, no cometa usted errores como los de ciertos señores, que convierten en veraces frases como “cuanto más inútil se es, más alto se llega”).

“El mayor argumento en contra de la democracia son cinco minutos de conversación con el votante medio.”

— Winston Churchill, uno de los mejores políticos del siglo XX

y fiel ejemplo de que el hombre no procede del mono, sino del perro, en este caso del bull-dog (inglés, of course).

Y el que no lo crea que vea aquí cómo hay perros más listos que muchos hombres (¿o acaso sabe usted hacer eso?)

Ahora una encuesta para saber qué opina la gente sobre esto del salario medio:

2.8.1.8 Cuantiles o percentiles

Se llama cuantil o percentil \(p\) (o de orden \(p\)) \((0<p<100)\) a aquel valor que divide a la variable en dos partes, dejando a su izquierda (o inferiores a él) el \(p\) por ciento de los datos (a su derecha el \(100-p\) por ciento). Por ejemplo, si \(p=50\), el percentil de orden 50 corresponde a la mediana.

Percentil $p$ en una variable continua.

Figura 2.14: Percentil \(p\) en una variable continua.

Los pediatras disponen de tablas de percentiles para los niños/niñas en ciertos rangos de edad, de manera que, midiendo y pesando a un niño que acuda a su consulta, pueda saber rápidamente en qué percentil se encuentra, por si tuviese exceso de peso (o pesase excesivamente poco); igualmente con la altura, puede saber la “posición” (clasificar en percentiles no deja de ser una ordenación de los datos) del niño o niña en el conjunto de datos adecuado.
Tabla de percentiles de 2 a 20 años, por sexo, peso y estatura.

Figura 2.15: Tabla de percentiles de 2 a 20 años, por sexo, peso y estatura.

2.8.1.8.1 Cuartiles

Si consideramos los percentiles \(25, 50\) y \(75\), estos 3 valores dividen a las observaciones en cuatro partes iguales, y por eso se llaman cuartil primero, cuartil segundo y cuartil tercero. Suelen representarse por \(Q_1,Q_2\) y \(Q_3\).

2.8.1.8.2 Deciles

Igual que el caso anterior, si consideramos los percentiles \(10,20,30...\) hasta \(90\) tenemos 9 valores que dividen a las observaciones en 10 partes iguales, y esos valores se llaman deciles. Se representan como \(D_1,D_2,\dots ,D_9\).

De forma similar puede considerarse cualquier reparto de los porcentajes, pudiendo así hablarse de terciles, quintiles, etc.

Vamos a hacer un par de ejemplos considerando los datos de la encuesta nacional de salud (NHANES) de Estados Unidos para el periodo 2013-14.

Primero seleccionamos la variable peso, de los hombres blancos (entre 17 y 50 años). Vemos un sumario básico de los datos, y representamos en el histograma los cuantiles 5 y 95 (el primero deja el 5 por ciento de datos a su izquierda, y el segundo a su derecha).

Min. 1st Qu. Median Mean 3rd Qu. Max.
40.4 74.6 85.6 88.88 99.4 187.8
Percentiles 5 y 95 de la variables Peso

Figura 2.16: Percentiles 5 y 95 de la variables Peso

Este grafíco, como vemos, difiere en su aspecto con los tradicionales. Lo hemos realizado usando la libreria ggplot2, que puede crear gráficos muy bonitos, pero su creación requiere un poco de cuidado. Se puede ver una guía en el libro online (gratuito) de Kieran Healy [Data visualization] (https://socviz.co/), en la página del grupo [RNA-Seq] (http://girke.bioinformatics.ucr.edu/CSHL_RNAseq/mydoc/mydoc_Rgraphics_5/), en la página de [STHDA] (http://www.sthda.com/english/wiki/ggplot2-essentials) y, lógicamente, en el libro del autor del paquete ggplot2, Hadley Wickham (Wickham 2016).

Ahora, en la variable colesterol (LDL) seleccionada en el mismo grupo de personas, representamos sobre el histograma los cuartiles (dividen la distribución en cuatro partes iguales).

Min. 1st Qu. Median Mean 3rd Qu. Max.
39 81.75 103 106.7 130 240
##   25% 
## 81.75
## 50% 
## 103
## 75% 
## 130
Cuartiles variable Colesterol LDL

Figura 2.17: Cuartiles variable Colesterol LDL

Algunos ejemplos en la pantalla grande:

[La gran revancha(2013)]

[Syriana (2006)]

[Como la vida misma (2010)]

2.8.2 Medidas de dispersión

[Carolina Bescansa (Podemos) refiriéndose a la baja puntuación de Pablo Iglesias en una encuesta sobre valoración de líderes políticos]

Como vemos en este video, al menos hay algún político culto en esta última hornada.

Las medidas de tendencia central reducen la información de una muestra a un único valor, pero, en algunos casos, este valor estará más próximo a la realidad de las observaciones que en otros.

Por ejemplo, consideremos la variable \(X=0,5,10\) y la variable \(Y=3,7\). Enseguida podemos ver que las medias aritméticas de ambas variables son iguales (\(\bar{X}= \bar{Y}=5\)), pero también que la variable X está más dispersa (o menos concentrada) que la variable Y, de manera que la representatividad de \(\bar{Y}\) es mayor que la de \(\bar{X}\).

A continuación se estudian una serie de medidas que, por una parte, indicarán el nivel de concentración de los datos que se están analizando y, por otra, informarán sobre la bondad de los promedios calculados como representativos del conjunto de datos.

2.8.3 La Varianza y la desviación típica

La varianza y su raíz cuadrada positiva, la desviación típica, son las medidas de dispersión más importantes, estando íntimamente ligadas a la media como medida de representación de ésta. La varianza viene dada por la expresión: \[ S^{2}= \sigma ^{2}=\frac{ \left( x_{1}-\overline{x} \right) ^{2}+ \left( x_{2}-\overline{x} \right) ^{2}+...+ \left( x_{n}-\overline{x} \right) ^{2}}{n}=\frac{1}{n} \sum _{i=1}^{n} \left( x_{i}-\overline{x} \right) ^{2}. \] Se utiliza esta fórmula por ser la media aritmética de la variable cuyos valores son \(\left( x_{i}-\overline{x} \right) ^{2}.\) Es decir, estamos considerando las distancias entre los datos y la media aritmética, y las promediamos.

Supongamos que tenemos los siguientes datos: \(X= -4,-2,5,9,10,11,14.\) Calculamos su media

X=c(-4,-2,5,9,10,11,14)
media=mean(X)
# vamos a calcular las distancias de cada dato a la media
D=(X-media)^2
D
## [1] 102.878  66.306   1.306   8.163  14.878  23.592
## [7]  61.735
# La varianza es la media de esta nueva variable
mean(D)
## [1] 39.84
# y la desviación típica es la raiz cuadrada
sqrt(mean(D))
## [1] 6.312

Si las distancias entre los datos y la media, en general, son grandes, la media de estas distancias también lo será.

Si las distancias entre los datos y la media, en general, son pequeñas, la media de las distancias también lo será.

Ahora bien, las distancias \(x_{i}-\overline{x}\) las elevamos al cuadrado para evitar que se compensen las distancias positivas y negativas (según que los datos \(x_{i}\) estén a la izquierda de la media o a la derecha).

Realmente, puede demostrarse que, si no lo hacemos, y considerásemos el promedio \(\frac{1}{n} \sum _{i=1}^{n} \left( x_{i}-x \right)\) como la varianza, esto no serviría para nada, ya que ese promedio es siempre cero.

# Consideremos los mismos datos de antes
X=c(-4,-2,5,9,10,11,14)
media=mean(X)
# vamos a calcular las distancias sin elevar al cuadrado
D=X-media
# Si ahora calculamos la media de esta variable nos dará cero
mean(D)
## [1] -1.27e-16

La desviación típica es la raiz cuadrada, con signo positivo, de la varianza. \[\sigma =+\sqrt{\sigma^2}\] que mide la dispersión en las mismas unidades de la variable \(X\), puesto que la varianza mide la dispersión en las unidades de la variable, pero elevadas al cuadrado (si \(X\) son, por ejemplo, metros, la varianza está en metros al cuadrado, y la desviación típica de nuevo en metros).

Si la varianza (o desviación típica) es grande, la dispersión es grande. Análogamente, si la varianza es pequeña, la dispersión es pequeña.

La forma de calcular la varianza y la desviación tipica en R es con

X=c(-4,-2,5,9,10,11,14)
var(X)
## [1] 46.48
sd(X)
## [1] 6.817

Como vemos, no da exactamente lo mismo. Esto es porque R considera lo que se llama cuasi-varianza \[ S^{2}_{n-1}= \frac{ \left( x_{1}-\overline{x} \right) ^{2}+ \left( x_{2}-\overline{x} \right) ^{2}+...+ \left( x_{n}-\overline{x} \right) ^{2}}{n-1}=\frac{1}{n-1} \sum _{i=1}^{n} \left( x_{i}-\overline{x} \right) ^{2}. \] El valor que se calcula con sd es la raiz cuadrada de \(S^2_{n-1}\). El motivo es de tipo teórico, puesto que si los datos son observaciones de una variable aleatoria (a definir en capítulos posteriores), este último valor representa mejor a la varianza teórica de la variable (no os preocupéis por entender este detalle en este preciso momento). En cualquier caso, si \(n\) es un número relativamente grande, los valores que se obtienen diviendo entre \(n\) o \(n-1\) son prácticamente iguales.

En las calculadoras que realizan cálculos estadísticos suele existir un botón con el símbolo \(x\sigma n\) (o algo parecido), y otro botón con el símbolo \(x \sigma\left( n-1 \right)\), indicando que el primero calcula la varianza (o desviación típica) dividiendo por \(n,\) y el segundo dividiendo por \(n-1.\)

Tanto la varianza como la desviación típica son siempre positivas, y valen cero sólo en el caso de que todos los valores coincidan con la media (representatividad absoluta de la media).

2.8.4 Recorrido

Se define como la diferencia entre el mayor y el menor de los valores. Tiene la ventaja de que la calcula hasta un político de barrio, aunque cuando hay valores aislados en las puntas o extremos de la distribución, da una visión distorsionada de la dispersión de ésta.
\[ Recorrido=Max \left( X \right) -Min \left( X \right).\]

2.8.5 Recorrido intercuartílico.

Viene dado por:
\[ R_{I}=Q_{3}-Q_{1}.\] donde \(Q_{3}\) y \(Q_{1}\) son el tercer y primer cuartil, respectivamente.

Es una medida adecuada para el caso en que se desee que determinadas observaciones extremas no intervengan.

Las expresiones que se acaban de ver miden la dispersión de la distribución en términos absolutos (vienen expresadas en las unidades de la variable, sean kilos, euros, metros cúbicos…). Por eso, se llaman medidas de dispersión absolutas. Se precisa definir, a partir de ellas, otras que hagan posible la comparación entre diferentes variables, y que tengan en cuenta el tamaño de las observaciones. Estas últimas se llamarán medidas de dispersión relativas.

2.8.6 Coeficiente de variación

Si una variable \(X\) viene dada en metros, su desviación típica viene también dada en metros. Si quisieramos comparar su dispersión con la de una variable \(Y\) expresada en centímetros, podriamos convertir la variabble \(X\) a centímetros. Pero, si no existe manera de realizar esa conversión (supongamos una variable en metros y otra en kilogramos), no podríamos, a priori, comparar las dispersiones.

El coeficiente de variación también llamado coeficiente de variación de Pearson (debido a su creador [Karl Pearson]) se define como el cociente entre la desviación típica y el valor absoluto de la media: \[ CV=\frac{S}{ \vert \bar{X} \vert }.\] Se trata de una medida adimensional (no tiene unidades), y permite comparar la dispersión de varias distribuciones. A mayor valor de \(CV,\) menor representatividad de la media aritmética, y viceversa. En general, se suele convenir en que valores de \(CV\) menores a 0.1 indican una alta concentración, entre 0.1 y 0.5 una concentración media, y valores superiores a 0.5 (o 1 según algunos libros) una alta dispersión y una media poco o nada representativa.

Ejercicio 2.1 (Cálculo del coeficiente de variación) Supongamos dos variables X e Y que toman los siguientes valores:
X=c(0.1,0.2,0.3,0.4,0.5)
Y=c(1000.1,1000.2,1000.3,1000.4,1000.5)
#ambas variables tienen la misma desviación típica, 
sd(X);sd(Y)
## [1] 0.1581
## [1] 0.1581
#sin embargo, los coeficientes de variación son muy diferentes
sd(X)/mean(X);  sd(Y)/mean(Y)
## [1] 0.527
## [1] 0.0001581
#la media de la segunda variable es mucho más representativa.

El coeficiente de variación de Pearson es el que debe usarse para comparar la dispersión entre diferentes variables. Aquella variable con mayor coeficiente tiene mayor dispersión.

2.8.7 Simetría

Diremos que una distribución es simétrica respecto a un parámetro cuando los valores de la variable equidistantes de dicho parámetro tienen la misma frecuencia. La simetría suele referirse a la simetría respecto de la media aritmética, o respecto de la mediana.

Una distribución o variable es simétrica si, gráficamente, levantamos un eje o línea vertical sobre la media (o mediana, según el caso) y el dibujo a ambos lados de dicho eje es idéntico. La mayor parte de las veces, aunque no se indique, la simetría se refiere a simetría respecto a la media.

Si una distribución no es simétrica, entonces es asimétrica, y la asimetría puede presentarse:

  • a la derecha (asimetría positiva: cola de la distribución más larga a la derecha)
  • a la izquierda (asimetría negativa: cola de la distribución más larga a la izquierda).

Los coeficientes de simetría son valores numéricos que indican si la distribución es simétrica y, caso de no serlo, la tendencia o signo de su asimetría. Uno de los coeficientes de simetría más utilizados es el llamado primer coeficiente de Fisher: \[g_{1}=\frac{m_{3}}{S^{3}}\]

siendo \(m_{3}\) el momento respecto a la media de orden 3, es decir
\[m_{3}=\frac{1}{n} \sum _{i=1}^{n} \left( x_{i}-\overline{x}\right) ^{3}\] y \(S\) la desviación típica. Como vemos, es una medida adimensional (tanto en el numerador como en el denominador las unidades de la variable aparecen elevadas al cubo, por lo que al efectuar la división no hay unidades), y esto nos permite comparar simetrías de distintas variables.
Si una distribución es simétrica, \(g_{1}=0.\)

Si \(g_{1}<0\) entonces la distribución es asimétrica negativa.
Si \(g_{1}>0\) entonces es asimétrica positiva.
Cuando la distribución es simétrica, coinciden la media y la mediana.

Pelo y Simetria.

Figura 2.18: Pelo y Simetria.

Al igual que ocurría con la varianza, la fórmula del coeficiente de asimetría puede variar, por mótivos técnicos, dependiendo del programa estadístico que se utilice. Conviene siempre mirar el manual para tener clara la fórmula. En todo caso, los valores deben ser parecidos, y lo importante es el signo (positivo para asimetría a la derecha y negativo al contrario), que no debe depender del programa utilizado

Los salarios en España, que vimos anteriormente, representan una distribución con una asimetría positiva o a la derecha.
Con los datos de la encuesta nacional de salud americana NHES1 usado anterioremente, vamos a comparar la distribución de la estatura y el peso en varones (mayores de 18 años) de raza blanca.
x=Datos$estatura * 0.254  # pasamos a centimetros
x=na.omit(x)
plot(density(x), "Estatura hombres raza blanca")

x=Datos$peso *  0.0453  # pasamos a kg
x=na.omit(x)
plot(density(x), "Peso hombres raza blanca")

Distinguimos claramente la asimetría del Peso frente a la simetría de la Estatura. La distribución del Peso es asimétrica a la derecha. Tengamos en cuenta que la altura es una variable antropométrica que no es susceptible de ser modificada como el peso (porque los bollitos de pan con chocolate están muy buenos, pero no aumentan la estatura).

2.8.8 Tipificación de una variable

Dada una variable \(X\) con media \(\overline{X}\) y desviación típica \(S_X\), la tipificación consiste en realizar la siguiente transformación:
\[ Z=\frac{X-\overline{X}}{S_X}\]

A la nueva variable \(Z\) se le llama variable estandarizada o tipificada, y tiene media 0 y desviación típica 1. Los valores tipificados se convierten en datos adimensionales. Por todo lo anterior, la tipificación tiene la propiedad de hacer comparables valores individuales que pertenecen a distintas distribuciones, aún en el caso de que éstas vinieran expresadas en diferentes unidades.

Izán se ha ido de Erasmus a Andorra, donde ha obtenido una nota de 25 en estadística, mientras que Yonathan ha estudiado en Corea del Norte, obteniendo una nota de 740. Para poder comparar las notas de Izán y de Yonathan, hay que saber que las notas de la clase de Izán tienen media de 20 y desviación típica de 4, mientras que en Corea del Norte la nota media es de 666 con desviación típica de 66.

Así, las puntuaciones tipificadas fueron \(\frac{25-20}{4}=1.25\) y \(\frac{740-666}{66}=1.12\)

Una vez estandarizadas, observamos que la nota de Izan es superior a la de Yonathan.

2.8.9 Tamaño del efecto

El llamado tamaño del efecto (effect size) en una prueba estadística corresponde a una magnitud estandarizada. Si, por ejemplo, se afirma que un tratamiento disminuye el peso en 10, no sería lo mismo decir 10 kilos que 10 libras, y lo lógico sería indicar un 10 por ciento. Si se desean comparar dos tratamientos, la forma lógica sería a traves de puntuaciones estandarizadas (como en el ejemplo que hemos puesto arriba: si comparamos dos técnicas de estudio, una podría mejorar el rendimiento más que otra, y lo lógico es indicar cual tiene un “tamaño” mayor).

2.8.10 Diagrama de caja (Box-Plot)

Se trata de una representaciones gráfica sencillas que no necesita un número elevado de valores para su construcción. Se utilizan para estudiar tanto la dispersión como la forma de una variable. Asimismo, son especialmente útiles para comparar distintas distribuciones entre sí.

Como dice su nombre, constan de una caja, donde la misma representa el cincuenta por ciento central de la distribución (va de \(Q_{1}\) o primer cuartil a \(Q_{3}\) o tercer cuartil), y la línea situada en el interior de la caja es la mediana.

En este gráfico, \(Q_{1}\) recibe el nombre de bisagra inferior y \(Q_{3}\) bisagra superior. Los extremos inferiores y superiores de los segmentos (también llamados bigotes) delimitan lo que se denomina como valores normales y coinciden, respectivamente, con el mínimo y el máximo de los valores una vez excluidos los candidatos a valores anómalos. Los candidatos a valores anómalos se etiquetan como atípicos y coinciden con aquellas observaciones que se encuentran fuera del intervalo \(\left( LI,LS \right)\), donde:
\[ LI=Q_{1}-1.5R_{I}, \ \ \ LS=Q_{3}+1.5R_{I},\]

es decir, a una distancia de \(Q_{1}\), por la izquierda, o de \(Q_{3}\), por la derecha, superior a una vez y media el recorrido intercuartílico (\(R_{I}=Q_{3}-Q_{1})\). En este caso se llaman atípicos de primer nivel. Cuando la distancia, por uno de los dos lados, es superior a tres recorridos intercuartílicos, el valor atípico se denomina de segundo nivel, o dato extremo.

Los valores atípicos de primer y segundo nivel quedan normalmente identificados en el diagrama de cajas por símbolos diferenciados, debiendo considerarse la revisión de los mismos (pueden corresponder a mediciones mal efectuadas) para posible depuración antes del análisis de los datos. Los valores anómalos pueden corresponder a mediciones mal efectuadas o a datos no pertenecientes a la variable que se está observando.

El diagrama de cajas revela rápidamente la simetría o asimetría de la distribución, pues será asimétrica a la derecha si desde la mediana la caja y los bigotes son más largos a la derecha que a la izquierda (será asimétrica a la izquierda si ocurre lo contrario). Como podremos ver en el siguiente ejemplo, en un mismo gráfico podemos representar varias distribuciones o variables, y la comparación es muy rápida y sencilla (algo que no podemos hacer mediante el histograma).

Características de un Boxplot.

Figura 2.19: Características de un Boxplot.

Datos atípicos, extremos y anómalos.

Figura 2.20: Datos atípicos, extremos y anómalos.

Ejemplo de dato extremo en medicina:

Nota histórica.

El diagrama de caja y bigotes (box-plot and whisker) fue desarrollado por John Tukey (1915-2000), excelente estadístico americano famoso, entre otras cosas, por el desarrollo del análisis exploratorio de datos, una forma de tratamiento de datos que surgió a partir de su libro del mismo nombre (Tukey 1977). Inventor de otro gráfico muy conocido: el diagrama de tallo y hojas, Tukey adquirió pronto fama de genio, además de original y divertido. El gráfico de caja y bigotes fue bautizado así, por lo visto, porque las lineas que sobresalen de la caja hacia los lados le recordaron los bigotes de un gato (recordemos que “whisker” significa bigotes de gato). A dia de hoy, el boxplot, que es un gráfico muy sencillo de realizar y muy práctico para la comparación rápida de múltiples variables, es uno de los diagramas más utilizados en estadística. Curiosamente, el término que se generalizó fue el de boxplot; el de whisker ni siquiere aparece en muchos textos.

John Tukey fue también famoso por diferentes frases. En la siguiente imagen aparece una de las más conocidas:


Ejercicio 2.2 (Edades en el cine) Es muy común escuchar a las actrices americanas que, pasados los 40 años, las ofertas de trabajo descienden rápidamente.

Para estudiar desde nuestro punto de vista (estadístico) esta afirmación, vamos a analizar las variables Edad que tenía un actor/actriz al recibir el Oscar al mejor actor/actriz.

Tenemos pues 4 variables con edades (oscar a mejor actor/actriz principal/secundario). Para los oscars a mejor actriz y mejor actor principal tenemos 89 datos (un dato por año desde 1929 hasta 2017). Los oscar a mejor actor o actriz de reparto comenzaron a darse varios años más tarde.

Primero hacemos un sumario de las medidas estadísticas básicas:

premios_oscar <- read_excel("Data/premios-oscar.xlsx")
#cargamos los datos y los preparamos
X<- (premios_oscar$actor_principal)
Y<- (premios_oscar$actriz_principal)
Z<- (premios_oscar$actor_secundario)
W<- (premios_oscar$actriz_secundaria)
pander(summary(X))
Min. 1st Qu. Median Mean 3rd Qu. Max.
29 38 42 44.07 49 76
pander(summary(Y))
Min. 1st Qu. Median Mean 3rd Qu. Max.
21 28 33 36.03 41 80
pander(summary(Z))
Min. 1st Qu. Median Mean 3rd Qu. Max. NA’s
21 41 47 50.68 60 83 8
pander(summary(W))
Min. 1st Qu. Median Mean 3rd Qu. Max. NA’s
11 31 39 40.69 47 78 8
boxplot(X,Y,Z,W) # boxplot de las 4 variables

Si queremos hacer un boxplot un poco más “profesional”, podemos usar la libreria Mosaic:

# creamos un vector que indique a lo que corresponde cada edad
library(mosaic)
fac<-c(rep("actor_principal",length(X)), 
       rep("actriz_principal",length(Y)),
       rep("actor_secundario",length(Z)),rep("actriz_secundaria",length(W)))  

edad<-c(X,Y,Z,W) # vector con todas las edades
dt<-data.frame(edad,fac)  # creamos una estructura
                          # de dos vectores, edad y 
                          # tipo (actor principal, actriz principal...)
bwplot(edad~fac, ylab="Edad",data=dt) # boxplot mediante la libreria mosaic

Veamos un box-plot de las mismas, muy chulo, usando la libreria plotly, que, básicamente, nos permite crear un gráfico interactivo mediante la instrucción plotly(g) donde g es un gráfico que podemos crear mediante ggplot2. De todas formas, está claro que la interactividad solo se puede ver en el formato de página web de este libro. Además, tengase en cuenta que utiliza bastante memoria.

tipo_act<-c(rep("actor_principal",length(X)), 
       rep("actriz_principal",length(Y)),
       rep("actor_secundario",length(Z)),rep("actriz_secundaria",length(W)))
edad<-c(X,Y,Z,W)
dt<-data.frame(edad,tipo_act) 
library(plotly)
library(ggplot2)
p <- ggplot()+geom_boxplot(data=dt, aes(x=tipo_act, y=edad, color=tipo_act))+
       ggtitle("Edad de ganadores de oscar")+labs(y="Edad")
ggplotly(p)  

¿A qué mola el box-plot interactivo que deja hacer zoom y da los valores de los puntos… ?

Vemos que, para la variable Edad que tenía el actor que ganó el oscar al mejor actor principal la caja se mueve entre los 38 y los 50 años. La mediana es 42 años. La edad media está alrededor de los 44 años (aunque este valor no aparece en el diagrama).

Las edades varían desde un mínimo de 29 años (Adrien Brody en “El pianista” en el 2002) y un máximo de 76 años (Henry Fonda en 1982). Con respecto a las mujeres que ganaron el Oscar a la mejor actriz principal, la caja del gráfico correspondiente (el tercero, de color azul) nos indica que el 50 por ciento central de las edades es bastante menor. Esto quiere decir que las mujeres ganadoras del oscar, por lo general, lo ganan siendo más jovenes (comparadas con los hombres). La mediana de las edades es 33 y la media aritmética ronda los 36 años. Si bien los extremos son 21 años (Marlee Matlin en 1987) y 80 (Jessica Tandy en 1990), vemos que en esta segunda variable hay unos cuantos valores atípicos (esos puntos aislados que se separan de la linea del gráfico), que significa que están alejados de la tónica general de los datos.

Así, de un solo vistazo, podemos comparar estas dos variables y también las correspondientes a las edades de ganadores de oscar a mejor actor y actriz secundario/a, donde comprobamos que la tendencia de mayor edad (en general) en los hombres frente a las mujeres se mantiene.

El diagrama de cajas es muy útil también para estudiar la asimetría de una variable y poder comparar entre varias. En este ejemplo, vemos que la distribución que parece más simétrica es la correspondiente a las edades de los actores secundarios (la longitud desde la mediana hacia abajo y hacia arriba son similares). Mientras tanto, las otras tres variables presentan asimetría positiva (son más largas desde la mediana hacia la derecha).

Presentamos ahora en dos gráficos la estimación de la densidad de las variables edad actor/actriz principal y edad actor/actriz secundario. Estas gráficas representan la variación del porcentaje de los datos (de 0 a 1), y nos permite comparar la distribución de las edades con mucha claridad.

Cuanto más alta es la densidad un cierto rango de edad, significa que hay más datos en el mismo. Observamos que, en ambos casos, las edades de las mujeres van “retrasadas” con respecto a los hombres, es decir, que los hombres tienden a ganar el Oscar con mayor edad que las mujeres. Estos resultados pueden servir para corroborar que los papeles más interesantes para las mujeres (y que les permiten ser nominadas y por tanto ganar un Oscar) se le ofrecen a las mujers más jovenes, mientras que en los hombres parece que existen papeles atractivos en todas las edades.

Oscar en 1992 a Jack Palance, que en aquel momento tenía 72 años. Atención al minuto 1:20.

¿Qué podemos decir de España?

Aquí no tenemos Oscar, tenemos los Goya, pero desde hace menos tiempo. En concreto, desde 1986. Vamos a realizar exactamente el mismo análisis de antes. El gráfico de box-plot (o diagrama de caja, que ahora estamos en España) es

Fijémonos que la diferencia de gráficos es acusada entre actores y actrices cuando nos fijamos en el premio a actriz/actor principal, pero no en cambio al comparar edades en premios a actor/actriz de reparto. En el caso de las edades de las actrices que ganaron el Goya a la mejor actriz principal, ya aparecen como puntos atípicos (aislados del resto) una actriz de 61 años (Amparo Rivelles, que ganó en la primera ceremonia de los Goya), y Rafaela Aparicio que tenía 83 años cuando lo ganó.

Las gráficas corroboran la impresión del diagrama de cajas. Las distribuciones son muy parecidas en el caso de las edades de los premios secundarios, pero muy diferente en el caso de los premios a papeles principales (resaltemos como hay mucha concentración de datos en el rango de 20 a 40 años).

La diferencia de nuestro cine con el de Hollywood se centra, como vemos, en lo que respecto a los papeles no principales. Sin embargo, con respecto a los papeles principales, las actrices españoles se quejan de igual forma de que no existen tantos buenos papeles principales para actrices “maduras”, como sí existen para sus compañeros masculinos.

Y como no podíamos terminar este análisis sin alguna fotografía de cine, pues recordar que estos dos actores tienen cada uno un Oscar y un Goya (en realidad más de uno), y además son pareja. ¿Cuál es la probabilidad de darse semejante coincidencia?

Bibliografía

Desrosières, Alain. 2004. “La Política de Los Grandes Números.” Historia de La Razón Estadística. Barcelona: Melusina.

Perrot, Jean-Claude. 1992. “Une Histoire Intellectuelle de L’économie Politique(XVIIe-Xviiie Siècle).” Civilisations et Sociétés. Ehess.

Hacking, Ian, and Alberto L Bixio. 1995. La Domesticación Del Azar: La Erosión Del Determinismo Y El Nacimiento de Las Ciencias Del Caos. Gedisa Editorial.

Wickham, Hadley. 2016. Ggplot2: Elegant Graphics for Data Analysis. Springer.

Tukey, John W. 1977. Exploratory Data Analysis. Vol. 2. Reading, Mass.