Son ciertos números que permiten cuantificar las características más relevantes de un conjunto de datos considerado como un todo. Permiten condensar la información más relevante de un conjunto de datos.
Las medidas de posición más importantes son:
Es la suma de todas las observaciones dividida por el número total de observaciones.
Notación: μ para la media poblacional, ˉXn para la media o promedio muestral.
¿Cómo la calculamos?
Para datos no agrupados: ˉXn=1nn∑i=1xi
Para datos agrupados: ˉXn=1nk∑i=1mifi, donde mi es la marca de clase, es decir, el punto medio del intervalo o clase i−ésima, fi es la frecuencia absoluta de la clase i y k es la cantidad de clases.
Ventajas:
Emplea en su cálculo toda la información disponible.
Se expresa en las mismas unidades que la variable en estudio.
Es el centro de gravedad de toda la distribución, representando a todos los valores observados.
Es un valor único.
Se trata de un concepto familiar para la mayoría de las personas.
Es útil para llevar a cabo procedimientos estadísticos para la comparación de exactitud de varios conjuntos de datos.
Desventajas:
Se ve adversamente afectada por valores extremos, perdiendo representatividad.
Si el conjunto de datos es muy grande puede ser tedioso su cálculo manual.
No se puede calcular para datos cualitativos.
No se puede calcular para datos agrupados que tengan clases de amplitud indeterminada.
Es un estadístico de orden. Es el valor que ocupa la posición central de un conjunto de observaciones, una vez que han sido ordenados en forma ascendente o descendente.Divide al conjunto de datos en dos partes iguales.
¿Cómo la calculamos?
Para datos que no están agrupados:
Si n es impar: posición donde se ubica la mediana es igual a n+12.
Si n es par: n+12 no es entero, por lo tanto la mediana será igual al promedio de las dos posiciones centrales, (n2 y n2+1).
Para datos agrupados en intervalos:
La clase mediana es la que contiene al dato que ocupa la posición n2, para n par o n+12, para n impar.
Y aplicamos la fórmula: Me=li+n2−Fi−1fih donde:
li: límite inferior de la clase de la mediana,
Fi−1: frecuencia acumulada de la clase anterior a la clase mediana,
fi: frecuencia absoluta de la clase mediana,
h: amplitud de la clase mediana.
Ventajas:
Fácil de calcular si el número de observaciones no es muy grande.
No se ve influenciada por valores extremos, ya que solo influyen los valores centrales.
Se puede calcular para cualquier tipos de datos cuantitativos, incluso los datos con clase de amplitud indeterminada.
Desventajas:
Hay que ordenar los datos antes de determinarla.
No utiliza todas las observaciones en el cálculo.
La media contiene más información porque usa los valores de todos los datos.
La mediana es más robusta frente a la presencia de valores extremos.
La media es más simple de calcular.
Deben calcularse ambas pues proporcionan información complementaria.
Aquí encontrarán un artículo muy interesante sobre la media y la mediana.
Observación o clase que tiene la mayor frecuencia en un conjunto de observaciones.
Un conjunto de datos puede ser unimodal, bimodal o multimodal.
Es la única medida de tendencia central que se puede determinar para datos de tipo cualitativo.
¿Cómo calculamos o determinamos la Moda?
Para datos no agrupados: es simplemente la observación que más se repite.
Para datos agrupados:
La clase modal es la de mayor frecuencia.
Y aplicamos la fórmula:
Mo=li+Δ1Δ1+Δ2h donde:
li: límite inferior de la clase modal,
Δ1: diferencia entre fi de la clase modal y la anterior.
Δ2: diferencia entre fi de la clase modal y la posterior.
h: amplitud de la clase modal.
Ventajas:
No requiere cálculos (para datos no agrupados).
Puede usarse para datos tanto cuantitativos como cualitativos.
Fácil de interpretar.
No se ve influenciada por valores extremos.
Se puede calcular en clases de amplitud indeterminada.
Desventajas:
Para conjuntos pequeños de datos su valor no tiene casi utilidad, si es que de hecho existe. Sólo tiene significado en el caso de una gran cantidad de datos.
No utiliza toda la información disponible.
No siempre existe, si los datos no se repiten.
Difícil de interpretar si los datos tiene 3 o más modas.
En la población, los cuantiles son puntos tomados a intervalos regulares de la función de distribución de una variable aleatoria.
El cuantil de orden p de una distribución (con 0<p<1) es el valor de la variable qp que marca un corte de modo que una proporción p de valores de la población es menor o igual que qp. Por ejemplo, q0.36el cuantil de orden 0.36 dejaría un 36% de valores por debajo y el cuantil de orden 0.50 se corresponde con la mediana de la distribución.
Los cuantiles suelen usarse por grupos que dividen la distribución en partes iguales; entendidas estas como intervalos que comprenden la misma proporción de valores. Los más usados son:
Los cuartiles, que dividen a la distribución en cuatro partes (corresponden a los cuantiles 0.25; 0.50 y 0.75);
Los quintiles, que dividen a la distribución en cinco partes (corresponden a los cuantiles 0.20; 0.40; 0.60 y 0.80);
Los deciles, que dividen a la distribución en diez partes;
Los percentiles, que dividen a la distribución en cien partes.
Cálculo de cuantiles de datos agrupados en intervalos
En primer lugar, debemos hallar el intervalo en que se encuentra nuestro cuantil. Para esto calculamos la posición del cuantil: np=N⋅p, donde N es el total de datos u observaciones y p es el orden del cuantil que queremos calcular. Por ejemplo, si queremos cacular el cuantil de orden 0.4, debemos hacer N⋅0.4. Luego, observando la columna de frecuencias acumuladas, buscamos el intervalo donde está contenido np.
Y aplicamos la fórmula: qp=li+N⋅p−Fi−1fih donde:
li: límite inferior de la clase que contiene el cuantil,
N: número total de observaciones,
p: cuantil que se está buscando,
Fi−1: frecuencia acumulada en el intervalo anterior al que contiene al cuantil,
fi: frecuencia absoluta del intervalo que contiene al cuantil,
h: amplitud del intervalo que contiene el cuantil.
Son valores numéricos que indican o describen la forma en que las observaciones están dispersas o distribuidas con respecto al valor central.
Son importantes debido a que distintos conjuntos de observaciones con el mismo valor central pueden tener una variabilidad muy distinta.
Ejemplo: Tres grupos de observaciones con medias iguales
20 40 50 30 60 70
47 43 44 46 20 70
44 43 40 50 47 46
Si calcualmos la media y la mediana para cada conjunto de datos:
A <- c(20,40,50,30,60,70)
B <- c(47,43,44,46,20,70)
C <- c(44,43,40,50,47,46)
mean(A); median(A)
## [1] 45
## [1] 45
mean(B); median(B)
## [1] 45
## [1] 45
mean(C); median(C)
## [1] 45
## [1] 45
Todas valen lo mismo, 45.
¿Cuáles son las diferencias entre los tres grupos?
MEDIDAS DE DISPERSIÓN
Rango
Rango intercuartílico o semiintercuartílico.
Varianza y desviación típica o estándar
Desviación media
Coeficientes de variación
Está determinado por los dos valores extremos de los datos muestrales. Es simplemente la diferencia entre la mayor y menor observación.
Es una medida de dispersión absoluta, ya que depende solamente de los datos y permite conocer la máxima dispersión.
Ventaja
Desventaja
Depende únicamente de dos valores. ¿Y el resto de las observaciones?
No proporciona una medida de variabilidad de las observaciones con respecto al centro de la distribución.
No es robusto frente a valores extremos.
Asociado al Rango, tenemos:
RANGO INTERCUARTÍLICO: RQ=Q3−Q1
RANGO SEMI-INTERCUARTÍLICO: RSQ=Q3−Q12
Notación: σ2 para la varianza poblacional, s2 para la varianza muestral.
Cálculo de la varianza muestral
Con datos no agrupados, es el promedio del cuadrado de las desviaciones de cada observación con respecto a la media.
s2=1n−1n∑i=1(xi−ˉx)2
Con datos agrupados, la fórmula es:
s2=1n−1k∑i=1(mi−ˉx)2⋅fi donde:
mi: es la marca de clase, es decir, el punto medio del intervalo o clase i−ésima,
fi es la frecuencia absoluta de la clase i,
k es la cantidad de clases.
Ventajas:
*Aplicación muy importante en inferencia
Desventajas:
No proporciona ayuda inmediata cuando se estudia la dispersión de un solo conjunto de datos.
Difícil de interpretar por tener sus unidades elevadas al cuadrado.
Es la raíz cuadrada de la varianza.
Cálculo de la desviación estándar muestral
Con datos no agrupados:
s=√1n−1n∑i=1(xi−ˉx)2
Con datos agrupados, la fórmula es:
s=√1n−1k∑i=1(mi−ˉx)2⋅fi donde:
mi: es la marca de clase, es decir, el punto medio del intervalo o clase i−ésima,
fi es la frecuencia absoluta de la clase i,
k es la cantidad de clases.
Ventajas
Esta expresada en las mismas unidades que la variable en estudio.
Utiliza todas las observaciones en su cálculo.
Fácil de interpretar.
Desventajas:
Influenciada por valores extremos
El valor por si solo no es totalmente indicativo de la magnitud de variabilidad. Si en forma comparativa.
Es una medida de dispersión relativa que permite comparar el nivel de dispersión de dos muestras con variables con unidades y/o medias diferentes.
Es una medida adimensional.
Notación: CV o CV%.
Cálculo del coeficiente de variación (porcentual) muestral
Debemos aplicar la fórmula: CV=sˉx o bien CV%=sˉx×100%
La desviación media muestral se define como: Dm=1nn∑i=1|xi−ˉx|
En el caso de tener los datos agrupados por intervalos, Dm=1nk∑i=1|mi−ˉx|⋅fi donde mi es la marca de clase, es decir, el punto medio del intervalo o clase i−ésima, fi es la frecuencia absoluta de la clase i y k es la cantidad de clases.
Las medidas de forma son aquellas que nos muestran si una distribución tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.
Para analizar estos asepctos recurriremos a dos tipos de medida:
Índice de asimetría.
Índice de curtosis a apuntamiento.
La asimetría de una distribución hace referencia al grado en que los datos se reparten respecto por encima y por debajo de un valor central (media o mediana).
Cálculo del índice de asimetría muestral As=1nn∑i=1(xi−ˉx)3s3 donde ˉx y s son, respectivamente, el promedio y la desviación estándar de la muestra.
Como siempre, en caso de que tengamos datos agrupados por intervalos, debemos utilizar las marcas de clase y frecuencias absolutas de cada intervalo: As=1nk∑i=1(mi−ˉx)3s3⋅fi
Figura 1 : Forma de la distribución de acuerdo al coeficiente de asimetría.
Mide la mayor o menor concentración de datos alrededor de la media, es decir, hace referencia al grado de apuntamiento de la distribución.
Cálculo del índice de curtosis muestral Cr=1nn∑i=1(xi−ˉx)4s4−3 donde ˉx y s son, respectivamente, el promedio y la desviación estándar de la muestra.
Una vez más, en caso de tener datos agrupados por intervalos, debemos utilizar las marcas de clase y frecuencias absolutas de cada intervalo: Cr=1nk∑i=1(mi−ˉx)4s4⋅fi−3
Figura 2 : Forma de la distribución de acuerdo al coeficiente de curtosis
Observación: En caso de calcular el índice de curtosis sin restar el 3, entonces debemos comparar el valor del índice obtenido Cr con 3. Es decir:
Si Cr>3 : La distribución es leptocúrtica.
Si Cr=3 : La distribución es mesocúrtica.
Si Cr<3 : La distribución es platicúrtica.