Mediana e outras separatrizes

Separatrizes

Separatrizes são medidas que dividem o conjunto de dados ordenados em partes iguais.

São separatrizes: - mediana (uma única medida num conjunto de dados), - quartís (três medidas) - decís (nove medidas) - e percentís (noventa e nove medidas).

Mediana

Mediana a partir de uma série de dados

Seja a sequência de dados \(x_{1},x_{2},\cdots,x_{n}\) sem ordenação. Vamos denotar por \(x_{(1)},x_{(2)},\cdots,x_{(n)}\) o conjunto ordenado, ou seja

\[x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)}.\]

  • Assim, a mediana é o valor que 50% dos dados ordandos estão abaixo dele e os demais 50% estão acima.

  • Aqui, \(x_{(1)}\) denota o valor valor mínimo da série de dados e \(x_{(n)}\) corresponde ao valor máximo.

Obtenção da mediana de uma série de dados

A obtenção da mediana de uma série de dados \(\textbf{x}=(x_1,x_2, \cdots, x_n)\) pode ser feita da seguinte forma.

  • \(\begin{aligned} Med(\textbf{x}) &= \left\{ \begin{array}{ll} x_{(\frac{n+1}{2})}, &\ \text{se n é ímpar}; \\ \frac{x_{(\frac{n}{2})}+ x_{(\frac{n}{2}+1)}}{2}, &\ \text{se n par}. \end{array} \right.\\ \end{aligned}\)

1.Para a série \(\textbf{x}=(5, 2, 6, 13, 9, 15, 10)\) , a mediana é:

  • \(\begin{aligned} (\underbrace{2, 5, 6,}_{3 \ elementos}\fbox{9,}\underbrace{10, 13, 15}_{3\ elementos}) \Rightarrow Med(\textbf{x})=9\\ \end{aligned}\)
  1. A série \(\textbf{y}=(1, 3, 0, 0, 2, 4, 1, 3, 5, 6)\) tem mediana como segue:
  • \(\begin{aligned}(\underbrace {0,0,1,1,}_{4\ elementos}\fbox{2,3,}\underbrace{3,4,5,6}_{4\ elementos}) \Rightarrow Med(\textbf{y})=\frac{2+3}{2}= 2,5 \end{aligned}\)

Mediana a partir da tabela de frequência simples

Suponha que o controle de qualidade de uma empresa faça o registro do número de itens produzidos com defeito por dia. Considerando um período de um ano, foi construída a seguinte tabela de frequência.

  • População: todos os lotes de peças produzidas por dia na empresa.
  • Unidades amostrais ou indivíduos: lote de peças investigados.
  • Variável: quantidade de peças com defeito em um dia de produção.
\(X:\) Número de defeitos \(n_i\) \(f_i\) \(F_{ac}\) \(X_i \times f_i\)
1 6 0,02 0,02 0,02
2 23 0,06 0,08 0,13
3 81 0,22 0,30 0,67
4 104 0,28 0,59 1,14
5 95 0,26 0,85 1,30
6 46 0,13 0,97 0,76
7 10 0,03 1,00 0,19
Total 365 1,00 1,00 4,20

Mediana a partir da tabela de frequência simples

Mediana=4 Média=4,2

Mediana a partir da tabela de frequência em intervalos de classe

Considere as notas obtidas por alunos da engenharia na primeira avaliação da disciplina de probabilidade e estatística.

Nota (0-10) \(X_i\) \(n_i\) \(f_i\) \(X_i \times f_i\) \(F_{ac}\)
[ 0 ; 1,22 ] 0,61 11 0,24 0,1464 0,24
( 1,22 ; 2,44 ] 1,83 4 0,09 0,1647 0,33
( 2,44 ; 3,66 ] 3,05 2 0,04 0,1220 0,38
( 3,66 ; 4,88 ] 4,27 5 0,11 0,4697 0,49
( 4,88 ; 6,1 ] 5,49 2 0,04 0,2196 0,53
( 6,1 ; 7,32 ] 6,71 6 0,13 0,8723 0,67
( 7,32 ; 8,54 ] 7,93 7 0,16 1,2688 0,82
( 8,54 ; 9,76 ] 9,15 8 0,18 1,6470 1
Total
45 1,00 4,9105

Mediana a partir da tabela de frequência em intervalos de classe

\(\begin{aligned}Med&=L_i+\left[\frac{\left( 0,5 - F_{ac(ant)}\right) }{f_i}\right] \times \delta\end{aligned}\)

\(L_i\): limite inferior da classe mediana;

\(X_i\): ponto médio das classes, para aproximação da média;

\(F_{ac(ant)}\): frequência relativa acumulada da classe anterior à classe mediana;

\(\delta\): amplitude da classe;

\(f_i\) frequência relativa da classe mediana.

Nota (0-10) \(X_i\) \(n_i\) \(f_i\) \(X_i \times f_i\) \(F_{ac}\)
[ 0 ; 1,22 ] 0,61 11 0,24 0,1464 0,24
( 1,22 ; 2,44 ] 1,83 4 0,09 0,1647 0,33
( 2,44 ; 3,66 ] 3,05 2 0,04 0,1220 0,38
( 3,66 ; 4,88 ] 4,27 5 0,11 0,4697 0,49
( 4,88 ; 6,1 ] 5,49 2 0,04 0,2196 0,53
( 6,1 ; 7,32 ] 6,71 6 0,13 0,8723 0,67
( 7,32 ; 8,54 ] 7,93 7 0,16 1,2688 0,82
( 8,54 ; 9,76 ] 9,15 8 0,18 1,6470 1
Total
45 1,00 4,9105

Mediana a partir da tabela de frequência em intervalos de classe

  • \(F_{ac}\)= 0,53
  • Classe mediana: \((4,88; 6,1]\)
  • \(f_i=0,04\)
  • \(F_{ac(ant)}=0,49\)
  • \(\delta = 1,22\)

Nota (0-10) \(X_i\) \(n_i\) \(f_i\) \(X_i \times f_i\) \(F_{ac}\)
[ 0 ; 1,22 ] 0,61 11 0,24 0,1464 0,24
( 1,22 ; 2,44 ] 1,83 4 0,09 0,1647 0,33
( 2,44 ; 3,66 ] 3,05 2 0,04 0,1220 0,38
( 3,66 ; 4,88 ] 4,27 5 0,11 0,4697 0,49
( 4,88 ; 6,1 ] 5,49 2 0,04 0,2196 0,53
( 6,1 ; 7,32 ] 6,71 6 0,13 0,8723 0,67
( 7,32 ; 8,54 ] 7,93 7 0,16 1,2688 0,82
( 8,54 ; 9,76 ] 9,15 8 0,18 1,6470 1
Total
45 1,00 4,9105

\(\begin{aligned}Med&=L_i+\left[\frac{\left( 0,5 - F_{ac(ant)}\right) }{f_i}\right] \times \delta =4,88+\left[\frac{\left( 0,5 - 0,49\right) }{0,04}\right] \times 1,22 \end{aligned} \approx 5,185.\)

Histograma

  • Mediana: \(5,185\)
  • Média a partir da série de dados: \(4,889\)
  • Média a partir da Tabela: \(4,9\)

Histograma

  • Média com exclusão de zeros: \(5,367\)

Quartis

  • São medidas que dividem a distribuição de frequência em quatro partes.

  • Para obtenção dos quartis a partir de uma série de dados, basta ordenar os dados e proceder de forma semelhante a mediana para cada uma das três medidas que separam os dados.

  • \(Q_1\) (primeiro quartil): 25% dos dados ordenados estão abaixo desse valor.

  • \(Q_2\) (segundo quartil): mediana.

  • \(Q_3\) (terceiro quartil): 75% dos dados ordenados estão abaixo desse valor.

Quartis a partir de tabelas em intervalos

  1. Para os quartis:

\(\begin{aligned}F_j&= \frac{ j}{4}, \mbox{ para } j = 1,2,3 \\Q_j&=L_i+\left[\frac{\left( F_j- F_{ac(ant)}\right) }{f_i}\right] \times\delta\end{aligned}\) com:

  • \(F_j\) frequência acumulada até o quartil desejado;
  • \(L_i\) é o limite inferior da classe definida por \(p_j\);
  • \(F_{ac(ant)}\) é a frequência absoluta acumulada da classe anterior à que contém o \(j\)-ésimo quartil;
  • \(\delta\) é a amplitude da classe e
  • \(f_i\) é a frequência relativa da classe definida por \(p_j\).

Obtenção dos Quartis

Suponha que se tenha dados de valores de imóveis para um determinado bairro.

Obtenção dos Quartis

F. Preço \(F_{ac}\)
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00

Quartis

\(\begin{aligned}F_j&= \frac{ j}{4}, \mbox{ para } j = 1,2,3 \\Q_j&=L_i+\left[\frac{\left( F_j- F_{ac(ant)}\right) }{f_i}\right] \times\delta\end{aligned}\)

Obtenção do \(Q_1\)

F. Preço \(F_{ac}\)
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00

Quartis

\(\begin{aligned}F_1&= \frac{ 1}{4},\\ Q_1&=155+\left[\frac{\left( 0,25- 0,19\right) }{0,14}\right] \times 43 \approx 173,43\end{aligned}\)

Obtenção do \(Q_2\)

F. Preço \(F_{ac}\)
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00
Quartis

\(\begin{aligned}F_j&= \frac{ j}{4}, \mbox{ para } j = 1,2 ,\\ Q_1&=155+\left[\frac{\left( 0,25- 0,19\right) }{0,14}\right] \times 43 \approx 173,43\\ Q_2&=198+\left[\frac{\left( 0,50- 0,33\right) }{0,23}\right] \times 43 \approx 229,78 \end{aligned}.\)

Obs: a notação para o decimal está em inglês na tabela e no gráfico devido aos comandos utilizados, no entanto não é recomendada notação em inglês para trabalhos em português.

Obtenção do \(Q_3\)

F. Preço \(F_{ac}\)
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00
Quartis

\(\begin{aligned}F_j&= \frac{ j}{4}, \mbox{ para } j = 1,2,3 ,\\ Q_1&=155+\left[\frac{\left( 0,25- 0,19\right) }{0,14}\right] \times 43 \approx 173,43\\ Q_2&=198+\left[\frac{\left( 0,50- 0,33\right) }{0,23}\right] \times 43 \approx 229,78 \\ Q_3&=284+\left[\frac{\left( 0,75- 0,73\right) }{0,12}\right] \times 43 \approx 291,17 \end{aligned}\)

Medida da variabilidade

F. Preço \(F_{ac}\)
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00
Quartis

\(\begin{aligned}F_j&= \frac{ j}{4}, \mbox{ para } j = 1,2,3 ,\\ Q_1&=155+\left[\frac{\left( 0,25- 0,19\right) }{0,14}\right] \times 43 \approx 173,43\\ Q_2&=198+\left[\frac{\left( 0,50- 0,33\right) }{0,23}\right] \times 43 \approx 229,78 \\ Q_3&=284+\left[\frac{\left( 0,75- 0,73\right) }{0,12}\right] \times 43 \approx 291,17 \end{aligned}\)

Distância interquartil.

\[\begin{aligned} D&= Q_3-Q_1 = 289,06-173,43 =115,63.\end{aligned}\]

Indentificação de pontos atípicos

F. Preço \(F_{ac}\)
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00

Quartis

\(\begin{aligned}F_j&= \frac{ j}{4}, \mbox{ para } j = 1,2,3 ,\\ Q_1&=155+\left[\frac{\left( 0,25- 0,19\right) }{0,14}\right] \times 43 \approx 173,43\\ Q_2&=198+\left[\frac{\left( 0,50- 0,33\right) }{0,23}\right] \times 43 \approx 229,78 \\ Q_3&=284+\left[\frac{\left( 0,75- 0,73\right) }{0,12}\right] \times 43 \approx 291,17 \end{aligned}\)

Distância interquartil.

\[\begin{aligned} D&= Q_3-Q_1 = 289,06-173,43 =115,63.\end{aligned}\]

Limites para detecção de pontos atípicos.

\[\begin{aligned} l_{inf}= Q_1-\frac{3}{2}(Q_3-Q_1) & \mbox{; } & l_{sup}=Q_3+\frac{3}{2}(Q_3-Q_1).\end{aligned}\]

Indentificação de pontos atípicos

F. Preço \(F_{ac}\)
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00

Quartis

\(\begin{aligned}F_j&= \frac{ j}{4}, \mbox{ para } j = 1,2,3 ,\\ Q_1&=155+\left[\frac{\left( 0,25- 0,19\right) }{0,14}\right] \times 43 \approx 173,43\\ Q_2&=198+\left[\frac{\left( 0,50- 0,33\right) }{0,23}\right] \times 43 \approx 229,78 \\ Q_3&=284+\left[\frac{\left( 0,75- 0,73\right) }{0,12}\right] \times 43 \approx 291,17 \end{aligned}\)

Distância interquartil.

\[\begin{aligned} D&= Q_3-Q_1 = 289,06-173,43 =115,63.\end{aligned}\]

Limites para detecção de pontos atípicos.

\[\begin{aligned} l_{inf} &= 173,43-\frac{3}{2}(289,06-173,43) \approx -0,015\ \ \ \color{red}{ então } \ \ \ l_{inf}=69 \mbox{ reais.}\\ l_{sup}&=289,06+\frac{3}{2}(289,06-173,43) \approx 462,505 \ \ \color{red}{ então } \ \ \ l_{sup}= 462,505 \mbox{ reais}.\end{aligned}\]

Desenho Esquemático (Boxplot)

F. Preço \(F_{ac}\)
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00

Quartis

\(\begin{aligned}F_j&= \frac{ j}{4}, \mbox{ para } j = 1,2,3 ,\\ Q_1&=155+\left[\frac{\left( 0,25- 0,19\right) }{0,14}\right] \times 43 \approx 173,43\\ Q_2&=198+\left[\frac{\left( 0,50- 0,33\right) }{0,23}\right] \times 43 \approx 229,78 \\ Q_3&=284+\left[\frac{\left( 0,75- 0,73\right) }{0,12}\right] \times 43 \approx 291,17 \end{aligned}\)

Distância interquartil.

\[\begin{aligned} D&= Q_3-Q_1 = 289,06-173,43 =115,63.\end{aligned}\]

Limites para detecção de pontos atípicos.

\[\begin{aligned} l_{inf} &= 173,43-\frac{3}{2}(289,06-173,43) \approx -0,015\ \ \ \color{red}{ então } \ \ \ l_{inf}=69 \mbox{ reais.}\\ l_{sup}&=289,06+\frac{3}{2}(289,06-173,43) \approx 462,505 \ \ \color{red}{ então } \ \ \ l_{sup}= 462,505 \mbox{ reais}.\end{aligned}\]

Desenho esquemático para a distribuição de preços de imóveis.

Considerações

  • Média e mediana são medidas de tendência central.

  • Se esses valores são divergentes, melhor analisar a adequação da média como uma boa medida de tendência central.

  • A média é afetada por pontos extremos, enquanto a mediana não.

  • A moda também é uma medida de tendência central, e correponde ao valor mais frequênte do conjunto de dados.

  • Para tabelas de frequência em intervalos, pode-se aproximar o valor da moda pelo ponto médio do intervalo de maior frequência.

Exercícios do AME

  • Realizar no sistema.