Processing math: 94%

Estatística Descritiva

Resumos Numéricos

Rosineide da Paz

Mediana e outras separatrizes

Separatrizes

Separatrizes são medidas que dividem o conjunto de dados ordenados em partes iguais.

São separatrizes: - mediana (uma única medida num conjunto de dados), - quartís (três medidas) - decís (nove medidas) - e percentís (noventa e nove medidas).

Mediana

Mediana a partir de uma série de dados

Seja a sequência de dados x1,x2,,xn sem ordenação. Vamos denotar por x(1),x(2),,x(n) o conjunto ordenado, ou seja

x(1)x(2)x(n).

  • Assim, a mediana é o valor que 50% dos dados ordandos estão abaixo dele e os demais 50% estão acima.

  • Aqui, x(1) denota o valor valor mínimo da série de dados e x(n) corresponde ao valor máximo.

Obtenção da mediana de uma série de dados

A obtenção da mediana de uma série de dados x=(x1,x2,,xn) pode ser feita da seguinte forma.

  • Med(x)={x(n+12), se n é ímpar;x(n2)+x(n2+1)2, se n par.

1.Para a série x=(5,2,6,13,9,15,10) , a mediana é:

  • (2,5,6,3 elementos9,10,13,153 elementos)Med(x)=9
  1. A série y=(1,3,0,0,2,4,1,3,5,6) tem mediana como segue:
  • (0,0,1,1,4 elementos2,3,3,4,5,64 elementos)Med(y)=2+32=2,5

Mediana a partir da tabela de frequência simples

Suponha que o controle de qualidade de uma empresa faça o registro do número de itens produzidos com defeito por dia. Considerando um período de um ano, foi construída a seguinte tabela de frequência.

  • População: todos os lotes de peças produzidas por dia na empresa.
  • Unidades amostrais ou indivíduos: lote de peças investigados.
  • Variável: quantidade de peças com defeito em um dia de produção.
X: Número de defeitos ni fi Fac Xi×fi
1 6 0,02 0,02 0,02
2 23 0,06 0,08 0,13
3 81 0,22 0,30 0,67
4 104 0,28 0,59 1,14
5 95 0,26 0,85 1,30
6 46 0,13 0,97 0,76
7 10 0,03 1,00 0,19
Total 365 1,00 1,00 4,20

Mediana a partir da tabela de frequência simples

Mediana=4 Média=4,2

Mediana a partir da tabela de frequência em intervalos de classe

Considere as notas obtidas por alunos da engenharia na primeira avaliação da disciplina de probabilidade e estatística.

Nota (0-10) Xi ni fi Xi×fi Fac
[ 0 ; 1,22 ] 0,61 11 0,24 0,1464 0,24
( 1,22 ; 2,44 ] 1,83 4 0,09 0,1647 0,33
( 2,44 ; 3,66 ] 3,05 2 0,04 0,1220 0,38
( 3,66 ; 4,88 ] 4,27 5 0,11 0,4697 0,49
( 4,88 ; 6,1 ] 5,49 2 0,04 0,2196 0,53
( 6,1 ; 7,32 ] 6,71 6 0,13 0,8723 0,67
( 7,32 ; 8,54 ] 7,93 7 0,16 1,2688 0,82
( 8,54 ; 9,76 ] 9,15 8 0,18 1,6470 1
Total
45 1,00 4,9105

Mediana a partir da tabela de frequência em intervalos de classe

Med=Li+[(0,5Fac(ant))fi]×δ

Li: limite inferior da classe mediana;

Xi: ponto médio das classes, para aproximação da média;

Fac(ant): frequência relativa acumulada da classe anterior à classe mediana;

δ: amplitude da classe;

fi frequência relativa da classe mediana.

Nota (0-10) Xi ni fi Xi×fi Fac
[ 0 ; 1,22 ] 0,61 11 0,24 0,1464 0,24
( 1,22 ; 2,44 ] 1,83 4 0,09 0,1647 0,33
( 2,44 ; 3,66 ] 3,05 2 0,04 0,1220 0,38
( 3,66 ; 4,88 ] 4,27 5 0,11 0,4697 0,49
( 4,88 ; 6,1 ] 5,49 2 0,04 0,2196 0,53
( 6,1 ; 7,32 ] 6,71 6 0,13 0,8723 0,67
( 7,32 ; 8,54 ] 7,93 7 0,16 1,2688 0,82
( 8,54 ; 9,76 ] 9,15 8 0,18 1,6470 1
Total
45 1,00 4,9105

Mediana a partir da tabela de frequência em intervalos de classe

  • Fac= 0,53
  • Classe mediana: (4,88;6,1]
  • fi=0,04
  • Fac(ant)=0,49
  • δ=1,22

Nota (0-10) Xi ni fi Xi×fi Fac
[ 0 ; 1,22 ] 0,61 11 0,24 0,1464 0,24
( 1,22 ; 2,44 ] 1,83 4 0,09 0,1647 0,33
( 2,44 ; 3,66 ] 3,05 2 0,04 0,1220 0,38
( 3,66 ; 4,88 ] 4,27 5 0,11 0,4697 0,49
( 4,88 ; 6,1 ] 5,49 2 0,04 0,2196 0,53
( 6,1 ; 7,32 ] 6,71 6 0,13 0,8723 0,67
( 7,32 ; 8,54 ] 7,93 7 0,16 1,2688 0,82
( 8,54 ; 9,76 ] 9,15 8 0,18 1,6470 1
Total
45 1,00 4,9105

Med=Li+[(0,5Fac(ant))fi]×δ=4,88+[(0,50,49)0,04]×1,225,185.

Histograma

  • Mediana: 5,185
  • Média a partir da série de dados: 4,889
  • Média a partir da Tabela: 4,9

Histograma

  • Média com exclusão de zeros: 5,367

Quartis

  • São medidas que dividem a distribuição de frequência em quatro partes.

  • Para obtenção dos quartis a partir de uma série de dados, basta ordenar os dados e proceder de forma semelhante a mediana para cada uma das três medidas que separam os dados.

  • Q1 (primeiro quartil): 25% dos dados ordenados estão abaixo desse valor.

  • Q2 (segundo quartil): mediana.

  • Q3 (terceiro quartil): 75% dos dados ordenados estão abaixo desse valor.

Quartis a partir de tabelas em intervalos

  1. Para os quartis:

Fj=j4, para j=1,2,3Qj=Li+[(FjFac(ant))fi]×δ com:

  • Fj frequência acumulada até o quartil desejado;
  • Li é o limite inferior da classe definida por pj;
  • Fac(ant) é a frequência absoluta acumulada da classe anterior à que contém o j-ésimo quartil;
  • δ é a amplitude da classe e
  • fi é a frequência relativa da classe definida por pj.

Obtenção dos Quartis

Suponha que se tenha dados de valores de imóveis para um determinado bairro.

Obtenção dos Quartis

F. Preço Fac
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00

Quartis

Fj=j4, para j=1,2,3Qj=Li+[(FjFac(ant))fi]×δ

Obtenção do Q1

F. Preço Fac
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00

Quartis

F1=14,Q1=155+[(0,250,19)0,14]×43173,43

Obtenção do Q2

F. Preço Fac
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00
Quartis

Fj=j4, para j=1,2,Q1=155+[(0,250,19)0,14]×43173,43Q2=198+[(0,500,33)0,23]×43229,78.

Obs: a notação para o decimal está em inglês na tabela e no gráfico devido aos comandos utilizados, no entanto não é recomendada notação em inglês para trabalhos em português.

Obtenção do Q3

F. Preço Fac
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00
Quartis

Fj=j4, para j=1,2,3,Q1=155+[(0,250,19)0,14]×43173,43Q2=198+[(0,500,33)0,23]×43229,78Q3=284+[(0,750,73)0,12]×43291,17

Medida da variabilidade

F. Preço Fac
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00
Quartis

Fj=j4, para j=1,2,3,Q1=155+[(0,250,19)0,14]×43173,43Q2=198+[(0,500,33)0,23]×43229,78Q3=284+[(0,750,73)0,12]×43291,17

Distância interquartil.

D=Q3Q1=289,06173,43=115,63.

Indentificação de pontos atípicos

F. Preço Fac
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00

Quartis

Fj=j4, para j=1,2,3,Q1=155+[(0,250,19)0,14]×43173,43Q2=198+[(0,500,33)0,23]×43229,78Q3=284+[(0,750,73)0,12]×43291,17

Distância interquartil.

D=Q3Q1=289,06173,43=115,63.

Limites para detecção de pontos atípicos.

linf=Q132(Q3Q1)lsup=Q3+32(Q3Q1).

Indentificação de pontos atípicos

F. Preço Fac
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00

Quartis

Fj=j4, para j=1,2,3,Q1=155+[(0,250,19)0,14]×43173,43Q2=198+[(0,500,33)0,23]×43229,78Q3=284+[(0,750,73)0,12]×43291,17

Distância interquartil.

D=Q3Q1=289,06173,43=115,63.

Limites para detecção de pontos atípicos.

\begin{aligned} l_{inf} &= 173,43-\frac{3}{2}(289,06-173,43) \approx -0,015\ \ \ \color{red}{ então } \ \ \ l_{inf}=69 \mbox{ reais.}\\ l_{sup}&=289,06+\frac{3}{2}(289,06-173,43) \approx 462,505 \ \ \color{red}{ então } \ \ \ l_{sup}= 462,505 \mbox{ reais}.\end{aligned}

Desenho Esquemático (Boxplot)

F. Preço F_{ac}
[69,112] 0,11
(112,155] 0,19
(155,198] 0,33
(198,241] 0,56
(241,284] 0,73
(284,327] 0,85
(327,370] 0,94
(370,413] 0,97
(413,456] 0,98
(456,499] 0,98
(499,542] 1,00

Quartis

\begin{aligned}F_j&= \frac{ j}{4}, \mbox{ para } j = 1,2,3 ,\\ Q_1&=155+\left[\frac{\left( 0,25- 0,19\right) }{0,14}\right] \times 43 \approx 173,43\\ Q_2&=198+\left[\frac{\left( 0,50- 0,33\right) }{0,23}\right] \times 43 \approx 229,78 \\ Q_3&=284+\left[\frac{\left( 0,75- 0,73\right) }{0,12}\right] \times 43 \approx 291,17 \end{aligned}

Distância interquartil.

\begin{aligned} D&= Q_3-Q_1 = 289,06-173,43 =115,63.\end{aligned}

Limites para detecção de pontos atípicos.

\begin{aligned} l_{inf} &= 173,43-\frac{3}{2}(289,06-173,43) \approx -0,015\ \ \ \color{red}{ então } \ \ \ l_{inf}=69 \mbox{ reais.}\\ l_{sup}&=289,06+\frac{3}{2}(289,06-173,43) \approx 462,505 \ \ \color{red}{ então } \ \ \ l_{sup}= 462,505 \mbox{ reais}.\end{aligned}

Desenho esquemático para a distribuição de preços de imóveis.

Considerações

  • Média e mediana são medidas de tendência central.

  • Se esses valores são divergentes, melhor analisar a adequação da média como uma boa medida de tendência central.

  • A média é afetada por pontos extremos, enquanto a mediana não.

  • A moda também é uma medida de tendência central, e correponde ao valor mais frequênte do conjunto de dados.

  • Para tabelas de frequência em intervalos, pode-se aproximar o valor da moda pelo ponto médio do intervalo de maior frequência.

Exercícios do AME

  • Realizar no sistema.