2 Separatrizes e medidas de dispersão associadas

Nesta seção será discutido o cálculo e o uso da mediana como uma medida de tendência central, além de descrever como se dá a obtenção e interpretação de outras separatrizes. Também serão apresentadas medidas da dispersão em torno da mediana.

2.1 Mediana

A média, embora seja uma medida de tendência central muito utilizada, muitas vezes não descreve de maneira adequada um conjunto de dados, pois essa é uma medida que pode ser afetada por algumas características que os dados pode conter, como por exemplo a presença de assimetria acentuada na distribuição dos dados, ou presença de pontos que destoam dos demais, seja para cima ou para baixo. Nessas situações é importante que sejam obtidas outras medidas que não sejam afetadas por essas características. Uma medida que pode ser empregada nessas situações é a mediana, pois esta não é afetada por assimetria ou por pontos atípicos.

2.1.1 Mediana a partir de uma série de dados

A mediana de um conjunto de valores é o valor situado de tal forma no conjunto que o separa os dados ordenados (x(1),x(2),,x(n)) em dois subconjuntos, de modo que 50% dos valores estão abaixo dele e os demais 50% estejam acima. Aqui, x(1) denota o valor valor mínimo da série de dados e x(n) corresponde ao valor máximo. Ou seja, têm-se:

x(1)x(2)x(n).

A mediana é uma separatriz, pois esta divide o conjunto de dados ordenados em duas partes iguais.

A obtenção da mediana de uma série de dados x=(x1,x2,,xn) pode ser feita da seguinte forma.

Med(x)={x(n+12), se n é ímpar;x(n2)+x(n2+1)2, se n par.

Exemplo.2.1 Para ilustrar, considere os exemplos a seguir.
  1. Para a série x=(5,2,6,13,9,15,10), a mediana pode ser obtida como segue:

(2,5,6,3 elementos9,10,13,153 elementos)Med(x)=9

  1. A série y=(1,3,0,0,2,4,1,3,5,6) pode ser ordenada, e a mediana encontrada, da seguinte maneira:

(0,0,1,1,4 elementos2,3,3,4,5,64 elementos)Med(y)=2+32=2,5

2.1.2 Mediana a partir da tabela de frequência simples

Para obtenção da mediana a partir de uma tabela de frequência, considere a coluna das frequências relativas acumuladas. A frequência acumulada é útil devido a mediana ser um valor que acumula abaixo dele 50% dos dados ordenados, com isso pode-se encontrar facilmente a classe mediana olhando diretamente para a tabela. Para ilustrar a obtenção, considere o Exemplo 2.2.

Exemplo.2.2 Considere a Tabela 2.1, que mostra a distribuição de frequência das curvas da BR 116, compreendidas entre os quilômetros 52,90 e 113,20, dados vistos em Quaresma (2019). Considere o seguinte.

  • População: todas as curvas existentes na BR 116 entre os quilômetros 52,90 e 113,20.
  • Unidades amostrais ou indivíduos: as curvas investigadas.
  • Variável: número de acidentes ocorridos entre 2014 e 2019 nessas curvas.
Nese caso a variável é resultado de uma contagem, portanto é quantitaiva dicreta. A distribuição de frequência das curvas segundo o número de acidentes pode ser vista na Figura 2.1, onde pode ser notada uma assimetria assentuada no gráfico exibido. Nesse caso, pode ocorrer uma divergência entre a média e a mediana do número de acidentes. As duas medidas serão obtidas e comparadas a seguir.
Tabela 2.1: Distribução de frequência da quantidade de acidentes por curva da BR 116, do quilômetro 52,90 até 113,20, entre os anos de 2014 a 2019 (Quaresma 2019).
Quant. Acidentes Freq.Curvas fi Fac Xi×fi
0 13 0.34 0.34 0.00
1 5 0.13 0.47 0.13
2 5 0.13 0.61 0.26
3 3 0.08 0.68 0.24
4 3 0.08 0.76 0.32
5 2 0.05 0.82 0.26
6 3 0.08 0.89 0.47
7 1 0.03 0.92 0.18
12 1 0.03 0.95 0.32
17 1 0.03 0.97 0.45
48 1 0.03 1 1.26
Total 38 1.01 - 3.89

Para obter a mediana, observe que a até a terceira classe são acumulados mais de 50% dos dados (61%), sendo assim, esta é a classe que contém a mediana, deste modo não importa se o total de elementos na série é par ou ímpar, a mediana é o valor que está nessa classe, no caso, 2 acidentes, como mostra a linha a seguir, a qual foi destacada da Tabela 2.1. Ainda na tabela, pode ser visto que a média é ¯x=3,86, a qual está a quase duas unidades distante da mediana, mostrando uma divergência dessas duas medidas de tendência central. Isso mostra que, neste caso, a média pode não ser uma boa medida de tendencial central.

Mediana=2 ni=5 fi=0,13 Fac=0,61
: Frequência das curvas por acidente.

Figura 2.1: : Frequência das curvas por acidente.

2.1.3 Mediana a partir da tabela de frequência em intervalos de classe

A obtenção de uma aproximação da mediana a partir de dados agrupados em uma tabela de frequência em intervalos, assim como no caso de uma tabela de frequência simples, pode ser feita localizando a classe que contém a mediana. Neste caso, o valor da mediana não pode ser obtido de modo preciso, exigindo, pois é requerida uma aproximação dentro do intervalo que contém esse valor. Essa aproximação será feita aqui de modo a levar em consideração a distribuição de frequência por meio da relação: Med=Li+[(0,5Fac(ant))fi]×δ em que,

  • Li: limite inferior da classe mediana,
  • Fac(ant): frequência relativa acumulada da classe anterior à classe mediana,
  • δ: amplitude da classe
  • e fi é a frequência relativa da classe mediana.

O Exemplo 2.3 ilustra a obtenção dessa aproximação da mediana em tabela com intervalos.

Tabela 2.2: Distribução de frequência da variável “Local” em quilômetro.
Km Freq.Curvas fi Fac
(53.05,59.78] 6 0.16 0.16
(59.78,66.46] 4 0.11 0.26
(66.46,73.13] 8 0.21 0.47
(73.13,79.81] 0 0.00 0.47
(79.81,86.48] 0 0.00 0.47
(86.48,93.16] 4 0.11 0.58
(93.16,99.83] 4 0.11 0.68
(99.83,106.5] 7 0.18 0.87
(106.5,113.2] 5 0.13 1
Total 38 1.00 -

Exemplo.2.3 A Tabela 2.1, mostra a distribuição de frequência das curvas da BR 116, compreendidas entre os quilômetros 52,90 e 113,20, segundo a quilometragem da via, dados vistos em Quaresma (2019). Neste caso, pode ser pensado as seguintes características para o estudo.

  • População: todas as curvas existentes na BR 116 entre os quilômetros 52,90 e 113,20.
  • Unidades amostrais ou indivíduos: as curvas investigadas.
  • Variável: posição da curva na rodovia, medida pela quilometragem da via até a curva.

Note que a posição da curva é uma variável quantitativa contínua, sendo apropriado o uso de uma tabela de frequência com intervalos. Na sexta classe da tabela de frequência apresentada é localizada a mediana da quilometragem, ou seja, aquele valor para a variável local da curva que antes dele concentra 50\% dos locais das curvas para o trexo em questão. Essa classe é mostrada a seguir:

Mediana (86,48;93,16] n6=4 f6=0,11 Fac=0,58

Uma vez que foi identificada a classe da mediana, basta aproximá-la dentro do intervalo, da seguinte forma:

Med=L6+[(0,5Fac(5))f6]×δ=86,48+(0,50,47)0,11×(93.1686,48)=86,48+0,030,11×6,68=86,48+2,7388,3.

A Figura 2.2 mostra o histograma da frequência das curvas por quilometragem, onde pode ser visto o intervalo com maior frequência de curvas (65-70 km) e também o intervalo que contém a mediana (80-85 km).

: Frequência das curvas.

Figura 2.2: : Frequência das curvas.

2.2 Outras Separatrizes

Separatrizes (ou quantis) são valores que dividem uma série de dados ordenados (x(1),x(2),,x(n)) em partes iguais. Assim como a mediana divide a série dados ordenados em duas partes iguais, podem ser obtidos valores que separam a série em mais parte iguais. As separatrizes mais importantes são:

  • a mediana (uma medida que divide a série ordenada em duas partes iguais);
  • os quartis (três medidas que dividem a série ordenada em quatro partes iguais);
  • os decis (nove medidas que dividem a série ordenada em dez partes iguais)
  • e os percentis (noventa e nove medidas que dividem a série ordenada em cem partes iguais).

A estratégia usada para a obtenção das demais separatrizes segue a mesma ideia aquela empregada para obter o valor da mediana. Então, para encontrar as medidas a partir de uma tabela de frequência, encontra-se a classe que contém a medida desejada observando as frequências relativas acumuladas. Se a tabela possuí intervalos, deve-se aproximar as medidas dentro de suas respectivas classes usando expressões que podem ser como segue.

  1. Para os quartis:

pj=j4, para j=1,2,3Qj=Li+[(pjFac(ant))fi]×δ com:

  • Li é o limite inferior da classe definida por pj;
  • Fac(ant) é a frequência absoluta acumulada da classe anterior à que contém o j-ésimo quartil;
  • δ é a amplitude da classe e
  • fi é a frequência relativa da classe definida por pj.
  1. Para os decis:

pj=j10, para j=1,2,,9Dj=Li+[(pjFac(ant))fi]×δ com:

  • Li é o limite inferior da classe definida por pj;
  • Fac(ant) é a frequência absoluta acumulada da classe anterior à que contém o j-ésimo decil;
  • δ é a amplitude da classe e
  • fi é a frequência relativa da classe definida por pj.
  1. Para os percentis:

pj=j100, para j=1,2,,99Pj=Li+[(pjFac(ant))fi]×δ com:

  • Li é o limite inferior da classe definida por pj;
  • Fac(ant) é a frequência absoluta acumulada da classe anterior à que contém o j-ésimo percentil;
  • δ é a amplitude da classe e
  • fi é a frequência relativa da classe definida por pj.

2.2.1 Cálculo dos quartis

No Exemplo 2.3, os quartis podem ser obtidos da seguinte maneira:

2.2.1.1 Valor do primeiro quartil (Q1)

O valor Q1 está na segunda classe da tabela (tab:tabclass), pois essa acumula mais de 25\% dos dados, como pode ser visto na classe destacada a seguir.

Q1 (59,78;66,46] n2=12 f2=0,32 Fac=0,26

Note que até essa classe concentra-se 26% dos dados, logo contém o Q1. Para aproximar essa medida dentro da classe encontrada, basta usar a relação:

p1=14=0,25Q1=L2+[(p1Fac(1))f2]×δQ1=59,78+[(0,250,16)0,32]×(66,4659,78)Q1=59,78+0,82×6,68=59,78+5,4765,25

Então, Q165,25

2.2.1.2 Valor do segundo quartil (Q2)

O Q2=Med=88,3, ou seja esse valor é o valor da mediana e já foi calculado anteriormente.

2.2.1.3 Valor do terceiro quartil (Q3)

O valor Q3 está na quinta classe da tabela (tab:tabclass), pois essa acumula mais de 75% dos dados:

Q3 (99,83;106,5] n8=7 f8=0,18 Fac=0,87

Note que até essa classe concentra-se 87% dos dados, logo contém o Q3. Assim:

p3=34=0,75Q3=L8+[(p3Fac(7))f8]×δQ3=99,83+[(0,750,68)0,18]×(106,599,83)Q3=99,83+0,39×6,68=99,83+2,61102,45

Ou seja, Q3102,45

2.3 Desenho Esquemático (Boxplot)

O desenho esquemático, também conhecido como Boxplot, é um gráfico bastante útil na análise do comportamento de uma variável a partir de um conjunto de valores observados. Dentre as vantagens do boxplot, podemos destacar:

  • a detecção rápida de uma possível assimetria na distribuição de frequência dos dados;
  • a capacidade de fornecer uma ideia sobre a existência de possíveis pontos atípicos (muito além ou muito aquém dos demais pontos);
  • a exibição dos quartis.

2.3.1 Contrução do Boxplot

Para sua construção, é preciso obter mais duas medidas para decidir quais são os pontos atípicos da série de dados. Essas medidas serão chamadas aqui de limite superior (lsup) e limite inferior (linf). Para obtê-los, fazemos:

linf=Q132(Q3Q1) e lsup=Q3+32(Q3Q1).

  • Caso o valor mínimo no conjunto de dados seja maior que Q132(Q3Q1, então: lsup=min.

  • Do mesmo modo, caso o valor máximo no conjunto de dados seja menor que Q3+32(Q3Q1), então: linf=min

Com essas medidas, podemos obter os valores que estão muito aquém de Q1 ou muito além de Q3. Tais pontos são chamados de pontos discrepantes (ou aberrantes, ou ainda outliers).

Após a obtenção dos limites (linf e lsup), podemos construir o boxplot da seguindo os seguintes passos:

  • No eixo cartesiano, constrói-se um retângulo na vertical de modo que:

    • A base no retângulo corresponda ao primeiro quartil (Q1)
    • e o topo (lado superior) corresponda ao terceiro quartil (Q3);
    • divide-se o retângulo em duas partes usando um segmento de reta orientado pela mediana;
    • Acima do retângulo traça-se um segmento orientado por lsup;
    • Abaixo do retângulo também é apresentado um traço orientado por linf;
      • acima de lsup e abaixo de linf, marcam-se os pontos discrepantes.
Exemplo.2.4 Voltando ao Exemplo 2.3, nota-se que falta apenas obter os limites para pontos atípicos para que seja possível a contrução do boxplot. Então, usando os valores já calculados para Q1, Q2 e Q3, tem-se:

linf=Q132(Q3Q1)=65,2532(102,4565,25)=65,2555,8=9,45lsup=Q3+32(Q3Q1)=102,45+32(102,4565,25)=102,45+55,8=158,25.

Como, min=53,11 e max=113,18, então: linf=53,11lsup=113,18.

Usando esses limites e os quartis calculados anteriormente, pode-se costruir o gráfico apresentado na Figura @rer(fig:boxplotcurvas). Note que no intervalo delimitado pela caixa estão 50\% do total das curvas, e este intervalo vai dos quilometro Q1=65,25 até o quilometro Q3=102,45. Na caixa do gráfico pode ser notada uma assimetria, pois existem um lado, em relação a mediana, que é mais “largo” que o outro. Também pode ser notado que as curvas estão concentradas ao longo do trecho, ou seja, não existe uma isolada, pois não é observado pontos atípicos no conjunto de dados. Note, também, que a média e a mediana estão afastadas, indicando um deslocamento da média do centro da distribuição para a esquerda.

: Frequência das curvas pela sua localização na rodovia.

Figura 2.3: : Frequência das curvas pela sua localização na rodovia.

Exemplo.2.5 Considerando novamente a Tabela 2.1, que mostra a distribuição de frequência das curvas da BR 116, compreendidas entre os quilômetros 52,90 e 113,20, com as considerações seguintes.

  • População: todas as curvas existentes na BR 116 entre os quilômetros 52,90 e 113,20.
  • Unidades amostrais ou indivíduos: as curvas investigadas.
  • Variável: número de acidentes ocorridos entre 2014 e 2019 nessas curvas.
A Figura 2.4, mostra o boxplot para esses dados, onde fica evidenciado o ponto atípico do conjunto de dados.
: Frequência das curvas pelo número de acidentes.

Figura 2.4: : Frequência das curvas pelo número de acidentes.

2.4 Medida da dispersão em torno da mediana

2.4.1 Distância interquartil

Se a mediana é usada como a medida de tendência central para um conjunto de dados, a distância entre o primeiro e o terceiro quartil pode ser usada como uma medida da variabilidade dos dados em torno da mediana. Essa medida é chamada de distância interquartil e é dada por:

D=Q3Q1

Também é muito utilizado a "amplitude ou desvio semi-quartil’’, que seria o interquartil dividido por 2. Neste caso, essa é uma boa medida de dispersão, pois em um intervalo igual ao interquartil em torno da mediana estão 50% dos dados. Neste caso, o boxplot pode ser utilizado para visualizar o comportamento da variável que gerou os dos dados. Quanto maior for a distância entre os quartis Q1 e Q2, maior será a dispersão dos dados.

2.4.2 Amplitude Total

Também podem ser usadas outras medidas para se ter uma ideia da dispersão dos dados.
Um exemplo é a Amplitude Total (AT) que é a diferença entre o maior e o menor valor observado (valor máximo e valor mínimo).

AT=x(max)x(min)

Observação: essa medida não é muito utilizada devido ser altamente afetada por pontos discrepantes, além de ser pouco informativa.

Referências

Quaresma, Renan Rocha. 2019. “Análise Da Influência de Parâmetros Geométricos de Rodovias Na Frequência E Severidade de Acidentes Rodoviários.” http://repositorio.ufc.br/bitstream/riufc/49429/1/2019_tcc_rrocha.pdf.