Revisão

Conceitos básicos

  • População: conjunto de elementos com pelo menos uma característica em comum que o delimita, podendo ser um conjunto de indivíduos, fenômenos ou resultados que se pretende investigar.

  • Amostra: qualquer subconjunto da população.

  • Variável: característica dos elementos da população que se deseja investigar.

  • Dados: observações de uma ou mais variáveis em elementos de uma população.

  • Censo: observações realizadas a partir de todos os elementos da população.

  • Dados Amostrais: observações realizadas a partir de uma amostra.

  • Unidade Amostral: entidade (ou elemento) da população sobre a qual a característica de interesse (a variável) é observada.

Classificação de Variáveis

Uma variável é uma quantidade ou atributo, cujo valor observado pode variar de uma unidade investigada para outra.

Obs: exercícios na apostila, página 11.

Estrutura dos dados para análise: exemplo

Dados de alunos matriculados no Campus da UFC de Russas no ano de 2022.
Chamada ANO CODIGO_CURSO NOME_CURSO TIPO_MOD_CONCORRENCIA
1 R 2022 1299927 CIENCIA DA COMPUTAÇÃO A
2 R 2022 1299927 CIENCIA DA COMPUTAÇÃO A
3 R 2022 1299927 CIENCIA DA COMPUTAÇÃO A
4 R 2022 1299927 CIENCIA DA COMPUTAÇÃO A
5 R 2022 1299927 CIENCIA DA COMPUTAÇÃO A

Notação

  • Usaremos letras maiúsculas para representar uma variável: \(X\), \(Y\), \(W\), …

  • Observações pela mesma letra, mas minúscula: \(x_1,x_2,\cdots,x_n\) são \(n\) observações da variável \(X\).

  • \(n\) representa a quantidade de dados se esses vem de uma amostra.

  • \(N\) representa a quantidade de dados se esses vem de uma população.

Visualização da Frequência de uma variável usando uma tabela

Tabela 2: Modelo de uma tabela de frequência simples.
Variável \(n_i\) \(f_i\) \(F_{ac}\)
\(x_1\) \(n_1\) \(f_1=n_1/n\) \(n_1/n\)
\(x_2\) \(n_2\) \(f_2=n_2/n\) \((n_1+n_2)/n\)
\(...\) \(...\) \(...\) \(...\)
\(x_k\) \(n_k\) \(f_k=n_k/n\) \((n_1+n_2+ ... +n_k)/n\)
Total \(n\) 1

Obs: a frequencia relativa acumulada (\(F_{ac}\)) só faz sentido se existe ordenação nos possíveis valores da variável.

Outras Notações Importantes

  • \(k\) sendo o número de classes da tabela, que neste caso é a quantidade de valores distíntos no conjunto de dados;

  • \(n_i\) a frequência absoluta;

  • \(f_i\) a frequência relativa;

  • \(F_{ac}\) a frequência relativa acumulada;

  • \(n\) total de elementos da amostra, se as medições são feitas em todos os elementos da população, tem-se \(N\) maiúsculo em vez de minúsculo.

Exemplo

Frequência dos estudantes matriculados no curso de Ciência da Computação, ano de 2022

Distribução de frequência da variável.
Z Frequência Absoluta Frequência Relativa
F 17 0,162
M 88 0,838

Gráfico em Setores

Frequência das matrículas efetivadas em chamada regular e lista de espera

Distribução de frequência da variável Curso
Z Frequência Absoluta Frequência Relativa
CIENCIA DA COMPUTAÇÃO 105 0,344
ENGENHARIA CIVIL 26 0,085
ENGENHARIA DE PRODUÇÃO 38 0,125
ENGENHARIA DE SOFTWARE 97 0,318
ENGENHARIA MECANICA 39 0,128

Gráfico em barras: apropriado para representar frequências a partir de uma tabela de frequência simples

Exemplo

Frequência relativa acumulada

Exemplo: questionário SAEB ensino médio 2019

Qual é a maior escolaridade da sua mãe (ou mulher responsável por você)?

Frequência da variável Z=“escolaridade”.
Z Frequência Absoluta Frequência Relativa Frequência Acumulada
A 173 0,266 0,266
B 134 0,206 0,472
C 120 0,184 0,656
D 192 0,295 0,951
E 32 0,049 1
Total 651 1

  • A: Não completou o 5º ano do Ensino Fundamental.

  • B: Ensino Fundamental, até o 5º ano.

  • C: Ensino Fundamental completo.

  • D: Ensino Médio completo.

  • E: Ensino Superior completo (faculdade ou graduação).

Tabela de Frequência com Intervalos de Classes

Notas ENEM: Poucas repetições nos dados

##   [1] "425,02" "454,74" "461,36" "481,2"  "498,02" "500,02" "505,18" "508,12"
##   [9] "510,24" "513,46" "515,52" "516"    "522,4"  "529,06" "531,82" "532,36"
##  [17] "533,06" "534,06" "534,6"  "534,98" "535,74" "535,98" "536,88" "538,52"
##  [25] "538,96" "546,46" "546,78" "548,56" "549,08" "549,3"  "549,9"  "549,92"
##  [33] "550,22" "550,72" "551,42" "552,44" "553,2"  "555,26" "555,6"  "555,68"
##  [41] "556,3"  "557,04" "558,56" "558,68" "559,82" "560,76" "561,38" "562,16"
##  [49] "563,54" "563,9"  "564,06" "564,54" "564,92" "565,3"  "566,26" "566,46"
##  [57] "566,74" "567,22" "567,86" "569,3"  "569,84" "570,2"  "570,6"  "571,62"
##  [65] "572,28" "572,34" "573,98" "574,26" "575,54" "576,42" "576,6"  "577,16"
##  [73] "577,5"  "577,88" "578,74" "578,78" "578,92" "579,28" "579,38" "579,46"
##  [81] "580,18" "580,66" "582"    "582,14" "582,3"  "582,86" "582,9"  "583,2" 
##  [89] "583,22" "583,44" "583,7"  "583,84" "584,42" "584,7"  "587,04" "587,22"
##  [97] "587,44" "587,52" "588,06" "589,5"  "589,66" "589,86" "590,46" "592,02"
## [105] "592,04" "592,2"  "593,22" "593,24" "593,34" "593,5"  "594,4"  "594,48"
## [113] "594,98" "595,28" "595,6"  "596,44" "597,2"  "598,38" "599,9"  "601,38"
## [121] "601,56" "602,72" "602,8"  "604,06" "604,68" "604,92" "605,96" "606,06"
## [129] "606,24" "607,02" "607,18" "607,2"  "608,4"  "609,66" "610,2"  "610,24"
## [137] "610,26" "610,44" "610,64" "610,64" "610,82" "611,2"  "611,58" "611,72"
## [145] "611,72" "611,8"  "612,24" "612,7"  "613,42" "613,86" "615,08" "615,18"
## [153] "615,22" "615,52" "615,78" "616,2"  "617,84" "617,88" "618,12" "618,28"
## [161] "618,8"  "618,94" "619,24" "619,48" "619,5"  "619,92" "620,06" "620,88"
## [169] "621,12" "621,48" "621,72" "621,94" "622,16" "622,22" "622,4"  "623,66"
## [177] "623,98" "624,88" "624,88" "625,52" "625,68" "625,72" "626,46" "626,62"
## [185] "627,1"  "627,36" "629,32" "629,34" "629,66" "630,32" "630,56" "630,76"
## [193] "630,92" "631,12" "631,84" "632,82" "633,26" "633,26" "633,7"  "634,38"
## [201] "634,6"  "634,72" "634,8"  "635,48" "635,54" "636"    "636,14" "636,58"
## [209] "637,42" "637,48" "638,14" "638,66" "639"    "639,8"  "640,86" "641,82"
## [217] "641,84" "642,16" "642,32" "642,36" "642,82" "643,2"  "643,68" "643,78"
## [225] "643,82" "644,06" "644,4"  "644,5"  "644,52" "644,62" "644,66" "644,76"
## [233] "645,18" "645,32" "645,92" "646,08" "646,18" "646,82" "647,22" "648,08"
## [241] "648,1"  "648,36" "649,44" "649,52" "650,12" "651,2"  "651,44" "651,62"
## [249] "651,74" "652,7"  "652,92" "653,68" "654,24" "654,5"  "655,12" "655,14"
## [257] "655,74" "655,8"  "655,84" "656,98" "657,24" "657,64" "658,9"  "659,3" 
## [265] "659,42" "660,14" "660,82" "661,66" "662,52" "662,9"  "664,14" "664,94"
## [273] "665,32" "666,96" "667,06" "669,94" "678,22" "678,24" "678,5"  "678,54"
## [281] "680,2"  "680,46" "681,06" "682,14" "682,68" "684,32" "684,62" "687,06"
## [289] "687,78" "688,12" "689,16" "689,66" "693,42" "693,74" "696,68" "700,52"
## [297] "700,68" "701,54" "705,04" "712,96" "715,32" "716,72" "723,78" "734,86"
## [305] "738,88"

Distribuição de Frequência da quatidade de semestres aditivados

Distribução de frequência da variável Z=“Semestres Aditivados”.
Z Frequência Absoluta Frequência Relativa Frequência Acumulada
(425,455] 2 0.007 0.007
(455,485] 2 0.007 0.013
(485,515] 6 0.02 0.033
(515,545] 15 0.049 0.082
(545,575] 43 0.141 0.223
(575,605] 58 0.19 0.413
(605,635] 77 0.252 0.666
(635,665] 69 0.226 0.892
(665,695] 22 0.072 0.964
(695,725] 9 0.03 0.993
(725,755] 2 0.007 1

Tabelas em intervalos de classes

  • Todos os intervalos de classes devem ter o mesmo comprimento, ou apenas o último tem tamanho infinito

  • A quantidade de classes é escolhida conforme o interesse daquele que está apresentando os dados, no entanto, existem estratégias para escolha desse número.

  • A medida de quantidade de classes aumenta, a amplitude do intervalo diminui.

Estratégia para o número de linhas (classes) da tabela

  • Em geral, nos softwares, a escolha do número de classe é feita pelo analista, mas algumas regras podem ser usadas para se ter um valor de \(k\) a partir do range dos dados.\ Algumas regras que podem ser adotadas são:
    • \(k\approx1+ \log_{2}(n),\)
    • \(k\approx \log(n),\)
    • \(k\approx 1+ 3.3 \times \log(n),\)

Obs: aqui, o valor de “k” será sempre dado!

Início e último valor considerado nos intervalos

  • É importante obter o valor máximo e o valor mínimo do conjunto de dados para decidir:
    • \(L_{inf}\) um valor menor ou igual ao valor mínimo;
    • \(L_{sup}\) um valor maior o igual ao valor máximo; que irão nortear a construção dos intervalos.

Com isso tem-se a amplitude total de um intervalo que irá conter todas as observações:

\[AT=L_{sup}-L_{inf}\ \mbox{ (Amplitude Total)}\]

Procedimentos para construção da tabela com intervalos

  • Obtém-se a amplitude para cada classe fazendo: \[\delta=AT/k.\]

  • Nos dados de notas do ENEM para chamada regular e lista de espera em 2020, tem-se

  • o valor mínimo = 425,02

  • e o valor máximo = 738,88

  • Então, a amplitude total pode ser:

\[AT=L_{sup}-L_{inf} = 755 - 425 = 330\]

  • o número de classes escolhido foi 11, \(k=11\).

  • Então

\[\delta=330/11 = 30\] Para a primeira classe: 425 -| 425+30 = (425,455], cuja frequência relativa é \(n_i=2\).

Atividade do AME: N1 At 02

Os dados apresentados neste problema está relacionado a entregas de produtos por uma transportadora a um estabelecimento comercial, as quais foram realizadas no decorrer do ano de 2020. Cada dado diz respeito a uma tentativa de entrega no estabelecimento. Assim, temos a seguinte definição:

Variável (X): horário em que foi feita a tentativa de entrega, em horas, (de 0 até 24 horas, em formato decimal). População: todas as tentativas de entregas realizadas para no estabelecimento. Unidades amostrais: as entregas realizadas no ano de 2020.

7.61 ; 8.71 ; 9.03 ; 9.43 ; 9.83 ; 10.13 ; 10.26 ; 12.06 ; 12.36 ; 12.61 ; 12.96 ; 13.19 ; 13.38 ; 13.86 ; 14.99 ,