1 Tabelas de Frequência

O objetivo da Estatística Descritiva é resumir as informações de interesse que estão contidas no conjunto de dados, fazendo uso de tabelas, gráficos e resumos numéricos. Esse tipo de exploração pode dar uma ideia do comportamento da variável estudada por meio de sua distribuição de frequência no conjunto de dados.

Para se ter uma ideia dessa distribuição, podemos construir uma tabela de frequência para um conjunto de observações da variável de interesse.

#if(!require(knitr)) install.packages("knitr");require(knitr) # instalar caso não tenha
## no código abaixo, se os dados estiverem em um diretório do computador, bastar fornecer o caminho com barras invertidas, seguido do nome do arquivo, em vez do link, exemplo "C:/user/meus documentos/DataEstudat.csv"
DadosEstudante<-read.table("https://raw.githubusercontent.com/rfdapaz/DadosAME/master/DataEstudat.csv",sep=',', head=TRUE, encoding = "UTF-8", check.names=FALSE) 

knitr::kable(
  head(DadosEstudante[,1:7], 10), caption = 'Dados fornecidos por estudantes ingressantes do ano de 2020 nos cursos de engenharias do Campus da UFC de Russas.',
  booktabs = TRUE
)
Tabela 1.1: Dados fornecidos por estudantes ingressantes do ano de 2020 nos cursos de engenharias do Campus da UFC de Russas.
Cidade UF Sexo Idade Peso Altura
1 Limoeiro do Norte CE Feminino 17 40,2 1,61
2 Aracati CE Feminino 17 100,0 1,60
3 Limoeiro do Norte CE Masculino 19 60,0 1,65
4 Quixadá CE Masculino 20 80,3 1,73
5 Russas CE Masculino 17 59,0 1,68
6 Limoeiro do Norte CE Masculino 19 75,0 1,80
7 Jaguaribe CE Masculino 18 63,0 1,75
8 Jaguaruana CE Feminino 18 57,0 1,53
9 Fortaleza CE Feminino 19 74,0 1,65
10 Russas CE Masculino 20 73,0 1,70
Exemplo.1.1 Como ilustração dessa importância, considere a variável X=“gosto pela área de exatas” a partir dos dados apresentados na Tabela 1.1. Observando os dados a seguir, será que é possível concluir que os estudantes que responderam ao questionário gostam muito da áreas de exatas, uma vez que muito significa escolha 5?
x=DadosEstudante[,12]
x
##   [1] 3 5 3 5 4 5 4 4 5 5 4 4 5 4 5 4 5 4 5 5 5 5 5 5 5 5 5 3 4 4 4 5 5 4 5 4 4
##  [38] 4 4 3 3 4 3 5 5 5 5 4 4 4 4 3 5 5 2 3 5 4 5 3 3 4 3 5 5 5 5 5 5 3 5 4 3 5
##  [75] 5 5 3 4 4 4 4 5 4 4 4 2 2 2 4 3 3 4 5 4 3 4 5 5 4 5 4 5 5 5 5 4 2 5 4 5 4
## [112] 5 4 4 5 3 4 4 4 3 4 3 4 4 4 5 4 3 4 4 4 4 5 3 2 3 5 3 4 4 5 4 5 4 5 4 4 5
## [149] 4 4 3 3 5 4 2 4 4 4 4 3 4 4 5 4 4 5 4 5 4 4 3 2 3 3 3 3 1 5 5 4 4 3 3 4 3
## [186] 3 4 5 3 4 5 4 3 4 5 5 5 4 3 4 5 4 4 4 4 5 5 4 2

Embora o conjunto de dados não seja muito grande \(n=209\), não fica tão óbvio dizer se os estudantes gostam muito ou não da área de exatas olhando para os dados brutos. Para responder essa questão a partir da tabela, devemos observar a frequência da variável. Essa frequência fica evidente se os dados forem dispostos em uma tabela apropriada. Em particular, para esse conjunto de dados, podemos utilizar uma tabela de frequência simples. A Tabela 1.2 apresenta a frequência absoluta \((n_i)\) e a frequência relativa \((f_i)\) da variável. A frequência relativa indica a proporção de vezes que um determinado valor da variável aparece, por exemplo, note que o valor 4 corresponde a \(\approx 42\)% dos valores observados da variável. Em outras palavras, \(\approx 42\)% dos estudantes gosta da área de exatas, mas não gosta muito, que na nossa definição corresponde ao número 5.

n=length(x)                       ## obtém o número de elementos no vetor
ni=as.vector(table(x))            ## obtém a frequência de cada possível valor nos dados
fi=round(ni/n,digits=3)           ## obtém a frequência relativa de cada possível valor nos dados
X=1:5                             ## valores possíveis da variável nos dados
tabela=cbind(X,ni,fi)             ## montando a tabela



Total<- data.frame(
 X= "Total",
 ni= sum(ni),
 fi= round( sum(fi), digits = 3))

Tabela=rbind(tabela,Total)

colnames(Tabela) <- c("$X$", "Frequência absoluta ($n_i$)", "Frequência relativa ($f_i$)")

##desenhando a tabela
if(!require(knitr)) install.packages("knitr");require(knitr) 
## Loading required package: knitr
knitr::kable(
  Tabela, 
  caption = 'Tabela de Frequência para a variável X="gosto pela área de exatas".',
  booktabs = TRUE,
    align = "cc"
)
Tabela 1.2: Tabela de Frequência para a variável X=“gosto pela área de exatas”.
\(X\) Frequência absoluta (\(n_i\)) Frequência relativa (\(f_i\))
1 1 0,005
2 9 0,043
3 39 0,187
4 88 0,421
5 72 0,344
Total 209 1,000

Como a variável \(X\) possui ordenação, faz sentido incluir a coluna das frequêcias relativas acumuladas na Tabela 1.3, onde pode ser visto que \(\approx 5\)% dos entrevistados gosta pouco ou muito pouco de matemática.

fac=cumsum(fi)                  ## obtém a frequência acumulada
tabela=cbind(X,ni,fi,fac)       ## corpo da tabela

## somas das colunas
Total<- data.frame(
 X= "Total",
 ni= sum(ni),
 fi= round( sum(fi), digits = 3),
 fac= " - ")

Tabela=rbind(tabela,Total)

### obtençao da tabela
knitr::kable(
  Tabela, 
  caption = 'Tabela de Frequência para a variável X="gosto pela área de exatas".',
  booktabs = TRUE,
  col.names =  c("X","Frequência absolula","Frequência relativa","Frequência relativa acumulada"),
   align = "cccc"
)
Tabela 1.3: Tabela de Frequência para a variável X=“gosto pela área de exatas”.
X Frequência absolula Frequência relativa Frequência relativa acumulada
1 1 0,005 0,005
2 9 0,043 0,048
3 39 0,187 0,235
4 88 0,421 0,656
5 72 0,344 1
Total 209 1,000 -

Uma tabela de frequência pode ser construída de modo que seja uma:

  • tabela de frequência simples;

  • ou uma tabela de frequência em intervalos de classes.

    A tabela de frequência simples é usada para variáveis qualitativas e quantitativas discretas com poucos valores possíveis. A tabela em intervalos de classes é apropriada para variáveis quantitativas contínuas (ou discretas com muitos valores possíveis).