1 Tabelas de Frequência

O objetivo da Estatística Descritiva é resumir as informações de interesse que estão contidas no conjunto de dados, fazendo uso de tabelas, gráficos e resumos numéricos. Esse tipo de exploração pode dar uma ideia do comportamento da variável estudada por meio de sua distribuição de frequência no conjunto de dados.

Para se ter uma ideia dessa distribuição, podemos construir uma tabela de frequência para um conjunto de observações da variável de interesse.

#if(!require(knitr)) install.packages("knitr");require(knitr) # instalar caso não tenha
## no código abaixo, se os dados estiverem em um diretório do computador, bastar fornecer o caminho com barras invertidas, seguido do nome do arquivo, em vez do link, exemplo "C:/user/meus documentos/DataEstudat.csv"
DadosEstudante<-read.table("https://raw.githubusercontent.com/rfdapaz/DadosAME/master/DataEstudat.csv",sep=',', head=TRUE, encoding = "UTF-8", check.names=FALSE) 

knitr::kable(
  head(DadosEstudante[,1:7], 10), caption = 'Dados fornecidos por estudantes ingressantes do ano de 2020 nos cursos de engenharias do Campus da UFC de Russas.',
  booktabs = TRUE
)

Tabela 1.1: Dados fornecidos por estudantes ingressantes do ano de 2020 nos cursos de engenharias do Campus da UFC de Russas.
	Cidade	UF	Sexo	Idade	Peso	Altura
1	Limoeiro do Norte	CE	Feminino	17	40,2	1,61
2	Aracati	CE	Feminino	17	100,0	1,60
3	Limoeiro do Norte	CE	Masculino	19	60,0	1,65
4	Quixadá	CE	Masculino	20	80,3	1,73
5	Russas	CE	Masculino	17	59,0	1,68
6	Limoeiro do Norte	CE	Masculino	19	75,0	1,80
7	Jaguaribe	CE	Masculino	18	63,0	1,75
8	Jaguaruana	CE	Feminino	18	57,0	1,53
9	Fortaleza	CE	Feminino	19	74,0	1,65
10	Russas	CE	Masculino	20	73,0	1,70

Exemplo.1.1 Como ilustração dessa importância, considere a variável X=“gosto pela área de exatas” a partir dos dados apresentados na Tabela 1.1. Observando os dados a seguir, será que é possível concluir que os estudantes que responderam ao questionário gostam muito da áreas de exatas, uma vez que muito significa escolha 5?

x=DadosEstudante[,12]
x

##   [1] 3 5 3 5 4 5 4 4 5 5 4 4 5 4 5 4 5 4 5 5 5 5 5 5 5 5 5 3 4 4 4 5 5 4 5 4 4
##  [38] 4 4 3 3 4 3 5 5 5 5 4 4 4 4 3 5 5 2 3 5 4 5 3 3 4 3 5 5 5 5 5 5 3 5 4 3 5
##  [75] 5 5 3 4 4 4 4 5 4 4 4 2 2 2 4 3 3 4 5 4 3 4 5 5 4 5 4 5 5 5 5 4 2 5 4 5 4
## [112] 5 4 4 5 3 4 4 4 3 4 3 4 4 4 5 4 3 4 4 4 4 5 3 2 3 5 3 4 4 5 4 5 4 5 4 4 5
## [149] 4 4 3 3 5 4 2 4 4 4 4 3 4 4 5 4 4 5 4 5 4 4 3 2 3 3 3 3 1 5 5 4 4 3 3 4 3
## [186] 3 4 5 3 4 5 4 3 4 5 5 5 4 3 4 5 4 4 4 4 5 5 4 2

Embora o conjunto de dados não seja muito grande \(n=209\), não fica tão óbvio dizer se os estudantes gostam muito ou não da área de exatas olhando para os dados brutos. Para responder essa questão a partir da tabela, devemos observar a frequência da variável. Essa frequência fica evidente se os dados forem dispostos em uma tabela apropriada. Em particular, para esse conjunto de dados, podemos utilizar uma tabela de frequência simples. A Tabela 1.2 apresenta a frequência absoluta \((n_i)\) e a frequência relativa \((f_i)\) da variável. A frequência relativa indica a proporção de vezes que um determinado valor da variável aparece, por exemplo, note que o valor 4 corresponde a \(\approx 42\)% dos valores observados da variável. Em outras palavras, \(\approx 42\)% dos estudantes gosta da área de exatas, mas não gosta muito, que na nossa definição corresponde ao número 5.

n=length(x)                       ## obtém o número de elementos no vetor
ni=as.vector(table(x))            ## obtém a frequência de cada possível valor nos dados
fi=round(ni/n,digits=3)           ## obtém a frequência relativa de cada possível valor nos dados
X=1:5                             ## valores possíveis da variável nos dados
tabela=cbind(X,ni,fi)             ## montando a tabela



Total<- data.frame(
 X= "Total",
 ni= sum(ni),
 fi= round( sum(fi), digits = 3))

Tabela=rbind(tabela,Total)

colnames(Tabela) <- c("$X$", "Frequência absoluta ($n_i$)", "Frequência relativa ($f_i$)")

##desenhando a tabela
if(!require(knitr)) install.packages("knitr");require(knitr)

## Loading required package: knitr

knitr::kable(
  Tabela, 
  caption = 'Tabela de Frequência para a variável X="gosto pela área de exatas".',
  booktabs = TRUE,
    align = "cc"
)

Tabela 1.2: Tabela de Frequência para a variável X=“gosto pela área de exatas”.
\(X\)	Frequência absoluta (\(n_i\))	Frequência relativa (\(f_i\))
1	1	0,005
2	9	0,043
3	39	0,187
4	88	0,421
5	72	0,344
Total	209	1,000

Como a variável \(X\) possui ordenação, faz sentido incluir a coluna das frequêcias relativas acumuladas na Tabela 1.3, onde pode ser visto que \(\approx 5\)% dos entrevistados gosta pouco ou muito pouco de matemática.

fac=cumsum(fi)                  ## obtém a frequência acumulada
tabela=cbind(X,ni,fi,fac)       ## corpo da tabela

## somas das colunas
Total<- data.frame(
 X= "Total",
 ni= sum(ni),
 fi= round( sum(fi), digits = 3),
 fac= " - ")

Tabela=rbind(tabela,Total)

### obtençao da tabela
knitr::kable(
  Tabela, 
  caption = 'Tabela de Frequência para a variável X="gosto pela área de exatas".',
  booktabs = TRUE,
  col.names =  c("X","Frequência absolula","Frequência relativa","Frequência relativa acumulada"),
   align = "cccc"
)

Tabela 1.3: Tabela de Frequência para a variável X=“gosto pela área de exatas”.
X	Frequência absolula	Frequência relativa	Frequência relativa acumulada
1	1	0,005	0,005
2	9	0,043	0,048
3	39	0,187	0,235
4	88	0,421	0,656
5	72	0,344	1
Total	209	1,000	-

Uma tabela de frequência pode ser construída de modo que seja uma:

tabela de frequência simples;
ou uma tabela de frequência em intervalos de classes.

A tabela de frequência simples é usada para variáveis qualitativas e quantitativas discretas com poucos valores possíveis. A tabela em intervalos de classes é apropriada para variáveis quantitativas contínuas (ou discretas com muitos valores possíveis).