Estatística Descritiva
30-03-2023
1 Tabelas de Frequência
O objetivo da Estatística Descritiva é resumir as informações de interesse que estão contidas no conjunto de dados, fazendo uso de tabelas, gráficos e resumos numéricos. Esse tipo de exploração pode dar uma ideia do comportamento da variável estudada por meio de sua distribuição de frequência no conjunto de dados.
Para se ter uma ideia dessa distribuição, podemos construir uma tabela de frequência para um conjunto de observações da variável de interesse.
#if(!require(knitr)) install.packages("knitr");require(knitr) # instalar caso não tenha
## no código abaixo, se os dados estiverem em um diretório do computador, bastar fornecer o caminho com barras invertidas, seguido do nome do arquivo, em vez do link, exemplo "C:/user/meus documentos/DataEstudat.csv"
<-read.table("https://raw.githubusercontent.com/rfdapaz/DadosAME/master/DataEstudat.csv",sep=',', head=TRUE, encoding = "UTF-8", check.names=FALSE)
DadosEstudante
::kable(
knitrhead(DadosEstudante[,1:7], 10), caption = 'Dados fornecidos por estudantes ingressantes do ano de 2020 nos cursos de engenharias do Campus da UFC de Russas.',
booktabs = TRUE
)
Cidade | UF | Sexo | Idade | Peso | Altura | |
---|---|---|---|---|---|---|
1 | Limoeiro do Norte | CE | Feminino | 17 | 40,2 | 1,61 |
2 | Aracati | CE | Feminino | 17 | 100,0 | 1,60 |
3 | Limoeiro do Norte | CE | Masculino | 19 | 60,0 | 1,65 |
4 | Quixadá | CE | Masculino | 20 | 80,3 | 1,73 |
5 | Russas | CE | Masculino | 17 | 59,0 | 1,68 |
6 | Limoeiro do Norte | CE | Masculino | 19 | 75,0 | 1,80 |
7 | Jaguaribe | CE | Masculino | 18 | 63,0 | 1,75 |
8 | Jaguaruana | CE | Feminino | 18 | 57,0 | 1,53 |
9 | Fortaleza | CE | Feminino | 19 | 74,0 | 1,65 |
10 | Russas | CE | Masculino | 20 | 73,0 | 1,70 |
Exemplo.1.1 Como ilustração dessa importância, considere a variável X=“gosto pela área de exatas” a partir dos dados apresentados na Tabela 1.1. Observando os dados a seguir, será que é possível concluir que os estudantes que responderam ao questionário gostam muito da áreas de exatas, uma vez que muito significa escolha 5?
=DadosEstudante[,12]
x x
## [1] 3 5 3 5 4 5 4 4 5 5 4 4 5 4 5 4 5 4 5 5 5 5 5 5 5 5 5 3 4 4 4 5 5 4 5 4 4
## [38] 4 4 3 3 4 3 5 5 5 5 4 4 4 4 3 5 5 2 3 5 4 5 3 3 4 3 5 5 5 5 5 5 3 5 4 3 5
## [75] 5 5 3 4 4 4 4 5 4 4 4 2 2 2 4 3 3 4 5 4 3 4 5 5 4 5 4 5 5 5 5 4 2 5 4 5 4
## [112] 5 4 4 5 3 4 4 4 3 4 3 4 4 4 5 4 3 4 4 4 4 5 3 2 3 5 3 4 4 5 4 5 4 5 4 4 5
## [149] 4 4 3 3 5 4 2 4 4 4 4 3 4 4 5 4 4 5 4 5 4 4 3 2 3 3 3 3 1 5 5 4 4 3 3 4 3
## [186] 3 4 5 3 4 5 4 3 4 5 5 5 4 3 4 5 4 4 4 4 5 5 4 2
Embora o conjunto de dados não seja muito grande \(n=209\), não fica tão óbvio dizer se os estudantes gostam muito ou não da área de exatas olhando para os dados brutos. Para responder essa questão a partir da tabela, devemos observar a frequência da variável. Essa frequência fica evidente se os dados forem dispostos em uma tabela apropriada. Em particular, para esse conjunto de dados, podemos utilizar uma tabela de frequência simples. A Tabela 1.2 apresenta a frequência absoluta \((n_i)\) e a frequência relativa \((f_i)\) da variável. A frequência relativa indica a proporção de vezes que um determinado valor da variável aparece, por exemplo, note que o valor 4 corresponde a \(\approx 42\)% dos valores observados da variável. Em outras palavras, \(\approx 42\)% dos estudantes gosta da área de exatas, mas não gosta muito, que na nossa definição corresponde ao número 5.
=length(x) ## obtém o número de elementos no vetor
n=as.vector(table(x)) ## obtém a frequência de cada possível valor nos dados
ni=round(ni/n,digits=3) ## obtém a frequência relativa de cada possível valor nos dados
fi=1:5 ## valores possíveis da variável nos dados
X=cbind(X,ni,fi) ## montando a tabela
tabela
<- data.frame(
TotalX= "Total",
ni= sum(ni),
fi= round( sum(fi), digits = 3))
=rbind(tabela,Total)
Tabela
colnames(Tabela) <- c("$X$", "Frequência absoluta ($n_i$)", "Frequência relativa ($f_i$)")
##desenhando a tabela
if(!require(knitr)) install.packages("knitr");require(knitr)
## Loading required package: knitr
::kable(
knitr
Tabela, caption = 'Tabela de Frequência para a variável X="gosto pela área de exatas".',
booktabs = TRUE,
align = "cc"
)
\(X\) | Frequência absoluta (\(n_i\)) | Frequência relativa (\(f_i\)) |
---|---|---|
1 | 1 | 0,005 |
2 | 9 | 0,043 |
3 | 39 | 0,187 |
4 | 88 | 0,421 |
5 | 72 | 0,344 |
Total | 209 | 1,000 |
Como a variável \(X\) possui ordenação, faz sentido incluir a coluna das frequêcias relativas acumuladas na Tabela 1.3, onde pode ser visto que \(\approx 5\)% dos entrevistados gosta pouco ou muito pouco de matemática.
=cumsum(fi) ## obtém a frequência acumulada
fac=cbind(X,ni,fi,fac) ## corpo da tabela
tabela
## somas das colunas
<- data.frame(
TotalX= "Total",
ni= sum(ni),
fi= round( sum(fi), digits = 3),
fac= " - ")
=rbind(tabela,Total)
Tabela
### obtençao da tabela
::kable(
knitr
Tabela, caption = 'Tabela de Frequência para a variável X="gosto pela área de exatas".',
booktabs = TRUE,
col.names = c("X","Frequência absolula","Frequência relativa","Frequência relativa acumulada"),
align = "cccc"
)
X | Frequência absolula | Frequência relativa | Frequência relativa acumulada |
---|---|---|---|
1 | 1 | 0,005 | 0,005 |
2 | 9 | 0,043 | 0,048 |
3 | 39 | 0,187 | 0,235 |
4 | 88 | 0,421 | 0,656 |
5 | 72 | 0,344 | 1 |
Total | 209 | 1,000 | - |
Uma tabela de frequência pode ser construída de modo que seja uma:
tabela de frequência simples;
ou uma tabela de frequência em intervalos de classes.
A tabela de frequência simples é usada para variáveis qualitativas e quantitativas discretas com poucos valores possíveis. A tabela em intervalos de classes é apropriada para variáveis quantitativas contínuas (ou discretas com muitos valores possíveis).