Capítulo 4 Teste de hipóteses
4.1 Distribuição normal

Figura 1.1: Função densidade de probabilidade da distribuição gaussiana (distribuição normal): X∼N(μ,σ2).
Figura 2.1: Várias funções densidade de probabilidade da distribuição distribuição normal: Em μ=0 e σ2=1 (curva vermelha) temos a distribuição normal padrão X∼N(0,1)
f(x)=1σ√2πe−12(x−μσ)2
Onde: μ = média, σ = desvio padrão.
Exemplos:
- Curva normal [https://www.geogebra.org/m/muusbweq].
- Curva normal 2 [https://www.geogebra.org/m/whcwmx4w].
Propriedades:
- O ponto máximo de f(x) está em μ.
- Os pontos de inflexão da função são: X=μ+σ e X=μ−σ (desvio-padrão).
- A curva é simétrica em relação a μ.
- E(X)=μ e Var(X)=σ2.
- A área compreendida pela curva nesse intervalo é exatamente igual a 1, valor que, em estatística, corresponde a 100% de probabilidade.
4.2 Teorema do limite central
- Materiais de apoio (clique para acessar):
- Rice Virtual Lab in Statistics: Sampling Distributions (em inglês).
- Applet Central (em inglês).
- Distribuição normal (em inglês).
- Calculadora da distribuição normal.
- Geogebra:
- Central Limit Theorem (reproduced from Adam Knowles).
- Distribuição Normal(0,1).
Quando o tamanho n da amostra aumenta, a distribuição amostral da sua média aproxima-se cada vez mais de uma distribuição normal.
Figura 1.2: Comparação das funções densidade de probabilidade, p(k), para a soma de n pares de dados de seis faces mostrando a convergência para uma distribuição normal quando se aumenta n em acordo com o teorema do limite central. No gráfico abaixo a direita os perfis suaves estão reescalados e superpostos e comparados a uma distribuição normal (curva preta). Fonte: https://en.wikipedia.org/wiki/Normal_distribution
Teorema do limite central:
Se ˉx é a média de uma amostra aleatória de tamanho n de uma população infinita com a média μ e desvio-padrão σ e se n é grande, então z é uma nova variável aleatória dada por
z=ˉx−μσ/√n=ˉx−μσˉx
que tem uma nova distribuição normal padrão dada por Z∼N(μ=0,σ2=1), isto é, Z∼N(0,1).
Onde: σˉx=σ/√n na igualdade (4.1).
Em particular é importante lembrar que:
Para população infinita: σˉx=σpop√n
Para população finita: σˉx=σpop√n×√N−nn−1, onde N é o tamanho da população.
4.3 Teste de hipóteses
Uma hipótese estatística é uma afirmação ou conjectura sobre um parâmetro, ou parâmetros, de uma população (ou populações). Pode também se referir ao tipo, ou natureza, da população (ou populações).
- Procedimentos gerais para um teste de hipótese:
- Definir a hipótese nula (H0) e a alternativa (HA).
- Definir um nível de significância α, que irá determinar o nível de confiança 100×(1−α) do teste.
- Definir o tipo de teste, com base na hipótese alternativa.
- Calcular a estatística de teste, com base na distribuição amostral do estimador do parâmetro sob teste → valor calculado.
- Determinar a região crítica (região de rejeição), com base no nível de significância α → valor crítico.
- Concluir o teste.
4.3.1 Hipótese nula (H0) × hipótese alternativa (HA)
- A hipótese nula (H0) é a alegação inicial assumida como verdadeira. A hipótese alternativa representado por HA é a afirmação contraditória.
- A hipótese nula será rejeitada em favor da hipótese alternativa somente se a evidência da amostra sugerir que H0 seja falsa.
- Se a amostra não contradizer fortemente H0, continuaremos a acreditar na verdade da hipótese nula.
- As duas conclusões possíveis de uma análise do teste de hipóteses são rejeitar H0 ou não rejeitar H0.
- Exemplo: Em um estudo sobre a proporção de homens e mulheres de uma mesma população, deseja-se testar a hipótese de que a proporção de mulheres é maior do que a proporção de homens. Clique aqui para baixar o arquivo (nesse arquivo vamos considerar 1 como mulher, mas depende de como o dado foi coletado pelo pesquisador).
- Definir a hipótese nula (H0) e a alternativa (HA).
Resolução: Supõe-se inicialmente que a população de mulheres é de 50 %, ou seja, H0 é tal que a proporção pM=0,5. Então as hipóteses são:
Com isso, deseja-se que a hipótese nula pM=0,5 seja rejeitada, de modo que a hipótese alternativa pM>0,5 seja apoiada.
Apoiar a hipótese alternativa de que pM>0,5 é o mesmo que apoiar a afirmativa de que a proporção de mulheres na população é maior do que a de homens.
- Nível de significância: erros de decisão.

Figura 1.3: Erros de decisão no teste de hipóteses.
- α = Pr(erro tipo I) = Pr(rejeitar H0 | H0 verdadeira) (leia-se: probabilidade de rejeitar H0, sendo H0 verdadeira).
- β = Pr(erro tipo II) = Pr(não rejeitar H0 | H0 falsa).
- α é o nível de significância do teste.
- 1−α é o nível de confiança do teste.
No exemplo anterior, se H0: pM = 0,5 e HA: pM > 0,5, então:
- α = Pr(concluir que a proporção de mulheres é maior quando na verdade não é).
- β = Pr(concluir que a proporção é igual quando na verdade não é).
- Definir o tipo de teste, com base na hipótese alternativa:
A hipótese alternativa determinará o sentido do teste de hipótese, que pode ser:

Figura 1.4: Diferentes testes para a hipótese alternativa.
3.1 Teste bilateral:
Uma hipótese do tipo:
H0:Θ=Θ0
HA:Θ≠Θ0
É bilateral.

Figura 2.2: Teste bilateral com as regiões de rejeição e de não rejeição da H0.
3.2 Teste unilaterais:
Uma hipótese do tipo:
H0:Θ=Θ0
H0:Θ<Θ0
É unilateral à esquerda.

Figura 1.5: Teste unilateral a esquerda com as regiões de rejeição e de não rejeição da H0.
Uma hipótese do tipo:
H0:Θ=Θ0
H0:Θ>Θ0
É unilateral à direita.

Figura 1.6: Teste unilateral a direita com as regiões de rejeição e de não rejeição da H0.
- Calcular a estatística de teste para a proporção:
Pode se demonstrar (Morettin, 20101) que a distribuição para proporções de p sucessos pode ser defininida como uma variável aleatória da seguinte forma:
Seja p conhecida A população pode ser definida como uma variável X tal que:
X={1se o elemento da população tem a característica0se o ele1nento da população não tem a característica
e Pr(X=1)=p, P(X=0)=1−p.
Foi demonstrado2 que: μ=E(X)=p e σ2=Var(X)=p(1−p).
Retira-se uma grande amostra3 (n→∞) x1, x2, ..., dessa população, com reposição e define-se x como o número de sucessos na amostra, isto é, o número de elementos da amostra com a característica que se quer estudar.
O estimador de p é definido por ˆp=xn: proporção de sucessos na amostra.
X:B(n,p), E(X)=np e Var(X)=np(1−p).
Calculando esperança e variância de p:
E(ˆp)=E(xn)=1nE(x)=1nnp=p ∴.
Var(\hat{p})=Var(\frac{x}{n})=\frac{1}{n^2}Var(x)=\frac{1}{n^2}np(1-p)=\frac{p(1-p)}{n} \therefore \sigma_p=\sqrt{\frac{p(1-p)}{n}}
Portanto a variável normalizada z para proporção será:
z=\frac{\bar{x} - \mu}{\sigma} = \frac{E(x) - \mu}{\sigma_p} = \frac{p-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}
- Determinar a região crítica (região de rejeição), com base no nível de significância \alpha → valor crítico
- Estabelecer um valor crítico que divide a região de rejeição da região de não rejeição da hipótese nula.
- A região crítica de um teste de hipótese é a região de rejeição da hipótese nula.
- Concluir o teste. Com base na estatística do teste e do valor crítico:
- Se a estatística estiver dentro da região crítica rejeita-se H_0.
- Se a estatística estiver fora da região crítica não se rejeita H_0.
No R:
Temos duas funções que podem executar o teste de hipóteses: prop.test()
(que usa a distribuição normal para o cálculo da probabilidade e que faz uso da correção de continuidade de Yates) e binom.test()
(que é o teste exato para uma distribuição binomial).
O uso da distribuição Normal (distribuição contínua) em vez da distribuição Binomial (distribuição discreta) usa a correção de continuidade que tem por objetivo tornar as probabilidades calculadas pelo modelo Normal mais próximas daquelas obtidas usando o modelo Binomial4.
mulheres_homens=read.csv("mulheres-homens.csv")
table(mulheres_homens$resposta) # proporção de 1's e 0's.
#>
#> 0 1
#> 38 62
prop.test(x=62,n=100,alternative = "greater",correct = T)
#>
#> 1-sample proportions test with continuity correction
#>
#> data: 62 out of 100, null probability 0.5
#> X-squared = 5.29, df = 1, p-value = 0.01072
#> alternative hypothesis: true p is greater than 0.5
#> 95 percent confidence interval:
#> 0.5329359 1.0000000
#> sample estimates:
#> p
#> 0.62
binom.test(x=62,n=100,p=0.5,alternative = "greater")
#>
#> Exact binomial test
#>
#> data: 62 and 100
#> number of successes = 62, number of trials = 100,
#> p-value = 0.01049
#> alternative hypothesis: true probability of success is greater than 0.5
#> 95 percent confidence interval:
#> 0.5332465 1.0000000
#> sample estimates:
#> probability of success
#> 0.62