Capítulo 6 Inferencia
A inferência estatística é o ato de tentar extrapolar conclusões de uma amostra para uma população, assumindo certo grau de incerteza de seus resultados. Para tal, temos métodos como testes de hipóteses e intervalos de confiança. Nessa apostila, abordaremos como executar tais tarefas a partir do R.
6.1 Relembrando o conceito de testes de hipótese e intervalos de confiança
Um teste de hipótese nada mais é do que uma regra que define quando temos evidências para dizer se a sua hipótese a priori(a que contém a igualdade) sobre a população de onde vêm os dados(ela é chamada de hipótese nula-H0) deve ser tida como falsa perante uma outra hipótese que diz o contrário (Hipótese alternativa ou H1). Para discernir qual das duas deve ser verdadeira, confeccionamos uma regra, baseada na teoria da probabilidade e na distribuição dos dados, que nos permita ver o risco de errarmos se tomarmos a decisão de rejeitar H0(p-valor) e, caso essa incerteza seja aceitável (menor que um valor arbritário \(\alpha\)), a rejeitamos. Caso não seja, nós nos atemos a ela.
Um teste de hipótese é chamado de unilateral se sua hipótese alternativa for do tipo “!=” e unilateral se for do tipo “>”, “<”,“>=” ou “<=”.
Um intervalo de confiança é um método que nos permite saber, com certo nível de confiança (1-\(\alpha\)), a faixa de valores onde certo parâmetro da população está, a partir de dados da amostra. O intervalo é formado por uma estimativa (vinda da amostra) pontual do parâmetro em questão e de uma margem de erro.
Aqui, não abordaremos a teoria e os motivos aprofundados do uso de cada teste, mas traremos exemplos práticos da execução dos mesmos.
6.2 Teste Z para uma média
Como estamos tratando de um caso em que a variância é conhecida e a população é suficientemente grande, a distribuição de referência para esse teste é a Normal Padrão, como podemos ver a seguir:
\[Z = \frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}} \sim N(0,1)\] Nessa distribuição, temos que \(\bar{X}\) é a média da variável aleatória, \(\mu\) é a média populacional, \(\sigma\) é o desvio padrão populacional e \(n\) é o tamanho amostral.
Quando desejamos fazer um teste de hipóteses sob a hipótese nula, ou seja, \(H_{0}\), a distribuição da estatística de teste é dada por:
\[Z_{0} = \frac{\bar{X}-\mu_{0}}{\sqrt{\sigma^2/n}} \sim N(0,1)\] Portanto, a estatística de teste observada \(z_{0}\) a ser aplicada em todos os testes (bilateral, unilateral à esquerda e unilateral à direita) será: \[z_{0} = \frac{\bar{x}-\mu_{0}}{\sqrt{\sigma^2/n}}\] Na qual \(\bar{x}\) é a média da variável aleatória, \(\mu_{0}\) é a média a ser testada, \(\sigma\) é o desvio padrão populacional e \(n\) é o tamanho amostral.
Primeiramente, vamos abrir o banco de dados e definir as variáveis.
require(exatas) #chamando o pacote para a leitura do banco
attach(vidro) #este comando anexa o banco, permitindo que suas variáveis sejam acessadas
#definindo variáveis
mi0 = 14 #média que se precisa testar
media = mean(Na) #média amotral
n = length(Na) #tamanho da amostra
sigma = 0.8 #desvio padrão populacional
alpha=0.05 #nível de significância
6.2.1 Teste Bilateral
Testaremos a diferença entre a média verdadeira \(\mu\) e determinada média \(\mu_{0}\), tida como verdadeira sob \(H_{0}\). \[ \begin{aligned} H_{0}: \mu &= \mu_{0} \\ H_{A}: \mu &\neq \mu_{0} \\ \\ H_{0}: \mu &= 14 \\ H_{A}: \mu &\neq 14 \end{aligned} \]
6.2.1.1 Função z.test
Podemos fazer esse teste bilateral usando a função z.test
,já que o desvio padrão populacional é conhecido.
require("TeachingDemos") #chamando o pacote para usá-lo
#note que talvez seja necessário instalar o pacote com o comando install.packages("TeachingDemos")
z.test(Na, mu = mi0, alternative = "two.sided", sd = sigma, n, conf.level = 1-alpha)
##
## One Sample z-test
##
## data: Na
## z = -10.828, n = 214.000000, Std. Dev. = 0.800000, Std. Dev. of the
## sample mean = 0.054687, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 14
## 95 percent confidence interval:
## 13.30067 13.51503
## sample estimates:
## mean of Na
## 13.40785
Note que a saída do R nos informa a estatística Z, o valor-p, a hipótese alternativa, o intervalo de confiança ao nível (1−α)100% e a média da amostra.
6.2.1.2 Método do Valor Crítico
## [1] -10.828
A estatística de teste encontrada neste exemplo foi -10.828.
## [1] -1.959964
## [1] 1.959964
6.2.1.3 Método do Intervalo de Confiança
\[IC_{\mu}{100(1 − \alpha)\%} = \left[ \bar{x} + z_{\frac{\alpha}{2}}\cdot \sqrt{\frac{\sigma^2}{n}} ;\bar{x} + z_{1- \frac{\alpha}{2}}\cdot \sqrt{\frac{\sigma^2}{n}} \right]\]
Fazendo as contas, passo a passo, utilizando o R como uma calculadora:
## [1] 13.30067 13.51503
Usando a função z.test
:
## [1] 13.30067 13.51503
## attr(,"conf.level")
## [1] 0.95
6.2.1.4 Método Valor-p
\[\text{valor-p}= 2\cdot P(Z> |z_{0}|)\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
## [1] 2.536316e-27
Utilizando a função z.test
:
## [1] 2.536316e-27
6.2.2 Teste Unilateral Direito
Testar se \({\mu}\) é maior que 14 \[ \begin{aligned} H_{0}: \mu &= \mu_{0} \\ H_{A}: \mu &> \mu_{0} \\ \\ H_{0}: \mu &= 14 \\ H_{A}: \mu &> 14 \end{aligned} \]6.2.2.1 Função z.test
Podemos fazer este teste unilateral esquerdo usando a função z.test
do R:
##
## One Sample z-test
##
## data: Na
## z = -10.828, n = 214.000000, Std. Dev. = 0.800000, Std. Dev. of the
## sample mean = 0.054687, p-value = 1
## alternative hypothesis: true mean is greater than 14
## 95 percent confidence interval:
## 13.3179 Inf
## sample estimates:
## mean of Na
## 13.40785
6.2.2.2 Método do Valor Crítico
## [1] -1.644854
vcd
). Sendo assim, como a estatística de teste -10.828 é menor do que esse valor crítico, não rejeitamos \(H_{0}\) ao nível de 5% de significância, ou seja, podemos concluir que há evidências amostrais de que a quantidade de sódio no vidro é menor ou igual a 14%.
6.2.2.3 Método do Intervalo de Confiança
\[IC_{{\mu}}{100(1 − \alpha)\%} = \left[ \bar{x} + z_{\alpha}\cdot \sqrt{\frac{\sigma^2}{n}}; \text{ } \infty \right]\] Calculando o intervalo usando o R como uma calculadora:
## [1] 13.3179 Inf
Usando a função z.test
:
## [1] 13.3179 Inf
## attr(,"conf.level")
## [1] 0.95
6.2.2.4 Método Valor-p
\[\text{valor-p}= P(Z >| z_{0}|)\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
## [1] 1.268158e-27
Utilizando a função z.test
:
## [1] 1
O valor-p igual a 1 maior do que \(\alpha\)=0.05. Dessa forma, ao nível de 5% de significância, não rejeitamos \(H_{0}\).Assim, podemos concluir que há evidências amostrais de que a quantidade média de sódio no vidro é menor ou igual a 14%.
6.2.3 Teste Unilateral Esquerdo
Testar se \(\mu\) é menor que 14%: \[ \begin{aligned} \begin{cases} H_{0}: \mu &= 14 \\ H_{A}: \mu &< 14 \\ \end{cases} \end{aligned} \]6.2.3.1 Função z.test
Podemos fazer este teste unilateral esquerdo usando a função z.test
do R:
##
## One Sample z-test
##
## data: Na
## z = -10.828, n = 214.000000, Std. Dev. = 0.800000, Std. Dev. of the
## sample mean = 0.054687, p-value < 2.2e-16
## alternative hypothesis: true mean is less than 14
## 95 percent confidence interval:
## -Inf 13.4978
## sample estimates:
## mean of Na
## 13.40785
6.2.3.2 Método do Valor Crítico
## [1] 1.644854
vce
). Sendo assim, como a estatística de teste é igual a -10.828, rejeitamos \(H_{0}\) a um nível de significância de 5%, ou seja, há evidências amostrais de que a quantidade média de sódio no vidro produzido por essa indústria é menor do que 14%.
6.2.3.3 Método do Intervalo de Confiança
\[IC_{\mu}{100(1 − \alpha)\%} = \left[ - {\infty};\bar{x} + z_{1 -\alpha}\cdot \sqrt{\frac{\sigma^2}{n}}\right]\]
Calculando o intervalo usando o R como uma calculadora:
## [1] -Inf 13.4978
Usando a função z.test
:
## [1] -Inf 13.4978
## attr(,"conf.level")
## [1] 0.95
6.2.3.4 Método Valor-p
\[\text{valor-p}= P(Z > |z_{0}|)\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
## [1] 1.268158e-27
Utilizando a função z.test
:
## [1] 1.268158e-27
6.3 Teste t para uma média
Um banco de dados sobre a análise de vinhos com 1599 observações apresenta a variável pH da amostra. Deseja-se investigar, a um nível de 5% de significância, se o pH médio é diferente, maior ou menor que 3.2. Para isso, serão realizados testes de hipóteses bilateral, unilateral direito e unilateral esquerdo, respectivamente.
Como a variância populacional destas amostras é desconhecida, a estatística de teste tem distribuição t-Student com n−1 graus de liberdade.
\[ T = \frac{\bar{X}-\mu}{\sqrt{S^2/n}}\sim t_{(n-1)\] Nessa distribuição, temos que \(\bar{X}\) é a média da variável aleatória, \(\mu\) é a média populacional, \(S\) é o desvio padrão da amostra e \(n\) é o tamanho amostral.
Quando desejamos fazer um teste de hipóteses sob a hipótese nula, ou seja, \(H_{0}\), a distribuição da estatística de teste é dada por:
\[T_{0} = \frac{\bar{X}-\mu_{0}}{\sqrt{S^2/n}} \sim t_{(n-1)}\] Portanto, a estatística de teste observada \(t_{0}\) a ser aplicada em todos os testes (bilateral, unilateral à esquerda e unilateral à direita) será: \[t_{0} = \frac{\bar{x}-\mu_{0}}{\sqrt{s^2/n}} \sim t_{(n-1)}\] Na qual \(\bar{x}\) é a média da variável aleatória, \(\mu_{0}\) é a média a ser testada, \(s\) é o desvio padrão amostral e \(n\) é o tamanho amostral.
Primeiramente, vamos abrir o banco de dados e definir as variáveis.
require(exatas) #chamando o pacote para a leitura do banco
attach(vinho) #este comando anexa o banco, pirmitindo que suas variáveis sejam acessadas
#definindo variáveis
mi0=3.2 #média que se pretente testar
media=mean(pH) #média amostral
v= var(pH) #variância amostral
n = length(pH) #tamanho da amostra
alpha=0.05 #nível de significância
6.3.1 Teste Bilateral
Testa a diferença entre a média verdadeira \(\mu\) e determinada média (\(\mu_{0}\)), tida como verdadeira sob \(H_{0}\). \[ \begin{aligned} H_{0}: \mu &= \mu_{0} \\ H_{A}: \mu &\neq \mu_{0} \\ \\ H_{0}: \mu &= 3,2 \\ H_{A}: \mu &\neq 3,2 \end{aligned} \]
6.3.1.1 Função t.test
Podemos fazer esse teste bilateral usando a função t.test
,já que o desvio padrão populacional é desconhecido.
##
## One Sample t-test
##
## data: pH
## t = 28.779, df = 1598, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 3.2
## 95 percent confidence interval:
## 3.303540 3.318686
## sample estimates:
## mean of x
## 3.311113
Note que a saída do R nos informa a estatística t, o valor-p, a hipótese alternativa, o intervalo de confiança ao nível (1−α)100% e a média da amostra.
6.3.1.2 Método Valor Crítico
Os valores críticos são calculados para delimitar a região de rejeição da hipótese nula que está sendo testada. Assim, analisamos se a estatística de teste pertence ou não a região crítica; caso a resposta seja afirmativa, rejeitamos \(H_{0}\) ao nível \(\alpha\) de significância, e não rejeitamos caso contrário.
Já os valores críticos são encontrados com \(\mu_{0} - t_{\frac{\alpha}{2};(n-1)}\cdot \sqrt{\frac{s^2}{n}}\) para o valor crítico inferior e \(\mu_{0} + t_{\frac{\alpha}{2};(n-1)}\cdot \sqrt{\frac{s^2}{n}}\) para o superior.
## [1] 28.77933
A estatística de teste do exemplo vale 28.78.
## [1] -1.96145
## [1] 1.96145
6.3.1.3 Método Intervalo de Confiança
\[IC_{\mu}{100(1 − \alpha)\%} = \left[\bar{x}+ t_{\frac{\alpha}{2};n-1} \cdot \sqrt{ \frac{s^2}{n}} \text{ } ;\text{ } \bar{x}+ t_{\frac{\alpha}{2};n-1} \cdot \sqrt{ \frac{s^2}{n}}\right]\]
Fazendo as contas passo a passo, utilizando o R como uma calculadora:
conf = 1-alpha
probs = c(((1-conf)/2),(1-(1-conf)/2))
IC <- media + qt(probs, df = n - 1) * sqrt(v/n)
IC
## [1] 3.303540 3.318686
Construindo uma função para calcular o intervalo:
IC.T <- function(x, conf) {
n <- length(x)
media <- mean(x)
variancia <- var(x)
quantis <- qt(c((1 - conf)/2, 1 - (1 - conf)/2), df = n - 1)
ic <- media + quantis * sqrt(variancia/n)
return(ic)
}
IC.T(pH,conf=1-alpha)
## [1] 3.303540 3.318686
Usando a função t.test
:
## [1] 3.303540 3.318686
## attr(,"conf.level")
## [1] 0.95
6.3.1.4 Método valor-p
\[\text{valor-p}= 2 \cdot P(T > |t_{0}|)\]
Fazendo as contas passo a passo, utilizando o R como uma calculadora
## [1] 4.239645e-147
Utilizando a função t.test
## [1] 4.239645e-147
6.3.2 Teste Unilateral Direito
Testa se a média verdadeira \(\mu\) é maior que determinada média (\(\mu_{0}\)), tida como verdadeira sob \(H_{0}\). \[ \begin{aligned} H_{0}: \mu &= \mu_{0} \\ H_{A}: \mu &> \mu_{0} \\ \\ H_{0}: \mu &= 3,2 \\ H_{A}: \mu &> 3,2 \end{aligned} \]6.3.2.1 Método do Intervalo de Confiança
\[IC_{{\mu}}{100(1 − \alpha)\%} = \left[ \bar{x} + t_{\alpha;(n-1)}\cdot \sqrt{\frac{s^2}{n}}; \text{ } \infty \right]\] Calculando o intervalo usando o R como uma calculadora:
## [1] 3.304759
6.3.2.2 Função t.test
Podemos fazer este teste unilateral esquerdo usando a função t.test
do R:
## [1] 3.304759 Inf
## attr(,"conf.level")
## [1] 0.95
Temos que o intervalo de confiança para a média do valor do pH é \(IC_{\mu}(95\%)=\left[3.304759 \text{ }; \text{ } \infty \right]\). Como a estatística de teste \(\mu_{0}\)=3,2 não está contida no intervalo, rejeitamos a hipótese nula, ou seja, há evidências amostrais de que a verdadeira média do pH dos vinhos é maior do que 3,2.
6.3.2.3 Método do Valor Crítico
## [1] -1.645808
vcd
). Sendo assim, como a estatística de teste 28,77933 é maior que -1.645808 , devemos rejeitar \(H_{0}\) ao nível de 5% de significância, ou seja, há evidências amostrais de que a média do pH dos vinhos é maior que 3,2.
6.3.2.4 Método do Valor-p
\[\text{valor-p}= P(T < t_{0})\]
Fazendo as contas passo a passo, utilizando o R como uma calculadora:
## [1] 2.119823e-147
Utilizando a função t.test
:
## [1] 2.119823e-147
6.3.3 Teste Unilateral Esquerdo
Testa se a média verdadeira \(\mu\) é menor que determinada média (\(\mu_{0}\)), tida como verdadeira sob \(H_{0}\). \[ \begin{aligned} H_{0}: \mu &= \mu_{0} \\ H_{A}: \mu &< \mu_{0} \\ \\ H_{0}: \mu &= 3,2 \\ H_{A}: \mu &< 3,2 \end{aligned} \]6.3.3.1 Método do Intervalo de Confiança
\[IC_{\mu}{100(1 − \alpha)\%} = \left[ - {\infty};\bar{x} + t_{1 -\alpha; (n-1)}\cdot \sqrt{\frac{s^2}{n}}\right]\] Calculando o intervalo usando o R como uma calculadora:
## [1] 3.317467
6.3.3.2 Função t.test
Podemos fazer este teste unilateral esquerdo usando a função t.test
do R:
## [1] -Inf 3.317467
## attr(,"conf.level")
## [1] 0.95
Temos que o intervalo de confiança para a média do valor do pH é \(IC_{\mu}(95\%)=\left[- \text{ } \infty; 3.317467 \right]\). Como a estatística de teste \(\mu_{0}\)=3,2 está contida no intervalo, não rejeitamos a hipótese nula, ou seja, há evidências amostrais de que a verdadeira média do pH dos vinhos é maior do que 3,2.
6.3.3.3 Método do Valor Crítico
## [1] 3.193646
6.3.3.4 Método do Valor-p
\[\text{valor-p}= P(T < t_{0})\]
Fazendo as contas passo a passo, utilizando o R como uma calculadora
## [1] 1
Utilizando a função t.test
## [1] 1
6.4 Teste de uma proporção
Um banco de dados sobre carros na Arábia Saudita com 560 observações apresenta a variável transmissão do carro. Deseja-se investigar, a um nível de 5% de significância, se a proporção de carros com transmissão manual é igual, menor ou maior que 0,15. Para isso, serão realizados testes de hipóteses bilateral, unilateral direito e unilateral esquerdo, respectivamente.
Como estamos realizando um teste quanto a proporção de uma característica em uma população,teremos como referência a estatística \(\hat{p}\), a proporção amostral.Essa estatística possui uma distribuição aproximadamente Normal, como a seguir:
\[\hat{p} \sim N \left(p,\frac{p(1-p)}{n}\right)\] Nessa distribuição, temos que \(p\) é a proporção populacional da característica em questão, transmissão manual, e \(n\) é o tamanho amostral.
Quando desejamos fazer um teste de hipóteses sob a hipótese nula, ou seja, \(H_{0}\), a distribuição de referência passa a ser:
\[\hat{p} \sim N{(p_{0},\frac{p_{0}(1-p_{0})}{n}})\] Nesse caso, o que muda é que a proporção populacional passa a ser a que está sendo testada, e dita como verdadeira sob a hipótese nula.
Para solucionar o problema,primeiramente, vamos abrir o banco de dados e definir as variáveis.
require(exatas) #chamando o pacote para a leitura do banco
attach(carro) #este comando anexa o banco, permitindo que suas variáveis sejam acessadas
#definindo variáveis
p0=0.15 #proporção que se pretende testar
pchapeu= table(transmission)[2]/sum(table(transmission)) #proporção amostral
n = length(transmission) #tamanho da amostra
alpha=0.05 #nível de significância
6.4.1 Teste Bilateral
Testa a diferença entre a proporção verdadeira \(p\) e a determinada proporção \(p_{0}\), tida como verdadeira sob \(H_{0}\).
\[ \begin{aligned} H_{0}: p &= p_{0} \\ H_{A}: p &\neq p_{0} \\ \\ H_{0}: p &= 0,15 \\ H_{A}: p &\neq 0,15 \end{aligned} \]
6.4.1.1 Método Valor Crítico
Os valores críticos são calculados para delimitar a região de rejeição da hipótese nula que está sendo testada. Assim, analisamos se a estatística de teste pertence ou não a região crítica; caso a resposta seja afirmativa, rejeitamos \(H_{0}\) ao nível \(\alpha\) de significância, e não rejeitamos caso contrário.
A região crítica pode ser construída de duas maneiras. Na primeira, estabelecemos valores de proporções críticos e a estatística de teste nada mais é que o próprio \(\hat{p}\), proporção amostral.A outra maneira seria transformar a distribuição da proporção amostral em uma Normal Padrão, encontrando uma nova estatística de teste.
6.4.1.2 Primeira Maneira
Nesse caso os valores críticos são encontrados com \(p_{0} - Z_{(1-\frac{\alpha}{2})}\cdot \sqrt{\frac{p_{0}\cdot{(1-p_{0})}}{n}}\) para o valor crítico inferior e \(p_{0} + Z_{1-\frac{\alpha}{2}}\cdot \sqrt{\frac{p_{0}\cdot{(1-p_{0})}}{n}}\)para o superior.
A estatística de teste do exemplo nada mais é que a proporção amostral, que vale 0,1071429 .
#encontrando os valores críticos
vc1= p0-qnorm(1-alpha/2)*sqrt(0.15*(1-0.15)/n)
vc2=p0+qnorm(1-alpha/2)*sqrt(0.15*(1-0.15)/n)
vc1
## [1] 0.1204261
## [1] 0.1795739
Nesse caso, devemos rejeitar a hipótese nula se a estatística de teste for menor que 0,1204261(vc1) ou maior que 0,1795739(vc2). Como a estatística de teste vale 0,1071429 (que é menor do que 0,1204261), rejeitamos a hipótese nula ao nível de significância de 5%, ou seja, há evidências amostrais de que a proporção de carros manuais na Arábia Saudita é diferente de 0,15.
6.4.1.3 Segunda Maneira
Transformando a distribuição da proporção amostral em uma Normal Padrão, temos que:
\[\hat{p} \sim N \left(p,\frac{p(1-p)}{n}\right) \to Z_0 = \frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_o)}{n}}} \sim N(0,1)\]
A partir dessa transformação, devemos calcular a nova estatística de teste:
## Manual
## -2.840286
A estatística de teste encontrada neste exemplo foi -2.840286.
Já os valores críticos são encontrados com \(\ z_{\frac{\alpha}{2}}\) para o valor crítico inferior e \(z_{{1}-\frac{\alpha}{2}}\) para o superior.
## [1] -1.959964
## [1] 1.959964
Nesse caso, devemos rejeitar a hipótese nula se a estatística de teste for menor que -1.959964(vc1) ou maior que 1.959964(vc2). Como a estatística de teste vale -2.840286 (que é menor do que -1.959964), rejeitamos a hipótese nula ao nível de significância de 5%, ou seja, há evidências amostrais de que a proporção de carros manuais na Arábia Saudita é diferente de 0,15.
Daqui em diante, usaremos apenas a segunda maneira para solucionar os testes de hipótese.
6.4.1.4 Método Intervalo de Confiança
Podemos usar o intervalo de confiança da proporção para fazer um teste de hipóteses, basta observar se o intervalo de \(100(1-\alpha)\%\) de confiança para \(p\) contém o valor que está sendo testado \(p_{0}\). Se o intervalo não contém a proporção, rejeitamos a hipótese nula ao nível de \(\alpha\%\) de significância, caso contrário, não rejeitamos a hipótese nula ao nível de \(\alpha\%\) de significância.\[IC_{p}{100(1 − \alpha)\%} = \left[\hat{p}- z_{(1-\frac{\alpha}{2})} \cdot \sqrt{ \hat{p}\cdot\frac{\hat{p}(1-\hat{p})}{n}} \text{ } ;\text{ } \hat{p}+ z_{(1-\frac{\alpha}{2})} \cdot \sqrt{\hat{p}\cdot\frac{\hat{p}(1-\hat{p})}{n}}\right]\] Mas o intervalo de confiança também pode ser calculado de duas maneiras diferentes. O método otimista é aquele no qual o \(\hat{p}\) utilizado para calcular a variância \(\sqrt{\hat{p}\cdot\frac{\hat{p}(1-\hat{p})}{n}}\) é substituído pela própria proporção amostral.O método conservador considera que \(\hat{p}\) vale 0.5, encontrado assim resultados diferentes.Dessa maneira, não é recomendado utilizar o intervalo de confiança para proporção para realizar testes de hipótese, o faremos apenas para demonstração.
6.4.1.4.1 Método Otimista
Fazendo as contas, passo a passo, utilizando o R como uma calculadora,temos:
## [1] 0.08152595 0.13275976
Temos que o intervalo de confiança para \({p}\) é \(IC_{p}{95\%} = \left[ 0.08152595 ; 0.13275976 \right]\). Como o valor testado \(p_0\) não está contido no intervalo, rejeitamos a hipótese nula ao nível de significância de 5%, ou seja,há evidências amostrais de que a proporção de carros manuais na Arábia Saudita é diferente de 0,15.
6.4.1.4.2 Método Conservador
Fazendo as contas, passo a passo, utilizando o R como uma calculadora, temos que:
## [1] 0.06573106 0.14855465
Temos que o intervalo de confiança para \({p}\) é \(IC_{p}{95\%} = \left[ 0.06573106 ; 0.14855465 \right]\). Como o valor testado \(p_0\) não está contido no intervalo, rejeitamos a hipótese nula ao nível de significância de 5%, ou seja,há evidências amostrais de que a proporção de carros manuais na Arábia Saudita é diferente de 0,15.
6.4.1.5 Método Valor-p
O valor-p é a probabilidade de rejeitarmos erroneamente a hipótese nula com base nos dados amostrais, ou seja, rejeitá-la dado que ela é verdadeira. Para a distribuição bilateral ele é calculado como sendo 2 vezes a probabilidade da estatística de teste ser ainda mais extrema , menor, do que ela é. Se o valor-p for menor ou igual ao nível de significância, rejeitamos a hipótese nula, e se for maior, não rejeitamos.
\[\text{valor-p}= 2\cdot P(Z< |Z_{0}|)\]
Fazendo as contas passo a passo, utilizando o R como uma calculadora, temos que:
## Manual
## 0.004507305
O valor-p encontrado foi considerado pequeno (já que é muito menor do que \(\alpha\)=0.05), de forma que rejeitamos \(H_{0}\) ao nível 5% de significância, ou seja, podemos concluir que há evidências amostrais de que a proporção de carros manuais na Arábia Saudita é diferente de 0,15.
6.4.2 Teste Unilateral Direito
Testa se a proporção verdadeira \(p\) é maior que a proporção \(p_{0}\) determinada, tida como verdadeira sob \(H_{0}\). \[ \begin{aligned} H_{0}: p &= p_{0} \\ H_{A}: p &> p_{0} \\ \\ H_{0}: p &= 0,15 \\ H_{A}: p &> 0,15 \end{aligned} \]
6.4.2.1 Método do Valor Crítico
No caso unilateral direito, o valor crítico é encontrado com \(z_{1-\alpha}\).
## [1] 1.644854
Como se trata do caso unilateral direito, para concluir o teste de hipótese basta verificar se a estatística de teste é maior que o valor crítico 1.644854(vcd
). Sendo assim, como a estatística de teste -2.840286 é menor do que esse valor crítico, não rejeitamos \(H_{0}\) ao nível de 5% de significância, ou seja, podemos concluir que não há evidências amostrais de que a proporção de carros manuais na Arábia Saudita é maior 0,15.
6.4.2.2 Método do Intervalo de Confiança
O intervalo para o caso unilateral direito é calculado da seguinte maneira:
\[IC_{p}{100(1 − \alpha)\%} = \left[\hat{p}- z_{(1- \alpha)} \cdot \sqrt{ \hat{p}\cdot\frac{\hat{p}(1-\hat{p})}{n}} \text{ } ;\text{ } \infty \right]\]
6.4.2.2.1 Método Otimista
Fazendo as contas, passo a passo, utilizando o R como uma calculadora,temos:
## Manual
## 0.08564447
Temos que o intervalo de confiança para \({p}\) é \(IC_{p}{95\%} = \left[ 0.08564447 ; \text{ } \infty \right]\). Como o valor testado \(p_0\) está contido no intervalo, não rejeitamos a hipótese nula ao nível de significância de 5%, ou seja,não há evidências amostrais de que a proporção de carros manuais na Arábia Saudita é maior do que 0,15.
6.4.2.2.2 Método Conservador
Fazendo as contas, passo a passo, utilizando o R como uma calculadora, temos que:
## Manual
## 0.07238898
Temos que o intervalo de confiança para \({p}\) é \(IC_{p}{95\%} = \left[ 0.07238898 ; \text{ } \infty \right]\). Como o valor testado \(p_0\) está contido no intervalo, rejeitamos a hipótese nula ao nível de significância de 5%, ou seja, não há evidências amostrais de que a proporção de carros manuais na Arábia Saudita é maior do que 0,15.
6.4.2.3 Método Valor-p
No caso unilateral direito, o valor-p é apenas a probabilidade do da estatística de teste ser ainda mais extrema, menor, do que ela é.
\[\text{valor-p}=P(Z< |Z_{0}|)\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
## Manual
## 0.002253652
O valor-p encontrado foi considerado pequeno (já que é muito menor do que \(\alpha\)=0.05), de forma que rejeitamos \(H_{0}\) ao nível 5% de significância, ou seja, podemos concluir que não há evidências amostrais de que a proporção de carros manuais na Arábia Saudita é maior do que 0,15.
6.4.3 Teste Unilateral Esquerdo
Testa se a proporção verdadeira \(p\) é menor que a proporção \(p_{0}\) determinada, tida como verdadeira sob \(H_{0}\). \[ \begin{aligned} H_{0}: p &= p_{0} \\ H_{A}: p &< p_{0} \\ \\ H_{0}: p &= 0,15 \\ H_{A}: p &< 0,15 \end{aligned} \]
6.4.3.1 Método do Valor Crítico
No caso unilateral esquerdo, o valor crítico é encontrado com \(z_{alpha}\).
## [1] -1.644854
Como se trata do caso unilateral direito, para concluir o teste de hipótese basta verificar se a estatística de teste é menor que o valor crítico -1.644854(vce
). Sendo assim, como a estatística de teste -2.840286 é menor do que esse valor crítico,rejeitamos \(H_{0}\) ao nível de 5% de significância, ou seja, podemos concluir que há evidências amostrais de que a proporção de carros manuais na Arábia Saudita é menor do que 0,15.
6.4.3.2 Método do Intervalo de Confiança
O intervalo para o caso unilateral esquerdo é calculado da seguinte maneira:
\[IC_{p}{100(1 − \alpha)\%} = \left[\text{ } \infty ;\hat{p}+ z_{(1- \alpha)} \cdot \sqrt{ \hat{p}\cdot\frac{\hat{p}(1-\hat{p})}{n}} \text{ } \right]\]
6.4.3.2.1 Método Otimista
Fazendo as contas, passo a passo, utilizando o R como uma calculadora,temos:
## Manual
## 0.1286412
Temos que o intervalo de confiança para \({p}\) é \(IC_{p}{95\%} = \left[ \text{ } \infty \right ; 0.1286412 ]\). Como o valor testado \(p_0\) não está contido no intervalo,rejeitamos a hipótese nula ao nível de significância de 5%, ou seja,há evidências amostrais de que a proporção de carros manuais na Arábia Saudita é menor do que 0,15.
6.4.3.2.2 Método Conservador
Fazendo as contas, passo a passo, utilizando o R como uma calculadora, temos que:
## Manual
## 0.1418967
Temos que o intervalo de confiança para \({p}\) é \(IC_{p}{95\%} = \left[\text{ } \infty ; 0.1418967 \right]\). Como o valor testado \(p_0\) não está contido no intervalo, rejeitamos a hipótese nula ao nível de significância de 5%, ou seja,há evidências amostrais de que a proporção de carros manuais na Arábia Saudita é menor do que 0,15.
6.4.3.3 Método Valor-p
No caso unilateral esquerdo, o valor-p é apenas a probabilidade do da estatística de teste ser ainda mais extrema, menor, do que ela é.
\[\text{valor-p}=P(Z< |Z_{0}|)\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
## Manual
## 0.002253652
O valor-p encontrado foi considerado pequeno (já que é muito menor do que \(\alpha\)=0.05), de forma que rejeitamos \(H_{0}\) ao nível 5% de significância, ou seja, podemos concluir que há evidências amostrais de que a proporção de carros manuais na Arábia Saudita é menor do que 0,15.
6.5 Teste Qui-Quadrado
m geral, os testes qui-quadrado são usados para avaliar se há associação entre variáveis qualitativas. Por exemplo, no banco de dados milsa, considere as variáveis civil e instrucao. A variável civil indica o estado civil do indivíduo (1 = solteiro, 2 = casado) e a variável instrução indica o nível de instrução (1 = 1o grau, 2 = 2o grau, 3 = ensino superior). Suponha que você deseja investigar se o estado civil tem alguma influência no nivel de instrução da pessoa. Para responder a essa pergunta são formuladas as seguintes hipóteses:
Ho : Estado civil e nivel de instrução são variáveis independentes.
Ha : Estado civil e nivel de instrução não são independentes.
Para testar essas hipóteses os dados são organizados na tabela de contingência abaixo.
milsa <- read.table("http://www.leg.ufpr.br/~paulojus/dados/milsa.dat", head = T)
tab = table(milsa$instrucao, milsa$civil) #Tabela com as frequências
addmargins(tab) #Adiciona os totais
##
## 1 2 Sum
## 1 7 5 12
## 2 6 12 18
## 3 3 3 6
## Sum 16 20 36
Temos a seguinte Estatística de Teste:
\[\chi^2 = \sum_{i=1}^n \sum_{j=1}^m \frac {(O_{ij} - E_{ij})^2}{E_{ij}}\] Onde “O” é a frequência observada para cada classe, “E” é a frequência esperada, N é o número de linhas da tabela e M o número de colunas. Note que quando as frequências obeservadas são muito próximas da esperada o valor da estatística de teste é próximo de zero. Por outro lado, quando os valores observados são bem distantes do esperado o valor da estatística de teste aumenta.
Para testar a hipótese usamos o fato que χ2 segue uma distribuição qui-quadrado com (N − 1)(M − 1) graus de liberdade, onde N e M são on números de linhas e de colunas, respectivamente. O valor esperado “E” é obtido realizando o seguinte cálculo: \[\frac{Total\ da\ linha\ x\ Total\ da\ coluna}{Total\ geral}\] Veja um exemplo considerando a tabela acima: \[\ E_{11} = \frac{12\ x\ 16}{36} = 5.333\ Então\ temos\ \frac{(7\ -\ 5.333)^2}{5.333}\ =\ 0.52.\] Fazemos esse cálculo para todos os outros termos e encontramos o valor da Estatística de Teste:
\[\sum_{i=1}^n \sum_{j=1}^m \frac {(O_{ij} - E_{ij})^2}{E_{ij}}\ =\ \frac{(7\ -\ 5.333)^2}{5.333}\ +\ ...\ +\ \frac{(3\ -\ 3.333)^2}{3.333}\ =\ 1.9125\] Sob o nível de significânciade α = 0.05 e 2 graus de liberdade, podemos encontrar a região crítica do teste pelo comando abaixo:
## [1] 5.991465
Como o valor observado não pertence à região crítica não rejeitamos Ho, ou seja, não existem evidências para rejeitar a hipótese de que Estado civil e Nível de instrução sejam variáveis independentes. Para realizar essa mesma análise por meio de um único comando usamos o código abaixo:
milsa <- read.table("http://www.leg.ufpr.br/~paulojus/dados/milsa.dat", head = T)
chisq.test(milsa$civil, milsa$instrucao)
##
## Pearson's Chi-squared test
##
## data: milsa$civil and milsa$instrucao
## X-squared = 1.9125, df = 2, p-value = 0.3843
O comando acima nos retorna o valor da estatística de teste igual a 1.9125, e seu p-valor correspondente a ela com 2 graus de liberdade. Considerando um nível de significância de α = 0.05, vemos que o p-valor é maior que α logo não devemos rejeitar a hipótese nula.
6.6 Teste t pareado
Primeiramente, vamos abrir o banco de dados e definir alguns objetos.
require(exatas)
attach(traves) #este comando anexa o banco, pirmitindo que suas variáveis sejam acessadas
mi0 = 0 # pois queremos testar se a verdadeira média das diferenças é igual a zero
alpha = 0.05 # nível de significância
\[T_{0} = \frac{\bar{D}-\mu_{D}}{{S_{D}/\sqrt{n}}} \sim t_{(n-1)}\]
Portanto, a estatística de teste observada \(t_{0}\) a ser utilizada em todos os testes será:
\[t_{0} = \frac{\bar{d}-\mu_{D}}{s_{D} / \sqrt{n}}\]6.6.1 Teste Bilateral
\[ \begin{aligned} \begin{cases} H_{0}: \mu_{D} &= 0 \\ H_{1}: \mu_{D} &\neq 0 \\ \end{cases} \end{aligned} \]
6.6.1.1 Função t.test
t.test
. Esta é a mesma função utilizada nos testes de comparação de duas médias, com a diferença de que devemos adicionar o argumento paired = TRUE
.
##
## Paired t-test
##
## data: K and L
## t = 6.0819, df = 8, p-value = 0.0002953
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.1700423 0.3777355
## sample estimates:
## mean of the differences
## 0.2738889
6.6.1.2 Método do Valor Crítico
qt()
do R.
# calculando a estatística de teste
D = K-L # vetor das diferenças entre as observações de cada par
mediaD = mean(D) # média das diferenças
varD = var(D) # variância amostral das diferenças
n =length(D) # número de pares da amostra
estteste=(mediaD - mi0)/sqrt(varD/n)
estteste
## [1] 6.081939
A estatística de teste encontrada nesse exemplo foi 6.081939.
## [1] -2.306004
## [1] 2.306004
vc1
) ou maior que 2.306004 (vc2
). Como a estatística de teste vale 6.081939, rejeitamos a hipótese nula ao nível de significância de 5%, ou seja, não há evidência amostral de que a média das diferenças entre os pares seja igual há zero, portanto há diferença significativa entre os dois métodos testados.
6.6.1.3 Método do Intervalo de Confiança
\[IC_{\mu_{D}}{100(1 − \alpha)\%} = \left[ \bar{D} - t_{\frac{\alpha}{2};(n-1)}\sqrt{\frac{s_{D}}{n}} ; \bar{D} + t_{\frac{\alpha}{2};(n-1)}\sqrt{\frac{s_{D}}{n}} \right]\]
Fazendo as contas passo a passo, utilizando o R como uma calculadora:
IC = c(mediaD - qt(alpha/2,n-1,lower.tail = F)*sqrt(varD/n), mediaD + qt(alpha/2,n-1,lower.tail = F)*sqrt(varD/n))
IC
## [1] 0.1700423 0.3777355
Usando a função t.test
:
## [1] 0.1700423 0.3777355
## attr(,"conf.level")
## [1] 0.95
6.6.1.4 Método Valor-p
O valor-p é a probabilidade de rejeitarmos erroneamente a hipótese nula com base nos dados amostrais, ou seja, rejeitá-la dado que ela é verdadeira. Para a distribuição t, no caso bilateral ele é calculado como sendo 2 vezes a probabilidade da variável aleatória \(T_{0}\sim t_{(n-1)}\) ser maior que o módulo do valor da estatística de teste calculada. Se o valor-p for menor ou igual ao nível de significância, rejeitamos a hipótese nula, e se for maior, não rejeitamos.
\[\text{valor-p}= 2\cdot P(T_{0} > |t_{0}|)\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
## [1] 0.0002952956
Utilizando a função t.test()
:
## [1] 0.0002952955
6.6.2 Teste Unilateral Direito
Testa se a média das diferenças entre as medidas de um tratamento e outro (\(\mu_{D}\)) é significativamente maior que zero. \[ \begin{aligned} \begin{cases} H_{0}: \mu_{D} &= 0 \\ H_{1}: \mu_{D} &> 0 \\ \end{cases} \end{aligned} \]6.6.2.1 Função t.test
Para o caso unilateral direito, continuaremos usando a função t.test
com o argumento paired = TRUE
, mas desta vez com alt="greater"
, para que o teste seja unilateral direito.
##
## Paired t-test
##
## data: K and L
## t = 6.0819, df = 8, p-value = 0.0001476
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 0.1901476 Inf
## sample estimates:
## mean of the differences
## 0.2738889
6.6.2.2 Método do Valor Crítico
## [1] 1.859548
vcd
). Sendo assim, como a estatística de teste 6.081939 é maior do que esse valor crítico, rejeitamos \(H_{0}\) ao nível de 5% de significância, ou seja, não há evidência amostral de que a média das diferenças entre os pares seja menor ou igual há zero, portanto o método Karlruhe (K) promove uma resistência significativamente maior que o método Lehigh (L).
6.6.2.3 Método do Intervalo de Confiança
\[IC_{\mu_{D}}{100(1 − \alpha)\%} = \left[ \bar{D} - t_{\alpha;(n-1)}\sqrt{\frac{s_{D}}{n}} ;\text{ } \infty \right]\] Calculando o intervalo usando o R como uma calculadora:
## [1] 0.1901476 Inf
Usando a função t.test
:
## [1] 0.1901476 Inf
## attr(,"conf.level")
## [1] 0.95
6.6.2.4 Método Valor-p
\[\text{valor-p}= P(T_{0} > t_{0})\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
## [1] 0.0001476477
Utilizando a função t.test
:
## [1] 0.0001476477
O valor-p de 0.0001476477 encontrado foi considerado pequeno (já que foi menor do que \(\alpha\)=0.05), de forma que rejeitamos \(H_{0}\) ao nível de 5% de significância, ou seja, não há evidência amostral de que a média das diferenças entre os pares seja menor ou igual há zero, portanto o método Karlruhe (K) promove uma resistência significativamente maior que o método Lehigh (L).
6.6.3 Teste Unilateral Esquerdo
Testa se a média das diferenças entre as medidas de um tratamento e outro (\(\mu_{D}\)) é significativamente menor que zero. \[ \begin{aligned} \begin{cases} H_{0}:\mu_{D} &= 0\\ H_{1}: \mu_{D} &< 0 \\ \end{cases} \end{aligned} \]6.6.3.1 Função t.test
Para o caso unilateral esquerdo, continuaremos usando a função t.test
com o argumento paired = TRUE
, mas desta vez com alt="less"
, para que o teste seja unilateral esquerdo.
##
## Paired t-test
##
## data: K and L
## t = 6.0819, df = 8, p-value = 0.9999
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf 0.3576302
## sample estimates:
## mean of the differences
## 0.2738889
6.6.3.2 Método do Valor Crítico
## [1] -1.859548
vce
) encontrado. Sendo assim, como a estatística de teste 6.081939 é maior do que esse valor crítico, não rejeitamos \(H_{0}\) ao nível de 5% de significância, ou seja, há evidência amostral de que a média das diferenças entre os pares seja maior ou igual a zero, portanto o método Karlruhe (K) promove uma resistência significativamente maior que o método Lehigh (L).
6.6.3.3 Método do Intervalo de Confiança
\[IC_{\mu_{D}}{100(1 − \alpha)\%} = \left[ \text{ }- \infty \text{ } ;\bar{D} + t_{\alpha;(n-1)}\sqrt{\frac{s_{D}}{n}} \right]\] Calculando o intervalo usando o R como uma calculadora:
## [1] -Inf 0.3576302
Usando a função t.test
:
## [1] -Inf 0.3576302
## attr(,"conf.level")
## [1] 0.95
6.6.3.4 Método Valor-p
\[\text{valor-p}= P(T_{0} < t_{0})\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
## [1] 0.9998524
Utilizando a função t.test
:
## [1] 0.9998524
6.7 Teste t para duas médias
A concentração de arsênio em suprimentos públicos de água potável é um risco potencial de sáude.Um estudo reportou a concentração, em partes por bilhão (ppb), de arsênio em água potável para 10 comunidades metropolitanas de Fênix e 10 comunidades rurais do Arizona. Desejamos determinar se há alguma diferença nas concentrações médias de arsênio entre comunidades metropolitanas de Fênix e as comunidades rurais do Arizona.
Primeiramente, vamos abrir o banco de dados e definir as variáveis.
require(exatas) #chamando o pacote para a leitura do banco
attach(dados) #este comando anexa o banco, permitindo que suas variáveis sejam acessadas
#definindo variáveis
amostra1=metrop
amostra2=rural
med1=mean(amostra1) #média amostral grupo 1
med2=mean(amostra2) #média amostral grupo 2
var1= var(amostra1) #variância amostral grupo 1
var2= var(amostra2) #variância amostral grupo 2
n1 = length(amostra1) #tamanho amostral do grupo 1
n2 = length(amostra2) #tamanho amostral do grupo 2
alpha=0.05 #nível de significância
Delta0 = 0 # valor que estamos testando para a diferença entre a média da amostra 1 e da amostra 2
Para solucionar o problema, teremos que utilizar o teste-t para comparação de duas médias.Porém esse tipo de teste é divido entre dois casos, um em que as variâncias das duas amostras podem ser consideradas iguais e o outro em que as variâncias são diferentes.
Sendo assim, antes de inciar esse teste, temos que utilizar o teste de comparação de duas variâncias para verificarmos em qual dos dois casos o problema se encaixa.Se você possui alguma dúvida nesse teste, consulte o material de exemplo referente a ele.
##
## F test to compare two variances
##
## data: amostra1 and amostra2
## F = 0.24735, num df = 9, denom df = 9, p-value = 0.04936
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.06143758 0.99581888
## sample estimates:
## ratio of variances
## 0.2473473
Considerando a hipótese nula de igualdade entre as variâncias, ao nível de significância de 5% rejeitamos a hipótese nula, pois o valor-p 0.04936 é menor que o alpha=0.05.Ou seja, há evidência amostral de que as variâncias das duas amostras são diferentes.
A partir deste resultado, concluimos que para resolver o problema apresentado teremos que usar o teste-T de comparação de duas médias para variâncias diferentes.
A distribuição de referência para esse teste é “aproximadamente” a t-Student com v graus de liberdade, como a seguir:
\[T=\frac{\bar{D}-\triangle}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}} \sim t_{(v)}\]
em que\[v=\frac{\left(\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}\right)^2}{\frac{(S_1^2/n_1)^2}{n_1-1}+\frac{(S_2^2/n_2)^2}{n_2-1}}\]
Temos a distribuição sob H0, ou seja, a distribuição da estatística de teste é:
\[T_0=\frac{\bar{D}-\triangle}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}} \sim t_{(v)}\]
Portanto a estatística de teste observada \(t_0\) a ser utilizada em todos os testes será:
\[t_0=\frac{\bar{d}-\triangle}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}\sim t_{(v)}\]
6.7.1 Teste Bilateral
Testa a diferença entre média populacional \(\mu_{1}\) da amostra 1 e a média populacional \(\mu_{2}\) da amotra 2. \[ \begin{aligned} \begin{cases} H_{0}: \mu_{1}&= \mu_{2} \\ H_{A}: \mu_{1}&\neq \mu_{2} \\ \end{cases} \end{aligned} \] \[ \begin{aligned} \begin{cases} H_{0}: \mu_{1}-\mu_{2}&=0 \\ H_{A}: \mu_{1}-\mu_{2}&\neq 0 \\ \end{cases} \end{aligned} \]
6.7.1.1 Função t.test
Podemos fazer este teste bilateral usando a função t.test
.
t.test(amostra1, amostra2, alternative = "two.sided",
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 1-alpha)
##
## Welch Two Sample t-test
##
## data: amostra1 and amostra2
## t = -2.7669, df = 13.196, p-value = 0.01583
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -26.694067 -3.305933
## sample estimates:
## mean of x mean of y
## 12.5 27.5
6.7.1.2 Método do Valor Crítico
Os valores críticos são calculados para delimitar a região de rejeição da hipótese nula que está sendo testada.Nesse tipo de teste podemos calcular os valores críticos de duas maneiras, de forma que a análise pode ser de acordo com a estatística de teste ou com o valor da diferença da média \(\triangle\) que está sendo testado.
No primeiro caso analisamos se a estatística de teste pertence ou não a região crítica, caso a resposta seja afirmativa, rejeitamos \(H_{0}\) ao nível \(\alpha\) de significância, e não rejeitamos caso contrário.
Nesse caso os valores críticos são encontrados com \(t_{(v);1- \frac{\alpha}{2}}\) para o valor crítico inferior e \(t_{(v);\frac{\alpha}{2}}\) para o superior.## [1] -2.76694
A estatística de teste encontrada nesse exemplo foi -2.76694.
#calculando o grau de liberdade
v=( (var1/n1 + var2/n2)^2 )/( ((var1/n1)^2)/(n1-1) + ((var2/n2)^2)/(n2-1) )
# calculando os valores críticos:
vc1 = qt(alpha/2,df=v,lower.tail=TRUE)
vc2 = qt(alpha/2,df=v,lower.tail=FALSE)
vc1
## [1] -2.157118
## [1] 2.157118
Neste caso, devemos rejeitar a hipótese nula se a estatística de teste for menor que -2.157118(vc1) ou maior que 2.157118(vc2). Como a estatística de teste vale -2.76694, rejeitamos a hipótese nula ao nível de significância de 5%, ou seja,há evidências amostrais de que há alguma diferença nas concentrações médias de arsênio entre comunidades metropolitanas de Fênix e as comunidades rurais do Arizona.
Quando utilizamos a diferença da média \(\triangle\) na análise dos valores críticos verificamos se seu valor pertence ou não a região de rejeição, caso a resposta seja afirmativa, rejeitamos \(H_{0}\) ao nível \(\alpha\) de significância, e não rejeitamos caso contrário.
Para calcular os valores críticos devemos considerar as fórmulas \(\triangle - t_{\alpha;(v)} \cdot \sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}\) para o valor crítico inferior e \(\triangle + t_{\alpha;(v)} \cdot \sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}\) para o valor crítico superior.
## [1] -11.69407
## [1] 11.69407
Neste caso, devemos rejeitar a hipótese nula se a diferença da média \(\triangle\) for menor que -11.69407(vc1) ou maior que 11.69407(vc2). Como a diferença entre as médias amostrais vale -15, rejeitamos a hipótese nula ao nível de significância de 5%, ou seja,há evidências amostrais de que há alguma diferença nas concentrações médias de arsênio entre comunidades metropolitanas de Fênix e as comunidades rurais do Arizona.
Nos seguintes tópicos usaremos apenas a primeira abordagem dos valores críticos para concluir a hipótese.
6.7.1.3 Método do Intervalo de Confiança
\[IC_{\mu_1-\mu_2}{100(1 − \alpha)\%} = \left[ (\bar{X_1}-\bar{X_2})-t_{\frac{\alpha}{2};(v)} \cdot \sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}; (\bar{X_1}-\bar{X_2})+t_{\frac{\alpha}{2};(v)} \cdot \sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}} \right]\]
Fazendo as contas passo a passo, utilizando o R como uma calculadora:
li = med1-med2 - qt(alpha/2,df=v,lower.tail=FALSE)*sqrt((var1/n1 + var2/n2))
ls = med1-med2 + qt(alpha/2,df=v,lower.tail=FALSE)*sqrt((var1/n1 + var2/n2))
IC = c(li, ls)
IC
## [1] -26.694067 -3.305933
Usando a função t.test
:
t.test(amostra1,amostra2, alternative = "two.sided",
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 1-alpha)$conf.int
## [1] -26.694067 -3.305933
## attr(,"conf.level")
## [1] 0.95
6.7.1.4 Método Valor-p
\[\text{valor-p}= 2\cdot P(T_0 >|t_0| )\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
## [1] 0.01582728
Utilizando a função t.test
:
t.test(amostra1,amostra2, alternative = "two.sided",
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 1-alpha)$p.value
## [1] 0.01582728
6.7.2 Teste Unilateral Direito
Testa se a média populacional \(\mu_{1}\) da amostra 1 é maior que a média populacional \(\mu_{2}\) da amotra 2. \[ \begin{aligned} \begin{cases} H_{0}: \mu_{1}&= \mu_{2} \\ H_{A}: \mu_{1}&> \mu_{2} \\ \end{cases} \end{aligned} \] \[ \begin{aligned} \begin{cases} H_{0}: \mu_{1}-\mu_{2}&=0 \\ H_{A}: \mu_{1}-\mu_{2}&> 0 \\ \end{cases} \end{aligned} \]6.7.2.1 Função t.test
Podemos fazer este teste unilateral direito usando a função t.test
do R:
t.test(amostra1, amostra2, alternative = "greater",
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 1-alpha)
##
## Welch Two Sample t-test
##
## data: amostra1 and amostra2
## t = -2.7669, df = 13.196, p-value = 0.9921
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -24.58963 Inf
## sample estimates:
## mean of x mean of y
## 12.5 27.5
Note que a saída do R nos informa a estatística t, os graus de liberdade da distribuição de referência, o valor-p, a hipótese alternativa, o intervalo de confiança ao nível \((1-\alpha)100\%\) e as médias de cada uma das amostras.
6.7.2.2 Método do Valor Crítico
## [1] 1.768928
vcd
). Sendo assim, como a estatística de teste -2.7669 é menor do que esse valor crítico, não rejeitamos \(H_{0}\) ao nível de 5% de significância, ou seja, não há evidências amostrais de que a concentração média de arsênio nas comunidades metropolitanas de Fênix é maior do que a concentração média nas comunidades rurais do Arizona.
6.7.2.3 Método do Intervalo de Confiança
\[IC_{\mu_{1}-\mu_{2}}{100(1 − \alpha)\%} = \left[ (\bar{X_1}-\bar{X_2})-t_{\frac{\alpha}{2};(v)} \cdot \sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}};\text{ } \infty \right]\] Calculando o intervalo usando o R como uma calculadora:
## [1] -24.58963 Inf
Usando a função t.test
:
t.test(amostra1, amostra2, alternative = "greater",
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 1-alpha)$conf.int
## [1] -24.58963 Inf
## attr(,"conf.level")
## [1] 0.95
Temos que o intervalo de confiança para \(\mu_1-\mu_2\) é \(IC_{\mu_1-\mu_2}{100(1 − \alpha)\%} = \left[ -24.58963;\text{ } \infty \right]\).Como o valor 0 está contido no intervalo, não rejeitamos a hipótese nula, ou seja, não há evidências amostrais de que a concentração média de arsênio nas comunidades metropolitanas de Fênix é maior do que a concentração média nas comunidades rurais do Arizona.
6.7.2.4 Método Valor-p
\[\text{valor-p}= P(T_0> t_0)\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
## [1] 0.9920864
Utilizando a função t.test
:
t.test(amostra1, amostra2, alternative = "greater",
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 1-alpha)$p.value
## [1] 0.9920864
O valor-p de 0.9920864 encontrado foi considerado elevado (já que foi maior do que \(\alpha\)=0.05), de forma que não rejeitamos \(H_{0}\) ao nível 5% de significância. Ou seja, não há evidências amostrais de que a concentração média de arsênio nas comunidades metropolitanas de Fênix é maior do que a concentração média nas comunidades rurais do Arizona.
6.7.3 Teste Unilateral Esquerdo
Testa se a média populacional \(\mu_{1}\) da amostra 1 é menor que a média populacional \(\mu_{2}\) da amotra 2. \[ \begin{aligned} \begin{cases} H_{0}: \mu_{1}&= \mu_{2} \\ H_{A}: \mu_{1}&< \mu_{2} \\ \end{cases} \end{aligned} \] \[ \begin{aligned} \begin{cases} H_{0}: \mu_{1}-\mu_{2}&=0 \\ H_{A}: \mu_{1}-\mu_{2}&< 0 \\ \end{cases} \end{aligned} \]6.7.3.1 Função t.test
Podemos fazer este teste unilateral esquerdo usando a função t.test
do R:
t.test(amostra1, amostra2, alternative = "less",
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 1-alpha)
##
## Welch Two Sample t-test
##
## data: amostra1 and amostra2
## t = -2.7669, df = 13.196, p-value = 0.007914
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf -5.41037
## sample estimates:
## mean of x mean of y
## 12.5 27.5
Note que a saída do R nos informa a estatística t, os graus de liberdade da distribuição de referência, o valor-p, a hipótese alternativa, o intervalo de confiança ao nível \((1-\alpha)100\%\) e as médias de cada uma das amostras.
6.7.3.2 Método do Valor Crítico
## [1] -1.768928
vcd
). Sendo assim, como a estatística de teste -2.7669 é menor do que esse valor crítico, rejeitamos \(H_{0}\) ao nível de 5% de significância, ou seja, há evidências amostrais de que a concentração média de arsênio nas comunidades metropolitanas de Fênix é menor do que a concentração média nas comunidades rurais do Arizona.
6.7.3.3 Método do Intervalo de Confiança
Calculando o intervalo usando o R como uma calculadora:
## [1] -Inf -5.41037
Usando a função t.test
:
t.test(amostra1, amostra2, alternative = "less",
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 1-alpha)$conf.int
## [1] -Inf -5.41037
## attr(,"conf.level")
## [1] 0.95
Temos que o intervalo de confiança para \(\mu_1-\mu_2\) é \(IC_{\mu_1-\mu_2}{100(1 − \alpha)\%} = \left[\text{ } -\infty; -5.41037\right]\).Como o valor 0 não está contido no intervalo,rejeitamos a hipótese nula, ou seja,há evidências amostrais de que a concentração média de arsênio nas comunidades metropolitanas de Fênix é menor do que a concentração média nas comunidades rurais do Arizona.
6.7.3.4 Método Valor-p
\[\text{valor-p}= P(T_0 < t_0)\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
## [1] 0.007913642
Utilizando a função t.test
:
t.test(amostra1, amostra2, alternative = "less",
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 1-alpha)$p.value
## [1] 0.007913642
6.8 Teste F para comparação de duas variâncias
Primeiramente, vamos abrir o banco de dados e definir as variáveis.
\[F = \frac{S_{1}^{2}}{S_{2}^{2}} \sim F_{n_{1}-1 ; n_{2}-1}\]
\[F_{0} = \frac{S_{1}^{2}}{S_{2}^{2}} \sim F_{n_{1}-1 ; n_{2}-1}\]
Portanto, a estatística de teste observada \(f_{0}\) a ser utilizada em todos os testes será: \[f_{0} = \frac{s_{1}^{2}}{s_{2}^{2}}\]
6.8.1 Teste Bilateral
Testamos a diferença entre a variância populacional \(\sigma_{1}^{2}\) da amostra 1 e a variância populacional \(\sigma_{2}^{2}\) da amostra 2 a partir da comparação das variâncias amostrais de ambos grupos. \[ \begin{aligned} \begin{cases} H_{0}: \sigma_{1}^{2} &= \sigma_{2}^{2} \\ H_{A}: \sigma_{1}^{2} &\neq \sigma_{2}^{2} \\ \end{cases} \end{aligned} \]
\[ \begin{aligned} \begin{cases} H_{0}: \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} &= 1 \\ H_{A}: \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} &\neq 1 \\ \end{cases} \end{aligned} \]6.8.1.1 Função var.test
Podemos fazer este teste bilateral usando a função var.test
.
##
## F test to compare two variances
##
## data: amostra1 and amostra2
## F = 0.63907, num df = 7, denom df = 7, p-value = 0.5691
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.1279433 3.1920724
## sample estimates:
## ratio of variances
## 0.6390651
6.8.1.2 Método do Valor Crítico
qf()
.
## [1] 0.6390651
A estatística de teste encontrada nesse exemplo foi 0.6390651.
## [1] 0.2640582
## [1] 3.787044
Neste caso, devemos rejeitar a hipótese nula se a estatística de teste for menor que 0.2640582(vc1) ou maior que 3.787044(vc2). Como a estatística de teste vale 0.6390651, não rejeitamos a hipótese nula ao nível de significância de 5%, ou seja, há evidências amostrais de que as variâncias dos tendimentos dos dois catalisadores são iguais.
6.8.1.3 Método do Intervalo de Confiança
qf()
.
Ao final deste exemplo, é apresentada a explicação teórica para a inversão dos graus de liberdade da \(F\) e do quantil.
Fazendo as contas passo a passo, utilizando o R como uma calculadora:
IC <- c(qf(alpha/2,gl1,gl2,lower.tail=TRUE)* var1/var2 , qf((alpha/2),gl1,gl2,lower.tail=F)* var1/var2)
# ou podemos calcular como na fórmula
#IC <- c(1/qf((alpha/2),gl2,gl1,lower.tail=F) * var1/var2, qf((alpha/2),gl1,gl2,lower.tail=F)* var1/var2)
IC
## [1] 0.1279433 3.1920724
Usando a função var.test
:
## [1] 0.1279433 3.1920724
## attr(,"conf.level")
## [1] 0.95
6.8.1.4 Método Valor-p
\[\text{valor-p}= 2 \cdot \text{min}\{ P(F > f_{0});P(F < f_{0})\}\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
estteste = var1/var2
valor.p = 2*min(pf(q=estteste, df1=gl1, df2=gl2, lower.tail=TRUE),pf(q=estteste, df1=gl1, df2=gl2, lower.tail=FALSE))
valor.p
## [1] 0.569131
Utilizando a função var.test
:
## [1] 0.569131
6.8.2 Teste Unilateral Direito
Testamos se a variância populacional \(\sigma_{1}^{2}\) da amostra 1 é maior que a variância populacional \(\sigma_{2}^{2}\) da amostra 2. \[ \begin{aligned} \begin{cases} H_{0}: \sigma_{1}^{2} &= \sigma_{2}^{2} \\ H_{A}: \sigma_{1}^{2} &> \sigma_{2}^{2} \\ \end{cases} \end{aligned} \]
\[ \begin{aligned} \begin{cases} H_{0}: \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} &= 1 \\ H_{A}: \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} &> 1 \\ \end{cases} \end{aligned} \]6.8.2.1 Função var.test
Podemos fazer este teste unilateral direito usando a função var.test
do R:
##
## F test to compare two variances
##
## data: amostra1 and amostra2
## F = 0.63907, num df = 7, denom df = 7, p-value = 0.7154
## alternative hypothesis: true ratio of variances is greater than 1
## 95 percent confidence interval:
## 0.1687504 Inf
## sample estimates:
## ratio of variances
## 0.6390651
Note que a saída do R nos informa a estatística F, os graus de liberdade da distribuição de referência, o valor-p, a hipótese alternativa, o intervalo de confiança ao nível \((1-\alpha)100\%\) e a razão das variâncias amostrais.
6.8.2.2 Método do Valor Crítico
## [1] 3.787044
vcd
). Sendo assim, como a estatística de teste 0.6390651 é menor do que esse valor crítico, não rejeitamos \(H_{0}\) ao nível de 5% de significância, ou seja, há evidências amostrais de que as variâncias dos tendimentos dos dois catalisadores são iguais .
6.8.2.3 Método do Intervalo de Confiança
\[IC_{\frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}}{100(1 − \alpha)\%} = \left[ \frac{1}{F_{n_{2}-1,n_{1}-1;(\alpha)}}\cdot\frac{s_{1}^{2}}{s_{2}^{2}}\text{ };\text{ } \infty \right]\] Como no teste unilateral direito queremos encontrar a área abaixo do quantil \(F_{n_{1}-1,n_{2}-1;(1-\alpha)}\), devemos calcular \(\frac{1}{F_{n_{2}-1,n_{1}-1;(\alpha)}}\) com a tabela. Novamente, o R pode calcular este quantil inferior sem que a transformação seja necessária.
Calculando o intervalo usando o R como uma calculadora:
IC <- c(qf(alpha,gl1,gl2,lower.tail = TRUE) * var1/var2, Inf)
# ou, como na fórmula
#IC <- c(1/(qf((alpha),gl2,gl1,lower.tail = FALSE)) * var1/var2, Inf)
IC
## [1] 0.1687504 Inf
Usando a função var.test
:
## [1] 0.1687504 Inf
## attr(,"conf.level")
## [1] 0.95
6.8.2.4 Método Valor-p
\[\text{valor-p}= P(F > f_{0})\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
## [1] 0.7154345
Utilizando a função var.test
:
## [1] 0.7154345
6.8.3 Teste Unilateral Esquerdo
Testa se a variância populacional \(\sigma_{1}^{2}\) da amostra 1 é menor que a variância populacional \(\sigma_{2}^{2}\) da amostra 2. \[ \begin{aligned} \begin{cases} H_{0}: \sigma_{1}^{2} &= \sigma_{2}^{2} \\ H_{A}: \sigma_{1}^{2} &< \sigma_{2}^{2} \\ \end{cases} \end{aligned} \]
\[ \begin{aligned} \begin{cases} H_{0}: \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} &= 1 \\ H_{A}: \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} &< 1 \\ \end{cases} \end{aligned} \]6.8.3.1 Função var.test
Podemos fazer este teste unilateral esquerdo usando a função var.test
do R:
##
## F test to compare two variances
##
## data: amostra1 and amostra2
## F = 0.63907, num df = 7, denom df = 7, p-value = 0.2846
## alternative hypothesis: true ratio of variances is less than 1
## 95 percent confidence interval:
## 0.000000 2.420168
## sample estimates:
## ratio of variances
## 0.6390651
Note que a saída do R nos informa a estatística F, os graus de liberdade da distribuição de referência, o valor-p, a hipótese alternativa, o intervalo de confiança ao nível \((1-\alpha)100\%\) e a razão das variâncias amostrais.
6.8.3.2 Método do Valor Crítico
## [1] 0.2640582
vce
). Sendo assim, como a estatística de teste 0.6390651 é maior do que o valor crítico encontrado , não rejeitamos \(H_{0}\) ao nível de 5% de significância, ou seja, há evidências amostrais de que as variâncias dos tendimentos dos dois catalisadores são iguais .
6.8.3.3 Método do Intervalo de Confiança
\[IC_{\frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}}{100(1 − \alpha)\%} = \left[ 0 \text{ };\text{ } F_{n_{1}-1,n_{2}-1;(\alpha)}\cdot\frac{s_{1}^{2}}{s_{2}^{2}} \right]\] Neste caso, como o que desejamos é justamente a área acima, nenhuma transformação precisa ser feita, uma vez que a tabela nos fornece os quantis da cauda direita.
Calculando o intervalo usando o R como uma calculadora:
## [1] 0.000000 2.420168
Usando a função var.test
:
## [1] 0.000000 2.420168
## attr(,"conf.level")
## [1] 0.95
6.8.3.4 Método Valor-p
\[\text{valor-p}= P(F < f_{0})\] Fazendo as contas passo a passo, utilizando o R como uma calculadora
## [1] 0.2845655
Utilizando a função var.test
:
## [1] 0.2845655
6.8.4 Transformação da F
Temos que \(F_{n_{1}-1,n_{2}-1;\left(1-\frac{\alpha}{2}\right)} = \frac{1}{F_{{n_{2}-1 , n_{1}-1};\left(\frac{\alpha}{2}\right)}}\) pois:
$$ \begin{aligned}
&= P(F_{m,n} < f_{m,n;( 1- )}) \ &= P( > ) \ &= P(F_{n,m} > ) \ &= P(F_{n,m} > f_{n,m;( )})
\end{aligned} $$
Para chegar no resultado acima, temos que \(\frac{1}{F_{n_{1}-1,n_{2}-1}} = F_{n_{2}-1,n_{1}-1}\) pois a :
$$ \begin{aligned}
F_{m,n} = \ \ = = = F_{n,m} \ \ U ^2_{m}V ^2_{n} \end{aligned} $$6.9 Exercícios
1- A função rnorm serve para gerar aleatoriamente dados provenientes de uma distribuição normal. Utilize essa função para gerar três amostras de uma distribuição normal com média µ = 100 e desvio padrão σ = 25. A primeira de tamanho n = 10, a segunda de tamanho n = 30 e a terceira de tamanho n = 100. Para cada uma das amostras, considerando um nível de significância α =0.05 e variância desconhecida, teste as seguintes hipóteses: a) H0 : µ = 110 vs H1 : µ 110 b) H0 : µ = 110 vs H1 : µ < 110 c) H0 : µ = 110 vs H1 : µ > 110 Explique como o tamanho da amostra interfere no resultado.
2- Considerando o banco de dados carro, pede-se: a) Um especialista em vendas de carros acredita que o preço médio dos automóveis é 40 mil. Formule as hipóteses e realize o teste adequado para verificar se o especialista tem razão. b) O especialista também desconfia que 40% dos carros vendidos são da cor branca. Formule as hipóteses e realize o teste adequado para verificar se o especialista tem razão.
3- O especialista da questão anterior ainda fez outra hipótese: Ele afirmou que a condição do carro (novo ou usado) e o tipo de transmissão (manual ou automático) são variáveis associadas. Utilize o teste de hipóteses adequado para conferir se ele está certo.
4- Um produtor de vinho desejava fazer uma pesquisa e coletou informações sobre várias marcas de vinho. Agora, essas informações estão disponíveis no banco de dados vinho e seu papel é ajudar o produtor à responder as seguintes dúvidas: a) Qual é o percentual alcoólico médio dos vinhos? Obtenha um intervalo de confiança com 99% de confiança. b) Existe diferença entre o teor alcoólico médio dos vinhos com qualidade menor que 6 e os vinhos com qualidade maior ou igual a 6? c) Existe diferença entre o pH médio dos vinhos com teor alcoólico menor ou igual a 10 e os vinhos com teor maior que 10?
5- Um veterinário realizou um experimento para entender sobre o efeito de duas substâncias (suco de laranja e ácido ascórbico) no crescimento dos dentes de porcos. Para isso, ele testou ambas as substâncias com 3 concentrações diferentes: 0.5, 1 e 2 miligramas por dia e colocou os resultados no banco de dados ToothGrowth. Faça o teste de hipótese adequado para descobrir se: a) O suco de laranja é mais eficaz na concentração 0.5 mg/dia. b) O tamanho do médio do dente do grupo tratado com ácido ascórbico e dose de 2 mg/dia é maior que 25mm. c) As substâncias tiveram efeitos diferentes na concentração 1 mg/dia.
6- Um engenheiro químico estava interessado em descobrir qual elemento químico tinha um maior gasto anual médio em sua fábrica de fertilizantes desde a fundação, em 1950. Para isso, ele obteve um relatório que continha o total anual de gastos desde 1992 (banco de dados “fertilizante” do pacote exatas). Ele sabe que o Potássio e o Fósforo foram os dois mais utilizados, mas não tem certeza qual deles foi o mais utilizado. Realize o teste de hipóteses adequado e descubra se eles tiveram gastos anuais médios diferentes.
7- Um estudo foi feito para entender o efeito de duas drogas sobre o sono de estudantes e o resultado está no banco de dados sleep. Para cada indivíduo foi medido o acréscimo médio nas horas de sono. Responda às seguintes dúvidas dos pesquisadores: a) Qual foi a média de acréscimo no sono dos estudantes do grupo 1? faça um intervalo de confiança com 95% de confiança. b) Qual foi a média de acréscimo no sono dos estudantes do grupo 2? faça um intervalo de confiança com 95% de confiança. c) É possível afirmar que as drogas tiveram efeitos diferentes no sono dos estudantes? Construa as hipóteses e tire a conclusão.
6.10 Gabarito
1- Como a função rnorm gera amostras aleatórias, não há gabarito para esta questão. Entretanto, o aumento no tamanho da amostra traz resultados mais confiáveis, aumentando o P-valor quando a hipótese nula não deve ser rejeitada e diminuindo-o quando a hipótese nula deve ser rejeitada.
2- a) Considerando 5% de significância, o especialista está errado, ou seja, a média no preço dos carros não é 40 mil. (P-valor = 0.03036) b) Com a mesma significância usada no item acima, concluímos que a hipótese do especialista está certa. Logo 40% dos carros vendidos têm a cor branca. (P-valor = 0.7627)
3- Usando 5% de significância, tiramos a conclusão de que as variáveis são independentes. (P-valor = 0.2265)
4- a) [10.35426;10.49171] b) Considerando significância de 5%, rejeitamos a hipótese nula. Assim, concluímos que os vinhos com qualidade menor que 6 e os vinhos com qualidade maior ou igual a 6 não têm o mesmo teor alcoólico médio. (P-valor < 2.2e-16) c) Usando a mesma significância do item acima, também rejeitamos a hipótese nula. Logo, os vinhos com teor alcoólico menor ou igual a 10 e os vinhos com teor alcoólico maior que 10 não tem o mesmo pH médio. (P-valor = 3.311e-10)
5- a) Usando 5% de significância, há evidência amostral para rejeitar a hipótese nula. Logo, o suco de laranja foi mais eficaz (teve maior média) nessa concentração. (P-valor = 0.003179) b) Considerando a mesma significância usada acima, não há evidência suficiente para rejeitar a hipótese nula. Assim, não podemos concluir que a média do tamanho do dente para a população dos porcos tratados com ácido ascórbico usando uma dose de 2 mg/dia é maior que 25mm. (P-valor = 0.2358) c) Ainda com 5% de significância, rejeitamos a hipótese nula. Portanto, as duas substâncias tiveram efeitos diferentes sob a concentração 1 mg/dia. (P-valor = 0.001038)
6- Considerando uma significância de 5%, não rejeitamos a hipótese nula. Assim, não há evidência amostral de que os gastos anuais médios de fósforo e potássio na indústria são diferentes. (P-valor = 0.1787)
7- a) [-0.5297804;2.0297804] b) [0.8976775;3.7623225] c) Considerando 5% de significância, não rejeitamos a hipótese nula. Logo, não há evidência amostral de que as drogas tenham efeitos diferentes no sono dos pacientes. (P-valor = 0.07939)