Um pesquisador está estudando a resist^encia de um certo material sob determinadas condições. Ele sabe que essa variável é normalmente distribu´ıda com variância igual a 4, ou seja, a resistência é uma variável aleatória
\[X \sim Normal(\mu, \sigma^2 = 4)\].
Suponha que foi extraída uma amostra aleatória de tamanho n=10, como segue:
7,9 | 6,8 | 5,4 | 7,5 | 7,9 | 6,4 | 8 | 6,3 | 4,4 | 5,9 |
\[\overline{X} \sim N\left( \mu,\frac{\sigma^2}{n}\right) \ \ \ \ \ \ \ \ \Longrightarrow \ \ \ \ \ \ \ Z=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1). \]
O desvio-padrão da média amostral \(\sigma/\sqrt{n}\) é chamado de Erro-Padrão.
Este nome especial é dado para evitar confunsão entre o desvio-padrão da população \(X\) e o desvio-padrão da média amostral \(\overline{X}\).
Assim, dado \(0<\gamma<1\), existe um \(\alpha = 1 - \gamma\) definindo quantis \(\left(\pm Z_{\alpha/2}\right)\) que delimita uma região contendo \(\gamma \times 100\) % das amostras na distribuição de \(Z\).
Assim, dado \(0<\gamma<1\), existe um \(\alpha = 1 - \gamma\) definindo quantis \(\left(\pm Z_{\alpha/2}\right)\) que delimita uma região contendo \(\gamma \times 100\) % das amostras na distribuição de \(Z\).
\[\begin{array}{rrcl} &P(-z_{\alpha/2}\leq Z \leq z_{\alpha/2})&= &\gamma\\ &&\\ \Longrightarrow &P(-z_{\alpha/2}\leq \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \leq z_{\alpha/2})&= & \gamma\\ &&\\ \Longrightarrow &P(-z_{\alpha/2}\sigma/\sqrt{n}\leq \bar{X}-\mu \leq z_{\alpha/2}\sigma/\sqrt{n})&= & \gamma\\ &&\\ \Longrightarrow& P( \bar{X}-z_{\alpha/2}\sigma/\sqrt{n} \leq\mu \leq \bar{X}+z_{\alpha/2}\sigma/\sqrt{n})&= & \gamma\\ \end{array}\]
O intervalo aleatório que depende de \(\alpha\):
\[ \left[ \bar{X}-z_{\alpha/2}\sigma/\sqrt{n}; \bar{X}+z_{\alpha/2}\sigma/\sqrt{n} \right], \]
contém o verdadeiro valor de \(\mu\) com probabilidade \(\gamma=1-\alpha\).
\(\gamma\) é denominado coeficiente de confiança.
\(\alpha\) é dito ser o nível de significância.
Este intervalo é um estimador intervalar para a média populacional.
Os estimadores intervalares, juntamente com os seus coeficientes de confiança \(\gamma\), são chamados de Intervalos de Confiança (IC).
Dada uma amostra observada, o intervalo de confiança pode ser obtido substituindo os valores de \(\overline{x}\), \(\sigma\), \(n\) e \(z_{\alpha/2}\) na equação do estimador.
O valor \(z_{\alpha/2}\) pode ser obtido da distribuição \(N(0,1)\) de modo que \(P(Z \leq - z_{\alpha/2})=\frac{\alpha}{2}\).
\[ Z=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1) \ \ \ \ \ \ \ \ \ \ \Longleftrightarrow \ \ \ \ \ \ \ \ \ \ \ \overline{X}=\mu +Z\frac{ \sigma}{\sqrt{n}} \sim N\left( \mu,\frac{\sigma^2}{n}\right)\]
- Note que \(-Z_{\alpha/2}=\frac{\overline{x}_{c1}-\mu}{\sigma/\sqrt{n}}\) e \(Z_{\alpha/2}=\frac{\overline{x}_{c2}-\mu}{\sigma/\sqrt{n}}\)
Considere que um psicultor deseja estimar a média do peso de peixes existentes em um criadouro em um determinado tempo.
Suponha que todos os peixes têm a mesma idade e são da mesma espécie.
Considere que foi extraída uma amostra aleatória de tamanho 10.
Seja \(X=\)“peso dos peixes”
É razoavel admitir \(X \sim N(\mu, \sigma^2)\).
vamos supor, que devido a estudos realizados, \(\sigma^2\) seja conhecida.
Suponha que a distribuição para os pesos, que iremos supor normal, seja a seguinte.
Assim, desta população é selecionada a amostra aleatória de tamanho \(n=10\).
0,66 | 0,51 | 0,87 | 0,28 | 0,38 |
0,57 | 0,41 | 0,31 | 0,62 | 0,49 |
\(\overline{X}\): | 0,51 |
\(\sigma:\) | 0,20 |
Limite Inferior | Limite superior | |
---|---|---|
IC(95%) | 0,39 | 0,63 |
Se a população não pode ser considerada normal, mas a amostra é grande: \[\overline{X} \sim \mbox{ se aproxima da } Normal\left( \mu,\frac{\sigma^2}{n}\right) \]
Então,
\[ Z=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \sim \mbox{ se aproxima da } Normal(0,1). \] Logo, se \(n \geq 30\), usamos o mesmo estimador do Caso 1.
Observação: se a amostra é pequena e a população não é normal, esta metodologia não pode ser aplicada.
- Se a população não é normal, o TLC garante uma aproximação da distribuição da média amostral para a normal.
Neste caso, devemos ter amostras suficientemente grande para obter boa aproximação.
Aqui, amostras maiores ou iguais a 30 são consideradas grande o suficiente para a obtenção do ICM.
Com amostra grande, se a variância da população não é conhecida, basta substituir a variância da população pela variância da amostra (\(S^2\)).
Exemplo 2: Seja o problema de estimar a quantidade media de ovos por ninho de passarinho em uma dada região, num dado momento, usando uma amostra com \(n=30\).
4 | 7 | 4 | 2 | 2 | 3 | 1 | 0 | 3 | 4 |
3 | 4 | 0 | 3 | 3 | 3 | 1 | 0 | 2 | 5 |
2 | 1 | 4 | 4 | 1 | 2 | 2 | 4 | 3 | 2 |
Aqui, usaremos \(S\), para estimar \(\sigma\).
\(\overline{X}\): | 2,63 |
\(S:\) | 1,59 |
Limite Inferior | Limite superior | |
---|---|---|
IC(95%) | 2,06 | 3,2 |
Sempre que a amostra for pequena, a população deve ser suposta normal para esta metodologia.
Podendo ser feita essa suposição, ainda é comum não ser conhecida a variância da população.
Neste caso, a variância deve ser estimada usando a variância amostral.
No entanto, o uso deste estimador muda a distribuição da variável aleatória \(T=\frac{\overline{X}-\mu}{S\sqrt{n}}\).
Assim, teremos outra variável aleatória \(T=\frac{\overline{X}-\mu}{S/\sqrt{n}}\), que tem distribuição t de Student.
A curva densidade da t de Student é similar a curva da normal, mas com mais massa de probabilidades nas caldas.
Este desvio da normalidade, pode conduzir o estudo a um resultado enganoso.
Então, neste caso, usaremos a distribução t de Student, em vez da normal padrão, para obter os quantis que determinam o ICM.
\[f(t)=\frac{\Gamma[(\nu+1)/2]}{\Gamma[\nu/2] \sqrt{\pi\nu}}(1+t^2/\nu)^{-(\nu+1)/2}\]
Note que a desnidade desta distribuição depende de um parâmetro \(\nu\).
Esse parâmetro é chamado de graus de liberdade da distribuição.
\[ T=\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim tStudent(\nu=n-1) \ \ \ \ \ \ \ \ \ \ \Longleftrightarrow \ \ \ \ \ \ \ \ \ \ \ \overline{X}=\mu + T \frac{ \sigma}{\sqrt{n}} \sim N\left( \mu,\frac{\sigma^2}{n}\right)\]
\[IC((\gamma\times100)\%)=\left[ \bar{X}-t_{\alpha/2}S/\sqrt{n}; \bar{X}+t_{\alpha/2}S/\sqrt{n} \right]\]
No exemplo anterior, não se pode supor normalidade da população.
Assim, os intervalos de confiança não podem ser obtidos, caso a amostra seja pequena e variância desconhecida.
Então, vamos considerar o problema de se obter estimativa para o peso dos peixes em um berçario com variância desconhecida.
Considere \(X=\)“peso dos peixes com mesma idade e espécie”
É razoavel supor \(X \sim N(\mu, \sigma^2)\).
Se \(\sigma^2\) é desconhecido, vamos usar a variância amostral para obter uma estimativa.
Distribuição real da população, suposta normal.
\(\mu_{X}\): | 0,67 |
\(\sigma_X:\) | 0,22 |
0,78 | 0,96 | 1,05 | 0,43 | 0,49 |
0,80 | 0,49 | 0,71 | 0,81 | 0,33 |
\(\overline{X}\): | 0,69 |
\(S:\) | 0,24 |
Usando: \(\left[ \bar{X}-t_{\alpha/2}S/\sqrt{n}; \bar{X}+t_{\alpha/2}S/\sqrt{n} \right]\),
obtemos o seguinte IC(95%).
Limite Inferior | Limite superior | |
---|---|---|
IC(95%) | 0,52 | 0,86 |
O projetista de uma indústria tomou uma amostra de n funcionários para verificar o tempo médio gasto para montar um determinado brinquedo. Sabendo que foi verificado a média amostral que é \(\overline{x}\) e que o desvio padrão populacional é \(\sigma\), construir um intervalo de confiança de nível de confiança \(\gamma \times 100\)% para \(\mu\), conforme a tabela.
n | \(\overline{x}\) | \(\sigma\) | \(\gamma \times 100\)% |
---|---|---|---|
29 | 17,75 | 3,71 | 85 |
(Montgomery, Pag: 174, 8-1, adaptado): Para uma população Normal com variância \(\sigma^2\) conhecida, responda: qual o nível de confiança \(\gamma=1-\alpha\) para os intervalos:
\[[\overline{x}-2.14 \frac{\sigma}{\sqrt{n}};\overline{x}+2.14 \frac{\sigma}{\sqrt{n}}]\]
\[[\overline{x}-2,49 \frac{\sigma}{\sqrt{n}};\overline{x}+2,49 \frac{\sigma}{\sqrt{n}}]\]
\[[\overline{x}-1,85 \frac{\sigma}{\sqrt{n}};\overline{x}+1,85\frac{\sigma}{\sqrt{n}}]\]
(Montgomery, Pag: 178, 8-38, adaptado): Uma máquina produz bastões metálicos usados em um sistema de suspensão de automóveis. Uma amostra aleatória de n bastões, mostrada a seguir, é selecionada para ter o diâmetro medido (em milímetros).
6,86 | 7,74 | 5,74 | 6,37 | 9,06 |
5,60 | 7,49 | 7,05 | 7,14 | 4,84 |
7,28 | 7,15 | 8,37 | 9,71 | 6,63 |
7,89 | 6,65 | 6,49 | 6,72 | 6,17 |
6,56 | 7,91 | 6,28 | 10,83 | 5,51 |
6,53 | 9,38 | 7,65 | 10,17 | 7,16 |
Com base nesse conjunto de dados, responda aos itens.
(Montgomery, Pag: 178, 8-34, adaptado): Suponha que a energia solar consumida (em trilhões de BTU) nos Estados Unidos, por ano, de 1989 a 2004, seja como mostrada no quadro a seguir.
59,38 | 58,80 | 59,14 | 95,30 | 75,26 |
80,04 | 66,30 | 62,94 | 50,88 | 66,28 |
58,45 | 59,19 | 66,32 | 55,06 | 60,98 |
58,04 | 61,27 | 67,27 | 68,13 | 45,86 |
65,16 | 46,35 | 78,95 | 80,85 | 84,19 |
69,76 | 42,41 | 79,27 | 63,98 | 73,37 |
Construa um intervalo de confiança para a energia sola média consumida, usando a confiança que segue.
90% |