Loading [MathJax]/jax/output/HTML-CSS/jax.js

Regressão linear simples:

estimação e validação

Rosineide da Paz

Regressão Linear Simples: dados de privação de sono

  • Considere o conjunto de dados que é resultado de um experimento apresentado em Belenky et al. (2003).

  • No experimento foi observado o tempo de reação de cada individuo a um estímulo luminoso.

  • No primeiro dia de realização do experimento, o sujeito investigado não havia tido privação de sono.

  • A partir daí cada indivíduo passou a ter apenas três horas de sono por dia,

  • sendo que em cada dia de privação de sono foi realizado um novo teste para aferir o tempo de reação ao estímulo luminoso.

Dados para um único indivíduo

Dias Reação
0 283.8424
1 289.5550
2 276.7693
3 299.8097
4 297.1710
5 338.1665
6 332.0265
7 348.8399
8 333.3600
9 362.0428

Gráfico de dispersão

Gráfico de dispersão.

Gráfico de dispersão.

Definição do modelo para obtenção da melhor reta ajustada

  • Para encontrar a reta que minimiza os erros,

  • supomos uma amostra aleatória de tamanho n da variável Y=(Yi,...,Yn),

  • dado um conjunto de variáveis explicativas x=(x1,...xn), temos uma relação da forma:

    Yi=β0+β1xi+ϵi,

    • em que ϵi é o termo de erro, dado por:

    ϵi=Yiβ0β1xi, para i=1,...,n.

    • Em geral, desejamos estimar os parâmetros β0 e β1 de modo que se tenha o menor erro possível.

Suposições sobre os erros

  • O termo de erro ϵi é uma variável aleatório, pois é função de Yi, que é uma variável aleatória. Assim, podemos fazer as seguintes suposições para o termo de erro:

  • E[ϵi]=0

  • Var[ϵi]=σ2, σ2>0 (variâncias iguais para os erros);

  • cov[ϵi,ϵj]=0, ij, j=1,...,n (não existe correlação entre os erros).

Estimação dos parâmetros do modelo linear simples por mínimos quadrados

- Supondo que o erro que se comete ao estimar a variável Yi por ^Yi é uma variável aleatória com média E[ϵi]=0 e variância Var[ϵi]=σ2, desconhecida,

  • Uma maneira de minimizar o erro é obter β0 e β1 de modo que a soma dos quadrados dos resíduos seja mínima:

L(β0,β1)=ni=1e2i=ni=1[Yiβ0β1xi]2.

seja mínima.

  • Para encontrar o mínimo da equação L(β0,β1), derivamos essa equação em relação aos parâmetros β0 e β1, igualamos a zero e resolvemos o sistema:

L(β0,β1)β0=2ni=1(Yiβ0β1xi)=0

L(β0,β1)β1=2ni=1(Yiβ0β1xi)xi=0.

Mínimos quadrados

- Como resultado das equações, encontramos os estimadores de mínimos quadrados:

  • ˆβ0=ˉyˆβ1ˉx

  • ˆβ1=ni=1xiyinˉxˉYni=1x2inˉx2=nxiyixiyinx2i(xi)2

em que

ˉx=1nni=1xieˉy=1nni=1yi

são as médias amostrais.

Esperança e variância

  • A esperança para cada Yi é dada por:

E[Yi]=E[β0+β1xi+ϵi]=β0+β1xi+E[ϵi]=β0+β1xi.

  • Logo, para todo i=1,2,,n:

E[Yi]=β0+β1xi - Estimação da esperança

^Yi=ˆβ0+ˆβ1xi.

  • A variância de cada Yi é dada por:

Var[Yi]=Var[β0+β1xi+ϵi]=Var[ϵi]=σ2. - Logo, para todo i=1,2,,n:

Var[Yi]=σ2

Além disso, devido a suposição de independência entre os erros:

Cor[Yi,Yj]=0 para todo Yi,Yj tal que ij.

Estimação da variância

  • Para estimar σ2, utilizamos os resíduos:

ei=yi^yi

  • em que yi é o valor observado de Y e ^yi é o valor ajustado a partir da reta de regressão.

  • Um estimador não viciado para estimar σ2 é dado por:

S2=ni=1(yiˆyi)2n2.

  • O numerador no estimador da variância é conhecido como Soma dos Quadrados dos Resíduos:

SQR=ni=1e2i=ni=1(yiˆyi)2=ni=1y2in¯y2.

Voltando a motivação


O tamanho da amostra é n=10 e

  • ni=1yi=3161,583

  • ni=1xi=45

  • ni=1xiyi=14981,34

  • ni=1x2i=285

  • ¯x=4,5

  • ¯y=316,1583

Logo, os valores de coeficientes que minimizam os resíduos são:

  • ˆβ1=10(14981,34)(45)(3161,583)10(285)(45)2=7542,1658259,142

  • ˆβ0=316,1583(9,142)(4,5)275,019

Voltando a motivação

Gráfico de dispersão com reta ajustada.

Gráfico de dispersão com reta ajustada.

Interpretação dos resultados

  • Em média para um único dia de pouco sono, x=1, o indivíduo tem reação média de ˆy=284.161 milisegundos.

  • Além disso, com base no coeficiente β1, para cada dia seguido sem dormir, é esperado um acréscimo de 9,16 milisegundos no tempo de reação.

Será que o impacto observado nos dados é de fato significativo?

Teste de hipóteses para significância da inclinação da reta

  • Vamos realizar um teste de hipóteses para saber se o impacto da quantidade de dias dormindo apenas três horas, sobre o tempo de reação, é um valor significativo

  • Para isso, testamos a hipótese H0:β1=0 versus H1:β10.

## 
## Call:
## lm(formula = Reação ~ Dias)
## 
## Coefficients:
## (Intercept)         Dias  
##     275.019        9.142

Será que esse Modelo de Regressão Linear Simples é adequado para esses dados?

Análise de resíduos via gráficos de dispersão

  • Para validadar o modelo,

  • devem ser checadas as suposições:

  • E[ϵi]=0;

  • Var[ϵi]=σ2, σ2>0 (variâncias iguais para os erros);

  • cov[ϵi,ϵj]=0, ij, j=1,...,n (não existe correlação entre os erros).

Método de análise via gráfico de resíduos

  • Vejamos exemplos de interpretação de gráficos de resíduos,

  • de dispersão dos pares (^yi,ei),i=1,...,n, ou seja, os valores ajustados versus os resíduos.

Resíduos dos dados de privação do sono

Gráfico de dispersão para os resíduos versus os valores preditos dos dados de privação do sono.

Gráfico de dispersão para os resíduos versus os valores preditos dos dados de privação do sono.