Regressão linear simples:

estimação e validação

Rosineide da Paz

Regressão Linear Simples: dados de privação de sono

Considere o conjunto de dados que é resultado de um experimento apresentado em Belenky et al. (2003).
No experimento foi observado o tempo de reação de cada individuo a um estímulo luminoso.
No primeiro dia de realização do experimento, o sujeito investigado não havia tido privação de sono.
A partir daí cada indivíduo passou a ter apenas três horas de sono por dia,
sendo que em cada dia de privação de sono foi realizado um novo teste para aferir o tempo de reação ao estímulo luminoso.

Dados para um único indivíduo


Dias	Reação
0	283.8424
1	289.5550
2	276.7693
3	299.8097
4	297.1710
5	338.1665
6	332.0265
7	348.8399
8	333.3600
9	362.0428

Gráfico de dispersão

Gráfico de dispersão.

Definição do modelo para obtenção da melhor reta ajustada

Para encontrar a reta que minimiza os erros,

supomos uma amostra aleatória de tamanho $n$ da variável ${\bf Y}=(Y_i,...,Y_n)$ ,

dado um conjunto de variáveis explicativas $x=(x_1,...x_n)$ , temos uma relação da forma:

$Y_i= \beta_0 + \beta_1 x_i + \epsilon_i,$
- em que $\epsilon_i$ é o termo de erro, dado por:
$\epsilon_i= Y_i-\beta_0 - \beta_1 x_i,$ para $i=1,...,n$ .
- Em geral, desejamos estimar os parâmetros $\beta_0$ e $\beta_1$ de modo que se tenha o menor erro possível.

Suposições sobre os erros

O termo de erro $\epsilon_i$ é uma variável aleatório, pois é função de $Y_i$ , que é uma variável aleatória. Assim, podemos fazer as seguintes suposições para o termo de erro:
$E[\epsilon_i]=0$
$Var[\epsilon_i]=\sigma^2$ , $\sigma^2>0$ (variâncias iguais para os erros);
$cov[\epsilon_i,\epsilon_j]=0$ , $\forall i\neq j$ , $j=1,...,n$ (não existe correlação entre os erros).

Estimação dos parâmetros do modelo linear simples por mínimos quadrados

- Supondo que o erro que se comete ao estimar a variável $Y_i$ por $\hat{Y_i}$ é uma variável aleatória com média $E[\epsilon_i]=0$ e variância $Var[\epsilon_i]=\sigma^2$ , desconhecida,

Uma maneira de minimizar o erro é obter $\beta_0$ e $\beta_1$ de modo que a soma dos quadrados dos resíduos seja mínima:

$L(\beta_0,\beta_1)=\sum_{i=1}^{n} e_i^2=\sum^n_{i=1}[Y_i-\beta_0-\beta_1 x_i]^2.$

seja mínima.

Para encontrar o mínimo da equação $L(\beta_0,\beta_1)$ , derivamos essa equação em relação aos parâmetros $\beta_0$ e $\beta_1$ , igualamos a zero e resolvemos o sistema:

$\frac{\partial L(\beta_0,\beta_1)}{\partial \beta_0}=-2\sum^n_{i=1}(Y_i-\beta_0-\beta_1 x_i)=0$

$\frac{\partial L(\beta_0,\beta_1)}{\partial\beta_1}=-2\sum^n_{i=1}(Y_i-\beta_0-\beta_1 x_i)x_i=0.$

Mínimos quadrados

- Como resultado das equações, encontramos os estimadores de mínimos quadrados:

$\widehat{\beta}_0=\bar{y}-\widehat{\beta}_1\bar{x}$
$\widehat{\beta}_1=\dfrac{\displaystyle\sum\limits_{i=1}^n x_i y_i-n\bar{x}\bar{Y}}{\displaystyle\sum\limits_{i=1}^n x_i^2-n\bar{x}^2}=\frac{n \cdot \sum x_iy_i-\sum x_i \cdot \sum y_i}{n \cdot \sum x_i^2 -( \sum x_i)^2}$

em que

$\bar{x}=\dfrac{1}{n}\sum\limits^n_{i=1}x_i\quad\text{e}\quad\bar{y}=\dfrac{1}{n}\sum\limits^n_{i=1} y_i$

são as médias amostrais.

Esperança e variância

A esperança para cada $Y_i$ é dada por:

$\begin{align} E[Y_i]& = E[\beta_0 + \beta_1 x_i + \epsilon_i] \\ &=\beta_0 + \beta_1 x_i + E[\epsilon_i]\\ &= \beta_0 + \beta_1 x_i. \end{align}$

Logo, para todo $i=1,2, \cdots,n$ :

$E[Y_i] = \beta_0 + \beta_1 x_i$ - Estimação da esperança

$\hat{Y_i} = \hat{\beta}_0 + \hat{\beta}_1 x_i.$

A variância de cada $Y_i$ é dada por:

$\begin{align} Var[Y_i]& = Var[\beta_0 + \beta_1 x_i + \epsilon_i] \\ &= Var[\epsilon_i]\\ &= \sigma^2. \end{align}$ - Logo, para todo $i=1,2, \cdots,n$ :

$Var[Y_i] = \sigma^2$

Além disso, devido a suposição de independência entre os erros:

$Cor[Y_i, Y_j] = 0$ para todo $Y_i, Y_j$ tal que $i \neq j$ .

Estimação da variância

Para estimar $\sigma^2$ , utilizamos os resíduos:

$e_i=y_i-\hat{y_i}$

em que $y_i$ é o valor observado de $Y$ e $\hat{y_i}$ é o valor ajustado a partir da reta de regressão.
Um estimador não viciado para estimar $\sigma^2$ é dado por:

${S}^2=\frac{\sum^n_{i=1}(y_i-\hat{y}_i)^2}{n-2}.$

O numerador no estimador da variância é conhecido como Soma dos Quadrados dos Resíduos:

$\begin{align} SQ_R &= \sum_{i=1}^{n}e_i^2 \\ &= \sum^n_{i=1}(y_i-\hat{y}_i)^2\\ &= \sum_{i=1}^{n}y_i^2-n\overline{y}^2. \end{align}$

Voltando a motivação

O tamanho da amostra é $n=10$ e

$\sum_{i=1}^{n}y_i= 3161,583$
$\sum_{i=1}^{n}x_i=45$
$\sum_{i=1}^{n}x_i y_i=14981,34$
$\sum_{i=1}^{n}x_i^2=285$
$\overline{x}=4,5$
$\overline{y}=316,1583$

Logo, os valores de coeficientes que minimizam os resíduos são:

$\hat{\beta}_1=\frac{10(14981,34) - (45)(3161,583)}{10(285)- (45)^2}=\frac{7542,165}{825}\approx 9,142$
$\hat{\beta}_0=316,1583-(9,142)(4,5)\approx 275,019$

Voltando a motivação

Gráfico de dispersão com reta ajustada.

Interpretação dos resultados

Em média para um único dia de pouco sono, $x=1$ , o indivíduo tem reação média de $\hat{y}= 284.161$ milisegundos.
Além disso, com base no coeficiente $\beta_1$ , para cada dia seguido sem dormir, é esperado um acréscimo de 9,16 milisegundos no tempo de reação.

Será que o impacto observado nos dados é de fato significativo?

Teste de hipóteses para significância da inclinação da reta

Vamos realizar um teste de hipóteses para saber se o impacto da quantidade de dias dormindo apenas três horas, sobre o tempo de reação, é um valor significativo
Para isso, testamos a hipótese $H_0:\beta_1=0$ versus $H_1:\beta_1\neq0$ .

## 
## Call:
## lm(formula = Reação ~ Dias)
## 
## Coefficients:
## (Intercept)         Dias  
##     275.019        9.142

Será que esse Modelo de Regressão Linear Simples é adequado para esses dados?

Análise de resíduos via gráficos de dispersão

Para validadar o modelo,
devem ser checadas as suposições:
$E[\epsilon_i]=0$ ;
$Var[\epsilon_i]=\sigma^2$ , $\sigma^2>0$ (variâncias iguais para os erros);
$cov[\epsilon_i,\epsilon_j]=0$ , $\forall i\neq j$ , $j=1,...,n$ (não existe correlação entre os erros).

Método de análise via gráfico de resíduos

Vejamos exemplos de interpretação de gráficos de resíduos,
de dispersão dos pares $(\hat{y_i},e_i), i=1,...,n,$ ou seja, os valores ajustados versus os resíduos.

Resíduos dos dados de privação do sono

Gráfico de dispersão para os resíduos versus os valores preditos dos dados de privação do sono.