Regressão Linear Simples: dados de privação de sono

  • Considere o conjunto de dados que é resultado de um experimento apresentado em Belenky et al. (2003).

  • No experimento foi observado o tempo de reação de cada individuo a um estímulo luminoso.

  • No primeiro dia de realização do experimento, o sujeito investigado não havia tido privação de sono.

  • A partir daí cada indivíduo passou a ter apenas três horas de sono por dia,

  • sendo que em cada dia de privação de sono foi realizado um novo teste para aferir o tempo de reação ao estímulo luminoso.

Dados para um único indivíduo

Dias Reação
0 283.8424
1 289.5550
2 276.7693
3 299.8097
4 297.1710
5 338.1665
6 332.0265
7 348.8399
8 333.3600
9 362.0428

Gráfico de dispersão

Gráfico de dispersão.

Gráfico de dispersão.

Definição do modelo para obtenção da melhor reta ajustada

  • Para encontrar a reta que minimiza os erros,

  • supomos uma amostra aleatória de tamanho \(n\) da variável \({\bf Y}=(Y_i,...,Y_n)\),

  • dado um conjunto de variáveis explicativas \(x=(x_1,...x_n)\), temos uma relação da forma:

    \[Y_i= \beta_0 + \beta_1 x_i + \epsilon_i,\]

    • em que \(\epsilon_i\) é o termo de erro, dado por:

    \[\epsilon_i= Y_i-\beta_0 - \beta_1 x_i,\] para \(i=1,...,n\).

    • Em geral, desejamos estimar os parâmetros \(\beta_0\) e \(\beta_1\) de modo que se tenha o menor erro possível.

Suposições sobre os erros

  • O termo de erro \(\epsilon_i\) é uma variável aleatório, pois é função de \(Y_i\), que é uma variável aleatória. Assim, podemos fazer as seguintes suposições para o termo de erro:

  • \(E[\epsilon_i]=0\)

  • \(Var[\epsilon_i]=\sigma^2\), \(\sigma^2>0\) (variâncias iguais para os erros);

  • \(cov[\epsilon_i,\epsilon_j]=0\), \(\forall i\neq j\), \(j=1,...,n\) (não existe correlação entre os erros).

Estimação dos parâmetros do modelo linear simples por mínimos quadrados

- Supondo que o erro que se comete ao estimar a variável \(Y_i\) por \(\hat{Y_i}\) é uma variável aleatória com média \(E[\epsilon_i]=0\) e variância \(Var[\epsilon_i]=\sigma^2\), desconhecida,

  • Uma maneira de minimizar o erro é obter \(\beta_0\) e \(\beta_1\) de modo que a soma dos quadrados dos resíduos seja mínima:

\[L(\beta_0,\beta_1)=\sum_{i=1}^{n} e_i^2=\sum^n_{i=1}[Y_i-\beta_0-\beta_1 x_i]^2.\]

seja mínima.

  • Para encontrar o mínimo da equação \(L(\beta_0,\beta_1)\), derivamos essa equação em relação aos parâmetros \(\beta_0\) e \(\beta_1\), igualamos a zero e resolvemos o sistema:

\[\frac{\partial L(\beta_0,\beta_1)}{\partial \beta_0}=-2\sum^n_{i=1}(Y_i-\beta_0-\beta_1 x_i)=0 \]

\[\frac{\partial L(\beta_0,\beta_1)}{\partial\beta_1}=-2\sum^n_{i=1}(Y_i-\beta_0-\beta_1 x_i)x_i=0.\]

Mínimos quadrados

- Como resultado das equações, encontramos os estimadores de mínimos quadrados:

  • \(\widehat{\beta}_0=\bar{y}-\widehat{\beta}_1\bar{x}\)

  • \(\widehat{\beta}_1=\dfrac{\displaystyle\sum\limits_{i=1}^n x_i y_i-n\bar{x}\bar{Y}}{\displaystyle\sum\limits_{i=1}^n x_i^2-n\bar{x}^2}=\frac{n \cdot \sum x_iy_i-\sum x_i \cdot \sum y_i}{n \cdot \sum x_i^2 -( \sum x_i)^2}\)

em que

\(\bar{x}=\dfrac{1}{n}\sum\limits^n_{i=1}x_i\quad\text{e}\quad\bar{y}=\dfrac{1}{n}\sum\limits^n_{i=1} y_i\)

são as médias amostrais.

Esperança e variância

  • A esperança para cada \(Y_i\) é dada por:

\[ \begin{align} E[Y_i]& = E[\beta_0 + \beta_1 x_i + \epsilon_i] \\ &=\beta_0 + \beta_1 x_i + E[\epsilon_i]\\ &= \beta_0 + \beta_1 x_i. \end{align} \]

  • Logo, para todo \(i=1,2, \cdots,n\):

\[ E[Y_i] = \beta_0 + \beta_1 x_i\] - Estimação da esperança

\[ \hat{Y_i} = \hat{\beta}_0 + \hat{\beta}_1 x_i.\]

  • A variância de cada \(Y_i\) é dada por:

\[ \begin{align} Var[Y_i]& = Var[\beta_0 + \beta_1 x_i + \epsilon_i] \\ &= Var[\epsilon_i]\\ &= \sigma^2. \end{align} \] - Logo, para todo \(i=1,2, \cdots,n\):

\[ Var[Y_i] = \sigma^2\]

Além disso, devido a suposição de independência entre os erros:

\[ Cor[Y_i, Y_j] = 0\] para todo \(Y_i, Y_j\) tal que \(i \neq j\).

Estimação da variância

  • Para estimar \(\sigma^2\), utilizamos os resíduos:

\[e_i=y_i-\hat{y_i}\]

  • em que \(y_i\) é o valor observado de \(Y\) e \(\hat{y_i}\) é o valor ajustado a partir da reta de regressão.

  • Um estimador não viciado para estimar \(\sigma^2\) é dado por:

\[{S}^2=\frac{\sum^n_{i=1}(y_i-\hat{y}_i)^2}{n-2}.\]

  • O numerador no estimador da variância é conhecido como Soma dos Quadrados dos Resíduos:

\[ \begin{align} SQ_R &= \sum_{i=1}^{n}e_i^2 \\ &= \sum^n_{i=1}(y_i-\hat{y}_i)^2\\ &= \sum_{i=1}^{n}y_i^2-n\overline{y}^2. \end{align} \]

Voltando a motivação


O tamanho da amostra é \(n=10\) e

  • \(\sum_{i=1}^{n}y_i= 3161,583\)

  • \(\sum_{i=1}^{n}x_i=45\)

  • \(\sum_{i=1}^{n}x_i y_i=14981,34\)

  • \(\sum_{i=1}^{n}x_i^2=285\)

  • \(\overline{x}=4,5\)

  • \(\overline{y}=316,1583\)

Logo, os valores de coeficientes que minimizam os resíduos são:

  • \(\hat{\beta}_1=\frac{10(14981,34) - (45)(3161,583)}{10(285)- (45)^2}=\frac{7542,165}{825}\approx 9,142\)

  • \(\hat{\beta}_0=316,1583-(9,142)(4,5)\approx 275,019\)

Voltando a motivação

Gráfico de dispersão com reta ajustada.

Gráfico de dispersão com reta ajustada.

Interpretação dos resultados

  • Em média para um único dia de pouco sono, \(x=1\), o indivíduo tem reação média de \(\hat{y}= 284.161\) milisegundos.

  • Além disso, com base no coeficiente \(\beta_1\), para cada dia seguido sem dormir, é esperado um acréscimo de 9,16 milisegundos no tempo de reação.

Será que o impacto observado nos dados é de fato significativo?

Teste de hipóteses para significância da inclinação da reta

  • Vamos realizar um teste de hipóteses para saber se o impacto da quantidade de dias dormindo apenas três horas, sobre o tempo de reação, é um valor significativo

  • Para isso, testamos a hipótese \(H_0:\beta_1=0\) versus \(H_1:\beta_1\neq0\).

## 
## Call:
## lm(formula = Reação ~ Dias)
## 
## Coefficients:
## (Intercept)         Dias  
##     275.019        9.142

Será que esse Modelo de Regressão Linear Simples é adequado para esses dados?

Análise de resíduos via gráficos de dispersão

  • Para validadar o modelo,

  • devem ser checadas as suposições:

  • \(E[\epsilon_i]=0\);

  • \(Var[\epsilon_i]=\sigma^2\), \(\sigma^2>0\) (variâncias iguais para os erros);

  • \(cov[\epsilon_i,\epsilon_j]=0\), \(\forall i\neq j\), \(j=1,...,n\) (não existe correlação entre os erros).

Método de análise via gráfico de resíduos

  • Vejamos exemplos de interpretação de gráficos de resíduos,

  • de dispersão dos pares \((\hat{y_i},e_i), i=1,...,n,\) ou seja, os valores ajustados versus os resíduos.

Resíduos dos dados de privação do sono

Gráfico de dispersão para os resíduos versus os valores preditos dos dados de privação do sono.

Gráfico de dispersão para os resíduos versus os valores preditos dos dados de privação do sono.