Chapter 18 Tema

Todo o texto a itálico neste template deverá ser apagado para entregar. O texto que estivel a bold deve ser substituido por texto normal com os vossos dados. Nenhum cabeçalho deverá ser apagado. Nenhum cabeçalho deverá ser adicionado

Depois de realizar uma análise de regressão devemos avaliar se os pressupostos do modelo linear se verificam. Neste trabalho pretende-se que apliquem uma regressão a um dos conjuntos de dados que tenham recolhido no Trabalho 1 e avaliem os pressupostos do modelo. Dica: para tal devem fazer uma análise aos resíduos.

18.1 Membros do grupo

Este grupo era composto pelos seguintes elementos:

  • Catarina Ribeiro, nº 50887
  • Fabiana Tavares, nº 50784
  • Jessica Matos, nº 55181
  • João Mendes, nº 50855
  • Katerina Moniz, nº 45883
  • Mónica Lima, nº 49204

18.2 Introdução Teórica

Colocar aqui contexto teórico suficiente para um aluno de EN que não tenha ido a esta aula compreender o tema

Um modelo de regressão linear é usado quando uma reta resume os dados de um diagrama de dispersão e que pode ser usado para fazer previsões a partir dos dados.

Para aplicarmos testes estatísticos é necessário verificar que os nossos resíduos cumprem determinados pressupostos: os pressupostos de normalidade, homocedasticidade, independência dos erros, linearidade dos dados e inexistência de outliers influentes. Para tal, efectua-se uma análise aos resíduos, pois assim percebe-se se o modelo de regressão utilizado é adequado. A normalidade dos dados resíduos pode ser testada pelos testes de Kolmogorov-Smirnov, Pearson e Shapiro-Wilk, por exemplo, enquanto que a homocedasticidade pode ser testada pelos testes de Bartlett e Levene e a independência pelo teste de Durbin-Watson. O último teste a aplicar é o teste de hipóteses.

18.3 Exemplo em R

Implementar em R o tema. Por exemplo se for um teste de hipóteses aplicar sobre um conjunto de dados e tirar as conclusões devidas. Se for para ilustrar um conceito, poderão realizar uma pequena simulação.

usar isto - > lm([target variable] ~ [predictor variables], data = [data source])

Devem usar um dos conjuntos de dados que um dos elementos do grupo tenha recolhido no trabalho 1. Explicar brevemente os dados, fazendo uma curta análise exploratória dos mesmos.

## 'data.frame':	70 obs. of  5 variables:
##  $ ï..ID: int  1 2 3 4 5 6 7 8 9 10 ...
##  $ arvor: Factor w/ 2 levels "A","B": 1 1 1 1 1 1 1 1 1 1 ...
##  $ cor  : Factor w/ 3 levels "amarelo","castanho",..: 3 2 3 1 2 1 2 1 2 2 ...
##  $ comp : num  5.1 8.6 6.5 7.2 8.4 7 6.7 5 8.5 6.5 ...
##  $ larg : num  2.7 5 4.5 3.2 4.5 4.2 3.5 2.7 4 4 ...
##      ï..ID       arvor        cor          comp             larg       
##  Min.   : 1.00   A:35   amarelo : 5   Min.   : 4.000   Min.   : 2.700  
##  1st Qu.:18.25   B:35   castanho:46   1st Qu.: 6.825   1st Qu.: 4.000  
##  Median :35.50          verde   :19   Median : 8.200   Median : 6.350  
##  Mean   :35.50                        Mean   : 8.377   Mean   : 7.714  
##  3rd Qu.:52.75                        3rd Qu.: 9.300   3rd Qu.:10.925  
##  Max.   :70.00                        Max.   :15.900   Max.   :18.000

Pressupostos da análise de regressão

  1. Distribuição dos erros é normal de média 0 e variância constante \(\sigma\)^2 (homocedasticidade de variâncias).

Teste de Shapiro:

H0: erros têm uma dist. Normal; H1: erros NÃO têm uma dist. Normal.

## $A
## 
## 	Shapiro-Wilk normality test
## 
## data:  X[[i]]
## W = 0.90566, p-value = 0.005633
## 
## 
## $B
## 
## 	Shapiro-Wilk normality test
## 
## data:  X[[i]]
## W = 0.92105, p-value = 0.01528
## $A
## 
## 	Shapiro-Wilk normality test
## 
## data:  X[[i]]
## W = 0.95191, p-value = 0.1297
## 
## 
## $B
## 
## 	Shapiro-Wilk normality test
## 
## data:  X[[i]]
## W = 0.92043, p-value = 0.01467

Teste de Bartlett:

H0: erros têm variância constante; H1: erros NÃO têm variância constante.

## 
## 	Bartlett test of homogeneity of variances
## 
## data:  arvores$comp and arvores$arvor
## Bartlett's K-squared = 0.77433, df = 1, p-value = 0.3789
  1. Os erros são independentes (não correlacionados).

  2. Não há erros em X (ou na prática as medições de X são obtidas com erro negligível comparativamente às de Y).

Teste de Durbin-Watson

H0: os erros NÃO estão auto-correlacionados; H1: os erros estão auto-correlacionados.

## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
## 	Durbin-Watson test
## 
## data:  lm1
## DW = 2.2099, p-value = 0.7309
## alternative hypothesis: true autocorrelation is greater than 0
## 
## 	Durbin-Watson test
## 
## data:  lm2
## DW = 1.5133, p-value = 0.07406
## alternative hypothesis: true autocorrelation is greater than 0

Regressões lineares e análise de resíduos

## 
## Call:
## lm(formula = comp ~ larg, data = arvores[1:35, ])
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.8539 -0.7867  0.0461  0.5458  4.1549 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -1.2321     1.1910  -1.034    0.308    
## larg          2.1302     0.2969   7.176 3.18e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.193 on 33 degrees of freedom
## Multiple R-squared:  0.6094,	Adjusted R-squared:  0.5976 
## F-statistic: 51.49 on 1 and 33 DF,  p-value: 3.178e-08

Para as árvores A fez-se uma regressão linear simples, que comparou a variável comprimento com a variável largura. Pelo output consegue-se perceber que a variável largura é a que mais contribui para explicar os resultados. Obtiveram-se 4 gráficos no output.

O gráfico “Residuals vs Fitted” apresenta os resíduos em função dos valores estimados. Permite verificar os pressupostos de linearidade entre as variáveis e a homocedasticidade das variâncias. No nosso caso, o pressuposto de linearidade cumpre-se porque os resíduos não se encontram muito longe de y=0. Quanto ao pressuposto de homocedasticidade, este também se cumpre porque não há nenhum padrão nos resíduos e estes encontram-se espalhados em torno de y=0.

O gráfico “Normal Q-Q” avalia a normalidade dos resíduos. A linha a tracejado representa a distribuição Normal teórica, enquanto os pontos representam a distribuição de resíduos observados. Neste caso, os pontos tendem a seguir a recta, por isso a distribuição pode ser considerada normal.

O gráfico “Scale-Location” é semelhante ao gráfico “Residuals vs Fitted”, mas com valores positivos e tem os resíduos padronizados como referência. Este gráfico permite detectar heterocedasticidade de variâncias, ou seja, variâncias que não sejam constantes. No nosso caso, observou-se a homocedasticidade de variâncias, reforçando assim o que foi observado no 1º gráfico.

O gráfico “Residuals vs Leverage” mostra os pontos que mais influênciam os resultados da regressão em causa. Isto é possível ver-se através da proximidade entre os pontos e a linha “Cook’s distance”. Percebe-se que os pontos 4, 11 e 27 são os que têm mais influência nos resultados, sendo o ponto 27 um outlier.

## 
## Call:
## lm(formula = comp ~ larg, data = arvores[36:70, ])
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.48541 -0.39114 -0.01782  0.37684  2.70195 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.26328    0.64838   1.948   0.0599 .  
## larg         0.72332    0.05497  13.159 1.11e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8893 on 33 degrees of freedom
## Multiple R-squared:  0.8399,	Adjusted R-squared:  0.8351 
## F-statistic: 173.2 on 1 and 33 DF,  p-value: 1.112e-14

Para as árvores B repetiu-se o mesmo procedimento que foi feito para as árvores A. Pelo output consegue-se perceber que ambas as variáveis (comprimento e largura) contribuem para explicar os resultados. Obtiveram-se novamente os 4 gráficos no output.

O gráfico “Residuals vs Fitted” permitiu cumprir o pressuposto de linearidade, mas não o de homocedasticidade das variâncias. Isto porque, os resíduos não se encontram muito longe de y=0, mas parece haver um padrão ou um “cluster” em torno de y=0.

No gráfico “Normal Q-Q” os pontos tendem a seguir a recta, com alguns desvios. Por esta razão, a distribuição pode ser considerada normal.

O gráfico “Scale-Location” mostra a existência de heterocedasticidade de variâncias, o que evidência que este modelo provavelmente não seria o mais adequado aos nossos dados referentes às árvores B. Se quisessemos continuar a usar uma regressão linear simples, seria necessário proceder a uma transformação de dados ou então escolher outro modelo.

No gráfico “Residuals vs Leverage” observa-se que os pontos 36, 49 e 54 são os que mais influenciam os resultados, sendo o ponto 49 um outlier e provavelmente o ponto 36 também.

18.4 Exemplos reais de aplicação

Aqui deverá colocar no mínimo dois artigos que se refiram ao seu tema num contexto ecológico ou biológico

https://www.sciencedirect.com/science/article/pii/S1871402120302939

https://www.sciencedirect.com/science/article/pii/S0269749120316961#fig3

18.6 Considerações finais

Comentários ou outras considerações finais que não caibam em nenhum dos tópicos acima

Num trabalho de carácter experimental, nomeadamente estatístico, é preciso ter em consideração o tamanho da amostra, isto é, quanto maior a amostra, menor será a probabilidade de ocorrerem erros. O facto de existirem diversos métodos para chegar a um certo fim, pode influenciar os resultados finais do estudo. O mais certo seria fazer diversos testes para verificarmos se os pressupostos são verdadeiros, de modo a que o resultado possa ser considerado mais fidedigno.

18.7 Referências

Deverá aqui no mínimo ter as referencias que usou na secção dos exemplos reais de aplicação

Tratam-se do mesmos links.