Chapter 16 Tema

A regressão linear constitui um procedimento estatístico amplamente utilizado em ecologia. Neste trabalho pretende-se que identifiquem o seu principal objetivo, descrevam e contextualizem a sua aplicação e que demonstrem, com um exemplo específico, a sua implementação em R (podem usar os dados do Trabalho 1).

16.1 Membros do grupo

Este grupo é composto pelos seguintes elementos:

  • Beatriz Arzeni- 50817
  • David Vaz- 49228
  • Luis Dias- 28978
  • Marisa Mendes- 55673
  • Marta Silva- 55192
  • Sara Cabral- 55615

16.2 Introdução Teórica

A regressão linear é um procedimento estatístico que permite avaliar a relação entre duas (simples) ou mais (múltipla) variáveis com o objetivo de modelar um evento ou fazer previsões. Consiste na colocação de dados num modelo estatístico, geralmente utilizando-se um eixo cartesiano na sua representação gráfica, isto é, para cada variável estudada, existem diversos pontos de encontro entre os eixos X e Y. A tendência de linha reta criada a partir destes pontos é o que se chama de regressão linear. Esta linha pode ser obtida a partir de métodos tradicionais ou a partir de programas computacionais e machine learning.

16.3 Exemplo em R

Importação dos dados :

## tibble [51 x 4] (S3: tbl_df/tbl/data.frame)
##  $ dia: num [1:51] 26 29 22 31 32 29 19 35 34 26 ...
##  $ tam: num [1:51] 38 41 39 35 36 40 31 32 38 36 ...
##  $ cor: Factor w/ 3 levels "amarela","azul",..: 2 2 2 2 2 2 2 2 2 2 ...
##  $ con: logi [1:51] FALSE FALSE TRUE TRUE FALSE TRUE ...
##       dia             tam              cor        con         
##  Min.   : 5.00   Min.   : 10.00   amarela:17   Mode :logical  
##  1st Qu.: 9.00   1st Qu.: 12.25   azul   :17   FALSE:23       
##  Median :29.00   Median : 36.00   rosa   :17   TRUE :28       
##  Mean   :27.14   Mean   : 43.40                               
##  3rd Qu.:38.50   3rd Qu.: 67.50                               
##  Max.   :57.00   Max.   :125.00                               
##                  NA's   :1

Regressão linear e correlação entre variáveis :

## 
## Call:
## lm(formula = diametro ~ tamanho, data = flores)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -14.910  -5.125  -2.203   3.498  26.797 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.88717    1.85599    4.25  9.8e-05 ***
## tamanho      0.43901    0.03429   12.80  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.841 on 48 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.7735,	Adjusted R-squared:  0.7687 
## F-statistic: 163.9 on 1 and 48 DF,  p-value: < 2.2e-16

Depois de termos implementado em R o nosso exemplo vemos neste gráfico o nosso modelo de regressão linear. Podemos ver que a nossa variável explicativa (o tamanho) tem um efeito positivo sobre a nossa variável resposta (o diâmetro da flor). Mostra-nos uma correlação entre as duas: quanto maior o tamanho é, maior o diâmetro da flor será e vemos isso, com as diferentes cores de flores (uma cor = uma espécie de flor). Aliás, temos confirmação com nosso output, onde vemos que há uma diferença significativa entre as duas variáveis, revelando uma possível correlação (rejeita-se H0 porque p-value está significativamente baixo).

16.4 Exemplos reais de aplicação

  • Vertical distribution and diel migration of mesopelagic fishes on the northern slope of the South China sea¹

Usam regressão linear simples para relacionar a densidade acústica em função da temperatura média e do oxigénio nas zonas de profundidade.

  • Body size and season influence elemental composition of tissues in ocean sunfish Mola mola juveniles²

Usam regressão linear múltipla para relacionar a concentração de um elemento num tecido específico (Copper (Cu) in gills, cobalt (Co) in gelatin, cadmium (Cd) in white muscle and zinc (Zn) in gills and red muscle) com o comprimento total de espécimes Mola Mola do sul de Portugal na primavera e no outono.

16.6 Considerações finais

Antes de se aplicar uma regressão linear, devem sempre ser verificados os seus pressupostos:

  • A distribuição dos erros deve ser Gaussiana (com média=0 e variância constante \(\sigma\)²)
  • Os erros são independentes
  • Os erros nas medições da variável independente (x) são negligenciáveis comparativamente aos erros da variável resposta (y)

Caso algum dos pressupostos não se verifique, deve recorrer-se a outros procedimentos estatísticos.

16.7 Referências

  1. Wang, X. et al. Vertical distribution and diel migration of mesopelagic fishes on the northern slope of the South China sea. Deep Sea Res. Part II Top. Stud. Oceanogr. 167, 128–141 (2019).
  2. Baptista, M. et al. Body size and season influence elemental composition of tissues in ocean sunfish Mola mola juveniles. Chemosphere 223, 714–722 (2019).