Chapter 10 Tema

Existem pressupostos para testes paramétricos que podem ser usadas para modelar dados ecológicos. Neste tema pretende-se que apresentem os pressupostos dos testes paramétricos dando exemplos da sua utilização.

10.1 Membros do grupo

Este grupo era composto pelos seguintes elementos:

  • Catarina Barros 49324
  • David Cabral 52547
  • Gonçalo Graça 52536
  • Miguel Leal e Rigor 53508
  • Rafael Ricardo 52616
  • Syra Alves 52667

10.2 Introdução Teórica

Para testarmos uma hipótese sobre um conjunto de dados podemos aplicar vários testes estatísticos. Estes estão divididos em dois grupos: testes paramétricos e testes não paramétricos.

10.2.0.1 Testes não paramétricos

Para a aplicação de um teste não-paramétrico, não são requeridos nenhum tipo de pressupostos, à exceção da independência das observações. Estes testes são muitas vezes usados quando se tem conhecimento que a distribuição das observações não é normal ou quando não existem dados suficientes para poder afirmar que o seja (quando n<30 - Teorema do Limite Central) Além disto, são utilizados em casos de variáveis medidas erm escalas ordinais e intervaladas ou de razão. No entanto existe a possibilidade de transformar os dados das observações de maneira a poder aplicar nos mesmos os testes paramétricos.

10.2.0.2 Testes paramétricos

Para podermos aplicar um teste paramétrico num conjunto de amostras é necessário que estas verifiquem três pressupostos: - A independência das observações - Distruibuição normal dos resíduos (erros) - Variâncias homogéneas (variâncias iguais) Ao contrário dos testes não-paramétricos, os paramétricos precisam de váriaveis, pelo menos, medidas em escalas intervaladas.

10.2.0.2.1 Testes formais e avaliação gráfica

É possível avaliar os pressupostos com testes formais ou a partir da análise de gráficos.

Independência das observações

Para analisar a independência das observações não é comum aplicar qualquer tipo de teste pois é um tipo de informação que já é suposto ter-se considerada à priori.

Distribuição Gaussiana

No que toca à distribuição normal dos resíduos das observações podem aplicar-se diversos testes de ajustamento, destacando o Teste de Kolmogorov-Smirnov, o Teste D’Agostino-Pearson e o Teste de Shapiro-Wilk.

Todos estes testes baseiam-se num mesmo princípio: se as amostras forem de facto gaussianas, estas apresentaram um conjunto de características conhecidas de uma distruibuição gaussiana. Estes testes verificam a normalidade dos dados através da rejeição ou da não-rejeição da H0 (hipótese nula) que afirma que a distruibuição é Gaussiana ou da H1 (hipótese alternativa) que nega a distribuição Gaussiana. Depois de aplicado o teste, este apresenta-nos um p-value que consoante este ser menor ou maior que um valor de significância (α) a decidir previamente, rejeitamos ou não a H0 (se p-value < α, rejeitamos a H0, se p-value > α, não rejeitamos H0).

No entanto, apesar dos testes avaliarem o mesmo pressuposto, os mesmos utilizam estatísticas de teste diferentes, o que pode levar a valores-p diferentes e consequentemente a uma decisão diferente em relação a rejeitar a H0.

Para além dos testes formais podemos ainda avaliar os nossos dados através de gráfico quantil-quantil (Q-Q) que nos permitem compreender o quão próximo estão as nossas observações de uma determinada distribuição.

Homogeneidade de variâncias

No que toca homogeneidade das variâncias podem aplicar-se diversos testes de homocedasticidade, destacando o Teste de Hartley, o Teste de Cochran e o Teste de Bartlett.

Ao aplicar estes testes vamos testar a H0 que diz que as variâncias são iguais. Caso o p-value < α, rejeitamos a H0, caso o p-value > α, não se rejeita H0.

Tal como nos testes de normalidade, os testes de homocedasticidade também apresentam estatístiscas de teste diferentes que podem levar a valores-p diferentes.

É de salientar que estes testes não são perfeitos e que podem levar a uma não rejeição de uma H0 falsa (erro do tipo II) ou a uma rejeição de uma H0 verdadeira (erro do tipo I).

10.3 Exemplo em R

Os dados utilizados para aplicar os testes estatísticos como exemplo envolvem o tempo (em segundos) que um pato-real demora até pegar no alimento, a diferentes distâncias (em metros). Realizaram-se 50 observações de patos macho e fêmea, com o alimento a diferentes distâncias e em diferentes dias, com consequentes temperaturas diferentes.

##    ID tempo  sexo dstnc tmprt
## 1   1  8.43 Femea   3.5    27
## 2   2  5.07 Macho   3.0    27
## 3   3  5.69 Macho   2.5    27
## 4   4  3.11 Femea   1.5    27
## 5   5  2.09 Macho   2.0    27
## 6   6  2.10 Macho   1.0    27
## 7   7  3.90 Femea   1.5    27
## 8   8  9.45 Macho   3.5    27
## 9   9 12.43 Macho   5.0    27
## 10 10  4.30 Femea   3.0    27
## 11 11  2.92 Femea   1.5    27
## 12 12 10.20 Macho   4.0    27
## 13 13  3.74 Macho   3.5    27
## 14 14  2.18 Macho   1.0    27
## 15 15  3.80 Macho   1.5    27
## 16 16  8.45 Femea   3.5    24
## 17 17  3.30 Macho   1.5    24
## 18 18  4.03 Macho   3.0    24
## 19 19  2.34 Femea   1.5    24
## 20 20  3.54 Femea   3.0    24
## 21 21  3.23 Macho   3.0    24
## 22 22  5.12 Femea   3.5    24
## 23 23  4.65 Macho   1.5    24
## 24 24  4.20 Femea   1.5    24
## 25 25  3.90 Femea   1.0    24
## 26 26  3.28 Macho   1.0    24
## 27 27  8.74 Macho   4.0    24
## 28 28  3.45 Macho   1.5    24
## 29 29 13.21 Macho   5.0    24
## 30 30  4.23 Femea   1.5    24
## 31 31  4.10 Femea   3.0    23
## 32 32 11.10 Macho   4.5    23
## 33 33  3.10 Femea   1.0    23
## 34 34  2.79 Macho   1.0    23
## 35 35  3.40 Femea   3.0    23
## 36 36  4.32 Femea   2.5    23
## 37 37 11.65 Macho   5.0    23
## 38 38  9.34 Macho   4.0    23
## 39 39  3.21 Macho   3.0    23
## 40 40  5.40 Femea   3.5    23
## 41 41  2.89 Macho   1.0    23
## 42 42 14.30 Femea   5.0    23
## 43 43  3.45 Macho   1.5    23
## 44 44  4.32 Femea   3.0    23
## 45 45  3.45 Macho   1.5    23
## 46 46  4.32 Femea   3.0    23
## 47 47  3.40 Femea   1.5    23
## 48 48  2.89 Femea   1.0    23
## 49 49  3.43 Macho   1.0    23
## 50 50 11.20 Femea   4.5    23
## 
## Attaching package: 'moments'
## The following object is masked from 'package:modeest':
## 
##     skewness

10.3.0.1 Testes de normalidade

Para decidir que tipo de teste (paramétrico ou não paramétrico) utilizar para analizar a variável “tempo”, iremos aplicar diversos testes de normalidades para podermos concluir sobre este pressuposto.

10.3.0.1.0.1 Teste de Kolmogorov-Smirnov
## 
## 	One-sample Kolmogorov-Smirnov test
## 
## data:  dados$tempo
## D = 0.98169, p-value < 2.2e-16
## alternative hypothesis: two-sided
10.3.0.1.0.2 Teste de Shapiro-Wilk
## 
## 	Shapiro-Wilk normality test
## 
## data:  dados$tempo
## W = 0.78252, p-value = 3.55e-07
10.3.0.1.0.3 Teste de D’Agostino-Pearson
## 
## 	D'Agostino skewness test
## 
## data:  dados$tempo
## skew = 1.3157, z = 3.4984, p-value = 0.000468
## alternative hypothesis: data have a skewness

Pela observação dos p-values, concluimos que rejeitamos a hipótese nula pois estes são, para os testes 3 feitos, muito baixos. Assim, assumimos que as observações não provêm de uma população com distribuição normal, pelo que teriamos ou de aplicar um teste não paramétrico ou uma transformação.

Para reforçar e confirmar a nossa conclusão, podemos ainda recorrer há análise de um gráfico Q-Q.

Pela análise do gráfico, podemos verificar que, para o número de observações que temos, os pontos não aparentam formar uma linha reta do tipo x=y, pelo nos faz ter mais certezas de que estas amostras não provêm de uma população com distribuição gaussiana.

10.3.0.2 Testes de homogeneidade de variâncias

Dentro da variável “tempo”, iremos analisar a homogeneidade das variâncias entre machos e fêmeas.

10.3.0.2.0.1 Teste de Bartlett
## 
## 	Bartlett test of homogeneity of variances
## 
## data:  dados$tempo by dados$sexo
## Bartlett's K-squared = 1.013, df = 1, p-value = 0.3142
10.3.0.2.0.2 Teste de Cochran
## 
## 	Cochran test for outlying variance
## 
## data:  c(var1, var2)
## C = 0.60362, df = 25, k = 2, p-value = 0.3097
## alternative hypothesis: Group 1 has outlying variance
## sample estimates:
##         1         2 
## 12.833187  8.427188
10.3.0.2.0.3 Teste de Hartley

Devido ao facto de não exisitir uma fórmula no R para a aplicação deste, o mesmo não será apresentado neste relatório.

Pela observação dos p-values, concluimos que não rejeitamos a hipótese nula pois estes são, para os 2 testes feitos, relativamente altos. Assim, conclui-se que as vâriancias são suficientemente homogéneas para estes dados cumprirem o pressuposto da homocedasticidade.

10.4 Exemplos reais de aplicação

https://www.sciencedirect.com/science/article/pii/S0301479719312927

O seguinte paper científico procurava otimizar, a nível ecológico e de forma sustentável, as práticas de restauração das zonas dunares costeiras e dos seagrass meadows. Foram criados recipientes biodegradáveis feitos a partir de algas marinhas e de um polímero bio-based para crescimento de plantas a partir de sementes. As espécies utilizadas foram as algas Cymodocea nodosa e Zostera noltei e as plantas dunares Euphorbia paralias e Thinopyrum junceum. O controlo utilizado na experiência foram os típicos recipientes de plástico já usados nestas práticas. No final do estudo, comprovou-se que os recipientes biodegradáveis melhoraram a performance das plantas em estudo a nível de crescimento, de colonização das áreas circundantes onde foram plantadas e que efetivamente estes se degradavam, quer em água, quer na areia, ao final de 3 anos. Nesta experiência, foram usados os testes de Shapiro-Wilk e Cochran para testar a distribuição Gaussiana e a homogeneidade das variâncias dos resultados obtidos, respetivamente, para poderem prosseguir com a utilização de uma ANOVA.

https://periodicos.ufsc.br/index.php/biotemas/article/view/2175-7925.2010v23n4p71/15977

Este artigo científico procurava estudar os impactos que a fragmentação do ecossistema das restingas – habitats de plantas que estão nos cordões dunares e que cobrem grande parte do litoral do Estado da Bahia, no Brasil - têm sobre o microhabitat ocupado pelo lagarto endémico Tropdurus hygomi. A conclusão do estudo provou que não houve uma redução dos recursos utilizados pela espécie. A normalidade dos dados obtidos - complexidade estrutural do ambiente (número de plantas presente, altura da cobertura e frequência das clareiras), distúrbio causado pelo Homem e o uso do habitat pela espécie - foi avaliada pelo teste D’Agostino-Pearson. Posteriormente foi feito o teste paramétrico ANOVA.

10.6 Considerações finais

Existem ainda outros tópicos relacionados com o nosso tema que poderiam ser mais aprofundados (como por exemplo, as transformações) mas que estão presentes nos temas dos trabalhos dos outros grupos.