Capítulo 5 Heurística Epizootiológica
O método científico começa baseado na curiosidade. Todo um processo é iniciado por uma pergunta, simples muitas vezes, feita por um curioso. Para tentar responder esta pergunta, o curioso, já agora denominado cientista, propõe hipóteses. Hipóteses são uma ou mais explicações possíveis à tal pergunta, explicações estas que devem poder ser testadas acerca de sua correção, através de métodos apropriados para confirmar ou refutar aquela explicação potencial. Uma hipótese não-testável não é científica, porquê não pode ser falseável em última instância. Ao final do procedimento metodológico durante o qual houve o teste, conhecido como experimento, uma hipótese será selecionada como correta. A hipótese correta é considerada a resposta mais parcimoniosa para a pergunta inicial, ou seja a explicação lógica mais simples. Algumas vezes um determinado experimento não oferece uma resposta à pergunta, ou a resposta pode ser parcial, ou mesmo errada, o que pode acontecer mesmo em experimentos bem feitos (em um percentual inferior a 5% dos experimentos). Esta aquisição de conhecimento sobre a pergunta inicial, seja este conhecimento oriundo de uma resposta clara, parcial ou mesmo negativa, permite que o pesquisador aumente a complexidade da pergunta efetuada no próximo experimento. E assim caminha a ciência.
5.1 Investigando doenças
No caso da Epidemiologia, a pergunta a ser efetuada normalmente é da ordem, ou no formato:
“Qual pode ser a causa de determinada doença?”
“O agente parasitário ‘fulano’ é causador da doença ‘sicrana’?”
“Quais são os efeitos fisiológicos do organismo”Lambda” sob o hospedeiro “Ypsilon” em determinado local geográfico?”
“O fator ‘Alfa’ pode aumentar o risco de ocorrência da doença ‘Beta’?
Em todas estas circunstâncias clássicas há uma incógnita clínica, etiológica, ou de outra ordem. Esta incógnita pode vir a ser explicada por diferentes fatores abióticos (moduladores de saúde) ou bióticos (parasitos e fatores de risco). Um experimento deve ser constituído portanto, para encontrar a melhor explicação possível, naquele momento, para aquela incógnita biológico.
O experimento de constituição mais simples almeja testar apenas duas explicações (ou hipóteses). A hipótese mais parcimoniosa, a princípio, é de que o fator analisado não cause um efeito mensurável sobre a variável, ou seja, que seu efeito seja nulo. Logo, esta hipótese inicial é normalmente denominada “Hipótese Nula”. A explicação alternativa é que o fator cause sim algum efeito mensurável. Esta é normalmente denominada “Hipótese Alternativa”. Podemos fazer experimentos que sejam desenhados para testar uma ou várias Hipóteses Alternativas. Que o efeito não exista é sempre o ponto de partida inicial, contra a qual todas as outras hipóteses serão testadas. Em termos estatísticos, a hipótese nula é o nível de expressão da variável sem interferência do fator em questão, contra a qual serão constrastados (comparados) os resultados obtidos sob o efeito do fator que está sendo analisado. Assim, observa a Tabela 5.1. Nela você pode observar os diferentes resultados que podem vir a ter um teste de hipóteses. Deste tipo de tabela nós iremos extrair uma série de índices importantes epizootiologicamente.
Assim, para testarmos se a presença do parasito está correlacionada a uma alteração em determinada variável orgânica, digamos, hemoglobina sérica, você deve comparar a variação dos valores de hemoglobina em animais sem o parasito (hipótese Nula) com os de animais sabidamente infectados com o parasito (hipótese Alternativa). Caso não haja diferença estatística signficativa entre a média de hemoglobina dos dois grupos (infectados/não-infectados), você pode considerar que não há correlação entre a presença do fator parasito e uma modificação dos níveis da variável hemoglobina sérica. Você aceita a Hipótese Nula como a melhor explicação. No caso de existir diferença estatística signficativa entre a média de hemoglobina dos dois grupos, você aceita a Hipótese Alternativa como correta: a presença do parasito modifica a Hemoglobina sérica.
Verdadeira | Falsa | |
---|---|---|
Decisão sobre a Hipótese Nula | ||
Aceita | Aceita Corretamente | Erros de Tipo II (\(\beta\)) |
Rejeitada | Erros de Tipo I (\(\alpha\)) | Rejeitada Corretamente |
Atribuir erradamente efeito fisiológico a tal parasito seria incorrer no que se define como um Erro Estatístico de Tipo I. Isto é o que se conhece por “falsa descoberta”, e é o tipo de erro que mais tenta-se controlar em experimentação científica. Ele pode ser minimizado, através de boas práticas de pesquisa, embora qualquer pesquisa esteja sujeita a tal erro. A Ciência controla tal erro através da confirmação da descoberta pelos pares, o que deve ocorrer, se o fenômeno foi corretamente identificado. É vão e infrutífero tentar fraudar resultados científicos, devido a este fato: se o fenômeno foi incorretamente interpretado, outros pesquisadores vão acusar o erro (ou o engodo) em curto espaço de tempo. O grau de probabilidade de que um dado pesquisador incorra neste erro de tipo I é considerado o nível de significância do experimento. Tradicionalmente no estudo dos fenômenos biológicos, é utilizado um nível de signficância de 5%, ou um \(\alpha = 0,05\), o qual se for estabelecido sobre uma variável de distribuição bicaudal deverá ser dividido por dois, 2,5% para cada lado. No caso do exemplo anterior, haveria apenas 5% de chance do experimento atribuir efeito ao parasito quando tal efeito não existisse.
Complementar ao coeficiente do nível de signficância \(\alpha\) é o coeficiente \(\beta\), relativo aos erros de tipo II. O valor de \(\beta\) é a probabilidade de cometer erros de tipo II. A partir do inverso desta probabilidade nós podemos calcular o Poder do Teste, ou seja, a probabilidade de um experimento corretamente rejeitar uma hipótese Nula falsa, na forma da equação \(Poder = 1-\beta\). Quanto maior o poder do teste, maior a probabilidade de rejeitar uma hipótese Nula quando esta fôr falsa. Veja que enquanto nós podemos estabelecer um \(\alpha\) para refutarmos nossa hipótese Nula, tal definição para o índice \(\beta\) a priori é impossível, tendo em vista que múltiplas hipóteses alternativas podem ser construídas, sem sabermos qual será a certa até o momento do teste. O valor correto do índice \(\beta\) só será conhecido corretamente ao final do experimento. Mas ele pode ser estimado antes de um experimento começar para que possamos definir o tamanho amostral (o número de animais) que deve ser utilizado em determinado estudo (vide Capítulo 10).
Quando as médias em comparação são naturalmente distantes entre si, nós facilmente identificaremos quando algum variado pertence ou não a cada uma das populações sob comparação. Mas quando os valores das duas populações em comparação estão próximos entre si, nós podemos começar a cometer erros de classificação. Nesses casos a escolha do valor de corte, o qual determinará o limite para inclusão em cada uma das categorias, pode aumentar ou diminuir os erros de classificação de algum variado na população. Assim, quanto menor o tamanho do efeito do fator sobre a variável, para um mesmo tamanho amostral, menor o poder do teste de caracterizar tal efeito.
Assim, estabelecer o grau de significância em 5% de probabilidade de cometer um erro de tipo I, aumenta a probabilidade de cometer um erro de tipo II, ou seja que possa existir algum efeito mas nós não conseguiremos caracterizá-lo. Assim, quanto mais exigente um pesquisador é em sua rigidez de não executar falsas-descobertas, ele aumenta a probabilidade de não conseguir caracterizar um determinado efeito quando ele existe de fato. Este sacrifício é um atributo da própria análise estatística, e não deve ser ignorado. O bom pesquisador evita os termos “tendência” (trend) ou “direção”, baseado em resultados de testes estatísticos que aproximam-se da signficância, mas não atingem o nível escolhido. Um resultado estatístico ou é significativo ou não é, não há meio termo. Se há alguma dúvida sobre a real existência de um efeito de determinado fator, o correto é repetir-se ou replicar-se o experimento ou aumentar o número amostral, que são duas estratégias corretas para confirmar ou refutar que determinado fator interfira em certa variável.
É importante que tenhamos em mente também que um teste estatístico ganha robustez quanto maior é o número amostral ou o número de repetições, já que o Erro Padrão da Média (EPM) é calculado como:
\[\begin{equation*} EPM = \frac{s}{\sqrt{(n)}} \end{equation*}\] Onde s: Desvio-padrão das amostras; n: Número de amostras
Maiores números amostrais vão permitir a caracterização com maior grau de certeza se existe ou não diferença estatística entre os níveis testados. Que permaneça na mente do pesquisador também que determinadas diferenças estatísticas causadas por um fator podem ser irrelevantes em termos biológicos. Digamos que exista uma diferença estatística nos níveis de hemoglobina sérica entre machos e fêmeas de determinada espécie. Tais diferenças têm magnitude para serem relevantes na análise da pergunta em questão?
Qualquer bom livro texto de bioestatística alerta para os perigos de aumento exponencial de Erros de Tipo II quando hipóteses são formuladas depois da coleta de dados. Muitas vezes dados biológicos são coletados sem uma pergunta experimental definida, apenas porquê tal material biológico pôde ser coletado. Estas situações são muito comuns na pesquisa com animais silvestres, onde resgates de fauna, translocações, enchimentos de hidrelétricas, fogos florestais, todos são eventos que geram oportunidades de aproveitamento científico de materiais biológicos que doutra maneira não seriam acessíveis facilmente ao pesquisador. Em outros grupos animais tais coleções de dados também podem ser criadas, novamente, sem que haja uma pergunta epidemiológica clara que haja norteado a coleta de dados. Tais bancos de dados podem produzir informações de boa qualidade para vários ramos da pesquisa científica, como levantamentos parasitológicos, estudos populacionais, estudos filogenéticos, entre outros. Mas cuidado deve ser tomado para que inferências clínicas médicas, baseadas somente em correlações de informações encontradas nestes banco de dados, não sejam tomadas como verdades biológicas, mas sim apenas como indícios de efeitos mórbidos de parasitos, por exemplo. Se há uma correlação de um determinado parasito com uma alteração mórbida, um experimento desenhado especificamente para testar tal efeito deve ser constituído.
5.2 Características desejáveis nos dados
Qualquer informação obtida para estudos epidemiológicos devem ser aleatórias, representativas, e válidas. Estas três características garantem que nossa análise tenha validade científica e possa ser extrapolada para a população de animais estudada. Mas cuidados diferentes garantem cada um destes três aspectos.
Primeiro, boa parte dos dados obtidos em experimentos epizootiológicos são oriundos de experimentos realizados com amostras. Amostras são, como o nome indica, uma parcela de uma determinada população, da qual deseja-se fazer o estudo. É de suma importância que tal amostra seja aleatória . Foge ao objetivo deste livro explicar as raízes matemáticas da importância de uma amostra aleatória, mas todas as assunções matemáticas sobre as quais são estabelecidos os termos de comparação dos testes estatísticos requerem aleatoriedade (randomness) na amostragem, e que ela não seja viciada por escolhas por proximidade ao pesquisador, cor, tamanho ou outra variável que não seja o acaso (Sokal and Rohlf 1995a). Esta parcela da população pode ser representada pelos animais coletados, pelo material biológico, ou mesmo pela análise efetuada sobre este material biológico. Amostra aleatórias podem ser obtidas com auxílio de sorteios, criação de listas aleatórias de participantes (existem softwares e códigos de computador criados para isso), ou mesmo o uso de uma moeda justa permite o sorteio e inclusão de animais no experimento (cara participa, coroa não participa, p.ex.).
Em cada um destes níveis, eu assumo que minha amostra aleatória seja representativa da população amostrada. Eu assumo que os animais que coletei são um espelho da população original, e que os resultados obtidos nestes animais da amostra podem ser extrapolados para a população original. Caso a unidade de análise seja o material biológico coletado a mesma assunção é efetuada: que a amostra de tecido que coletamos (como a coleta de sangue, por ex.) é representativa do órgão ou tecido como um todo. Da mesma forma, quando eu realizo um eletrocardiograma, eu assumo que o coração funcione daquela forma demonstrada no traçado todo o tempo. Para que tal amostra seja representativa da população de animais nós podemos fazer estimativas de número de animais necessários no experimento baseadas em várias estratégias, as quais serão demonstradas no Capítuo 10.
Finalmente, para que a amostra biológica aleatória e representativa do animal (tecido, órgão) analisado seja válida, existem recomendações clínicas e laboratoriais que devem ser seguidas em relação ao local, tempo ou hora de coleta, e quantidade de tecido a ser utilizado, para cada metodologia que o experimento requerer, forma e tempo de conservação e transporte até a estocagem definitiva ou exame laboratorial final. Devemos assegurar que a coleta, armazenamento, transporte e análise do material seja feita segundo o estado da arte recomendado para aquele material ou técnica de análise, de forma que não haja degradação de proteínas, arquitetura de tecidos ou enfraquecimento do sinal detectado até análise final. Em nada adiantará um experimento cuja amostra biológica seja representativa da população e aleatoriamente obtida, mas que tenha perdido sua validade porquê foi transportada em um container acima da temperatura necessária para sua correta conservação. Este último aspecto deve ser rastreável também: idealmente devemos poder nos referir e conhecer retrogradamente as condições envolvidas em uma determinada amostra biológica individual. Esta capacidade de rastreabilidade reversa de qualquer amostra biológica é uma exigência quase sine qua non para o comércio internacional de produtos e subprodutos animais em nossos dias.
5.3 Erros em amostragem
Em todos estes casos de coleta de amostras existem duas grandes fontes de erros: i) erros aleatórios; e, ii) erros do pesquisador.
5.3.1 Erros aleatórios
Erros aleatórios surgem porquê estamos analisando uma parcela da população e não a população como um todo, havendo portanto uma incógnita em relação à população não-amostrada. Quanto menor a parcela da amostra em relação à população como um todo, maior o erro aleatório. A situação inversa seria correta, quanto maior a proporção da amostra em relação à população total analisada, menor o erro aleatório. Em situações de experimentos laboratoriais nós podemos até imaginar que analisamos TODA a população estudada, afinal de contas eu estou examinado todos os n camundongos que foram assinalados para meu experimento. Entretanto, mesmo estes são uma parcela da população total de camundongos, parcela a qual eu assumo que os resultados obtidos podem ser extrapolados para aquela linhagem genética de camundongos como um todo. O lado positivo deste erro é que ele, por ser aleatório, é distribuído homogeneamente pela população analisada, não afetando as conclusões de forma direcional, desde que a coleta seja feita de forma aleatória conforme o preconizado. Os erros aleatórios não podem ser eliminados, apenas minimizados, de duas formas: a) aumentando-se o n amostral; ou, b) aumentando-se o número de repetições (e, por conseguinte, o n amostral).
5.3.2 Erros do pesquisador
Quanto aos erros do pesquisador, são causados por equívocos do pesquisador no planejamento, execução, ou na coleta e análise dos dados da pesquisa. Tais tipos de erros são problemáticos porquê normalmente desviam os resultados em uma direção específica, levando a graves equívocos de interpretação. Estes erros podem ter algumas origens diferentes:
Planejamento equivocado: Caso o experimento ou amostra não sejam capazes de responder a pergunta original. Digamos que a pergunta seja sobre a sazonalidade de uma doença, mas o pesquisador só coletou um ano de dados. Como inferir um efeito sazonal, com apenas uma amostra? Neste caso, o pesquisador assumiria seu ano de dados como representativo da variação entre anos, o que seria equivocado.
Execução errônea: Por exemplo, quando o pesquisador não executa adequadamente o planejamento experimental. Se a coleta é planejada para ser mensal, mas o pesquisador a faz bimensal, seu n amostral certamente seria menor do que o planejado, e sua variação anual reduzida pela metade.
Análise comprometida: Quando o material biológico ou o conjunto de dados são coletados ou analisados, seja laboratorialmente ou estatisticamente, de forma inadequada segundo as técnicas e métodos preconizados para o material ou dados sob análise.
De forma geral a melhor forma de controlar tais erros é com o correto planejamento, execução e análise do material biológico e do conjunto de dados obtidos. Treinamento adequado da equipe de execução é condição primordial, já que raramente um projeto é executado por apenas um pesquisador. Mesmo a correta identificação de materiais e coleta de dados faz diferença para os resultados finais de um projeto atingirem os objetivos iniciais. A execução destas etapas exige o conhecimento adequado da pergunta a ser respondida, a qual dá origem a uma sequência de eventos para responder a tal pergunta, conforme dito anteriormente (Seção 5.1).
5.4 Considerações finais
Um último alerta é mister que seja feito: procure não testar múltiplas hipóteses em um experimento com n limitado, ou assumir correlação como causalidade. O teste de múltiplas hipóteses tende a gerar correlações espúrias, sem o menor valor epizootiológico, que podem confundir o pesquisador, como bem demonstra o trabalho de Austin et al. (2006). Procure definir perguntas claras e sucintas, que possam ser respondidas com tamanhos amostrais razoáveis e com Poder do teste de encontrar eventuais alterações ou diferençãs entre as populações estudadas.
Tendo todos os aspectos acima discutidos em mente, tente sempre seguir a ordem correta da construção do conhecimento:
- Fazemos a Pergunta.
- Construímos Hipóteses passíveis de responder à Pergunta.
- Escolhemos Métodos adequados para testar as Hipóteses.
- Realizamos um Experimento com os Métodos escolhidos.
- Resultado final: Qual hipótese foi aceita?
- Agregação de conhecimento ao Estado da Arte do objeto sob estudo.
- Refinamento da Pergunta.
E assim, sucessivamente e continuamente, o método científico constrói o conhecimento. Note que por esta abordagem não existem resultados negativos ou positivos. Existem sim a pergunta e a resposta, que de uma forma ou de outra irá contribuir para o aumento do conhecimento sobre a matéria pesquisada, permitindo um gradual maior refinamento da pergunta em busca de respostas mais profundas.