3 Organizando o banco de dados longitudinal
Num formato que seja adequado para o que se queira investigar
- Duas formas básicas:
Nível pessoa: o número de linhas reflete o número de indivíduos; conforme se coletam novas ondas de dados, o banco de dados ganha variáveis e não registros – FORMATO LARGO
Pessoa-período: o número de linhas reflete a quantidade de combinações entre número de unidades e ondas (ocasiões de medições) – FORMATO LONGO
Pacotes estatísticos podem ser utilizados para variar entre os formatos … reshape…
3.1 Dados em nível pessoa (wide) (largo)
3.2 Dados em nível pessoa-tempo (long) (longo)
- Nível pessoa:
- Pode ser usado para ser analisado visualmente (não aconselhável) * Omite a variável tempo (tempo nas colunas) * Pode ser ineficiente se o número de ondas for muito grande * O que fazer quando não há espaços regulares entre as ondas? * Como lidar com covariáveis que mudam com o tempo? * Necessário para matriz de correlação
- Pessoa-período:
- Deve conter (pelo menos) 4 variáveis: * Identificador de pessoas/unidade * Identificador do tempo * A variável resposta (muda com o tempo) * A(s) variável(is) explicativa(s) (fixas ou que mudam com o tempo) * É o formato que deve ser usado na análise exploratória
3.3 Objetivo
- Dados de corte transversal: fotografia
Dados longitudinais: filme
- Análise e medição do processo de mudança
- Crescimento individual
- Direção não importa necessariamente
- Pode ser o decréscimo
- Ou trajetórias complexas
- Explorar e confirmar
- Crescimento individual
Como a variável resposta muda ao longo do tempo?
Podemos prever diferenças nessas mudanças devido a outros fatores?
- Objetivos: Mostrar o máximo de dados relevantes possível
- Destacar padrões agregados de interesse potencial
- Tanto de corte transversal quanto longitudinal
- Entre as respostas em relação ao tempo e às covariáveis
Para identificar indivíduos não usuais ou observações não usuais
Análise longitudinal trata da relação entre uma variável resposta e variáveis explicativas incluindo tempo
- Gráfico de dispersão entre a variável resposta e uma explicativa
- Cuidado para gráficos com muitos pontos – muita informação
- Uso de técnicas de suavização
- Gráficos para associação entre as medidas repetidas
- Gráfico de crescimento: variável resposta versus tempo
- Trajetórias
- Avalia mudança em termos absoluto e relativo
- Quem cresce? Quem decresce? Quem cresce mais? etc…
- Não sendo necessário examinar as trajetórias de todos os indivíduos
Plotar cada trajetória individual e adicionar trajetória média – comparações
- Conectar as medidas apenas de tipos específicos ou escolher um conjunto ao acaso
- Os que mais crescem…
- Ordenar as trajetórias por alguma covariável específica
- Conectar as trajetórias dos indivíduos nos percentis (10º , 25º, mediana, 75º, 90º )
3.4 Identificando relações longitudinais e de corte-transversal
Exemplo: * Y = proficiência em Leitura * X = Idade
- Crianças mais velhas são piores em leitura
- As crianças ficam piores em leitura conforme ficam mais velhas? Confusão!?!?
- Conforme as crianças ficam mais velhas ficam melhores em leitura – efeito idade
- As crianças mais jovens são melhores em leitura do que crianças mais velhas – efeito coorte
- Ainda podemos distinguir entre a variação “intra” (dentro) indivíduos ao longo do tempo da variação entre indivíduos
3.5 Medindo o tempo
- O tempo deve estar representado em um arquivo de dados longitudinal
- Medido numa boa métrica
- Dados igualmente espaçados?
- Dados balanceados?
- Idade, ocasiões, onda, período de medição, meses, anos, trimestre, semestre etc….
- Tempo contínuo ou tempo discreto
- Covariáveis: fixas no tempo ou variáveis no tempo…
3.6 Tipos de Não resposta em banco de dados longitudinais
- Não resposta de item
- Como em dados de corte-transversal
- Não resposta de unidade
- Não resposta na primeira onda: semelhante a não resposta em pesquisas de corte transversal
- Não resposta da segunda onda em diante
- Atrito – Drop-out, fuga, morte….
- Intermitente – reaparição da unidade em ocasiões variadas
3.7 Notação Importante em dados de medidas repetidas
- Resposta: \(y_{ij}\) no tempo \(t_{ij}\)
- Vetor de \(p\) covariáveis medidas no tempo \(t_{ij}\)
\[x_{ij}= \left( \begin{matrix} x_{ij1}\\ x_{ij2}\\ \begin{matrix} \vdots \\ x_{ijp}\\ \end{matrix} \\ \end{matrix} \right)\]
Note que para uma variável constante no tempo o valor será o mesmo para cada \(j\)
- Sujeitos: \(i=1, \ldots \text{, n}\) }
Observações: \(j=1, \ldots ,~n_{i}\) para cada sujeito \(i\)
3.8 Outros Gráficos
- Avaliar o impacto de covariáveis fixas no tempo
- Buscar por padrões sistemáticos nas mudanças individuais
- Se pergunte:
- A variável resposta muda com a covariável?
- Plotar trajetórias individuais suavizadas para grupos de covariáveis
- Identificar a trajetória média
- As trajetórias observadas diferem para os grupos de covariáveis?
- As trajetórias mudam em inclinação ou em ponto inicial?
- Existem grupos de trajetórias mais heterogêneas?
3.9 Gráficos de crescimento suavizados:
- Pacotes oferece, maneiras de suavizar as trajetórias individuais
- Splines, loess, kernel, médias móveis, etc…
- Escolha por conveniência
- Focar em pontos de elevação e formato das curvas
- É linear? é curva? Quadrática?
- Existe pontos de inflexão?
- A taxa de crescimento é a mesma para todos?
3.10 Explorando a estrutura de correlação
Para explorar o grau de associação no conjunto de dados longitudinal
- Para eliminar o efeito de covariáveis, estima-se um modelo de regressão linear (sem ser longitudinal) e calcula-se os resíduos
- Se as hipóteses do modelo linear são satisfeitas então os resíduos devem ser não correlacionados ao longo do tempo para um dado indivíduo
- Se os dados foram selecionados com espaçamento igual (mesma quantidade de tempo entre cada onda) podemos calcular a matriz de correlação dos resíduos para cada ponto no tempo
3.11 Gráfico da matriz de correlação
3.12 Matriz de correlação dos resíduos
- Do exemplo: * Correlação substancial entre as medidas repetidas de um mesmo indivíduo com separação de um ano * O grau de correlação decresce conforme as medidas ficam mais distanciadas no tempo - diagonais mais distantes da principal * Correlação depende mais do espaçamento entre as medidas do que do valor do tempo * Pode-se calcular o coeficiente de coeficiente de correlação para cada momento do tempo e plotar a função de autocorrelação