3 Organizando o banco de dados longitudinal

  • Num formato que seja adequado para o que se queira investigar

  • Duas formas básicas:
    • Nível pessoa: o número de linhas reflete o número de indivíduos; conforme se coletam novas ondas de dados, o banco de dados ganha variáveis e não registros – FORMATO LARGO

    • Pessoa-período: o número de linhas reflete a quantidade de combinações entre número de unidades e ondas (ocasiões de medições) – FORMATO LONGO

  • Pacotes estatísticos podem ser utilizados para variar entre os formatos … reshape…

3.1 Dados em nível pessoa (wide) (largo)

3.2 Dados em nível pessoa-tempo (long) (longo)

  • Nível pessoa:
    • Pode ser usado para ser analisado visualmente (não aconselhável) * Omite a variável tempo (tempo nas colunas) * Pode ser ineficiente se o número de ondas for muito grande * O que fazer quando não há espaços regulares entre as ondas? * Como lidar com covariáveis que mudam com o tempo? * Necessário para matriz de correlação
  • Pessoa-período:
    • Deve conter (pelo menos) 4 variáveis: * Identificador de pessoas/unidade * Identificador do tempo * A variável resposta (muda com o tempo) * A(s) variável(is) explicativa(s) (fixas ou que mudam com o tempo) * É o formato que deve ser usado na análise exploratória

3.3 Objetivo

  • Dados de corte transversal: fotografia
  • Dados longitudinais: filme

  • Análise e medição do processo de mudança
    • Crescimento individual
      • Direção não importa necessariamente
      • Pode ser o decréscimo
      • Ou trajetórias complexas
      • Explorar e confirmar

Como a variável resposta muda ao longo do tempo?

Podemos prever diferenças nessas mudanças devido a outros fatores?

  • Objetivos: Mostrar o máximo de dados relevantes possível
    • Destacar padrões agregados de interesse potencial
    • Tanto de corte transversal quanto longitudinal
    • Entre as respostas em relação ao tempo e às covariáveis
  • Para identificar indivíduos não usuais ou observações não usuais

  • Análise longitudinal trata da relação entre uma variável resposta e variáveis explicativas incluindo tempo

    • Gráfico de dispersão entre a variável resposta e uma explicativa
    • Cuidado para gráficos com muitos pontos – muita informação
    • Uso de técnicas de suavização
    • Gráficos para associação entre as medidas repetidas
  • Gráfico de crescimento: variável resposta versus tempo
    • Trajetórias
    • Avalia mudança em termos absoluto e relativo
    • Quem cresce? Quem decresce? Quem cresce mais? etc…
    • Não sendo necessário examinar as trajetórias de todos os indivíduos
  • Plotar cada trajetória individual e adicionar trajetória média – comparações

  • Conectar as medidas apenas de tipos específicos ou escolher um conjunto ao acaso
    • Os que mais crescem…
  • Ordenar as trajetórias por alguma covariável específica
    • Conectar as trajetórias dos indivíduos nos percentis (10º , 25º, mediana, 75º, 90º )

3.4 Identificando relações longitudinais e de corte-transversal

Exemplo: * Y = proficiência em Leitura * X = Idade

  • Crianças mais velhas são piores em leitura
  • As crianças ficam piores em leitura conforme ficam mais velhas? Confusão!?!?
  • Conforme as crianças ficam mais velhas ficam melhores em leitura – efeito idade
  • As crianças mais jovens são melhores em leitura do que crianças mais velhas – efeito coorte
  • Ainda podemos distinguir entre a variação “intra” (dentro) indivíduos ao longo do tempo da variação entre indivíduos

3.5 Medindo o tempo

  • O tempo deve estar representado em um arquivo de dados longitudinal
    • Medido numa boa métrica
    • Dados igualmente espaçados?
    • Dados balanceados?
  • Idade, ocasiões, onda, período de medição, meses, anos, trimestre, semestre etc….
  • Tempo contínuo ou tempo discreto
  • Covariáveis: fixas no tempo ou variáveis no tempo…

3.6 Tipos de Não resposta em banco de dados longitudinais

  • Não resposta de item
    • Como em dados de corte-transversal
  • Não resposta de unidade
  • Não resposta na primeira onda: semelhante a não resposta em pesquisas de corte transversal
  • Não resposta da segunda onda em diante
    • Atrito – Drop-out, fuga, morte….
    • Intermitente – reaparição da unidade em ocasiões variadas

3.7 Notação Importante em dados de medidas repetidas

  • Resposta: \(y_{ij}\) no tempo \(t_{ij}\)
  • Vetor de \(p\) covariáveis medidas no tempo \(t_{ij}\)

\[x_{ij}= \left( \begin{matrix} x_{ij1}\\ x_{ij2}\\ \begin{matrix} \vdots \\ x_{ijp}\\ \end{matrix} \\ \end{matrix} \right)\]

  • Note que para uma variável constante no tempo o valor será o mesmo para cada \(j\)

  • Sujeitos: \(i=1, \ldots \text{, n}\) }
  • Observações: \(j=1, \ldots ,~n_{i}\) para cada sujeito \(i\)

3.8 Outros Gráficos

  • Avaliar o impacto de covariáveis fixas no tempo
    • Buscar por padrões sistemáticos nas mudanças individuais
    • Se pergunte:
    • A variável resposta muda com a covariável?
  • Plotar trajetórias individuais suavizadas para grupos de covariáveis
    • Identificar a trajetória média
    • As trajetórias observadas diferem para os grupos de covariáveis?
    • As trajetórias mudam em inclinação ou em ponto inicial?
    • Existem grupos de trajetórias mais heterogêneas?

3.9 Gráficos de crescimento suavizados:

  • Pacotes oferece, maneiras de suavizar as trajetórias individuais
    • Splines, loess, kernel, médias móveis, etc…
    • Escolha por conveniência
  • Focar em pontos de elevação e formato das curvas
    • É linear? é curva? Quadrática?
    • Existe pontos de inflexão?
    • A taxa de crescimento é a mesma para todos?

3.10 Explorando a estrutura de correlação

  • Para explorar o grau de associação no conjunto de dados longitudinal

  • Para eliminar o efeito de covariáveis, estima-se um modelo de regressão linear (sem ser longitudinal) e calcula-se os resíduos
    • Se as hipóteses do modelo linear são satisfeitas então os resíduos devem ser não correlacionados ao longo do tempo para um dado indivíduo
    • Se os dados foram selecionados com espaçamento igual (mesma quantidade de tempo entre cada onda) podemos calcular a matriz de correlação dos resíduos para cada ponto no tempo

3.11 Gráfico da matriz de correlação

3.12 Matriz de correlação dos resíduos

  • Do exemplo: * Correlação substancial entre as medidas repetidas de um mesmo indivíduo com separação de um ano * O grau de correlação decresce conforme as medidas ficam mais distanciadas no tempo - diagonais mais distantes da principal * Correlação depende mais do espaçamento entre as medidas do que do valor do tempo * Pode-se calcular o coeficiente de coeficiente de correlação para cada momento do tempo e plotar a função de autocorrelação