11 Missing Data
Uno de nuestros supuestos principales en MCO es que nuestra muestra es aleatoria y, por lo tanto, es representativa de la población en general. De no cumplirse este supuesto, nos encontrariamos con un problema de sesgo muestral. Este problema puede no ser generado únicamente por deficiencias de muestreo al momento de elegir las unidades para recabar los datos. También puede surgir de que los individuos no reporten o no puedan reportar sus datos. Por ejemplo, si estamos haciendo un estudio de los determinantes de las calificaciones de alguna prueba estandarizada en niños de secundaria. Es posible que no tengamos el dato de la prueba para algunos niños elegidos en la muestra porque dichos niños faltaron a clases el dia de la prueba, se negaron a tomarla o los padres no dieron consentimiento para el estudio. Otra causa de sesgo muestral surge en el contexto de datos panel. Pese a que la muestra original cumpla con las condiciones de ser aleatoria y representativa para la población que se pretende, al hacer seguimiento de los datos es común que algunos individuos migren, hayan fallecido o ya no quieran participar en el seguimiento de datos. En estos casos, encontrarse con una muestra mas restringida para la cual toda la información está disponible, puede crear limitaciones importantes de validez de los resultados. La población para la cual, la muestra con información completa es representativa ya no es la misma si es que los individuos que faltan siguen un patrón o tienen características específicas (lo cual suele ser el caso).
Por último, pudiera darse el caso que se quiera hacer un análisis representativo para una población distinta respecto a la que se contempló inicialmente. Esto puede ser visto como un problema de falta de datos también siendo que faltan datos de individuos en particular que podría hacer que la muestra fuese representativa para esta otra población. Este es un problema de validez externa.
En esta nota primero describimos bajo qué condiciones la falta de datos no genera sesgo. Posteriormente, describe el modelo de Heckit, el cual utiliza variables explicativas para agregar una variable explicativa en una regresión que busque remover el sesgo por selección de individuos. Por último, mostramos el método de ponderación invesa de probabilidades (inverse probability weight). Este método consiste en reponderar cada observación para que la nueva distribución que resulta de dicha reponderación sea significativa de la población objetivo.
11.1 Planteamiento general
Imaginemos que contamos con una base de datos, la cual tiene información no disponible para algunas variables. En estos casos nos encontramos con que solo podremos llevar a cabo la estimación para un subconjunto de nuestra muestra elegida. En teoría estariamos interesados en los resultados de la estimación con la muestra completa, pero por razones logísticas, no es posible hacer esta estimación.
Primero necesitamos determinar en qué casos nuestra estimación tendría sesgo. Para ello necesitamos partir de nuestro modelo que queremos estimar:
Yi=X′iβ+Ui
Suponemos que podríamos estimar este modelo con MCO de forma insesgada si tuviéramos acceso a todos los datos. Esto querría decir que E(Ui|Xi)=0. Sin embargo, tenemos algunos individuos para los cuales no contamos con todos sus datos. Sea si una variable dummy que indica si para el individuo i tenemos los datos disponibles y, por lo tanto, lo podemos utilizar en la estimación.
Partiendo del modelo (11.1) podemos obtener:
siYi=siX′iβ+siUi
Nótese que estimar este modelo con todas las observaciones es equivalente a estimar (11.1) con la muestra restringida, es decir, con las observaciones para las cuales si=1. Por lo tanto, estaremos interesados en determinar bajo qué condiciones podemos estimar (7.19) consistentemente.
En este caso, estamos utilizando todas las observaciones, por lo tanto, aun no es un problema el sesgo muestral. Necesitamos enotnces fijarnos en las condiciones de primer orden de la estimación para determinar que no haya sesgo. En este caso, las condiciones de primer orden serían:
E[(siXi)(siUi)]=E[siXiUi]=0
porque s2i=si. Por lo tanto, no habrá sesgo si E(siUi|siXi)=0.
Situaciones bajo las cuales no tendremos sesgo entonces son:
Si si=f(Xi). En este caso E(siUi|siXi)=siE(Ui|siXi)=0 porque por condiciones de MCO E(Ui|Xi)=0. Imaginémos que en el ejemplo propuesto anteriormente las autoridades escolares deciden esconder’’ a lo niños con promedio menor a 7. Por lo tanto si=1{Promi≥7}. Siempre que incluyamos como control en nuestra estimación el promedio del niño (Promi) no habrá una preocupación de sesgo muestral39.
Si si⊥(Xi,Ui). Dicho de otra manera si la selección es aleatoria’’ o al menos independiente de variables observables y no observables del individuo que influyan sobre la variable dependiente. En este caso se cumplirá que: E(siXiUi)=E(si)E(XiUi)=0. Esto podría suceder si tenemos una muestra muy grande y decidimos omitir observaciones al azar o si se pierden exámenes de algunos niños de forma accidental.
Un caso en el cual habría sesgo en la estimación es si tenemos observaciones truncadas basado en los valores de Yi. Imaginense, por ejemplo, que las escuelas deciden esconder los resultados de los examenes más bajos. Supongamos que si=1 solo si Yi>c. En este caso tendremos que si=1 si Ui>c−X′iβ. Por lo tanto, si no será independiente de variables no observadas (o del error) y tendremos sesgo en la estimación de (11.1) con la muestra restringida.
11.2 Heckit
Una solución a casos en los cuales la variable dependiente no es observada para algunos individuos y si parece haber sesgo muestral selectivo, consiste en el modelo de Heckman (Heckit). Este método es un estimador de máxima verosimilutud. Se basa en la idea que la selección de observaciones disponibles se puede determinar como una función de Xi y algunas otras variables que no afectan a Yi. Es decir, especifican un modelo de selección:
si=1{Z′iγ+Vi}
donde asumiremos que Zi incluye todas las variables de Xi y otras adicionales, que el error Vi es independiente de Zi y que:
Z′iγ=γ0+γ1Z1i+⋯+γMZMi
Basados en el supuesto que (Ui,Vi)⊥Zi y partiendo de (11.1) obtenemos: Yi=X′iβ+UiE(Yi|Zi,Vi)=X′iβ+E(Ui|Zi,Vi)=X′iβ+E(Ui|Vi)=X′iβ+ρVi donde asumimos que E(Ui|Vi)=ρVi, lo cual surge del supuesto de que Ui y Vi son conjuntamente normales con media cero.
Esta ecuación no puede ser estimada dado que Vi no es observada, pero podemos utilizarla como punto de partida para estimar E(Yi|Zi,si):
E(Yi|Zi,si)=x′iβ+ρE(Vi|Zi,si)
Dado que Vi tiene una distribución normal estándar, al igual que en el caso de Tobit, podemos mostrar que cuando si=1: E(Vi|Zi,si=1)=E(Vi|Vi≥Z′iγ)=ϕ(Z′iγ)Φ(Z′iγ)=λ(Z′iγ)
Sustituyendo este resultado en (7.23) obtenemos: E(Yi|Zi,si=1)=X′iβ+ρλ(Z′iγ)
Cabe notar que en este caso asumimos que Vi se distribuye como una normal estándar. Este supuesto es clave para poder estimar γ y asi calcular para cada individuo λ(Z′iγ). Dado que Vi se distribuye como una normal estándar y la definición (11.2), tendremos que: Pr(si=1|Zi)=Pr(Vi<Z′iγ)=Φ(Z′iγ)
Por lo tanto, el procedimiento del modelo Heckit consistirá de los siguientes pasos:
Se estimará (11.4) utilizando el modelo probit para estimar γ. En esta estimación se utilizarán las variables de Zi y todas las observaciones (incluso aquellas que no cuentan con la variable dependiente, i.e. aquellas para las cuales si=0).
Se utilizará el estimador de γ para calcular λ(Z′iγ) para cada individuo.
Utilizando Xi y λ(Z′iγ) se estimará la especificación (11.3). En esta estimación se utilizarán únicamente las observaciones con variable dependiente disponible (i.e. aquellas para als cuales si=1).
Esta última especificación generará estimadores insesgados de β. Puede además utilizarse esta estimación para evaluar si existía sesgo muestral. Para ello simplemente se evalúa si ρ=0, donde ρ es el coeficiente de la variable λ(Z′iγ). En los casos en los cuales se rechaza la hipótesis y tenemos evidencia de que ρ≠0 tendríamos que la estimación de MCO con solo las observaciones que tienen si=1 generaría estimadores sesgados de β.
En clase veremos un ejemplo de estos modelos utilizando los siguientes comandos de Stata:
webuse womenwk
sum wage education age children married
gen si=(wage$<$.)
probit si education age married children
predict probit_Xb, xb
gen mills=normalden(probit_Xb)/normal(probit_Xb)
reg wage education age mills, r
heckman wage education age, twostep select(education age married children) rhosigma first
11.3 Métodos de Descomposición
Los métodos de descomposición se desarrollaron en los 70s para cuantificar diferencias promedio en salarios por sexo y determinar qué proporción de dicha diferencia se debe efectivamente a cuestiones de discriminación y qué tanto se puede explicar porque ambos grupos son distintos en diversas características, siendo dichas características (y no la discriminación) las que podría explicar las diferencias entre ambos grupos.
La primera metodología fue propuesta por Ronald Oaxaca (73) y Alan Blinder (73). Conocido como el método Oaxaca-Blinder, consiste en separar la diferencia promedio de una variable dependiente entre dos grupos en dos componentes: (i) la parte explicada, que corresponde a la parte de esta diferencia que corresponde a diferencias en las características promedio entre ambos grupos y (ii) la parte estructural (o no explicada) que corresponde al remanente de dicha diferencia.
A continuación desarrollamos algo de notación para poder explicar la descomposición Oaxaca-Blinder. Esta notación será nuestra base en el tema de inverse probability weight}, que es nuestro objetivo principal. Esta notación se basa en el artículo de Fortin et al. (2011).
11.3.1 Notación general
En este método se hace la comparación entre dos grupos mutuamente exclusivos. Dependiendo del contexto, los grupos pueden ser: control-tratamiento, datos disponibles-datos faltantes, no migrantes-migrantes, mujeres-hombres, etc. Denotaremos a los grupos como g=A,B. Por lo tanto, podemos defnir una variable dummy para identificar a qué grupo pertenece un individuo i como DAi+DBi=1, donde Dgi=1{i∈g}. Asimismo, volveremos a la definición de resultados potenciales que habíamos discutido en el contexto de experimentos aleatorios. Aquí, YAi, YBi serán los resultados potenciales, es decir, el nivel de la variable dependiente Y que el individuo i tendrá si pertenece al grupo A y B, respectivamente. Por ende, el resultado observado será: Yi=DAiYAi+DBiYBi. Definiremos al contrafactual como el nivel de la variable dependiente que un individuo del grupo B recibiría si mantuviera sus características, pero perteneciera al grupo A. Con sus características nos referimos al valor de las variables observables (Xi) que utilizamos para predecir o explicar el nivel de la variable dependiente (piensen en las variables explicativas de un MCO). Denotaremos al contrafactual como YAi|DBi.
El objetivo de los métodos de descomposición es cuantificar la diferencia en algún estadístico. Priomordialmente, este estadístico es la media (μ), pero con el método de IPW podrá ser cualquier estadístico distribucional, como algún cuantil (τ) o alguna función basada en la distribución, como un índice de Gini. Definimos entonces al estadístico de interés como υ(FYgi|Dsi), para g,s={A,B}. Aquí FYgi|Dsi es la distribución del resultado potencial Ygi para individuos del grupo s. Por lo tanto, FYgi|Dsi es observado (contrafactual) si g=s(g≠s). Entonces, el objetivo será cuantificar la diferencia observada del estadístico υ entre ambos grupos:
Δυ=υ(FYBi|DBi)−υ(FYAi|DAi)
Los métodos de descomposición dividen esta diferencia observada en dos componentes: (i) ΔυS, que se define como la diferencia estructural, es decir, aquella que se debe a características no observadas o a que las características de un grupo tienen distintos rendimientos que las características del grupo de comparación y (ii) ΔυX, que la diferencia observada, es decir, aquella que resulta de que ambos grupos tienen diferencias en las características explicativas de Y. Para descomponer la diferencia observada Δυ en ambos componentes utilizamos el contrafactual:
Δυ=(υ(FYBi|DBi)−υ(FYAi|DBi))+(υ(FYAi|DBi−υ(FYAi|DAi))=ΔυS+ΔυX
Por lo tanto, el tema de fondo consiste en la forma en que se debe estimar el contrafactual dado que los otros componentes de la ecuacion (υ(FYBi|DBi) y υ(FYAi|DAi)) son observados.
11.3.2 Oaxaca-Blinder
La descomposición Oaxaca-Blinder utiliza algunos supuestos para estimar Δμ (la diferencia en la media entre ambos grupos). En particular, emplea un modelo lineal que separa los componentes observados y no observados:
Ygi=X′iβg+ϵgi,g=A,B
y supone que los errores son independientes de las variables observadas, E(ϵgi|Xi)=0.
Dados estos supuestos, utilizando la ley de esperanzas iteradas (LIE), desarrolla Δμ de la siguiente forma:
Δμ=E(YBi|DBi)−E(YAi|DAi)=E[E(YBi|Xi,DBi)|DBi]−E[E(YAi|Xi,DAi)|DAi]]=[E(Xi|DBi)′βB+E(ϵBi|Xi,DBi)]−[E(Xi|DBi)′βA+E(ϵAi|Xi,DAi)]±E(Xi|DBi)′βA=E(Xi|DBi)′(βB−βA)⏟ΔμS+[E(Xi|DBi)−E(Xi|DAi)]βA⏟ΔμX Podemos entonces utilizar el siguiente estimador y derivar el valor estimado con la contraparte muestral: ˆΔμ=¯XB(ˆβB−ˆβA)+(¯XB−¯XA)ˆβA
Para llevar a cabo esta estimación pueden estimarse dos MCO (uno para cada grupo) y posteriormente hacer los calculos o utilizar el comando oaxaca desarrollado por Jann (2008).
11.3.3 Inverse Probability Weight (IPW)
El método IPW es un método de descomposición en el cual se genera toda la distribución contrafactual, con lo cual se puede calcular cualquier estadístico que utilice como insumo la distribución acumulada. La notación presentada aquí se desarrolla para cuantiles (τ). Por lo tanto, empezamos por definir a un cuantil en este contexto como Qg,τ y se propone estimarlo utilizando la ley de las probabilidades iteradas:
τ=FYg(Qg,τ)=E(FYg|Xgi(Qg,τ|Xgi))=∫FYg|Xgi(Qg,τ|X)dFXgi(X),g=A,B
En este caso, si quisieramos estimar la diferencia entre el cuantil τ para ambos grupos y descomponer dicha diferencia nos interesaría:
Δτ=(F−1YBi|DBi(τ)−F−1YAi|DBi(τ))+(F−1YAi|DBi(τ)−F−1YAi|DAi(τ))
Por lo tanto, el componente que necesitamos estimar es el contrafactual F−1YAi|DBi(τ). Para llevar a cabo esto, el método IPW utiliza la siguiente estrategia:
FYAi|DBi(y)=∫FYA|XAi(y|X)dFXBi(X)=∫FYA|XAi(y|X)Ψ(X)dFXAi(X) Esto hace que la distribución contrafactual sea simplemente una versión reponderada de la distribución original de Y para el grupo A, donde el reponderador es: Ψ(X)=dFXBi(X)dFXAi(X)
DiNardo et al. (1996) propusieron este estimador y sugirieron utilizar la regla de Bayes:
Pr(X|DBi)=Pr(DBi|Xi)Pr(DBi)
Con lo cual: Ψ(X)=Pr(DBi|Xi)/Pr(DBi)Pr(DAi|Xi)/Pr(DAi)
De esta forma Ψ(X) se puede estimar utilizando probit o logit y las proporciones de cada grupo, con lo cual tendríamos el estimador que buscamos. Por último, cabe señalar que en el caso de datos faltantes, no contamos con YB observada (asumiendo que B es el grupo no observado), pero si contamos con caracterísitcas de este grupo, es decir, XB. En este caso, la intuición es que las características del grupo A se reponderan para que su distribución sea la misma que las del grupo By utilizando este ponderador se usan las YA para generar la distribución del grupo B.