11 Missing Data

Uno de nuestros supuestos principales en MCO es que nuestra muestra es aleatoria y, por lo tanto, es representativa de la población en general. De no cumplirse este supuesto, nos encontrariamos con un problema de sesgo muestral. Este problema puede no ser generado únicamente por deficiencias de muestreo al momento de elegir las unidades para recabar los datos. También puede surgir de que los individuos no reporten o no puedan reportar sus datos. Por ejemplo, si estamos haciendo un estudio de los determinantes de las calificaciones de alguna prueba estandarizada en niños de secundaria. Es posible que no tengamos el dato de la prueba para algunos niños elegidos en la muestra porque dichos niños faltaron a clases el dia de la prueba, se negaron a tomarla o los padres no dieron consentimiento para el estudio. Otra causa de sesgo muestral surge en el contexto de datos panel. Pese a que la muestra original cumpla con las condiciones de ser aleatoria y representativa para la población que se pretende, al hacer seguimiento de los datos es común que algunos individuos migren, hayan fallecido o ya no quieran participar en el seguimiento de datos. En estos casos, encontrarse con una muestra mas restringida para la cual toda la información está disponible, puede crear limitaciones importantes de validez de los resultados. La población para la cual, la muestra con información completa es representativa ya no es la misma si es que los individuos que faltan siguen un patrón o tienen características específicas (lo cual suele ser el caso).

Por último, pudiera darse el caso que se quiera hacer un análisis representativo para una población distinta respecto a la que se contempló inicialmente. Esto puede ser visto como un problema de falta de datos también siendo que faltan datos de individuos en particular que podría hacer que la muestra fuese representativa para esta otra población. Este es un problema de validez externa.

En esta nota primero describimos bajo qué condiciones la falta de datos no genera sesgo. Posteriormente, describe el modelo de Heckit, el cual utiliza variables explicativas para agregar una variable explicativa en una regresión que busque remover el sesgo por selección de individuos. Por último, mostramos el método de ponderación invesa de probabilidades (inverse probability weight). Este método consiste en reponderar cada observación para que la nueva distribución que resulta de dicha reponderación sea significativa de la población objetivo.

11.1 Planteamiento general

Imaginemos que contamos con una base de datos, la cual tiene información no disponible para algunas variables. En estos casos nos encontramos con que solo podremos llevar a cabo la estimación para un subconjunto de nuestra muestra elegida. En teoría estariamos interesados en los resultados de la estimación con la muestra completa, pero por razones logísticas, no es posible hacer esta estimación.

Primero necesitamos determinar en qué casos nuestra estimación tendría sesgo. Para ello necesitamos partir de nuestro modelo que queremos estimar:

$\begin{equation} Y_i=X_i'\beta+U_i \tag{11.1} \end{equation}$

Suponemos que podríamos estimar este modelo con MCO de forma insesgada si tuviéramos acceso a todos los datos. Esto querría decir que $E(U_i|X_i)=0$ . Sin embargo, tenemos algunos individuos para los cuales no contamos con todos sus datos. Sea $s_i$ una variable dummy que indica si para el individuo $i$ tenemos los datos disponibles y, por lo tanto, lo podemos utilizar en la estimación.

Partiendo del modelo (11.1) podemos obtener:

$\begin{equation} s_iY_i=s_iX_i'\beta+s_iU_i \tag{7.19} \end{equation}$

Nótese que estimar este modelo con todas las observaciones es equivalente a estimar (11.1) con la muestra restringida, es decir, con las observaciones para las cuales $s_i=1$ . Por lo tanto, estaremos interesados en determinar bajo qué condiciones podemos estimar (7.19) consistentemente.

En este caso, estamos utilizando todas las observaciones, por lo tanto, aun no es un problema el sesgo muestral. Necesitamos enotnces fijarnos en las condiciones de primer orden de la estimación para determinar que no haya sesgo. En este caso, las condiciones de primer orden serían:

$\begin{equation} E[(s_iX_i)(s_iU_i)]=E[s_iX_iU_i]=0 \end{equation}$

porque $s_i^2=s_i$ . Por lo tanto, no habrá sesgo si $E(s_iU_i|s_iX_i)=0$ .

Situaciones bajo las cuales no tendremos sesgo entonces son:

Si $s_i=f(X_i)$ . En este caso $E(s_iU_i|s_iX_i)=s_iE(U_i|s_iX_i)=0$ porque por condiciones de MCO $E(U_i|X_i)=0$ . Imaginémos que en el ejemplo propuesto anteriormente las autoridades escolares deciden esconder’’ a lo niños con promedio menor a $7$ . Por lo tanto $s_i=1\{Prom_i\geq7\}$ . Siempre que incluyamos como control en nuestra estimación el promedio del niño ( $Prom_i$ ) no habrá una preocupación de sesgo muestral³⁹.
Si $s_i\bot(X_i,U_i)$ . Dicho de otra manera si la selección es aleatoria’’ o al menos independiente de variables observables y no observables del individuo que influyan sobre la variable dependiente. En este caso se cumplirá que: $E(s_iX_iU_i)=E(s_i)E(X_iU_i)=0$ . Esto podría suceder si tenemos una muestra muy grande y decidimos omitir observaciones al azar o si se pierden exámenes de algunos niños de forma accidental.

Un caso en el cual habría sesgo en la estimación es si tenemos observaciones truncadas basado en los valores de $Y_i$ . Imaginense, por ejemplo, que las escuelas deciden esconder los resultados de los examenes más bajos. Supongamos que $s_i=1$ solo si $Y_i>c$ . En este caso tendremos que $s_i=1$ si $U_i>c-X_i'\beta$ . Por lo tanto, $s_i$ no será independiente de variables no observadas (o del error) y tendremos sesgo en la estimación de (11.1) con la muestra restringida.

11.2 Heckit

Una solución a casos en los cuales la variable dependiente no es observada para algunos individuos y si parece haber sesgo muestral selectivo, consiste en el modelo de Heckman (Heckit). Este método es un estimador de máxima verosimilutud. Se basa en la idea que la selección de observaciones disponibles se puede determinar como una función de $X_i$ y algunas otras variables que no afectan a $Y_i$ . Es decir, especifican un modelo de selección:

$\begin{equation} s_i=1\{Z_i'\gamma + V_i\} \tag{11.2} \end{equation}$

donde asumiremos que $Z_i$ incluye todas las variables de $X_i$ y otras adicionales, que el error $V_i$ es independiente de $Z_i$ y que:

$\begin{equation} Z_i'\gamma=\gamma_0+\gamma_1Z_{1i}+\dots+\gamma_MZ_{Mi} \end{equation}$

Basados en el supuesto que $(U_i,V_i)\bot Z_i$ y partiendo de (11.1) obtenemos: $\begin{equation} \begin{split} Y_i&=X_i'\beta+U_i \\ E(Y_i|Z_i,V_i)&=X_i'\beta+E(U_i|Z_i,V_i) \\ &=X_i'\beta+E(U_i|V_i) \\ &=X_i'\beta+\rho V_i \end{split} \end{equation}$ donde asumimos que $E(U_i|V_i)=\rho V_i$ , lo cual surge del supuesto de que $U_i$ y $V_i$ son conjuntamente normales con media cero.

Esta ecuación no puede ser estimada dado que $V_i$ no es observada, pero podemos utilizarla como punto de partida para estimar $E(Y_i|Z_i,s_i)$ :

$\begin{equation} E(Y_i|Z_i,s_i)=x_i'\beta+\rho E(V_i|Z_i,s_i) \tag{7.23} \end{equation}$

Dado que $V_i$ tiene una distribución normal estándar, al igual que en el caso de Tobit, podemos mostrar que cuando $s_i=1$ : $\begin{equation} \begin{split} E(V_i|Z_i,s_i=1)&=E(V_i|V_i\geq Z_i'\gamma) \\ &=\frac{\phi(Z_i'\gamma)}{\Phi(Z_i'\gamma)} = \lambda(Z_i'\gamma) \end{split} \end{equation}$

Sustituyendo este resultado en (7.23) obtenemos: $\begin{equation} E(Y_i|Z_i,s_i=1)=X_i'\beta+\rho\lambda(Z_i'\gamma) \tag{11.3} \end{equation}$

Cabe notar que en este caso asumimos que $V_i$ se distribuye como una normal estándar. Este supuesto es clave para poder estimar $\gamma$ y asi calcular para cada individuo $\lambda(Z_i'\gamma)$ . Dado que $V_i$ se distribuye como una normal estándar y la definición (11.2), tendremos que: $\begin{equation} Pr(s_i=1|Z_i)=Pr(V_i<Z_i'\gamma)=\Phi(Z_i'\gamma) \tag{11.4} \end{equation}$

Por lo tanto, el procedimiento del modelo Heckit consistirá de los siguientes pasos:

Se estimará (11.4) utilizando el modelo probit para estimar $\gamma$ . En esta estimación se utilizarán las variables de $Z_i$ y todas las observaciones (incluso aquellas que no cuentan con la variable dependiente, i.e. aquellas para las cuales $s_i=0$ ).
Se utilizará el estimador de $\gamma$ para calcular $\lambda(Z_i'\gamma)$ para cada individuo.
Utilizando $X_i$ y $\lambda(Z_i'\gamma)$ se estimará la especificación (11.3). En esta estimación se utilizarán únicamente las observaciones con variable dependiente disponible (i.e. aquellas para als cuales $s_i=1$ ).

Esta última especificación generará estimadores insesgados de $\beta$ . Puede además utilizarse esta estimación para evaluar si existía sesgo muestral. Para ello simplemente se evalúa si $\rho=0$ , donde $\rho$ es el coeficiente de la variable $\lambda(Z_i'\gamma)$ . En los casos en los cuales se rechaza la hipótesis y tenemos evidencia de que $\rho\neq 0$ tendríamos que la estimación de MCO con solo las observaciones que tienen $s_i=1$ generaría estimadores sesgados de $\beta$ .

En clase veremos un ejemplo de estos modelos utilizando los siguientes comandos de Stata:

webuse womenwk
sum wage education age children married
gen si=(wage$<$.)
probit si education age married children
predict probit_Xb, xb
gen mills=normalden(probit_Xb)/normal(probit_Xb)
reg wage education age mills, r
heckman wage education age, twostep select(education age married children) rhosigma first

11.3 Métodos de Descomposición

Los métodos de descomposición se desarrollaron en los 70s para cuantificar diferencias promedio en salarios por sexo y determinar qué proporción de dicha diferencia se debe efectivamente a cuestiones de discriminación y qué tanto se puede explicar porque ambos grupos son distintos en diversas características, siendo dichas características (y no la discriminación) las que podría explicar las diferencias entre ambos grupos.

La primera metodología fue propuesta por Ronald Oaxaca (73) y Alan Blinder (73). Conocido como el método Oaxaca-Blinder, consiste en separar la diferencia promedio de una variable dependiente entre dos grupos en dos componentes: (i) la parte explicada, que corresponde a la parte de esta diferencia que corresponde a diferencias en las características promedio entre ambos grupos y (ii) la parte estructural (o no explicada) que corresponde al remanente de dicha diferencia.

A continuación desarrollamos algo de notación para poder explicar la descomposición Oaxaca-Blinder. Esta notación será nuestra base en el tema de inverse probability weight}, que es nuestro objetivo principal. Esta notación se basa en el artículo de Fortin et al. (2011).

11.3.1 Notación general

En este método se hace la comparación entre dos grupos mutuamente exclusivos. Dependiendo del contexto, los grupos pueden ser: control-tratamiento, datos disponibles-datos faltantes, no migrantes-migrantes, mujeres-hombres, etc. Denotaremos a los grupos como $g = A,B$ . Por lo tanto, podemos defnir una variable dummy para identificar a qué grupo pertenece un individuo $i$ como $D_{Ai}+D_{Bi} = 1$ , donde $D_{gi} = \mathbf{1} \left\lbrace i \in g \right\rbrace$ . Asimismo, volveremos a la definición de resultados potenciales que habíamos discutido en el contexto de experimentos aleatorios. Aquí, $Y_{Ai}$ , $Y_{Bi}$ serán los resultados potenciales, es decir, el nivel de la variable dependiente $Y$ que el individuo $i$ tendrá si pertenece al grupo $A$ y $B$ , respectivamente. Por ende, el resultado observado será: $Y_{i} = D_{Ai}Y_{Ai}+D_{Bi}Y_{Bi}$ . Definiremos al contrafactual como el nivel de la variable dependiente que un individuo del grupo $B$ recibiría si mantuviera sus características, pero perteneciera al grupo $A$ . Con sus características nos referimos al valor de las variables observables ( $X_i$ ) que utilizamos para predecir o explicar el nivel de la variable dependiente (piensen en las variables explicativas de un MCO). Denotaremos al contrafactual como $Y_{Ai|D_{Bi}}$ .

El objetivo de los métodos de descomposición es cuantificar la diferencia en algún estadístico. Priomordialmente, este estadístico es la media ( $\mu$ ), pero con el método de IPW podrá ser cualquier estadístico distribucional, como algún cuantil ( $\tau$ ) o alguna función basada en la distribución, como un índice de Gini. Definimos entonces al estadístico de interés como $\upsilon(F_{Y_{gi}|D_{si}})$ , para $g,s = \{A,B\}$ . Aquí $F_{Y_{gi}|D_{si}}$ es la distribución del resultado potencial $Y_{gi}$ para individuos del grupo $s$ . Por lo tanto, $F_{Y_{gi}|D_{si}}$ es observado (contrafactual) si $g=s \quad (g \neq s)$ . Entonces, el objetivo será cuantificar la diferencia observada del estadístico $\upsilon$ entre ambos grupos:

$\begin{equation} \Delta^{\upsilon} = \upsilon(F_{Y_{Bi}|D_{Bi}}) - \upsilon (F_{Y_{Ai}|D_{Ai}}) \end{equation}$

Los métodos de descomposición dividen esta diferencia observada en dos componentes: (i) $\Delta_S^{\upsilon}$ , que se define como la diferencia estructural, es decir, aquella que se debe a características no observadas o a que las características de un grupo tienen distintos rendimientos que las características del grupo de comparación y (ii) $\Delta_X^{\upsilon}$ , que la diferencia observada, es decir, aquella que resulta de que ambos grupos tienen diferencias en las características explicativas de $Y$ . Para descomponer la diferencia observada $\Delta^{\upsilon}$ en ambos componentes utilizamos el contrafactual:

$\begin{equation} \begin{split} \Delta^{\upsilon} &= \left(\upsilon(F_{Y_{Bi}|D_{Bi}})-\upsilon(F_{Y_{Ai}| D_{Bi}})\right)+\left(\upsilon(F_{Y_{Ai}| D_{Bi}} - \upsilon (F_{Y_{Ai}|D_{Ai}})\right) \\ &=\Delta_S^{\upsilon} + \Delta_X^{\upsilon} \end{split} \end{equation}$

Por lo tanto, el tema de fondo consiste en la forma en que se debe estimar el contrafactual dado que los otros componentes de la ecuacion ( $\upsilon(F_{Y_{Bi}|D_{Bi}})$ y $\upsilon(F_{Y_{Ai}|D_{Ai}})$ ) son observados.

11.3.2 Oaxaca-Blinder

La descomposición Oaxaca-Blinder utiliza algunos supuestos para estimar $\Delta^{\mu}$ (la diferencia en la media entre ambos grupos). En particular, emplea un modelo lineal que separa los componentes observados y no observados:

$\begin{equation} Y_{gi} = X_i'\beta_{g}+\epsilon_{gi} \quad , \quad g = A,B \quad \end{equation}$

y supone que los errores son independientes de las variables observadas, $E(\epsilon_{gi}|X_i) = 0$ .

Dados estos supuestos, utilizando la ley de esperanzas iteradas (LIE), desarrolla $\Delta^{\mu}$ de la siguiente forma:

$\begin{align*} \Delta^{\mu} &= E(Y_{Bi}|D_{Bi}) - E(Y_{Ai}|D_{Ai} ) \\ &= E[E(Y_{Bi}|X_i,D_{Bi})|D_{Bi}] - E[E(Y_{Ai}|X_i,D_{Ai})|D_{Ai}]] \\ &= [E(X_i|D_{Bi})'\beta_{B}+E(\epsilon_{Bi}|X_i,D_{Bi})]- [E(X_i|D_{Bi})'\beta_{A}+E(\epsilon_{Ai}|X_i,D_{Ai})]\pm E(X_i|D_{Bi})'\beta_A \\ &= \underbrace{E(X_i|D_{Bi})'(\beta_{B}-\beta_{A})}_{\Delta_{S}^{\mu}}+\underbrace{[E(X_i|D_{Bi})-E(X_i|D_{Ai})]\beta_{A}}_{\Delta_{X}^{\mu}} \\ \end{align*}$ Podemos entonces utilizar el siguiente estimador y derivar el valor estimado con la contraparte muestral: $\begin{equation} \widehat{\Delta}^{\mu}= \overline{X}_{B}(\widehat{\beta}_{B}-\widehat{\beta}_{A})+(\overline{X}_{B}-\overline{X}_{A})\widehat{\beta}_{A} \end{equation}$

Para llevar a cabo esta estimación pueden estimarse dos MCO (uno para cada grupo) y posteriormente hacer los calculos o utilizar el comando oaxaca desarrollado por Jann (2008).

11.3.3 Inverse Probability Weight (IPW)

El método IPW es un método de descomposición en el cual se genera toda la distribución contrafactual, con lo cual se puede calcular cualquier estadístico que utilice como insumo la distribución acumulada. La notación presentada aquí se desarrolla para cuantiles ( $\tau$ ). Por lo tanto, empezamos por definir a un cuantil en este contexto como $Q_{g,\tau}$ y se propone estimarlo utilizando la ley de las probabilidades iteradas:

$\begin{equation} \begin{split} \tau&=F_{Y_{g}}(Q_{g,\tau}) \\ &=E\left( F_{Y_{g}|X_{gi}}(Q_{g,\tau}|X_{gi})\right) \\ &=\int F_{Y_{g}|X_{gi}}(Q_{g,\tau}|X)dF_{X_{gi}}(X), \quad g = A,B \end{split} \end{equation}$

En este caso, si quisieramos estimar la diferencia entre el cuantil $\tau$ para ambos grupos y descomponer dicha diferencia nos interesaría:

$\begin{equation} \Delta^{\tau} = \left(F_{Y_{Bi}|D_{Bi}}^{-1}(\tau)-F_{Y_{Ai}| D_{Bi}}^{-1}(\tau)\right)+\left(F_{Y_{Ai}| D_{Bi}}^{-1}(\tau) - F_{Y_{Ai}|D_{Ai}}^{-1}(\tau)\right) \end{equation}$

Por lo tanto, el componente que necesitamos estimar es el contrafactual $F_{Y_{Ai}| D_{Bi}}^{-1}(\tau)$ . Para llevar a cabo esto, el método IPW utiliza la siguiente estrategia:

$\begin{equation} \begin{split} F_{Y_{Ai}| D_{Bi}}(y)&=\int F_{Y_{A}|X_{Ai}}(y|X)dF_{X_{Bi}}(X) \\ &=\int F_{Y_{A}|X_{Ai}}(y|X)\Psi(X) dF_{X_{Ai}}(X) \\ \end{split} \end{equation}$ Esto hace que la distribución contrafactual sea simplemente una versión reponderada de la distribución original de $Y$ para el grupo $A$ , donde el reponderador es: $\begin{equation} \Psi(X)=\frac{dF_{X_{Bi}}(X)}{dF_{X_{Ai}}(X)} \end{equation}$

DiNardo et al. (1996) propusieron este estimador y sugirieron utilizar la regla de Bayes:

$\begin{equation} Pr(X|D_{Bi})=\frac{Pr(D_{Bi}|X_i)}{Pr(D_{Bi})} \end{equation}$

Con lo cual: $\begin{equation} \Psi(X)=\frac{Pr(D_{Bi}|X_i)/Pr(D_{Bi})}{Pr(D_{Ai}|X_i)/Pr(D_{Ai})} \end{equation}$

De esta forma $\Psi(X)$ se puede estimar utilizando probit o logit y las proporciones de cada grupo, con lo cual tendríamos el estimador que buscamos. Por último, cabe señalar que en el caso de datos faltantes, no contamos con $Y_B$ observada (asumiendo que $B$ es el grupo no observado), pero si contamos con caracterísitcas de este grupo, es decir, $X_B$ . En este caso, la intuición es que las características del grupo $A$ se reponderan para que su distribución sea la misma que las del grupo $B$ y utilizando este ponderador se usan las $Y_A$ para generar la distribución del grupo $B$ .