8 Variables Instrumentales
Como describimos en la sección 3, uno de los principales problemas de validez interna para los estimadores de MCO es el sesgo por variables omitidas. Esto provoca que los resultados de las estimaciones de MCO no puedan ser interpretadas de manera causal en la mayoría de las ocasiones. El sesgo por varibles omitidas se genera porque: (i) la variable de interés (X1) esta correlacionada con alguna variable no observada o no incluida dentro de la estimación, y (ii) porque dicha variable no incluida está correlacionada con la variable dependiente. La primera condición implica que uno de nuestros supuestos utilizados para estimar el modelo de MCO (E(X1iUi)=0) no sea un supuesto valido, ya que la variable omitida implícitamente forma parte del error de la estimación (Ui).
El método de variables instrumentales es una alternativa para estimar el efecto de dicha variable de interés (X1) sobre la variable dependiente. Intuitivamente, este método consiste en encontrar un instrumento (Z) que juegue el rol de la variable de interés (X1) sin tener el problema que dicha variable de interés tiene.
8.1 Planteamiento
Empecemos por recordar el sesgo por variables omitidas. Supongamos que queremos estimar el efecto de la educación sobre los ingresos. Para llevar a cabo esto empezamos por estimar un modelo de mínimos cuadrados ordinarios donde nuestra variable dependiente es el ingreso mensual (Ingi)28 y nos interesa ver el efecto de los años de escolaridad (Educi):
Ingi=α0+α1Educi+Ui
Un problema con esta estimación es que los años de educación pueden estar sesgados por omitir en esta estimación variables como educación de los padres, habilidad del individuo, mejores redes sociales, etc. Tomemos el ejemplo de habilidad. Si agregamos esta variable a nuestro modelo tendríamos:
Ingi=β0+β1Educi+β2Habili+Vi
Y nuestro sesgo por variables omitidas estaría descrito por β2γ1 donde γ1 tendrá el mismo signo que la correlación entre educación y habilidad. El problema en la estimación de (3.13) es que las variables omitidas implicitamente se encontraba en el error (Ui) y nuestra variable de interés (Educi) está correlacionada con ellas. Esto implica que se viola el supuesto de MCO E(EduciUi)=0.
Una altenativa para estimar de manera consistente α1 utilizando el modelo (3.13) consiste en utilizar el método de variables instrumentales. Este método consiste en identificar un instrumento (Zi). Utilizando este instrumento y nuestro modelo (3.13) podemos calcular:
Cov(Ingi,Zi)=Cov(α0+α1Educi+Ui,Zi)=α1Cov(Educi,Zi)−Cov(Ui,Zi)
Por lo tanto obtenemos29: α1=Cov(Ingi,Zi)Cov(Educi,Zi)+Cov(Ui,Zi)Cov(Educi,Zi)
Para tener un estimador consistente de α1 se deben cumplir dos condiciones, que son los supuestos fundamentales de los modelos de variables instrumentales:
Relevancia (Cov(Educi,Zi)≠0). Intuitivamente, este supuesto implica que dado que queremos utilizar al instrumento (Zi) para representar a nuestra variable de interés (Educi), dichas variables deben estar fuertemente correlacionadas. Una manera de evaluar si está condiciónes se satisface es llevar a cabo una regresión de la variable de interés (Educi) contra el instrumento (Zi): Educi=η0+η1Zi+Ui En la literatura se sugiere que para tener un buen instrumento, el estadístico F que resulte de llevar a cabo la siguiente prueba de hipótesis30 debe ser mayor a 10: H0:η1=0 H1:η1≠0
Exogeneidad o restricciones de exclusión (Cov(Ui,Zi)=0). Exogeneidad implica que nuestro instrumento no está correlacionado con el error (Ui), que es lo que causaba el problema de sesgo por variables omitidas. Cabe recordar que Ui incluye todas aquellas variables que no incluimos en el modelo (3.13), tales como educación de los padres, habilidad, redes sociales, etc. Generalmente, el supuesto de exogeneidad es el más difícil de justificar y en términos del modelo no se puede evaluar directamente, a menos que se cuenten con más instrumentos que variables endógenas (es decir, aquellas, cuyo estimador está sesgado). Implicitamente, este supuesto además implica que el instrumento no debe de afectar directamente a la variable dependiente (Ingi). El único efecto que identificará el modelo es el efecto indirecto de la variable de interés que estamos instrumentando (Educi)31.
Angrist y Krueger (1991) sugieren como posible instrumento en este caso la fecha de nacimiento de la persona. Utilizando la fecha de nacimiento identificaron a aquellos que nacen en diferentes trimestres del año. La motivación para su instrumento se basa en la idea de, que de acuerdo a las leyes vigentes en E.U., una persona es requerida a estudiar hasta el momento en que cumple 16 años. Sin embargo, las generaciones escolares conjuntan a los niños nacidos entre Agosto y Julio del siguiente año. Por lo tanto, una persona que cumple años en enero ya podrá trabajar y aun no habrá completado el año escolar, mientras que una persona que cumple años en julio ya habrá terminado el grado escolar en el momento en que puede empezar a trabajar. Por lo tanto, es muy posible que la fecha de nacimiento influya sobre los años de escolaridad completados de un individuo. Esto puede ser verificado como describimos en el inciso de relevancia. El mayor reto consiste en argumentar la exogeneidad. Puede argumentarse que la fecha de nacimiento no influye los ingresos del individuo, y que no está relacionado con variables como acceso a transporte, habilidad y redes sociales. El único problema potencial es que los padres reconozcan esto y padres de familia más sofisticados decidan tener hijos de manera tal que nazcan cerca del final del ciclo escolar (pero como pueden darse cuenta es un argumento mas difícil de establecer).
Si asumimos que la fecha de nacimiento es un instrumento satisfactorio, podríamos utilizar dummies de haber nacido en distintos trimetres para estimar el efecto de la edcuación sobre el ingreso. Para ilustrar esto tomaremos solo una dummy y posteriormente veremos cómo ampliarlo a más instrumentos. Sea Q1i una dummy que indica si el individuo nació en el ultimo triemstre del año. Utilizando este instrumento debemos estimar las siguientes dos ecuaciones. Estas ecuaciones se conocen como ecuaciones de forma reducida cuando solo incluyen variables exógenas como regresores:
Ingi=γ0+γ1Q1i+υiEduci=η0+η1Q1i+νi
En este caso: ˆα1=ˆγ1/ˆη1
8.2 Agregar controles
El modelo de variables instrumentales puede incluir otras variables de control. Para llevar a cabo la estimación veamos como desarrollar el caso generalizado. Supongamos que tenemos k variables que queremos incluir en el modelo:
Yi=β0+β1X1i+⋯+βkXki+Ui
Supongamos que en este caso nos interesa estimar el efecto causal de X1 sobre Y. Estimar el modelo (8.2) utilizando MCO genera un estimador sesgado de β1 por haber sesgo por variables omitidas. Por lo tanto, incluimos un instrumento (Z) para X1 que cumpla con las condiciones antes descritas. Si estimamos un modelo de forma reducida para estimar X1 utilizando nuestro instrumento y las demás variables del modelo tendremos:
X1i=η0+η2X2i+⋯+ηkXki+ϕZi+Vi
Sustituyendo (8.3) en (8.2) obtenemos:
Yi=β0+β1[η0+η2X2i+⋯+ηkXki+ϕZi+Vi]+⋯+βkXki+Ui
Reordenando los términos obtenemos:
Yi=ψ0+ψ2X2i+⋯+ψkXki+θZi+Wi
donde:
ψj=βj+β1ηjθ=β1ϕWi=Ui+β1Vi
Por lo tanto, para obtener estimadores insesgados utilizando MCO en (8.4) tendremos las siguientes condiciones de primer órden:
N∑i=1(Yi−ˆψ0−ˆψ2X2i−⋯−ˆψkXki−ˆθZi)=0
N∑i=1Zi(Yi−ˆψ0−ˆψ2X2i−⋯−ˆψkXki−ˆθZi)=0
Y para j=2,…,k:
N∑i=1Xji(Yi−ˆψ0−ˆψ2X2i−⋯−ˆψkXki−ˆθZi)=0
Por lo tanto, para que los estimadores ψ0,ψ2,…ψk y γ sean insesgados, tendrá que cumplirse que la covarianza de X2,…,Xk,Z con el error W del modelo (8.4) sea cero en cada caso. Esto se cumplirá si la covarianza de X2,…,Xk,Z con los errores U y V de los modelos (8.2) y (8.4) son cero, respectivamente. En el caso de Z, este requisito es el supuesto de exogeneidad. Para el resto de los controles, este supuesto está imponiendo el requisito de exogeneidad. Recordemos que nuestro interés radica en obtener un estimador insesgado de β1. Si removemos alguno de los controles porque nos preocupa que no cumple con los supuestos de exogeneidad, el requisito adicional que estamos imponiendo por no incluir dicho control es que el instrumento no deberá estar correlacionado con éste control, ya que el control pasará a formar parte del error U del modelo (8.2). Si el control no es relevante para explicar la variable dependiente, es mejor no incluirlo en la estimación.
A partir de estimar los modelo (8.2) y (8.3), se puede obtener un estimador de β0,β1,…,βk. Dadas las derivaciones previas tenemos que:
β1=θ/ϕ
Por lo tanto, únicamente dividimos el coeficiente que resulta de estimar (8.4) entre el que resulta de estimar (8.3).
8.3 Mínimos Cuadrados en 2 Etapas (Two-Stage Least Squares, 2SLS)
Supongamos ahora que queremos estimar el modelo (8.2) y que tenemos dos instrumentos (Z1, Z2) que cumplen con los supuestos de relevancia y las restricciones de exclusión. En este caso, podríamos llevar a cabo dos estimaciones de las ecuaciones (8.3) y (8.4) para obtener dos valores estimados insesgados de β1. En el caso del primer estimador utilizaríamos las condiciones de primer órden dadas por (8.5), (8.7) y:
N∑i=1Z1i(Yi−ˆψ0−ˆψ2X2i−⋯−ˆψkXki−ˆθZ1i)=0
En el segundo caso utilizaríamos las condiciones de primer órden dadas por (8.5), (8.7) y:
N∑i=1Z2i(Yi−ˆψ0−ˆψ2X2i−⋯−ˆψkXki−ˆθZ2i)=0
Sin embargo, existe una manera de agrupar la información de manera eficiente para producir un solo estimador. Para esto es útil el método de 2SLS. Este método lleva a cabo la estimación en dos etapas, donde la primera etapa combina los instrumentos de manera eficiente y la segunda utiliza el supuesto de exogeneidad para derivar coeficientes insesgados del modelo (8.2). (Cabe señalar que el métdo de 2SLS puede ser aplicado también en el caso que tengamos un solo instrumento y un estimador y resultará en el mismo coeficiente estimado que el derivado utilizando el método antes descrito)
8.3.1 Primera Etapa (First Stage)
La primera etapa esta relacionada con el supuesto de relevancia. Esta etapa consiste en utilizar los instrumentos para predecir el valor de la variable de interés (X1). Este paso es el descrito en la ecuación de forma reducida (8.3), pero incluyendo todos los instrumentos válidos disponibles. Para llevar a cabo esto utilizamos un modelo de MCO:
X1i=η0+ϕ1Z1i+ϕ2Z2i+η2X2i+⋯+ηkXki+Vi
En este caso, para evaluar si los instrumentos son relevantes, calculamos el estadístico F que se relaciona con la siguiente prueba de hipótesis:
H0:ϕ1=0ϕ2=0H1:ϕ1≠0|ϕ2≠0
Utilizando los resultados de esta estimación podemos predecir el valor de X1i basado únicamente en la información que proporcionan los instrumentos y las variables exógenas:
ˆX1i=ˆη0+ˆϕ1Z1i+ˆϕ2Z2i+ˆη2X2i+⋯+ˆηkXki
8.3.2 Segunda Etapa (Second Stage)
La segunda etapa consiste en utilizar el supuesto de exogeneidad de los instrumentos para derivar estimadores insesgados de los coeficientes del modelo (8.2). Para esto utilizaremos las condiciones de primer orden dadas por:
N∑i=1(Yi−ˆβ0−ˆβ1ˆX1i−ˆβ2X2i−⋯−ˆβkXki)=0
N∑i=1ˆX1i(Yi−ˆβ0−ˆβ1ˆX1i−ˆβ2X2i−⋯−ˆβkXki)=0
Y para j=2,…,k:
N∑i=1Xji(Yi−ˆβ0−ˆβ1ˆX1i−ˆβ2X2i−⋯−ˆβkXki)=0
Esto resultará en los mismos estimadores que los obtenidos por estimar el siguiente modelo utilizando MCO:
Yi=β0+β1ˆX1i+β2X2i+⋯+βkXki+Wi
Nótese que dado que ˆX1i es una función de Z1i y Z2i, no tendremos el problema de sesgo por variables omitidas y los coeficientes que resulten de esta estimación serán insesgados si Z1i y Z2i cumplen con los supuestos para ser instrumentos válidos.
8.4 Inferencia - Errores estándar
Tomando notación matricial, sea el modelo (8.2):
Yi=X′iβ+Ui donde Xi=[1X1iX2i…Xki]′
Y sea: Xi=Z′iΠ+Wi donde Zi=[1Z1iZ2iX2i…Xki]′; la segunda columna de Π es la primera etapa: Π(.,2)=[η0ϕ1ϕ2η2…ηk]′ y el resto de las columnas tienen un coeficiente de 1 en la columna correspondiente a las variables exógenas del modelo original (i.e. X2,…,Xk) dado que éstas variables están en Xi y en Zi; y: Wi=[0Vi0…0]′ donde Vi es el error de la primera etapa.
Las ecuaciones (8.14) y (8.15) en términos matriciales se convierten en:
Y=Xβ+U
donde Y es el vector de variables dependientes que tiene una dimensión de (n×1); X es la matriz de variables independientes o regresores que tiene una dimensión de (n×k); β es un vector de coeficientes de dimensión (k×1); y U es un vector de errores del modelo estructural con dimensión (n×1).
X=ZΠ+W
donde Z es una matriz que incluye los instrumentos y variables exógenas de X y tiene una dimensión (n×L) (L es el número de variables exógenas más el número de instrumentos); Π es la matriz descrita antes y tiene dimensión (L×k); y W es una matriz de (n×k) que conjunta a las Wi antes descritas (W=[0V0…0]′).
Partiendo de (8.17) tenemos:
X=ZΠ+WZ′X=Z′ZΠ+Z′W
y bajo el supuesto de que E(Z′W)=E(Z′V)=0 por exogeneidad de los instrumentos y las variables exógenas en la primera etapa:
Π=E(Z′Z)−1E(Z′X)
Por lo tanto, el estimador será:
ˆΠ=(Z′Z)−1Z′X
Para simplificar la notación subsecuente utilizaremos la matriz de proyección PZ=Z(Z′Z)−1Z′ que nos permite seguir la metodología descrita en el método de 2SLS. Utilizando el resultado de la primera etapa generamos una matriz X∗ que corresponde a la parte de X explicada por los instrumentos y las variables exógenas de X (i.e. X∗=ZΠ). Esta matriz deja intactas las variables exógenas de X y sustituye la variable endógena con el valor predicho por la primera etapa utilizando los instrumentos y las variables exógenas de X. La contraparte muestral de X∗ será:
ˆX=ZˆΠ=PZX
Utilizando X∗ en (8.16) obtenemos:
Y=Xβ+UX∗′Y=X∗′Xβ+X∗′U
Por lo tanto, si se cumple el supuesto de exogeneidad (E(X∗′U)=Π′E(Z′U)=0):
β=E(X∗′X)−1E(X∗′Y)
Y el estimador será32:
ˆβ=(ˆX′X)−1ˆX′Y=(X′P′ZX)−1ˆX′Y=(X′P′ZPZX)−1ˆX′Y=(ˆX′ˆX)−1ˆX′Y
Con esto hemos demostrado que el estimador de β resulta de hacer una regresión de Y como variable dependiente y ˆX como variables independientes.
La derivación de los errores estándar bajo los supuestos de homocedasticidad y heterocedasticidad sigue los mismos pasos que los descritos en la sección 3 tan solo sustituyendo X por ˆX. En este caso tendremos los siguientes estimadores y convergencias en probabilidad:
ˆαIV=(1NN∑i=1ˆXiˆX′i)−1⟶E(X∗iX∗i′)−1=αIV
ˆΣIV=(1NN∑i=1ˆU2iˆXiˆX′i)−1⟶E(U2iX∗iX∗i′)−1=ΣIV
donde ˆUi=Yi−X′iˆβ.
Y de la misma forma que la sección 3 en el caso de muestras grandes (teoría sintótica) tendremos convergencia en distribución para el estimador de β: √N(ˆβ−β)⟶N(0,αIVΣIVα′IV)
8.5 Problemas de instrumentos débiles
Los principales problemas del método de variables instrumentales (además de lograr encontrar un instrumento que cumpla con los supuestos establecidos) son:
Sesgo. A partir del resultado mostrado en (8.1) podemos ver que si el supuesto de exogeneidad falla (i.e. Cov(Ui,Zi)≠0) y nuestro instrumento es débil (i.e. Cov(Educi,Zi) es pequeño) el sesgo que resultaría en el estimador podría ser peor que en el caso de MCO.
Errores estándar. Los instrumentos débiles provocan que los errores estándar estimados del coeficiente sean grandes. Por lo tanto, el intervalo de confianza será amplio y la capacidad de determinar que un coeficiente es significativo será menor. Para una explicación de por qué los errores estándar son aumentan con instrumentos débiles se recomienda consultar (Wooldridge 2002, pp. 101-105).
Por último, una cualidad adicional que comúnmente se otorga al método de variables instrumentales es que evita el sesgo de atenuación causado por errores de medición como los discutidos en la sección 3.10.