3 Regresión

3.1 Causa-efecto con OLS

Una regresión simple

Yi=β0+β1Di+ui

donde Y es la variable dependiente (ingresos), D=1 si tiene título universitario y D=0 en otro caso, y u es el término de error que contiene lo que no podemos observar.

OLS estima el efecto de D en Y:

ˆβ1=cov(Yi,Di)var(Di)=β1+cov(Di,ui)var(Di)

ˆβ1 consiste de dos partes. La primera parte β1 mide el efecto en el que estamos interesados. La segunda parte es el sesgo.

ˆβ1 es igual a β1 solo si Di y ui no están correlacionados (cov(Di,ui)=0).

Resultados potenciales Análogo en regresión
E[Y1|D=1]E[Y0|D=1] β1
E[Y1|D=1]E[Y0|D=0] ˆβ1
E[Y0|D=1]E[Y0|D=0] cov(D,u)var(D)

Ejemplo

La siguiente tabla detalla una versión simplificada de la estrategia de emparejamiento de Dale y Krueger, en una configuración que llamamos la “matriz de emparejamiento de universidades.” Esta tabla enumera las solicitudes, admisiones y decisiones de matriculación para una lista (inventada) de nueve estudiantes, cada uno de los cuales postuló a hasta tres escuelas elegidas de una lista imaginaria de seis. Tres de las seis escuelas enumeradas en la tabla son públicas (All State, Tall State y Altered State) y tres son privadas (Ivy, Leafy e Smart). Cinco de nuestros nueve estudiantes (números 1, 2, 4, 6 y 7) asistieron a escuelas privadas. Las ganancias promedio en este grupo son USD 92000. Los otros cuatro, con ingresos promedio de USD 72500, fueron a una escuela pública. La brecha de casi USD 20000 entre estos dos grupos sugiere una gran ventaja para las escuelas privadas.

Número de valores posibles para el vector de asignación por diseño y tamaño de muestra

Figure 3.1: Número de valores posibles para el vector de asignación por diseño y tamaño de muestra

Los estudiantes de la tabla están organizados en cuatro grupos definidos por el conjunto de escuelas a las que postularon y fueron admitidos. Dentro de cada grupo, es probable que los estudiantes tengan ambiciones profesionales similares, mientras que el personal de admisiones de las escuelas a las que postularon también consideró que tenían una capacidad similar. Por lo tanto, las comparaciones dentro de los grupos deberían ser considerablemente más equivalentes a las comparaciones no controladas que involucran a todos los estudiantes.

  1. E(Y|Private)E(Y|Public)=((110+100+60+115+75)/5(110+30+90+60)/4)×1000=19500

  2. E(Y|Private,A o B)E(Y|Public,A o B)=((110+100+60)/3(110+30)/2)×1000=20000

  3. E(Y|Private,A)E(Y|Public,A)=((110+100)/2(110)/1)×1000=5000

  4. E(Y|Private,B)E(Y|Public,B)=((60)/1(30)/1)×1000=30000

El promedio ponderado de 3 y 4 es 9000 (3/5*(-5000)+2/5*(30000)), no ponderado es 12500. Esta diferencia es mucho menor a la que tendríamos sin control alguno. Este método es un match en el grupo aplicante.

Los grupos C y D no son informativos, porque, desde la perspectiva de nuestro esfuerzo por estimar el efecto del tratamiento de una escuela privada, cada uno está compuesto por individuos que han recibido todos los tratamientos o que están totalmente controlados.

3.1.1 Sesgo de variable omitida (OVB)

Regresión completa:

Yi=α+βPi+γAi+ei

Regresión corta:

Yi=αs+βsPi+esi Regresión auxiliar

Ai=π0+π1Pi+ui De lo cual tenemos:

OVB=βsβ=π×γ

Por ejemplo, si tenemos el siguiente modelo:

Yi=α+0.152Privada+0.051SAT+ei Yi=αs+0.212Privada+esi Entonces β=0.152,βs=0.212 y

OVB=0.212×0.152=0.06

3.2 Malos controles

No siempre incluir más controles es mejor.

  • Algunas variables son malos controles y no deben incluirse en un modelo de regresión incluso si su inclusión cambia el coeficiente de interés.
  • Los malos controles son variables que son en sí mismas variables de resultado.
  • Los buenos controles son variables que se han fijado en el momento en que se determinó el regresor de interés.

3.2.1 Ejemplo

  • Supongamos que estamos interesados en los efectos de un **título universitario en los ingresos** y que las personas pueden trabajar en una de dos ocupaciones, cuello blanco y cuello azul.
  • Un título universitario claramente abre la puerta a trabajos administrativos (cuello blanco) mejor pagados. Por tanto, ¿debería considerarse la **ocupación como una variable omitida en una regresión de los salarios según la escolaridad**?
  • Veamos el efecto de la universidad en los salarios de quienes están dentro de una ocupación, digamos sólo de cuello blanco.
  • El problema es que si la universidad afecta la ocupación, las comparaciones de salarios por estado de título universitario dentro de una ocupación ya no son equivalentes, incluso si la finalización del título universitario se asigna al azar.
  • Modelo de resultados potenciales

Yi=CiY1i+(1Ci)Y0i Wi=CiW1i+(1Ci)W0i donde W indica un trabajador de cuello blanco, Y denota ingresos y C es un indicador para graduados universitarios.

  • Los subíndices $1$ y $0$ indican resultados potenciales con y sin universidad. Suponemos que $C$ se asigna aleatoriamente.
  • Los efectos causales de $C$ sobre $Y$ o $W$ son sencillos (debido a la independencia que estamos suponiendo).

E[Yi|Ci=1]E[Yi|Ci=0]=E[Y1iY0i] E[Wi|Ci=1]E[Wi|Ci=0]=E[W1iW0i] - Un mal control significa que una comparación de ganancias condicionada a Wi no tiene una interpretación causal.

  • Considere la diferencia en los ingresos medios entre los graduados universitarios y otras personas condicionadas a trabajar en un trabajo administrativo (cuello blanco).
  • Podemos calcular esto en un modelo de regresión que incluye $W_i$ o regresando $Y_i$ sobre $C_i$ en la muestra donde $W_i = 1$:

E[Yi|Wi=1,Ci=1]E[Yi|Wi=1,Ci=0]=E[Y1i|W1i=1,Ci=1]E[Y0i|W0i=1,Ci=0] - Mediante la independencia conjunta de los resultados potenciales y Ci, tehemos:

E[Y1i|W1i=1,Ci=1]E[Y0i|W0i=1,Ci=0]=E[Y1i|W1i=1]E[Y0i|W0i=1]

  • Esta expresión ilustra la naturaleza de **comparar manzanas con naranjas** del problema del mal control:

E[Y1i|W1i=1]E[Y0i|W0i=1]=E[Y1iY0i|W1i=1]+(E[Y0i|W1i=1]E[Y0i|W0i=1]) donde el primer término en el lado derecho es el efecto causal en los graduados universitarios, y el segundo término es el sesgo de selección.

set.seed(123)

n <- 300000
habilidad <- rnorm(n)
universidad <- runif(n)>0.5 # asigna universidad aleatoriamente a la mitad

cuelloBlanco <- (0.5*universidad+0.5*habilidad+0.5*rnorm(n))>0

lnsalario <- log(10000)+0.2*universidad+0.8*cuelloBlanco+0.4*habilidad+rnorm(n)

m1 <- lm(lnsalario~universidad)
m2 <- lm(lnsalario~universidad+cuelloBlanco)
m3 <- lm(lnsalario~universidad+cuelloBlanco+habilidad)
m4 <- lm(cuelloBlanco~universidad)

library(jtools)
export_summs(m1, m2,m3,m4)
Table 3.1:
Model 1Model 2Model 3Model 4
(Intercept)9.61 ***8.98 ***9.21 ***0.50 ***
(0.00)   (0.00)   (0.00)   (0.00)   
universidadTRUE0.40 ***0.08 ***0.20 ***0.26 ***
(0.00)   (0.00)   (0.00)   (0.00)   
cuelloBlancoTRUE       1.26 ***0.80 ***       
       (0.00)   (0.00)          
habilidad              0.40 ***       
              (0.00)          
N300000       300000       300000       300000       
R20.03    0.26    0.33    0.07    
*** p < 0.001; ** p < 0.01; * p < 0.05.