1 Introducción

Papers

Experimentos aleatorios

  • De Ree et al. (2018)
  • Ashraf, Berry, and Shapiro (2010)
  • Jayachandran et al. (2017)

Regresión

  • DiNardo and Pischke (1997)
  • Leuven and Oosterbeek (2008)

Matching

  • Ichino, Mealli, and Nannicini (2008)
  • Imbens (2015)

Diferencias en diferencias

  • Card and Krueger (2000)
  • Marie and Zölitz (2017)

Regresión discontinua

  • Pop-Eleches and Urquiola (2013)
  • Angrist and Lavy (1999)

1.1 ¿Qué es la inferencia causal?

Es el apalacamiento entre teoría y un conocimiento profundo de los detalles institucionales para estimar el impacto de eventos y decisiones sobre una variable de interés (Cunningham (2021))

La inferencia causal compara resultados potenciales, descripciones del mundo cuando se toman caminos alternativos (Angrist and Pischke (2014))

La inferencia causal siempre ha sido el nombre del juego en la econometría aplicada. El estadístico Paul Holland (1986) advierte que no puede haber causalidad sin manipulación, una máxima que parecería descartar la inferencia causal a partir de datos no experimentales. Los observadores menos reflexivos recurren a que la correlación no es causalidad. Como la mayoría de las personas que trabajan con datos para ganarse la vida, creemos que la correlación a veces puede proporcionar una evidencia bastante buena de una relación causal, incluso cuando la variable de interés no ha sido manipulada por un investigador o experimentador (Angrist and Pischke (2008)).

Uno de los pioneros en la inferencia causal es Ronald Fisher (Fisher (1935)) gracias a su libro The Design of experiments. Hoy es usual encontrar temas de inferencia causal como evaluación de programas.

1.2 Correlación no es causalidad

El efecto Mozart (Stock, Watson, and others (2015), p.186)

Imagínese que tenemos datos sobre el coeficiente intelectual de los niños a los 12 años y si estuvieron expuestos (sí/no) a Mozart cuando eran bebés.

Si tomamos los puntajes de CI promedio en ambos grupos, y simplemente tomamos la diferencia.

¿Qué esperas? ¿Qué significa eso?

Estadísticamente, significa que existe una asociación positiva entre la exposición a Mozart y el coeficiente intelectual.

¿Podemos darle a esta asociación una interpretación causal?

¿Escuchar a Mozart (causa) te hace más inteligente (efecto)? O ¿Hay algo más que impulse esta asociación?

Salario y Educación

Ahora tenemos información sobre los ingresos de las personas y si tienen un título universitario (sí/no)

Si comparamos las ganancias promedio en ambos grupos, ¿qué encontramos?

¿Podemos darle a esta asociación una interpretación causal?

¿Ganarías menos (efecto) si no hubieras ido a la universidad (causa)?

A veces hay correlaciones causales aún sin haber correlaciones observables.

Imaginemos un Banco Central que consulta al oráculo de delfos si se aproxima una recesión. Al tener una respuesta afirmativa el BC compra bonos inyectando liquidez a la economía. Estas operaciones de mercado abierto no mostrarán correlación con el resultado.

Los seres humanos muy rara vez actúan de manera aleatoria, y es la principal razón del por qué a correlación no implica causalidad. De hecho, la presencia de aleatoriedad es cricial para identificar efectos causales.

Existen dos grandes grupos de datos en términos generales: experimentales y no experimentales (también llamamos observacionales).

En datos observacionales, la regla es que correlación no implica causalidad, no la excepción. En parte esto se debe a que somos seres humanos quienes decidimos qué variables serán necesarias para tomar la mejor decisión, lo cual genera endogeneidad.

La elección o tratamiento que se estudia debe ser independiente de los potenciales resultados que se desea evaluar, solo así puede considerarse como un efecto causal.

Análisis Empírico: uso de datos para probar una teoría o estimar alguna relación entre variables.

1.3 Un repaso de regresión lineal

1.3.1 El valor esperado, esperanza

Suponga que la variable X puede tomar valores x1,x2,,xk, cada uno con probabilidad f(x1),f(x2),,f(xk) respectivamente. Se define el valor esperado como

E(X)=x1f(x1)+x2f(x2)++xkf(xk)=kj=1xjf(xj) Veamos un ejemplo numérico. Si X toma valores 1,0,2 con probabilidades 0.3, 0.3 y 0.4 respectivamente, entonces el valor esperado de X es

E(X)=(1)(0.3)+(0)(0.3)+(2)(0.4)=0.5

De hecho, se puede tomar la esperanza de una función de a variable X, por ejemplo de X2. En este caso X2 toma valores 1,0,4 con las mismas probabilidades:

E(X2)=(1)2(0.3)+(0)2(0.3)+(2)2(0.4)=1.9 Propiedades

  • Para cualquier constante c, E(c)=c.
  • Para cualquier par de constantes a y b, E(aX+b)=E(aX)+E(b)=aE(X)+b.
  • Si tenemos las constantes a1,,an y las variables aletorias X1,,Xn, entonces:

E(a1X1++anXn)=a1E(X1)++anE(Xn) E(ni=1aiXi)=i=1aiE(Xi)

El operador de esperanza E() es un concepto poblacional. Se refiere a todo el grupo de interés, no solo a la muestra que tenemos disponible.

  • Sean W y H dos variables aleatorias y a y b dos constantes:

E(aW+b)=aE(W)+b para cualquier constantes abE(W+H)=E(W)+E(H)E(WE(W))=0

1.3.2 Varianza

La varianza de una variable aleatoria W está dada por

V(W)=σ2=E[(WE(W))2] en la población Podemos mostrar que

V(W)=E(W2)E(W)2

En una muestra dada de datos, podemos estimar la varianza mediante:

ˆS2=(n1)1ni=1(xi¯x)2

Propiedades

  • La varianza de aX+b es V(aX+b)=a2V(X)
  • V(c)=0 para cualquier constante c
  • La varianza de la suma de dos variables aleatorias X y Y es

V(X+Y)=V(X)+V(Y)+2(E(XY)E(X)E(Y))

  • Si las dos variables son independientes, entonces E(XY)=E(X)E(Y) y V(X+Y) es igual a la suma de V(X)+V(Y).

1.3.3 Covarianza

La parte final de la ecuación \tag{1.1} es la covarianza. La covarianza mide la cantidad de dependencia lineal entre dos variables aleatorias. Lo representamos con el operador C(X,Y).

La expresión C(X,Y)>0 indica que dos variables se mueven en la misma dirección, mientras que C(X,Y)<0 indica que se mueven en direcciones opuestas. Por tanto, podemos reescribir la ecuación \tag{1.1} como:

V(X+Y)=V(X)+V(Y)+2C(X,Y)

Si bien es tentador decir que una covarianza cero significa que dos variables aleatorias no están relacionadas, eso es incorrecto. Podrían tener una relación no lineal. La definición de covarianza es

C(X,Y)=E(XY)E(X)E(Y)

Como dijimos, si X e Y son independientes, entonces C(X,Y)=0 en la población. La covarianza entre dos funciones lineales es:

C(a1+b1X,a2+b2Y)=b1b2C(X,Y)

Las dos constantes, a1 y a2, se hacen cero porque su media son ellas mismas y, por lo tanto, la diferencia es igual a 0.

Interpretar la magnitud de la covarianza puede ser complicado. Para eso, estamos mejor si analizamos la correlación. Sea W=XE(X)V(X) y Z=YE(Y)V(Y), entonces:

Corr(X,Y)=Cov(W,Z)=C(X,Y)V(X)V(Y)

El coeficiente de correlación está limitado por 1 y 1. Una correlación positiva (negativa) indica que las variables se mueven de la misma manera (opuesta). Cuanto más cerca esté el coeficiente de 1 o 1, más fuerte será la relación lineal.

1.3.4 El modelo poblacional

Suponga que hay dos variables, x e y, y queremos ver cómo varía y con los cambios en x.

Hay tres preguntas que surgen de inmediato:

  1. ¿qué pasa si y se ve afectado por factores distintos de x? ¿Cómo manejaremos eso?

  2. ¿cuál es la forma funcional que conecta estas dos variables?

  3. si estamos interesados en el efecto causal de x sobre y, ¿cómo podemos distinguir eso de una correlación?

Comencemos con un modelo específico:

y=β0+β1x+u

Se supone que este modelo es el que sigue la población. La ecuación (1.2) define un modelo de regresión lineal bivariado. Los términos del lado izquierdo generalmente se consideran el efecto, y los términos del lado derecho se consideran las causas.

Respuestas a nuestras preguntas:

  1. La ecuación (1.2) permite explícitamente que otros factores afecten a y al incluir una variable aleatoria llamada término de error, u.

  2. Esta ecuación también modela explícitamente la forma funcional asumiendo que y es linealmente dependiente de x. Llamamos al coeficiente β0 el parámetro de intersección y al coeficiente β1 el parámetro de la pendiente.

Estos describen una población, y nuestro objetivo en el trabajo empírico es estimar sus valores. Nunca observamos directamente estos parámetros, porque no son datos. Sin embargo, lo que podemos hacer es estimar estos parámetros utilizando datos y supuestos. Para hacer esto, necesitamos supuestos creíbles para estimar con precisión estos parámetros con datos.

En este marco de regresión simple, todas las variables no observadas que determinan y están absorbidas por el término de error u.

  1. Aún debemos elaborar más para poder responder a esta pregunta.

Sin pérdida de generalidad, sea el valor esperado de u igual a cero en la población:

E(u)=0 Si normalizamos la variable aleatoria u para que sea 0, no tiene importancia. ¿Por qué? Porque la presencia de β0 (el término de intersección) siempre nos permite esta flexibilidad. Si el promedio de u es diferente de 0, por ejemplo, digamos que es α0, entonces ajustamos la intersección. Sin embargo, ajustar la intersección no tiene ningún efecto sobre el parámetro de pendiente β1. Por ejemplo:

y=(β0+α0)+β1x+(uα0)

donde α0=E(u). El nuevo término de error es (uα0), y el nuevo intercepto es β0+α0. Pero notemos que si cambia al intercepto, β1 no cambia.

1.3.5 Independencia en media

Se define como:

E(ux)=E(u) para todo x

donde E(ux) significa el valor esperado de u dado x. Si (1.4) es verdadera, entonces u es independiente en media de x.

Un ejemplo podría ayudar aquí. Supongamos que estamos estimando el efecto de la escolaridad en los salarios y u es una habilidad no observada. La independencia en media requiere que E(habilidadx=8)=E(habilidadx=12)=E(habilidadx=16). Debido a que las personas eligen en cuánta educación invertir en función de sus propias habilidades y atributos no observados, es probable que se viole la ecuación (1.4), al menos en este ejemplo.

Pero digamos que estamos dispuestos a hacer este supuesto. Luego, combinando esta nueva suposición, E(ux)=E(u) (supuesto nada trivial), con E(u)=0, se obtiene el siguiente nuevo supuesto:

E(yx)=β0+β1x

que muestra que la función de regresión poblacional es una función lineal de x, que también se conoce como función de esperanza condicional. Esta relación es crucial para la intuición del parámetro, β1, como parámetro causal.

1.3.6 Mínimos cuadrados ordinarios (OLS)

Dados los datos de x y y, ¿cómo podemos estimar los parámetros poblacionales, β0 y β1? Sean {(xi, and yi):i=1,2,,n} muestras aleatorias de tamaño n de la población. Al insertarlas en la ecuación poblacional tenemos:

yi=β0+β1xi+ui

donde i indica una observación particular. Observamos yi y xi pero no ui. Solo sabemos que ui está ahí. Luego usamos las dos restricciones de población que discutimos anteriormente:

E(u)=0E(ux)=0

para obtener ecuaciones para estimar β0 y β1. Usando lo muestral tenemos:

1nni=1(yi^β0^β1xi)=01nni=1(xi[yi^β0^β1xi])=0

resolviendo el sistema tenemos

^β0=¯y^β1¯x y

ˆβ1=ni=1(xi¯x)(yi¯y)ni=1(xi¯x)2=Covarianza muestral(xi,yi)Varianza muestral(xi)

Para cualquier estimación de ˆβ0,ˆβ1, definimos un valor ajustado para cada i como:

^yi=ˆβ0+ˆβ1xi Recuerde que i={1,,n}, entonces tenemos n de estas ecuaciones. Este es el valor que predecimos para yi dado que x=xi. Pero hay un error de predicción porque yyi. Llamamos a ese error el residuo, y aquí usamos la notación ^ui para ello. Entonces el residuo es igual a:

^ui=yi^yi^ui=yi^β0^β1xi Veamos una simulación:

library(tidyverse)

set.seed(1)
tb <- tibble(
  x = rnorm(10000),
  u = rnorm(10000),
  y = 5.5*x + 12*u
) 

reg_tb <- tb %>% 
  lm(y ~ x, .) %>%
  print()
## 
## Call:
## lm(formula = y ~ x, data = .)
## 
## Coefficients:
## (Intercept)            x  
##    -0.04991      5.55690
reg_tb$coefficients
## (Intercept)           x 
## -0.04990882  5.55690164
tb <- tb %>% 
  mutate(
    yhat1 = predict(lm(y ~ x, .)),
    uhat1 = residuals(lm(y ~ x, .)),
  )

summary(tb[-1:-3])
##      yhat1               uhat1         
##  Min.   :-20.45096   Min.   :-51.5275  
##  1st Qu.: -3.79189   1st Qu.: -8.1520  
##  Median : -0.13842   Median : -0.1727  
##  Mean   : -0.08624   Mean   :  0.0000  
##  3rd Qu.:  3.71578   3rd Qu.:  7.9778  
##  Max.   : 21.12342   Max.   : 44.7176
cc <- coef(lm(y ~ x, tb))

tb %>% 
  lm(y ~ x, .) %>% 
  ggplot(aes(x=x, y=y)) + 
  ggtitle("Línea de regresión OLS") +
  geom_point(size = 0.05, color = "black", alpha = 0.5) +
  geom_smooth(method = lm, color = "black") +
  annotate("text", x = -1.5, y = 30, color = "red", 
           label = paste("y-intercepto = ", round(cc[1],5))) +
  annotate("text", x = 1.5, y = -30, color = "blue", 
           label = paste("Pendiente =", round(cc[2],5)))

1.3.7 Propiedades de OLS

¿Recuerdas cómo obtuvimos β0 y β1? Cuando se incluye una intersección, tenemos:

ni=1(yiˆβ0ˆβ1xi)=0

El residuo de OLS siempre suma cero, por construcción.

ni=1^ui=0

La covarianza muestral (y por tanto la correlación muestral) entre las variables explicativas y los residuos es siempre cero:

ni=1xi^ui=0 Debido a que ^yi son funciones lineales de xi, los valores ajustados y los residuos tampoco están correlacionados:

ni=1^yi^ui=0

Ambas propiedades ((1.7) y (1.8)) se dan por construcción. En otras palabras, se seleccionaron ˆβ0 y ˆβ1 para que así sea.

Una tercera propiedad es que si sustituimos el promedio de x, predecimos el promedio de la muestra para y. Es decir, el punto (¯x,¯y) está en la línea de regresión OLS, o:

¯y=ˆβ0+ˆβ1¯x

1.3.8 Bondad de ajuste

Para cada observación, escribimos

yi=^yi+^ui

Definimos la suma total de cuadrados (SST), la suma de cuadrados explicada (SSE) y la suma de cuadrados residual (SSR) como

SST=ni=1(yi¯y)2SSE=ni=1(^yi¯y)2SSR=ni=1^ui2 que, divididas para n1, son varianzas muestrales de yi, ^yi y ^ui respectivamente.

Dado que la ecuación (1.8) muestra que los valores ajustados no están correlacionados con los residuos, podemos escribir la siguiente ecuación:

SST=SSE+SSR

Suponiendo que SST>0, podemos definir la fracción de la variación total en yi que se explica por xi (o la línea de regresión OLS) como

R2=SSESST=1SSRSST

Sin embargo, te animo a que no te fijes en R-cuadrado en proyectos de investigación donde el objetivo es estimar algún efecto causal. Es una medida de resumen útil, pero no nos informa sobre causalidad. Recuerda, no estás tratando de explicar la variación en y si estás tratando de estimar algún efecto causal. El R2 nos dice qué parte de la variación en yi se explica por las variables explicativas. Pero si estamos interesados en el efecto causal de una sola variable, R2 es irrelevante. Para la inferencia causal, necesitamos la ecuación (1.4) (independencia en media).

1.3.9 Esperanza de OLS

Los residuos siempre promedian a cero cuando aplicamos OLS a una muestra, independientemente de cualquier modelo subyacente. Pero nuestro trabajo se vuelve más difícil. Ahora tenemos que estudiar las propiedades estadísticas del estimador OLS, refiriéndonos a un modelo poblacional y asumiendo un muestreo aleatorio.

El campo de la estadística matemática se ocupa de cuestiones tipo ¿cómo se comportan los estimadores en diferentes muestras de datos? En promedio, por ejemplo, ¿obtendremos la respuesta correcta si muestreamos repetidamente? Necesitamos encontrar el valor esperado de los estimadores de OLS — en efecto, el resultado promedio en todas las muestras aleatorias posibles — y determinar si estamos en lo cierto, en promedio. Esto conduce naturalmente a que queramos que sea insesgado, una propiedad que es deseable para todos los estimadores.

E(ˆβ)=β Hay varios supuestos necesarios para que OLS sea insesgado

  1. La primera suposición se llama lineal en los parámetros.

  2. Nuestro segundo supuesto es el muestreo aleatorio. Tenemos una muestra aleatoria de tamaño n, {(xi,yi):i=1,,n}, siguiendo el modelo poblacional. Sabemos cómo utilizar estos datos para estimar β0 y β1 por OLS. Debido a que cada i es una extracción de la población, podemos escribir, para cada i:

y=β0+β1x+u

Observa que ui aquí es el error no observado para la observación i. No es el residuo lo que calculamos a partir de los datos.

  1. El tercer supuesto se llama variación muestral en la variable explicativa. Es decir, los resultados de la muestra en xi no tienen el mismo valor. Esto es lo mismo que decir que la varianza muestral de x no es cero.

  2. Se llama supuesto de media condicional igual a cero y es probablemente la suposición más crítica en la inferencia causal. En la población, el término de error tiene media cero dado cualquier valor de la variable explicativa:

E(ux)=E(u)=0 Este es el supuesto clave para mostrar que OLS es insesgado, y que el valor cero no tiene importancia una vez que asumimos que E(ux) no cambia con x. Ten en cuenta que podemos calcular estimaciones de OLS independientemente de que este supuesto se cumpla o no, incluso si existe un modelo poblacional subyacente.

Con estos supuestos en mente, demostremos (1.12) paso a paso.

Paso 1

Escribamos ^β1 como C(x,y)V(x):

^β1=ni=1(xi¯x)yini=1(xi¯x)2 Sea ni=1(xi¯x)2=SSTx (variación total de xi), entonces:

^β1=ni=1(xi¯x)yiSSTx Paso 2

Reemplazar cada yi con yi=β0+β1xi+ui (que usa el primer y segundo supuesto). El numerado sería:

ni=1(xi¯x)yi=ni=1(xi¯x)(β0+β1xi+ui)=β0ni=1(xi¯x)+β1ni=1(xi¯x)xi+ni=1(xi+¯x)ui=0+β1ni=1(xi¯x)2+ni=1(xi¯x)ui=β1SSTx+ni=1(xi¯x)ui

Notemos que usamos ni=1(xi¯x)=0 y ni=1(xi¯x)xi=ni=1(xi¯x)2. Se ha demostrado que:

^β1=β1SSTx+ni=1(xi¯x)uiSSTx=β1+ni=1(xi¯x)uiSSTx

Ten en cuenta que la última pieza es el coeficiente de pendiente de la regresión OLS de ui en xi, i:1,,n. No podemos hacer esta regresión porque las ui no se observan. Ahora define wi=(xi¯x)SSTxpara que tengamos lo siguiente:

^β1=β1+ni=1wiui

Esto nos ha mostrado lo siguiente: es una función lineal de los errores no observados, ui. Las wi son todas funciones de {x1,,xn}.

Paso 3

Encuentrar E(^β1). Bajo el supuesto de muestreo aleatorio y el supuesto de media condicional cero, E(uix1,,xn)=0, esto es, condicional a cada una de las x variables:

E(wiuix1,,xn)=wiE(uix1,,xn)=0

porque wi es una función de {x1,,xn}. Notemos que esta expresión es cierta debido a que E(uix1,,xn)=0, no porque sea un supuesto en sí mismo.

Ahora podemos completar la prueba: condicional en {x1,,xn}:

E(^β1)=E(β1+ni=1wiui)=β1+ni=1E(wiui)=β1+ni=1wiE(ui)=β1+0=β1