7 Experimentos aleatorizados

En las secciones anteriores detallamos el uso de diferentes herramientas de uso común en análisis econométricos. A partir de esta sección la discusión se enfoca en el problema de identificar efectos causales de una variable (\(X_1\)) sobre la variable dependiente de nuestro modelo (\(Y\)). El análisis causal está intrinsecamente ligado a la creación de modelos que en economía se plantean para entender de foma estructurada la forma en que individuos toman decisiones y cómo el cambio de algunos factores pueden influir de forma positiva o negativa en dichas decisiones. Lo que un modelo teórico plantea como estática comparativa, que consiste en ver el cambio en alguna variable de decisión que resulta del cambio de otra variable, un análisis empírico busca estimar vía un análisis causal.

Además, el análisis causal ha ganado creciente atención en diversos contextos mediante su aplicación en la evaluación de impacto de proyectos.18 Su uso se ha promovido intensamente como parte de una búsqueda de hacer proyectos basados en evidencia estadística. Esto ha resultado en una extensa promoción del uso de experimentos aleatorizados, implementados y analizados desde la perspectiva de ciencias sociales. En esta y las siguientes secciones nos enfocaremos en el análisis causal. Empezamos en esta sección con los experimentos aleatorizados, ya que es el método que goza de mayor aceptación por su alta validez interna. Las secciones siguientes exploran los métodos cuasi-experimentales que, de diferentes formas y bajo ciertos supuestos, replican condiciones similares a las de un experimento.

Antes de discutir el método de experimentos aleatorizados, empezamos esta sección con un conjunto de definiciones que son relevantes en cualquier análisis causal, independientemente del método utilizado. Recordamos también el problema de auto-selección como motivacion para el uso de los métodos experimentales y cuasi-experimentales.

7.1 Fundamentos

Para facilitar el análisis causal empezaremos por comparar el impacto de la implementación de alguna intervención. Podemos entender esto como la aplicación de algun programa cuyo impacto nos interesa medir. Siendo consistentes con la terminología ampliamente usada, describiremos a la implementación de dicho programa como el Tratamiento (\(T\)).19 Para poder medir su impacto, compararemos la implementación del proyecto respecto al statu quo o falta de programa al cual nos referiremos como el Control (\(C\))20. Imaginemos, por ejemplo, que nos interesa medir el impacto de un programa de construcción de bibliotecas sobre las capacidades lectoras (medidas con algún examen estandarizado). En este caso, el grupo de tratamiento correspondería a lugares donde se contruyó una biblioteca y el control a lugares donde no se construyó. Para distinguir en una base de datos entre ambos grupos utilizaremos una variable dummy \(T_i\) que tendrá valor igual a uno (\(T_i=1\)) si la observación \(i\) recibe tratamiento y valor igual a cero (\(T_i=0\)) si es parte del grupo de control.

Todo diseño de una intervención efectiva es importante que venga acompañada de trabajo previo que fundamente el por qué y el cómo de la intervención. En particular, es útil documentar el problema que se busca resolver y sustentar cómo una intervención pudiera ser efectiva para resolver el problema. Siguiendo esta misma lógica, al proponer un intervención es importante desarrollar una teoría de cambio. La teoría de cambio es una representación gráfica que busca dar sustento y estructura a la intervención. Va desde los insumos de la intervención (en nuestro ejemplo la construcción de una biblioteca) hasta los resultados finales que la intervención busca modificar (en nuestro ejemplo, las capacidades lectoras). Sin embargo, este vínculo entre insumos y resultados finales suele venir intermediado por distintos canales. Por ejemplo, para que la construcción de bibliotecas logre aumentar las capacidades lectoras, podría darse el caso que la biblioteca mejora el acceso y promueve el interés en la lectura, lo cual genera mejores hábitos de lectura, mismos que logran aumentar las capacidades lectoras. En este caso podríamos ver a la mejora en acceso y la promoción de interés en la lectura como variables intermediarias de primer nivel y a los mejores hábitos de lectura como un intermediario de segundo nivel.

Una vez establecida la teoría de cambio, el siguiente paso es identificar cuáles son las métricas que se emplearán para medir los conceptos que sea posible en la teoría de cambio. Para ello, suele utilizarse una matriz de indicadores que relacione los conceptos incluidos en la teoría de cambio con las métricas a utilizar. Por ejemplo, en el caso de la mejora en el acceso podría utilizarse como métrica la distancia de los hogares a la biblioteca mas cercana; como métrica de hábitos de lectura podría recopilarse información administrativa de número de prestamos de libros o alternativamente vía una encuesta, preguntar en los hogares el número de libros leidos al mes. Esta matriz de indicadores establece el vínculo entre la teoría de cambio y la base de datos que se utilizará para hacer el análisis econométrico.

Figure 7.1: Teoría de Cambio

En las secciones subsecuentes describiremos cómo llevar a cabo el análisis econométrico del impacto de la intervención sobre el resultado final. Los resultados intermedios se pueden utilizar cómo parte de un análisis separado donde se explore si algunos de los canales propuestos parecen estar activos. Las estrategias econométricas descritas a continuación aplican para identificar el efecto agregado que la intervención tiene sobre los resultados finales. Vale la pena aclarar que estas estrategias no deben entenderse como una forma de identificar el efecto de los distintos resultados intermedios sobre el resultado final, sino solo como el efecto de la intervención sobre el resultado final, donde varios de los canales propuestos en la teoría de cambio pudieran explicar los efectos encontrados. No será posible desagregar en que proporción cada resultado intermedio explica el resultado final, sino solo el acumulado de todos ellos. Sin embargo, las estrategias econométricas que describiremos pueden aplicarse para medir el impacto de la intervención sobre cada uno de los indicadores intermedios por separado. Para esto simplemente se tiene que utilizar cada resultado intermedio como variable dependiente (\(Y\)).

7.1.1 Resultados potenciales

Continuando con nuestro ejemplo, supongamos que estamos interesado en medir el efecto de la construcción de bibliotecas sobre las capacidades lectoras y utilizamos el resultado de una prueba como métrica del resultado final. Sea \(Y_i^T\) el resultado del niño \(i\) si recibe el tratamiento (i.e. vive en un lugar donde se construyó una biblioteca) y \(Y_i^C\) el resultado del mismo niño \(i\) si está en el control (i.e. vive en un lugar donde NO se contruyó biblioteca). A estos valores se les conoce como resultados potenciales. A nosotros nos interesa el valor de \(Y_i^T-Y_i^C\) que corresponde al efecto de tratamiento sobre el individuo \(i\).

Una limitación para poder identificar dicho efecto consiste en que para cada individuo solo es posible observar ya sea \(Y_i^T\) o \(Y_i^C\). Para esto, necesitamos aplicar el supuesto de no interferencia. Este supuesto consiste en que el resultado observable \(Y_i\) solo depende de de la asignación a tratamiento del propio individuo y no es afectado por la asignación a tratamiento de algún otro individuo \(j\). Pensemos, por ejemplo, que \(j\) es el mejor amigo del individuo \(i\). Si \(j\) es asignado a tratamiento y tiene mejor acceso a una biblioteca, podría suceder que \(i\), pese a estar en control, vea su resultado potencial \(Y_i^C\) afectado por \(j\). Este caso, y otros de externalidades que discutiremos mas adelante, representan una amenaza al supuesto de no interferencia. Este supuesto también es descrito como el supuesto SUTVA (Stable Unit Treatment Value Assumption) por sus siglas en inglés.

Definamos a \(Y_i\) como el resultado observable para el econometrista. Bajo el supuesto de SUTVA podemos definir:

\[\begin{equation} Y_i=Y_i^T T_i+Y_i^ C(1-T_i) \tag{7.1} \end{equation}\]

Dado que para cada individuo solo podemos observar uno de los dos resultados potenciales, usualmente el parámetro de interés que buscamos identificar consiste en una medida central de la distribución de los efectos de tratamiento. El parámetro mas común es el efecto promedio de tratamiento (Average Treatment Effect, ATE): \[\begin{equation} \tau=E(Y_i^T-Y_i^C) \tag{7.2} \end{equation}\]

7.1.2 Sesgo de autoselección

Un aspecto fundamental para poder utilizar el resultado observable \(Y_i\) para estimar el ATE es el método de asignación del tratamiento. Si el tratamiento se elige de forma voluntaria por los individuos, al tratar de estimarlo utilizando mínimos cuadrados ordinarios encontraremos lo que comúnmente llamamos el sesgo de autoselección. El sesgo de autoselección se puede asociar directamente al sesgo por variables omitidas que previamente describimos en el capítulo de MCO.

Imaginemos que queremos estimar el ATE con una regresión simple y el resultado observable. En dicho caso estimaríamos:

\[\begin{equation} Y_i = \beta_0 + \beta_1~T_i+U_i \tag{7.3} \end{equation}\]

Como previamente vimos en interpretación de MCO tendríamos que:

\[\begin{equation*} \begin{split} \beta_1 & =E(Y_i|T_i=1)-E(Y_i|T_i=0) \\ &=E(Y_i^T T_i+Y_i^ C(1-T_i)|T_i=1)-E(Y_i^T T_i+Y_i^ C(1-T_i)|T_i=0) \\ & =E(Y_i^T|T_i=1)-E(Y_i^C|T_i=0) \end{split} \end{equation*}\]

En este caso \(\beta_1\) corresponde a la diferencia del promedio de niños que recibieron el tratamiento y el promedio de niños de control. Para que \(\beta_1\) sea igual al ATE, en la ecuación anterior, sumemos y restemos \(E(Y_i^C|T_i=1)\). Este valor es no observado y corresponde al promedio que los niños de tratamiento hubieran tenido si no hubieran recibido el tratamiento (un contrafactual):

\[\begin{equation} \beta_1=[E(Y_i^T|T_i=1)-E(Y_i^C|T_i=1)]+[E(Y_i^C|T_i=1)-E(Y_i^C|T_i=0)] \tag{7.4} \end{equation}\]

El primer término de (7.4) se puede expresar como (\(E(Y_i^T-Y_i^C|T_i=1)\)) y corresponde al efecto promedio de tratamiento de los individuos tratados (Treatment on the Treated, TOT). El segundo término (\(E(Y_i^C|T_i=1)-E(Y_i^C|T_i=0)\)) corresponde al sesgo por selección. En nuestro ejemplo representa la diferencia en el promedio de niños de tratamiento y control si el tratamiento no hubiese existido (i.e. si ambos hubieran recibido el control). Por ejemplo, supongamos que tenemos niños en localidades que decidieron construir una biblioteca y otros en localidades que no lo hicieron. Si la construcción de escuelas está explicada porque en esas localidades existía una mayor demanda de niños y padres de familia por tener mejor acceso a material de lectura, es posible que aún sin la existencia de las bilbiotecas, dichos padres y niños hubieran conseguido material de lectura de otra forma. Por lo tanto, podría ser razonable asumir que sus capacidades lectoras aún sin bibliotecas se hubieran desarrolado mejor y tendríamos que \(E(Y_i^C|T_i=1)>E(Y_i^C|T_i=0)\). Por lo tanto, el segundo término de la ecuación (7.4) es positivo y \(\beta_1\) sobre-estimaría el TOT.21

7.1.3 Aleatorización del tratamiento

Los experimentos aleatorizados (Randomized Control trials, RCTs) resuelven el probema del sesgo de autoselección asignando el tratamiento al azar. Si \(T_i\) es una asignación aleatoria será fácil de justificar el supuesto de independencia: \[ \{Y_i^T,Y_i^C\}~\perp T_i \]

Bajo este supuesto, el término de autoselección desaparece. La intuición de esto es que si la decisión de construir las bibliotecas es al azar, uno esperaría que tanto en lugares con y sin acceso a bilbiotecas exista una demanda similar de parte de los niños y padres por material de lectura. Por lo tanto, la distribución de \(Y_i^C\) es similar en ambos grupos y se justifica que \(E(Y_i^C|T_i=1)=E(Y_i^C|T_i=0)\). Asimismo, respecto al primer término, esperaríamos que los efectos de tratamiento se distribuyeran de forma similar en el grupo de tratamiento y control (\(E(Y_i^T-Y_i^C|T_i=1)=E(Y_i^T-Y_i^C|T_i=0)\)). Con ello tendríamos que el TOT y el ATE deberían ser iguales en valor esperado y podríamos estimarlos con \(\beta_1\) de nuestra regresión simple de la ecuación (7.3).

Cabe señalar que en este caso el ATE es una estimación del efecto agregado del tratamiento. Dicho de otra manera, no resulta de una derivada parcial (caeteris paribus), sino de una derivada total. Esto se debe a que es muy posible que el tratamiento, además de tener un impacto directo sobre la variable dependiente, puede tener efectos indirectos, como describimos previamente. En nuestro ejemplo de la contrucción de bibliotecas, puede ser que los niños con acceso a bibliotecas estén más motivados y fomen mejores hábitos de lectura, como discutimos con la teoría de cambio . Ambos canales pueden llegar a tener efectos sobre las capacidades lectoras, pero será imposible determinar que parte del efecto que identificamos se debe a cada uno de los mecanismos descritos.

7.1.4 Beneficios de datos basales

Pese a que en un ambiente de experimentos aleatorizados no es estrictamente necesario levantar datos basales, entendidos como un conjunto de variables (\(X_i\)) que existen previo a la implementación de una intervención, es considerado una buena práctica ya que trae consigo diversos beneficios:

  1. Tablas de Balance. A pesar de que no sea posible demostrar directamente que la asignación al tratamiento cumple con el supuesto de independencia, es común utilizar controles recopilados en la línea basal para dar evidencia indirecta de esto. La idea es que en un ámbito de ausencia del tratamiento, es posible utilizar un conjunto de variables explicativas para modelar a la variable potencial \(Y_i^C\): \[\begin{equation} Y_i^C = X_i'\beta + U_i \tag{7.5} \end{equation}\] Para dar evidencia de que la asignación aleatoria fue satisfactoria en el sentido de independencia, las tablas de balance muestran la diferencia en las medias entre tratamiento y control para las variables \(X_i\), esperando que la mayoría de ellas no sean estadísticamente distintas. En algunos casos incluso se recopila la variable que se utilizará como resultado previo a la implementación del tratamiento \(Y_i\) en (\(t=0\)) y se incluye en esta comparación. Estas tablas suelen mostrar:
  • El estadístico-\(t\) del test de diferencias de medias entre tratamiento y control (empleando varianzas distintas entre ambos grupos). Se espera que en una aleatorización satisfactoria estos estadísticos no sean estadísticamente distintos de cero.

  • El estadístico-\(F\) de la significancia conjunta de todos los coeficentes de la siguiente estimación, esperando obtener un valor-p alto: \[T_i=X_i'\gamma + U_i\]

  1. Controles. Posibilidad de utilizar controles como parte de la estimación del ATE. Esto incluye la posibilidad de incrementar la eficiencia (aunque típicamente de forma muy limitada) y de llevar a cabo análisis de heterogeneidad en el ATE.

  2. Estratificación. Posibilidad de llevar a cabo estratificación en la asignación de tratamiento. En el diseño de un experimento esto se hace con el propósito de incrementar la eficiencia.

  3. Atrición. Se refiere a la pérdida de observaciones que originalmente se encontraban en la asignación del tratamiento. Esta es una preocupación importante en la práctica en muchos experimentos aleatorizados, por lo que más adelante dedicamos una sección a este problema.

7.2 Estimaciones econométricas

7.2.1 Estimación con MCO

El estimador más comunmente empleado en la práctica para el análisis de experimentos aleatorizados es una regresión simple de mínimos cuadrados ordinarios, como lo describimos previamente en la ecuación (7.3):

\[Y_i = \beta_0 + \beta_1~T_i+U_i\] En este caso, el coeficiente \(\beta_1\) corresponde a un estimador insesgado del efecto promedio de tratamiento (ATE) bajo el supuesto de SUTVA y de asignación aleatoria del tratamiento. En las siguientes secciones detallaremos ajustes posibles y estimaciones alternativas al estimador simple de mínimos cuadrados otrdinarios para el análisis econométrico adecuado de los experimentos aleatorizados.

Si en la ecuación previa sustituimos \(\beta_0=E(Y_i^C)\), \(\beta_1=(Y_i^T-Y_i^C)\) y \(U_i=Y_i^C-E(Y_i^C)\) podemos ver que obtendríamos la ecuación @ref\tag{7.1}. Esto motiva que podemos agregar controles a esta especificación utilizando la ecuación @ref\tag{7.5} para obtener: \[Y_i = \beta_0 + \beta_1~T_i+X_i'\beta + U_i\] Siendo que \(T_i\) es independiente y no está relacionada a \(X_i\), como mostramos en la tabla de balance, esto no debería afectar de forma importante el valor estimado de \(\beta_1\), pero podría mejorar su eficiencia si es que los controles ayudan a explicar de forma importante la variable dependiente \(Y_i\). Este es el típico argumento de uso de controles en RCTs para incrementar la eficiencia del estimador del ATE.

Es importante cuidar no utilizar cualquier variable como control. En particular, variables que pudieran representar resultados intermedios no deberían emplearse como controles ya que podrían sesgar la estimación. Imagínen que tienen una variable \(K_i\) que fue afectada por el tratamiento y representa un resultado intermedio. Para ver el efecto que el tratamiento tuvo sobre dicha variable podríamos estimar: \[K_i=\gamma_0+\gamma_1 T_i+V_i\] Ahora veamos que sucedería si agregamos a \(K_i\) como control en la estimación de los efectos de \(T_i\) sobre \(Y_i\):

\[\begin{equation*} \begin{split} Y_i &= \alpha_0 + \alpha_1~T_i+\alpha_2K_i + U_i \\ &=\alpha_0 + \alpha_1~T_i+\alpha_2(\gamma_0+\gamma_1 T_i+V_i) + U_i \\ &=(\alpha_0+\alpha_2\gamma_0) + (\alpha_1+\alpha_2\gamma_1)~T_i+(U_i+\alpha_2V_i) \\ &=\beta_0 + \beta_1~T_i+W_i \end{split} \end{equation*}\] Con esto podemos ver que el coeficiente de \(T_i\) que obtendríamos en el MCO simple (\(\beta_1\)) no es el mismo que obtendríamos como coeficiente de \(T_i\) si agregamos a \(K_i\) como control (\(\alpha_1\)). En particular, \(\beta_1=\alpha_1+\alpha_2\gamma_1\). Si el resultado intermedio tiene un efecto positivo sobre \(Y_i\) (\(\alpha_2>0\)) y el tratamiento tuvo un efecto positivo sobre el resultado intermedio (\(\gamma_1>0\)), entonces tendríamos que al agregar \(K_i\) como control estaríamos subestimando el efecto verdadero \(\beta_1\) ya que \(\alpha_1<\beta_1\).

7.2.2 Estimación de Neyman

El coeficiente \(\beta_1\) de la estimación simple de MCO representa la diferencia promedio de la variable dependiente entre el grupo de control y tratamiento. Neyman en 1935 propuso la aplicación de experimentos en agricultura y sugirió la estimación del efecto promedio de tratamiento (ATE) usando una diferencia de medias simple, que es equivalente a lo que el estimador de MCO produce: \[\begin{equation} \widehat{\tau}=\overline{Y^1}-\overline{Y^0} \tag{7.6} \end{equation}\]

donde \(\overline{Y^1}\) y \(\overline{Y^0}\) corresponden a los promedios simples de \(Y_i\) para los individuos asignados a los grupos de tratamiento y control, respectivamente:

\[\begin{equation*} \begin{split} \overline{Y^1} &= \frac{1}{N_T} \sum_{i|T_i=1} Y_i\\ \overline{Y^0} &= \frac{1}{N_C} \sum_{i|T_i=0} Y_i \end{split} \end{equation*}\]

Para demostrar que \(\widehat{\tau}\) es un estimador insesgado de \(\tau\), demostramos que es un estimador insesgado de \(\tau\) en la muestra que elegimos. Si la muestra es representativa de la población, entonces querría decir que es un estimador insesgado de \(\tau\) en la población.

Siguiendo a Athey e Imbens (2017) empezamos por definir el estadístico: \[\begin{equation} W_i=\biggl(\frac{T_i~Y_i}{N_T/N}- \frac{(1-T_i)~Y_i}{N_C/N}\biggl) \tag{7.7} \end{equation}\]

La motivación para definir este estadístico es que el promedio de \(W_i\) es igual a \(\widehat{\tau}\): \[\begin{equation*} \begin{split} \frac{1}{N} \sum_{i=1}^N~W_i &= \frac{1}{N} \sum_{i=1}^N \biggl(\frac{T_i~Y_i}{N_T/N} \biggl) - \frac{1}{N} \sum_{i=1}^N \biggl(\frac{(1-T_i)~Y_i}{N_C/N} \biggl) \\ & = \biggl( \frac{1}{N(N_T/N)} \sum_{i=1}^N T_i~Y_i \biggl) - \biggl( \frac{1}{N(N_C/N)} \sum_{i=1}^N (1-T_i)~Y_i \biggl) \\ & = \frac{1}{N_T} \sum_{i|T_i=1} Y_i - \frac{1}{N_C} \sum_{i|T_i=0} Y_i\\ & = \overline{Y^1}-\overline{Y^0} \end{split} \end{equation*}\]

Sabemos que si la asignación fue aleatoria y utilizando la definición (7.1), \(Y_i=Y_I^T\) si \(T_i=1\) y \(Y_i=Y_I^C\) si \(T_i=0\). Sustituyendo esto en la definición de \(W_i\) obtenemos: \[ W_i=\biggl(\frac{T_i~Y_i^T}{N_T/N}- \frac{(1-T_i)~Y_i^C}{N_C/N}\biggl) \] Al hacer el paso anterior implicitamente estamos diciendo que toda la incertidumbre está en la aleatoriedad de la asignación de \(T_i\). Si al azar se elige \(T_i=1\) (\(T_i=0\)), entonces el individuo tendrá como resultado \(Y_i^T\) (\(Y_i^C\)). Si calculamos el valor esperado de \(W_i\) obtenemos: \[\begin{equation*} \begin{split} E(W_i) & = E\biggl(\frac{T_i~Y_i^T}{N_T/N} \biggl)- E \biggl(\frac{(1-T_i)~Y_i^C}{N_C/N} \biggl) \\ & = \frac{Y_i^T}{N_T/N} E(T_i)- \frac{Y_i^C}{N_C/N} E(1-T_i) \end{split} \end{equation*}\]

Utilizando el hecho de que en el experimento aleatorizado por diseño se elegirán \(N_T\) unidades para el tratamiento y \(N_C\) para el control:

\[\begin{equation*} \begin{split} E(W_i) & = \frac{Y_i^T}{N_T/N} E(T_i)- \frac{Y_i^C}{N_C/N} E(1-T_i)\\ & = \frac{Y_i^T}{N_T/N} \cdot (N_T/N) - \frac{Y_i^C}{N_C/N} \cdot (N_C/N) \\ & = Y_i^T-Y_i^C \end{split} \end{equation*}\]

Utilizamos este resultado en el cálculo del valor estimado del estimador propuesto por Neyman para concluir nuestra demostración de que es un estimador insesgado del efecto promedio de tratamiento para nuestra muestra: \[\begin{equation*} \begin{split} E(\widehat{\tau}) & = E(\overline{Y^0}-\overline{Y^1}) \\ & = E \biggl( \frac{1}{N} \sum_{i=1}^N~W_i \biggl) \\ & = \frac{1}{N} \sum_{i=1}^N~E(W_i) \\ & = \frac{1}{N} \sum_{i=1}^N~(Y_i^T-Y_i^C) \\ \end{split} \end{equation*}\]

Neyman tambien estaba interesado en estimar un intervalo de confianza y, por tanto, en la varianza del estimador. Esto involucra una demostración mas complicada ya que la asignación del tratamiento donde se decide que \(N_T\) individuos recibiran el tratamiento, en vez de asignar aleatoriamente a cada individuo de forma independiente, hace que la varianza sea mas compleja. Como veremos mas adelante, en los cálculos de poder estadístico, poder controlar la proporción de individuos en tratamiento y control trae beneficios en la eficiencia del estimador. Sin embargo, si fijamos el número de individuos que recibirán tratamiento eso afecta la covarianza entre las observaciones, ya que si un individuo fue asignado a tratamiento eso afecta la probabilidad de que los individuos subsecuentes sean asignados a tratamiento.22

Para derivar una parte de la varianza veamos que: \[\begin{equation*} \begin{split} Var(\widehat{\tau}) & = Var(\overline{Y^0}-\overline{Y^1}) \\ & = Var(\overline{Y^0}) + Var(\overline{Y^1}) - 2~Cov(\overline{Y^0},\overline{Y^1}) \\ & = \frac{Var(Y_i^C)}{N_C} + \frac{Var(Y_i^T)}{N_T} - \frac{S_{01}^2}{N} \end{split} \end{equation*}\]

Los primeros dos términos se pueden estimar simplemente utilizando los valores observados de \(Y_i^T\) y \(Y_i^C\): \[\begin{equation*} \begin{split} S_0^2 & = Var(Y_i^C) = \frac{1}{N_C-1} \sum_{i|T_i=0} (Y_i-\overline{Y^0})^2\\ S_1^2 & = Var(Y_i^T) = \frac{1}{N_T-1} \sum_{i|T_i=1} (Y_i-\overline{Y^1})^2 \end{split} \end{equation*}\]

El último término \(S_{01}^2\) surge del hecho de que si queremos fijar el número de observaciones que recibirán tratamiento (\(N_T\)), la asignación del tratamiento ya no es independiente entre las observaciones. Para ilustrar esto piensen que la primera observación en ser aleatorizada tiene una probabilidad \(\frac{N_T}{N}\) de ser tratado. Supongamos que es asignado al tratamiento. Esto querría decir que la segunda undiad tendrá una probabilidad de \(\frac{N_T-1}{N-1}\) de ser asignado al tratamiento. El componente de la covarianza no puede estimarse ya que sería observar simultaneamente a \(Y_i^C\) y \(Y_i^T\) para algunos individuos. Athey e Imbens (2017) demuestran que este término es positivo;23 si lo ignoramos tendremos una sobre-estimación de la varianza. Por lo tanto, Neyman sugiere utilizar como varianza conservadora el siguiente término: \[\begin{equation} Var(\widehat{\tau}) = \frac{S_0^2}{N_C} + \frac{S_1^2}{N_T} \tag{7.8} \end{equation}\]

Este estimador de la varianza es muy cercano al resultado de asumir heterocedasticidad en la estimación de MCO. La varianza heterocedástica es ligeramente menor (indistinguible en muestras muy grandes) ya que para la estimación de \(S_0^2\) y \(S_1^2\) no utiliza el estimador insesgado de la varianza muestral y en cambio solo divide entre \(N_C\) y \(N_T\) en vez de \((N_C-1)\) y (\(N_T-1\)). Por lo tanto, el error estándar heterocedástico de MCO se podría calcular a través de la varianza del estimador de Neyman haciendo un pequeño ajuste: \[\begin{equation} Var(\beta_1^{MCO}) = \frac{S_0^2}{N_C}\cdot\frac{N_C-1}{N_C} + \frac{S_1^2}{N_T}\cdot\frac{N_T-1}{N_T} \tag{7.9} \end{equation}\]

7.2.3 Estratificación

Una alternativa para buscar incrementar la eficiencia del estimador del ATE consiste en utilizar los datos basales para estratificar la muestra y asignar el tratamiento de forma aleatoria al interior de cada estrato (manteniendo constante al interior de cada estrato la proporción de individuos tratados \(\frac{N_T}{N}\)). Intuitivamente, esta estrategia es equivalente a utilizar controles en una estimación de MCO, ya que en la práctica eso involucra estimar el tratamiento caeteris paribus los controles. Sin embargo, en la estratificación el caeteris paribus se genera por diseño en la distribución aleatoria del tratamiento. Para elegir las variables de la estratificación se sugiere que sean controles que tengan un valor predictivo importante sobre la variable dependiente.

En el caso de estratificar, es posible calcular el efecto promedio de tratamiento al interior de cada estrato. Tomando un promedio ponderado de estos efectos promedio es posible calcular el ATE de la muestra, donde los ponderadores son el tamaño relativo del estrato. La ganancia de este tipo de diseños proviene de la varianza. La intuición es que dado que la aleatorización se realiza al interior del estrato, eso generá una independencia entre algunos individuos al momento de distribuir el tratamiento. Regresando al argumento en el cálculo de la varianza de Neyman, en esa ocasión si el primer individuo era asignado tratamiento el segundo individuo tendría una probabilidad \(\frac{N_T-1}{N-1}\) de recibir tratamiento (lo cual rompía la independencia). Sin embargo, en el caso de la estratificación, si el segundo individuo se encuentra en un estrato distinto que el primer individuo, su probabilidad de recibir tratamiento dado que el primer individuo fue asignado a tratamiento, no se ve afectada (sigue siendo \(\frac{N_t}{N}\)). A este segundo individuo solo le afecta la asignación de tratamiento de otros individuos al interior de su mismo estrato. La ganacia en estratificación, sin embargo, es en valor esperado. Pudieran existir casos, particularmente si la vairable de estratificación tiene un bajo poder predictivo sobre la variable dependiente, donde en la práctica se obtenga una varianza mayor que la que se obtendría en una aleatorización sin estratificación. Sin embargo, este tipo de casos son lo suficientemente raros como para descartar el uso de la estratificación.

Por último, la estratificación por diseño además tiene beneficios sobre el balance de la muestra, haciendo mas improbable que la aleatorización resulte en una distribución no balanceada.

Imaginemos que al utilizar los datos basales formamos \(G\) estratos que denotaremos con el subíndice \(g=\{1,2,\dots,G \}\). Siguiendo la idea del estimador de Neyman podemos imaginar que en cada estrato se asigna una proporción constante de \(\frac{N_T}{N}\) individuos a tratamiento. Con esto tendremos en el estrato \(N_{T,g}=N_g*\frac{N_t}{N}\) individuos de tratamiento y \(N_{C,g}=N_g-N_{T,g}\) individuos de control, donde \(N_g\) representa el total de individuos en dicho estrato. Podemos calcular el efecto promedio de tratamiento al interior del estrato siguiendo la idea de la ecuación (7.6):

\[\begin{equation} \widehat{\tau_g}=\overline{Y_g^1}-\overline{Y_g^0} \tag{7.10} \end{equation}\]

donde \(\overline{Y_g^1}\) y \(\overline{Y_g^0}\) corresponden a los promedios simples de \(Y_i\) para los individuos asignados a los grupos de tratamiento y control al interior del estrato (para identificar el estrato utilizamos una dummy \(D_g=1\) si el individuo \(i\) pertenece al estrato \(g\) y \(D_g=0\) si pertenece a otro estrato):

\[\begin{equation*} \begin{split} \overline{Y_g^1} &= \frac{1}{N_{T,g}} \sum_{i|T_i=1,D_g=1} Y_i\\ \overline{Y_g^0} &= \frac{1}{N_{C,g}} \sum_{i|T_i=0,D_g=1} Y_i \end{split} \end{equation*}\]

Utilizando los promedios de tratamiento para los distintos estratos podemos calcular el efecto promedio de tratamiento (ATE) con un promedio ponderado:

\[\begin{equation} \widehat{\tau} = \sum_{g=1}^G \widehat{\tau_g}~\biggl(\frac{N_g}{N}\biggl) \tag{7.11} \end{equation}\]

Para la varianza primero necesitamos calcular las varianzas del estimador del efecto promedio para cada estrato. Al igual que (7.8) la varianza estará sobre-estimada: \[\begin{equation} Var(\widehat{\tau_g}) = \frac{S_{0,g}^2}{N_{C,g}} + \frac{S_{1,g}^2}{N_{T,g}} \tag{7.12} \end{equation}\]

donde los componentes \(S_{0,g}^2\) y \(S_{1,g}^2\) se calculan como: \[\begin{equation*} \begin{split} S_{0,g}^2 & = \frac{1}{N_{C,g}-1} \sum_{i|T_i=0,D_g=1} (Y_i-\overline{Y_g^0})^2 \\ S_{1,g}^2 & = \frac{1}{N_{T,g}-1} \sum_{i|T_i=1,D_g=1} (Y_i-\overline{Y_g^1})^2 \end{split} \end{equation*}\]

Dado que la elección de individuos entre distintos estratos es independiente, la varianza del estimador de ATE la podemos calcular con la suma ponderada de varianzas: \[\begin{equation} Var(\widehat{\tau}) = \sum_{g=1}^G Var(\widehat{\tau_g})~\biggl(\frac{N_g}{N}\biggl)^2 \tag{7.13} \end{equation}\]

Una versión extrema de la estratificación se conoce como un diseño de matched-pairs. En este caso, llevamos la idea de la estratificación al límite buscando tener la mayor independencia posible entre las asignaciones a tratamiento y control. En este caso, con las variables de la línea basal se busca hacer parejas de individuos (lo cual en la práctica puede ser muy difícil), donde uno de los individuos será asignado a tratamiento y el otro a control. Podemos utilizar buena parte de la notación previa, imaginando que en este caso \(g\) es un subíndice para las \(G\) parejas. Al interior de cada pareja ya no calcularemos un promedio sino una diferencia simple: \[\begin{equation} \widehat{\tau_g}=Y_g^1-Y_g^0 \end{equation}\]

El ATE en este caso se calcula como un promedio simple de las \(\frac{n}{2}\) distintas \(\widehat{\tau}_g\):24 \[\begin{equation} \widehat{\tau} = \frac{1}{N/2}~\sum_{g=1}^G~(\widehat{\tau}_g) \tag{7.14} \end{equation}\]

La varianza presenta una dificultad distinta dado que no será posible calcular \(S_{0,g}^2\) y \(S_{1,g}^2\) siguiendo las fórmulas previas porque al interior de una pareja no hay variación (recuerden que solo hay una observación de tratamiento y una de control al interior del estrato). Por lo tanto, se propone como estimador de la varianza de matched-pairs: \[\begin{equation} Var(\widehat{\tau}) = \frac{1}{N/2}\cdot \biggl(\frac{1}{\frac{N}{2}-1}~\sum_{g=1}^G~(\widehat{\tau}_g-\widehat{\tau})^2 \biggl) \tag{7.15} \end{equation}\]

La intuición de esta varianza es la usual de los promedios. Al interior del paréntesis estamos calculando la varianza muestral de las distintas \(\tau_g\) y al exterior del paréntesis dividimos esta varianza sobre el número de observaciones que se usan en este promedio (\(\widehat{\tau}\)).

7.2.4 FETs: Fisher Exact Test

Ronald Fisher propuso un análisis basado en el planteamiento de hipótesis nulas específcas a nivel individual (sharp null hypothesis). Este método se conoce como las Pruebas Exactas de Significancia de Fisher (FETs por sus siglas en inglés). La idea es que, bajo la hipótesis nula, los resultados potenciales pueden ser observados o inferidos. Pensemos, por ejemplo, que tenemos a un individuo que recibió control (\(T_i=0\)) y, por lo tanto, observamos \(Y_i=Y_i^C\). Tomemos la siguiente hipótesis nula: \[\begin{equation} H_0:Y_i^T=Y_i^C+\tau_i \tag{7.16} \end{equation}\]

Con esta hipótesis nula, si asumimos un valor para \(\tau_i\)25, querría decir que con la \(Y_i\) observada podríamos inferir el valor de \(Y_i^T\).

Para formar una intuición, imaginemos que tenemos un programa cuyo tratamiento no tiene ningún efecto (\(\tau_i=0\) para todo \(i\)). Esto querría decir que el tratamiento y el control tendrían valores de \(Y_i\) muy similares si fuesen observados simultáneamente. Entonces, si observamos a una persona bajo control y el tratamietno no tiene efecto, bien podríamos imaginar que su \(Y_i\) observada sería igual si hubiera recibido tratamiento.

El siguiente paso consiste en proponer algún estadístico \(W(Y,T)\) que nos permita formar evidencia para evaluar la hipótesis nula. Siguiendo la idea de nuestras secciones anteriores, utilizaremos la diferencia de las medias de tratamiento y control. Sin embargo, esto no es necesario para los FETs, podríamos en cambio utilizar cualquier otro estadístico.26 Nuestro estadístico propuesto es: \[W(Y,T)=\biggl(\frac{1}{N_T} \sum_{i|T_i=1}Y_i^T\biggl) - \biggl(\frac{1}{N_C} \sum_{i|T_i=0}Y_i^C\biggl)\] Siguiendo un espíritu similar a lo que vimos en bootstrap, este test realiza \(J\) simulaciones de la asignación al tratamiento. Es decir, simulará la selección de los \(N_T\) individuos de tratamiento varias veces, pese a que sean simulaciones falsas en el sentido de que no coincidirán con la asignación que efectivamente se realizó. Denotaremos a cada asignación simulada \(T^j\), que es un vector de dimensión \(N\) con \(N_T\) (\(T_i^j=1\)) y \(N_C\) (\(T_i^j=0\)). Mientras \(J\) sea mayor, nuestra precisión del valor-p aumentará, asi que se sugiere hacer diversas simulaciones. Para cada paso calcularemos el estadístico \(W(Y,T)\): \[W^j(Y,T)=\biggl(\frac{1}{N_T} \sum_{i|T^j_i=1}Y_i^T\biggl) - \biggl(\frac{1}{N_C} \sum_{i|T^j_i=0}Y_i^C\biggl)\] Por último, agregamos a todos los resultados de las simulaciones el valor del estadístico observado con la asignación verdadera. Con todos estos valores calculamos un valor-p contando la cantidad de simulaciones que generan un valor del estadístico más extremo al observado con la asignación del tratamiento que verdaderamente sucedió (\(W^{obs}(Y,T)\)): \[\begin{equation} p~value = \frac{1}{J} \sum_{j=1}^J 1\{~|W^j(Y,T)| \geq|W^{obs}(Y,T)|~\} \tag{7.17} \end{equation}\]

Para ilustrar esto veamos el siguiente ejemplo. Supongamos que nuestro tratamiento es una beca y nuestro outcome son las calificaciones finales. La tabla siguiente muestra 8 observaciones, donde las primeras 4 observaciones reciben tratamiento (\(N_T=4\)) y las últimas 4 control (\(N_C=4\)). Como la tabla muestra, para las primeras 4 observaciones \(Y_i=Y_i^T\) y para las últimas cuatro \(Y_i=Y_i^C\):

i \(Y_i\) \(T_i\) \(Y_i^T\) \(Y_i^C\)
1 9 1 9 .
2 9 1 9 .
3 10 1 10 .
4 8 1 8 .
5 7 0 . 7
6 5 0 . 5
7 6 0 . 6
8 8 0 . 8

Imaginemos que en nuestra primera simulación aleatoriamente obtenemos que las observaciones pares tienen tratamiento y las impares control. Siguiendo la estrategia de la tabla anterior podemos llenar 4 valores de \(Y_i^T\) y 4 de \(Y_i^C\). Luego utilizamos la hipótesis nula (7.16) y un valor de \(\tau_i=1\) para ver si podemos rechazar la hipótesis de que las becas generan, en promedio, un aumento de un punto en la calificación. Con este supuesto llenamos los valores restantes de las columnas de \(Y_i^T\) y \(Y_i^C\). Marcamos en negritas los valores contrafactuales que rellenamos con la hipótesis nula. Con esto, podremos calcular nuestro estadístico (\(W^j(Y,T)\)) para esta simulación.

i \(Y_i\) \(T^j_i\) \(Y_i^T\) \(Y_i^C\)
1 9 0 9 8
2 9 1 9 8
3 10 0 10 9
4 8 1 8 7
5 7 0 8 7
6 5 1 6 5
7 6 0 7 6
8 8 1 9 8

En esta simulación \(W^j(Y,T)=0.5\). Para simplificar nuestra ilustración supongamos que repetimos este ejercicio 10 veces, lo cual resulta en la siguiente tabla, donde cada renglón corresponde a una simulación distinta. En el primer renglón mostramos el resultado de la simulación que acabamos de realizar y en el último renglón indicamos la asignación que verdaderamente se realizó. En las columnas mostramos la asignación aleatoria de tratamiento para cada simulación y en la última columna el valor del estadístico correspondiente.

j \(T^j_1\) \(T^j_2\) \(T^j_3\) \(T^j_4\) \(T^j_5\) \(T^j_6\) \(T^j_7\) \(T^j_8\) \(W^j\)
1 0 1 0 1 0 1 0 1 0.5
2 0 1 1 1 0 1 0 0 1
3 1 0 1 0 1 0 0 1 2.5
4 1 0 0 0 1 1 1 0 -0.5
5 0 1 0 1 1 0 0 1 1.5
6 0 0 1 0 0 1 1 1 0.5
7 1 1 1 0 0 0 0 1 3
8 0 0 0 1 1 1 0 1 0
9 0 0 0 1 1 0 1 1 0.5
10 0 0 1 1 1 1 0 0 0.5
Real 1 1 1 1 0 0 0 0 2.5

Como podemos ver en este caso, solo las simulaciones \(j=\{3,7\}\) tienen valores iguales o más extremos que el estadístico observado \(W^{obs}(Y,T)=2.5\). Empleando el cálculo de (7.17) vemos que \(p~value=0.2\). A los valores usuales no rechazaríamos la hipótesis nula. Cabe resaltar, por supuesto, que la cantidad de simulaciones y observaciones que tenemos en nuestro pequeño ejemplo son pocas y se hicieron solo con fines ilustrativos.

7.3 Atrición

La atrición es un problema que suele presentarse en el contexto de experimentos aleatorizados, especialmente en las ciencias sociales, donde el control que se tiene sobre la muestra para dar seguimiento es menor que en el trabajo de laboratorio. Entendemos a la atrición como la pérdida de observaciones que originalmente se encontraban en el diseño del experimento y la asignación del tratamiento. Es importante como primer paso documentar el grado de atrición y si dicha atrición fue diferencial entre tratamiento y control. Se recomienda empezar por documentarla: reportar el porcentjade de las observaciones originales que no pudo ser observada al final del experimento y dividirla netre tratamiento y control.

La atrición es un problema que suele ser grave ya que puede venir acompañada de:

  • Pérdida de eficiencia en los estimadores (incremento en los errores estándar).

  • Problemas de validez externa si los individuos que abandonan el experimento son distintos de los que se mantienen. Para esto suele hacerse una versión de la tabla de balance descrita previamente para comparar a los individuos que se mantienen en la muestra con aquellos que salieron. Que haya diferencias significativas no quiere decir que tendremos un estimador sesgado del ATE, pero si el ATE es heterogéneo, podría querer decir que la población para la cual el estimador es representativo es distinta respecto a la población inicial que teníamos considerada en el estudio.

  • Problemas de validez interna si los individuos que abandonan el experimento lo hacen de forma diferenciada entre tratamiento y control. Esta es la preocupación más grave y típicamente la detectamos re-haciendo la tabla de balance con la muestra que tenemos disponible para el análisis final, es decir, después de la pérdida de observaciones.

En el resto de esta subsección nos enfocamos en estrategias utilizadas para lograr llevar a cabo una estimación enfocada en la validez interna. Para facilitar la exposición, imaginémos que quisiéramos emplear un MCO para estimar el ATE, pero únicamente contamos con un subconjunto de las observaciones inicialmente consideradas en la aleatorización. Supondremos también que para todas las observaciones podemos observar un conjunto de variables basales \(X_i\) que no hayan sido afectadas por el tratamiento (ni por una anticipación del tratamiento). Como ya explicamos previamente, dichas variables pueden (o no) ser incluidas como controles en la estimación de MCO, sin esto afectar el sesgo de la estimación. Nuestro objetico sería estimar:

\[\begin{equation} Y_i=\beta_0 + \beta_1~T_i+X_i'\beta_2+U_i \tag{7.18} \end{equation}\]

Dada la asignación aleatoria, suponemos que podríamos estimar este modelo con MCO de forma insesgada si tuviéramos acceso a todos los datos [\(E(T_iU_i|X_i)=E(T_iU_i)=E(T_i)E(U_i)=0)\)]. Sin embargo, el problema de atrición implica que no contamos con toda la información para algunos individuos (attritors): en particular tenemos la \(Y_i\) faltante. Definamos a \(s_i\) como una variable dummy que indica si para el individuo \(i\) tenemos los datos disponibles y, por lo tanto, lo podemos utilizar en la estimación.

Partiendo del modelo (7.18) podemos obtener:

\[\begin{equation} s_iY_i=\beta_0~s_i + \beta_1~T_i+s_iX_i'\beta+s_iU_i \tag{7.19} \end{equation}\]

Nótese que estimar este modelo con todas las observaciones es equivalente a estimar (7.18) con la muestra restringida, es decir, con las observaciones para las cuales \(s_i=1\). Por lo tanto, estaremos interesados en determinar bajo qué condiciones podemos estimar (7.19) consistentemente. En este caso, estamos utilizando todas las observaciones, por lo tanto, aun no es un problema el sesgo muestral. Necesitamos entonces fijarnos en las condiciones de primer orden de la estimación para determinar si pudiera haber sesgo. En este caso, las condiciones de primer orden serían:

\[\begin{equation} E[(s_i~T_i|X_i)(s_i~U_i|X_i)]=E[s_i~T_i~U_i|X_i]=0 \end{equation}\]

porque \(s_i^2=s_i\).

\[E(s_i~T_i~U_i|X_i)=E(s_i|X_i)~E(T_i~U_i|X_i)=0\]

7.3.1 Atrición aleatoria

En el caso en que la pérdida de observaciones fuese aleatoria, deberíamos poder observar que el balance en variables observables se mantiene entre el tratamiento y el control. Además, no debería representar un problema de validez externa dado que las observaciones perdidas deberían ser similares a las que se mantienen en la muestra. El único aspecto que podría afectar es la perdida de eficiencia en la estimación.

Para ver que esto no representa una amenaza en la identificación del ATE notemos que si la atrición es aleatoria o al menos independiente de variables observables y no observables se cumplirá que: \(E(s_i~T_i~U_i|X_i)=E(s_i|X_i)E(T_i~U_i|X_i)=0\). Esto podría suceder si la pérdida de observaciones ocurrió por un evento exógeno, como pérdida de encuestas o imposibilidad de recopilar datos por un problemas climáticos o desastres naturales.

Esta aleatoriedad de la atrición se podría evaluar si modelamos la pérdida de observaciones con una estimación: \[\begin{equation} S_i^* = \delta_0 + \delta_1~T_i + X_i'~\delta_2+Z_i'~\delta_3+V_i \tag{7.20} \end{equation}\] donde \(S_i^*\) es una variable latente que sirva con una estimación de probit o logit a modelar \(S_i=1\{S_i^*\geq0 \}\). En este caso utilizamos las variables \(X_i\) y \(Z_i\) para diferenciar entre variables que podrían ser relevantes para explicar a la variable dependiente del análisis (\(X_i\)) de aquellas que no lo sean, pero si sean relevantes para modelar la atrición (\(Z_i\)). En el caso de una atrición aleatoria podríamos evaluar la hipótesis conjunta de todos los coeficientes, esperando no rechazar la siguiente hipótesis nula: \[\begin{equation*} \begin{split} H_0:& \delta_1=0 \\ & \delta_2=0 \\ & \delta_3=0 \\ H_1:& ~e.o.c. \end{split} \end{equation*}\]

7.3.2 Atrición no aleatoria

En los casos en los cuales la atrición no parece ser aleatoria, el diseño del experimento original tendrá problemas de validez externa e interna, como discutimos previamente. En esta subsección enfocaremos la discusión hacia resolver el problema de validez interna para lograr obtener resultados no sesgados de nuestros estimadores. Algunos de los métodos que discutiremos pueden ser empleadas en contextos más amplios que el de experimentos aleatorizados.

Empecemos por considerar nuestra estimación de la especificación (7.18) restringiendo a los datos a los que tenemos acceso (\(S_i=1\)), mismos que modelamos con nuestra especificación (7.20):

\[\begin{equation} \begin{split} E(Y_i|T_i,X_i,Z_i,S_i=1) &= \beta_0+\beta_1~T_i + X_i'\beta_2 + E(U_i|T_i,X_i,Z_i,S_i=1) \\ &=\beta_0+\beta_1~T_i + X_i'\beta_2 + \dots \\ & ~~~+ E(U_i|T_i,X_i,Z_i,V_i\geq -\delta_0-\delta_1~T_i - X_i'\delta_2-Z_i'\delta_3) \end{split} \end{equation}\]

En este caso, el problema de sesgo se ve reflejado en que el último término no necesariamente es cero pese a que el tratamiento se haya asignado de forma aleatoria, ya que la pérdida de datos pudiera estar relacionado con \(T_i\). Un primer paso para analizar la atrición y su relación con la asignación de tratamiento consiste en estimar (7.20) con y sin los controles (\(X_i\)) y analizar si el coeficiente de \(T_i\) es significativo. Si al controlar por \(X_i\) el coeficiente de \(\delta_1\) pierde significancia, esto sugeriría que tal vez podemos emplear variables observables para modelar la pérdida de observaciones y controlar el sesgo por atrición. De lo contrario, necesitaríamos utilizar algún supuesto de restricción de exclusión y modelar la atrición. Finalmente, además de las alternativas anteriores podemos llevar a cabo una estimación de cotas (bounds) a los efectos, bajo ciertas restricciones adicionales de validez externa.

7.3.2.1 Inverse Probability Weights

Una alternativa que frecuentemente se emplea como solución a la atrición no aleatoria consiste en llevar a cabo una reponderación de las observaciones disponibles después de la atrición. Estos métodos utilizan variables observables que no deben haber sido afectadas por el tratamiento (de preferencia recopiladas durante la línea basal). Siendo métodos que utilizan variables observables que pudieran afectar al tratamiento, nos referiremos a estas en nuestra notación a las variables \(X_i\).

La intuición de estos modelos consiste en modificar el peso que le damos a cada una de las observaciones que tenemos disponibles para la estimación final (i.e. después de la atrición) con el propósito de obtener una muestra que sea similar a la muestra que teníamos originalmente. La similitud se define en términos de la distribución de las variables observables \(X_i\). Para este propósito existen modelos paramétricos y no paramétricos.

El Inverse Probability Weight (IPW), es un método no paramétrico donde empleamos la estimación de la especificación (7.20) que llevamos a cabo con un probit o logit. Esta especificación hace que las probabilidades que ser observado sean función de \(X_i\) (en esta discusión omitimos el uso de las variables \(Z_i\)), por lo tanto, podemos corregir el cálculo de los promedios, dándole mayor peso a las observaciones que sean poco probables de observar dados sus valores de \(X_i\). De aquí surge el nombre de probabilidad inversa e dichos pesos. La teoría que justifica el uso de estos pesos surge una aplicación de la ley de las esperanzas iteradas junto con la regla de Bayes.

Típicamente, cuando calculamos la media sumamos las \(Y_i\) y dividimos entre \(N\). Todas las siguientes derivaciones las hacemos para el caso de las observaciones de tratamiento. El cálculo para el control es idéntico, pero condicionando en \(T_i=0\). Si les facilita para seguir los siguientes cálculos, pueden omitir la condicional de (\(T_i=1\)). En la exposición lo dejo explícito solo para recordarles que estos pasos corresponden al tratamiento. Desde la perspectiva de una integral, el valor esperado es: \[\int_{T_i=1} yf(y|T_i=1)dy\]

Esta sumatoria en un contexto de una base de datos implicaría sumar todas las \(Y_i\) de los individuos en el grupo de tratamiento y dividir entre \(N_T\). Esto es equivalente a pensar que \(f(y|T_i=1)=\frac{1}{N_T}\) de forma uniforme. El problema de este cálculo es que no todas las observaciones están disponibles dado el problema de atrición, solo tenemos acceso a aquellas con \(S_i=1\). Con el IPW buscamos estimar \(f(y|T_i=1)\) utilizando información de un conjunto de variables basales \(X_i\) y las observaciones disponibles. Empezamos por considerar que podemos utilizar la Ley de Eseranzas Iteradas: \[f(y|T_i=1)=\int_{x,T_i=1} f(y,x|T_i=1)dx\] Para incorporar un cálculo que podamos estimar con el problema de atrición utilizamos la regla de Bayes: \[\begin{equation} \begin{split} g(y,x|T_i=1,S_i=1) &= \frac{Pr(S_i=1|y,x,T_i=1)}{Pr(S_i=1|T_i=1)}~f(y,x|T_i=1) \\ &=\frac{Pr(S_i=1|x,T_i=1)}{Pr(S_i=1|T_i=1)}~f(y,x|T_i=1) \\ &=\frac{f(y,x|T_i=1)}{w(x,T_i=1)} \end{split} \end{equation}\] donde \(g(.)\) representa una densidad conjunta condicional a que las variables son observables (\(S_i=1\)); la segunda igualdad resulta de que la probabilidad de atrición (condicional en \(X\)) es independiente de \(Y\), es decir, la atrición se explica por completo con \(X\); y la tercera igualdad sustituye \(w(x,T_i=1)=\biggl(\frac{Pr(S_i=1|x,T_i=1)}{Pr(S_i=1|T_i=1)}\biggl)^{-1}\). El componente \(w(x,T_i=1)\) es el ponderador en el IPW. Utilizando la derivación de la regla de Bayes podemos sustituir en la densidad que nos interesaba estimar para obtener:

\[f(y|T_i=1)=\int_{x,T_i=1,S_i=1} g(y,x|T_i=1,S_i=1)~w(x,T_i=1)dx\] Si llevamos esto a la práctica \(g(y,x|T_i=1,S_i=1)=\frac{1}{N_{TS}}\) en una sumatoria que esta empleando las observaciones de tratamiento después de la atrición. Agregando el ponderador podemos entonces estimar:

\[\begin{equation} \overline{Y^1_s}=\frac{1}{N_{TS}}\sum_{i|T_i=1,S_i=1} w(X_i,T_i=1)~Y_i \tag{7.21} \end{equation}\]

donde \(w(X_i,T_i=1)\) la podemos estimar con un probit o logit. Podemos emplear una versión simplificada de (7.20) donde solo usamos nuestras variables \(X_i\) observables para modelar la atrición: \[S_i^* = X_i'~\delta_1+\delta_2~T_i +V_i\]

Sustituyendo el resultado de esta estimación para el cálculo de \(w(X_i,T_i=1)\) obtenemos:

\[w(X_i,T_i=1)= \biggl(\frac{\Phi(X_i'\delta_1+\delta_2)}{N_{TS}/N_T }\biggl)^{-1}\]

donde \(\Phi(.)\) es la densidad acumuladad de la distribución normal o logística dependiendo de si utilizamos un probit o logit en la estimación de la atrición y \(N_{TS}\) es el número de observaciones de tratamiento después d ela atrición. Con esto, tenemos todos los elementos necesarios para estimar el valor promedio de tratamiento. La derivación del promedio para el control es similar y resulta en: \[\begin{equation} \overline{Y^0_s}=\frac{1}{N_{CS}}\sum_{i|T_i=0,S_i=1} w(X_i,T_i=0)~Y_i \tag{7.22} \end{equation}\]

donde los ponderadores corresponidentes son: \[w(X_i,T_i=0)= \biggl(\frac{\Phi(X_i'\delta_1)}{N_{CS}/N_C }\biggl)^{-1}\] Asi pues obtenemos nuestro estimador del ATE con IPW: \[\tau^{IPW}= \overline{Y^1_s} - \overline{Y^0_s}\] Con este planteamiento podemos utilizar el estimador de Neyman o una regresión de mínimo cuadrados ponderados (Weighted Least Squares, WLS) donde el ponderador es precisamente \(w(X_i,T_i)\).

7.3.2.2 Heckman

El modelo de Heckman se enfoca en emplear variables \(Z_i\) para modelar la atrición y estimar de forma insesgada el ATE. Una condición importante para el uso de este modelo es que es necesario identificar esta(s) variable(s) \(Z_i\) que cumpla(n) con la condición de explicar la atrición, pero no explicar a la variable dependiente \(Y_i\) en la especificación (7.18). A esto lo conocemos como la restricción de exclusión que necesitamos para este modelo. Una limitación con este supuesto es que no es posible evaluarlo directamente.

El método de Heckman es un estimador de máxima verosimilutud. Partimos de estimar con un probit o logit la especificación (7.20). Utilizando el supuesto que \((U_i,V_i)\bot \{T_i,X_i,Z_i\}\) y partiendo de (7.18) obtenemos: \[\begin{equation} \begin{split} Y_i&=\beta_0+\beta_1~T_i+X_i'\beta_2+U_i \\ E(Y_i|T_i,X_i,Z_i,V_i)&=\beta_0+\beta_1~T_i+X_i'\beta_2+E(U_i|T_i,X_i,Z_i,V_i) \\ &=\beta_0+\beta_1~T_i+X_i'\beta_2+E(U_i|V_i) \\ &=X_i'\beta+\rho V_i \end{split} \end{equation}\] donde asumimos que \(E(U_i|V_i)=\rho V_i\), lo cual surge del supuesto de que \(U_i\) y \(V_i\) son conjuntamente normales con media cero. Esta ecuación no puede ser estimada dado que \(V_i\) no es observada, pero podemos utilizarla como punto de partida para estimar \(E(Y_i|T_i,X_i,Z_i,S_i)\):

\[\begin{equation} E(Y_i|T_i,X_i,Z_i,S_i)=\beta_0+\beta_1~T_i+X_i'\beta_2+\rho E(V_i|T_i,X_i,Z_i,S_i) \tag{7.23} \end{equation}\]

Dado que \(V_i\) tiene una distribución normal estándar, al igual que en el caso de Tobit, podemos mostrar que cuando \(S_i=1\)27: \[\begin{equation} \begin{split} E(V_i|T_i,X_i,Z_i,S_i=1)&=E(V_i|V_i\geq -\delta_0-\delta_1T_i-X_i'\delta_2-Z_i'\delta_3) \\ &=\frac{\phi(\delta_0+\delta_1T_i+X_i'\delta_2+Z_i'\delta_3)}{\Phi(\delta_0+\delta_1T_i+X_i'\delta_2+Z_i'\delta_3)} \\ &= \lambda(\delta_0+\delta_1T_i+X_i'\delta_2+Z_i'\delta_3) \end{split} \end{equation}\]

Sustituyendo este resultado en (7.23) obtenemos: \[\begin{equation} E(Y_i|T_i,X_i,Z_i,S_i=1)=\beta_0+\beta_1~T_i+X_i'\beta_2+\rho\lambda(\delta_0+\delta_1T_i+X_i'\delta_2+Z_i'\delta_3) (\#eq:heck) \end{equation}\]

Cabe recordar que asumimos que \(V_i\) se distribuye como una normal estándar. Este supuesto es clave para poder calcular para cada individuo \(\lambda(\delta_0+\delta_1T_i+X_i'\delta_2+Z_i'\delta_3)\). Dado que \(V_i\) se distribuye como una normal estándar y la definición (7.20), tendremos que: \[\begin{equation} \begin{split} Pr(S_i=1|T_i,X_i,Z_i)&=Pr(V_i<\delta_0+\delta_1T_i+X_i'\delta_2+Z_i'\delta_3) \\ &=\Phi(\delta_0+\delta_1T_i+X_i'\delta_2+Z_i'\delta_3) \end{split} \end{equation}\]

Por lo tanto, el procedimiento del modelo de Heckman consiste de los siguientes pasos:

  1. Se estimará (11.4) utilizando el modelo probit. En esta estimación se utilizarán todas las observaciones (incluso aquellas que no se observan después de la atrición, i.e. aquellas para las cuales \(S_i=0\)).

  2. Se utilizarán los coeficientes de esta primera estimación para calcular \(\lambda(\delta_0+\delta_1T_i+X_i'\delta_2+Z_i'\delta_3)\) para cada individuo.

  3. Se estimará la especificación (11.3). En esta estimación se utilizarán únicamente las observaciones con las observaciones disponible después de la atrición (i.e. aquellas para las cuales \(S_i=1\)).

Esta última especificación generará estimadores insesgados de \(\beta_1\). Puede además utilizarse esta estimación para evaluar si existía sesgo muestral. Para ello simplemente se evalúa si \(\rho=0\). En los casos en los cuales se rechaza la hipótesis y tenemos evidencia de que \(\rho\neq 0\) tendríamos que la estimación de MCO con solo las observaciones que tienen \(S_i=1\) generaría estimadores sesgados de \(\beta_1\) si es que el balance se hubiera perdido después de la atrición.

Para generar un ejemplo en Stata del uso del modelo de Heckman pueden emplear los siguientes comandos:

  • webuse womenwk

  • sum wage education age children married

  • gen si = (wage < .)

  • probit si education age married children

  • predict probit_Xb, xb

  • gen mills = normalden(probit_Xb) / normal(probit_Xb)

  • reg wage education age mills, r

  • heckman wage education age, twostep select(education age married children) rhosigma first

7.4 Asignación aleatoria

La forma mas sencilla de formar grupos comparables consiste en determinar el status de tratamiento o control de forma aleatoria. Siguiendo este procedimiento, es posible asegurarse que el estatus de tratamiento será independiente de cualquier variable no observable y podemos obtener un estimador insesgado de \(\tau_1\).

En la práctica algunos de los métodos de asignación aleatoria son:

  1. Loterias por sobre-demanda. En situaciones en las cuales la demanda para algún programa es demasiado alta y no existen recursos suficientes para servir a toda la población, se considera que distribuir los recursos por loteria puede ser uno de los métodos éticamente más justo. Ejemplos: vouchers en Colombia, préstamos en Sudáfrica.

  2. Expansión en fases. Algunos proyectos se expanden en distintas fases a lo largo del tiempo. Para determinar el órden de expansión puede considerarse justo determinarlo de forma aleatoria. Ejemplos: programa de desparasitación en Kenya. Sin embargo, este método puede tener problemas si los individuos anticipan la expansión y reaccionan y no pueden medirse efectos de largo plazo.

  3. Asignación aleatoria dentro de grupos. En algunos casos se considera éticamente injusto que algunos grupos reciban beneficios de un programa y otros no. Algunas alternativas consisten en otorgar el beneficio de forma aleatoria a subgrupos dentro de cada grupo. Ejemplo: balsakis en India. Un problema de este método es el supuesto establecido en la sección anterior donde el estatus de otros individuos no te afecte.

  4. Fomento al tratamiento. Por último, si negar los recursos puede determinarse no ético, una alternativa consiste en dar acceso general, pero a un grupo de individuos ofrecerles incentivos a participar en el tratamiento. Ejemplos: muestras de fertilizantes en Kenya, en E.U. enviar materiales gratis para estudiar para un examen.

Una prueba que se hace para demostrar que la asignación aleatoria funcionó y que los grupos resultantes son comparables consiste en utilizar información previa al experimento (información basal) y comparar ambos grupos. Generalmente los experimentos incluyen una tabla en la cual se comparan medias de variables contenidas en la base de datos. En teoría, no debería de poder rechazarse la hipótesis que las medias de cada variable para ambos grupos son iguales.

En la mayoría de las casos alguna de las variables resulta en diferencias significativas, solo por definición probabilística. En estos casos, un ejercicio común consiste en estimar el modelo (??) con y sin estas variables como control y comparar la estimación de \(\tau_1\) en ambos casos.

Un método popular para llevar a cabo la asignación aleatoria consiste en agrupar a los individuos por características similares formando grupos (matched-pairs). Esto se lleva a cabo utilizando la información basal o datos administrativos preexistentes. Una vez hecho esto se determina de manera aleatoria quien dentro del grupo o pair recibe el tratamiento. Este método además de garantizar tener grupos comparables, te permite disminuir la varianza de tu estimador.

7.5 Problemas de implementación

7.5.1 Participación parcial

En algunos casos decides de manera aleatoria los individuos que recibirán el tratamiento. En nuestro ejemplo distribuir los libros. Sin embargo, en diversos casos el tratamiento suele ser distinta de la intención de tratamiento. En nuestro ejemplo, si la pregunta relevante es ver como leer durante el verano mejora tus resultados, el hecho de leer es distinto de recibir libros, que es lo que impulsa la política. En este caso, supongamos que si el tratamiento (\(T_i\)) es leer durante el verano, necesitaremos crear una nueva variable que sea recibir libros (dummy \(Z_i\) si la escuela \(i\) fue aleatoriamente elegida para recibir libros). En este caso, dos cosas distintas serán el modelo (??) (utilizando \(T_i\)) y la siguiente estimación: \[\begin{equation} Y_i=\lambda_0+\lambda_1Z_i+V_i \tag{7.24} \end{equation}\]

Dado que la distribución aleatoria consisite en la distribución de libros, \(\lambda_1\) será un estimador insesgado. Esto se conoce como intención de tratamiento (Intent to Treat, ITT). Sin embargo, la decisión de leerlos o no (\(T_i\)) no es aleatoria, por ende, estimar (??) utilizando MCO nos dará un estimador sesgado de \(\tau_1\). En concreto, decidir leer los libros puede ser una decisión basada en el interés en la lectura, por lo tanto, habrá sesgo por variables omitidas. En algunos casos, el estimador \(\lambda_1\) puede tener un interés en si mismo. Si por ejemplo, quieres ver la eficiencia de este programa de distribución de libros. Sin embargo, si hay distintas maneras de incentivar la lectura y lo que te interesa realmente es estimar \(tau_1\), tendremos que tomar supuestos específicos para obtener un estimador insesgado.

Para poder obtener un estimador insesgado de \(\tau_1\) necesitaremos llevar a cabo los siguientes supuestos:

  1. Independencia. {\(Y_i^T\), \(Y_i^C\)} son independendientes de \(Z_i\).

  2. Monotonicidad. \(T_i(1)\geq T_i(0)\). Es decir, no defiers. (Recuerden la tabla de always-takers, never-takers, defiers y compliers)

Bajo estos supuestos podemos utilizar el método de variables instrumentales para identificar el efecto del tratamiento (\(T_i\)) para los compliers. Esto se conoce como el Efecto Promedio de Tratamiento Local (o Local Average Treatment Effect, LATE). En clase demostraremos que IV identifica el ATE para una subpoblación (los compliers). El estimador de LATE resulta de aplicar la metodología de IV. Es decir, estimamos la forma reducida (7.24) y la primera etapa: \[\begin{equation} T_i=\eta_0+\eta_1Z_i+W_i \end{equation}\]

El estimador de LATE será \(\tau_1=\lambda_1/\eta_1\). Debemos recordar que \(Z_i\) debe cumplir los supuestos de variables instrumentales: (i) exogeneidad, que dado que es distribuido de manera aleatoria, no debe haber problema. Solo cabe señalar que \(Z_i\) no debe influir directamente la variable dependiente \(Y_i\), mas que a través de \(T_i\); (ii) relevancia, que quiere decir que, en promedio, ser asignado aleatoriamente debe hacer mas probable que tomes el tratamiento.

El supuesto más fuerte en este caso es el de independencia. En muchos casos lo más correcto es tomar el ITT como el único estimador que es posible interpretarse de manera insesgada. Tomemos el ejemplo del programa de desparasitación en Kenya. Sea \(Z_i\) el indicador de estar en una escuela que aleatoriamente fue elegida para distribuir las pastillas de desparasitación y sea \(T_i\) una dummy que indica si el niño efectivamente tomó la pastilla de desparasitación. En este caso, estimando (7.24) podemos generar un estimador insesgado del ITT, es decir, el efecto del programa. Pero además podríamos estar tentado a calcular el LATE utilizando el IV para estimar el efecto promedio de la desparasitación sobre los niños compliers. Sin embargo, en este caso el supuesto de independencia no es correcto, ya que los niños en las escuelas de tratamiento que hayan decidido no tomar las pastillas (never-takers) se beneficiaron del tratamiento ya que a sus compañeros (algunos de ellos si las tomaron, los compliers) son en promedio menos propensos a propagar enfermeddes de parásitos. En este caso, únicamente es correcto estimar el ITT.

7.5.2 Externalidades

Hay una gran cantidad de intervenciones que provocan externalidades. Por ejemplo, la intervención que distribuyen pastillas desparasitantes beneficia no solo al grupo de tratamiento, sino también al control, ya que la probabilidad de contagio se reduce. Las externalidades pueden generarse por distribución de información, aprendizaje y reacción de los grupos de control. En estos casos, incluso el estimador ITT puede estar sesgado.

Si se espera que las externalidades surjan, el diseño del experimento puede incorporar este componente para estimar el alcance e importancia de dichas externalidades. Un ejemplo de esto lo llevan a cabo Duflo y Saez, que quiene ver el efecto de distribuir información sobre la selección de planes de retiro. Lo que hacen es hacer la asignación aleatoria en dos pasos: (i) elegir de manera aleatoria algunas instituciones donde se distribuiría la información; (ii) dentro de las instituciones seleccionadas, elegir de manera aleatoria individuos a quienes se distribuiría la información. En este caso, los autores estiman la externalidad producto de diseminación de información comparando los resultados de individuos no seleccionados en institutciones seleccionadas con individuos no seleccionados en instituciones no seleccionadas. El supuesto es que aquellos individuos no seleccionados en instituciones seleccionadas se beneficirían de la información que reciben de sus compañeros que si fueron seleccionados.

7.5.3 Pérdida de observaciones

La pérdida de observaciones puede ser problemática en el caso de los experimentos. En el caso en el que las observaciones perdidas son aleatorias, este problema implica un menor poder estadístico. Sin embargo, el principal problema se da cuando la pérdida de observaciones no es aleatoria. En particular, si aquellos que se benefician en menor medida del tratamiento deciden abandonar el experimento, llevar a cabo la estimación sin tomar en cuenta la pérdida de observaciones nos puede llevar a sobreestimar el efecto del experimento.

La pérdida de observaciones es costosa y en algunos casos muy difícil de evitar. Es una práctica común reportar en cada experimento que proporción de la muestra basal se ha perdido en las encuestas subsecuentes. En particular, la encuesta basal es útil para poder deteminar si las observaciones perdidas son similares a las que se mantienen en el experimento a través de la comparación de sus características observables antes del experimento.

En los casos en que se reconoce que la pérdida de observaciones no es aleatoria es recomendable analizar que tipo de sesgo puede generar este tipo de selección. Además existen algunas estrategias para tratar de control este tipo de selección. Una de ellas consiste en hacer un pareamiento (matching) de individuos del tratamiento y del control utilizando las características recabadas en la encuesta basal.

7.6 Críticas

  • Efectos de equilibrio general. Los experimentos generalmente son de baja escala, lo cual no permite analizar los efectos de equilibrio general que dichas intervenciones implicarían. Estos efectos son importantes para poder evaluar las implicaciones de bineestar que conllevaría la aplicación de las intervenciones como política.

  • Efectos en el comportamiento: Hawthrone y John Henry. La implementación de un experimento puede conllevar cambios en el comportamiento de los individuos. En particular, los individuos que reciben el tratamiento pueden simpatizar con el experimento, saber que son observados y por ende, esforzarse para que haya efectos positivos del experimento. Por otro lado, aquellos que son parte del grupo de control pueden sobreesforzarse para competir con el grupo de tratamiento. Estos comportamientos se conocen como efectos Hawthrone y John Henry, respectivamente y potencialmente no se hubieran dado en ausencia del experimento.

  • Validez externa. Tres preocupaciones que generalmente surgen con los experimentos son:

  • Si el experimento fue desarrollado con amplio nivel de cuidado será difícil asumir que asi será llevado a cabo si se generaliza como política pública.

  • El hecho de que el experimento se haya llevado a cabo con una muestra específica genera preocupación de que el mismo resultado se daría con alguna muestra/población distinta.

  • Qué tanto los restulados se deben a detalles específicos de la intervención. Es decir, qué tanto se puede aprender de intervenciones similares.

7.7 Experimentos naturales

La misma metodología cubierta en esta Nota puede seguirse en el caso de experimentos naturales. Los experimentos naturales se dan cuando algún evento exógeno forma dos grupos: tratamiento (T), es decir, aquellos individuos afectados por el evento y un grupo de control (C), aquellos no afectados. Si el evento es auténticamente exógeno, ambos grupos deben de ser comparables antes de la ocurrencia del evento. Esto puede verificarse, al igual que en un experimento social, haciendo una comparación de medias con datos recabados antes del evento.

Ejemplos de experimentos naturales incluyen:

  • Vietnam Era Draft Lottery. Ser elegible para ser llamado al ejercito durnate la guerra de Vietnam se determinaba por un número que era asignado de manera aleatoria dependiendo del día de nacimiento de la persona. Esta elegibilidad fue utilizada como una fuente de variabilidad exógena para determinar el efecto de estar enlistado sobre los ingresos vitalicios de los individuos.

  • La epidemia de la influenza española de 1918 se utilizó como una variación exógena para determinar la importancia del desarrollo en-utero. Se demostró que aquellos individuos que con alta probabilidad se encontraban durante su desarrollo en-utero durante el lapso de la pandemia tuvieron efectos negativos sobre años de educación, discapacidades físicas, ingreso y estatus socio-económico.

  • El mes sagrado del Ramadan se utiliza para determminar la importancia de la salud fetal y la alimentación sobre el desarrollo de los individuos. Se comparan individuos de madres árabes que se desarrollaron en-utero durante estos meses contra individuos que se desarrollaron en otros meses y se encuentran efectos negativos sobre peso al nacer, mortalidad pre-natal y discapacidades en adultos.

  • Ubicación de salones. Se comparan resultados de lectura de salones que por su ubicación eran afectados por el ruido del transporte público, respecto a salones no afectados. Se encuentra que la media de lectura en salones expuestos al ruido tenían un rezago equivalente a 3-4 meses de aprendizje. En este caso, se argumenta que la localización de los salones es una fuente de variación exógena.

7.8 Tamaño de la muestra y poder estadístico

Llevar a cabo experimentos es costoso. Por esta razón, muchos experimentos vienen acompañados de cálculos de cuál tiene que ser el tamaño de una muestra para lograr identificar un efecto de manera significativa. Este ejercicio se conoce como cálculo de poder estadístico.

Para entender en que consiste el cálculo de poder estadístico podemos partir del planteamiento básico de nuestro modelo (ecuación (??)). En este caso, supongamos que el efecto verdadero del tratamiento es \(\tau\) (por simplicidad asumiremos que \(\tau>0\), pero el caso de \(\tau<0\) es simétrico). El cálculo del poder estadístico querrá determinar de que tamaño tiene que ser una muestra (\(N\)) para que exista una alta probabilidad (poder estadístico) de obtener un estimador que nos permita rechazar la hipótesis nula: \(H_0: \tau=0\) en favor de la alternativa \(H_1: \tau\neq 0\). Para empezar, para poder rechazar la hipótesis nula, tendremos que establecer un nivel de significancia \(\alpha\) (o error tipo I). El error tipo I es la probabilidad de rechazar la hipótesis nula si dicha hipótesis es verdadera:

\[\begin{equation} \alpha=Pr\biggl(\frac{\hat{\tau}}{se(\hat{\tau})}>t_\alpha | \tau=0 \biggl) \tag{7.25} \end{equation}\]

Nuestro segundo componente es el poder estadístico. El poder estadístico (\(\kappa\)) es la probabilidad de obtener un estadístico-t mayor a \(t_\alpha\) (para tener un estadístico significativo) dado que el valor verdadero de \(\tau=\tau_0\) (como se mencionó previamente asumiremos que \(\tau_0>0\), pero el caso de \(\tau_0<0\) es simétrico):

\[\begin{equation} \begin{split} \kappa&=Pr\biggl(\frac{\hat{\tau}}{se(\hat{\tau})}>t_\alpha|\tau=\tau_0 \biggl)\\ &=Pr\biggl(\frac{\hat{\tau}-\tau_0+\tau_0}{se(\hat{\tau})}>t_\alpha|\tau=\tau_0 \biggl)\\ &=Pr\biggl(\frac{\hat{\tau}-\tau_0}{se(\hat{\tau})}>t_\alpha-\frac{\tau_0}{se(\hat{\tau})}|\tau=\tau_0 \biggl)\\ &=1-\Phi\biggl( t_\alpha-\frac{\tau_0}{se(\hat{\tau})}\biggl) \end{split} \tag{7.26} \end{equation}\]

Por lo tanto, para obtener un poder estadístico mayor o igual a \(\kappa\): \[\begin{equation} \begin{split} 1-\kappa\leq& \Phi\biggl( t_\alpha-\frac{\tau_0}{se(\hat{\tau})}\biggl)\\ t_\alpha-\frac{\tau_0}{se(\hat{\tau})}\leq& -t_{1-\kappa} \end{split} \end{equation}\] Para simplificar, asumamos errores homocedásticos en la estimación de (??) con un tamaño de muestra \(N\) y \(N_T\) individuos recibiendo el tratamiento, donde \(N_T=N\cdot P\) (es decir \(100\cdot P\%\) de los individuos forman parte del tratamiento). En este caso el error estándar del estimador será: \[\begin{equation} se(\hat{\tau})=\sqrt{\frac{1}{P\cdot(1-P)}\cdot\frac{\sigma^2}{N}} \tag{7.27} \end{equation}\] Por lo tanto, para los valores \(\alpha\), \(\kappa\), \(P\) y \(N\) podremos obtener un estimador significativo si: \[\begin{equation} \begin{split} \tau_0&\geq (t_\alpha+ t_{1-\kappa})\cdot se(\hat{\tau})\\ EMD(\tau_0)&=(t_\alpha+ t_{1-\kappa})\cdot se(\hat{\tau}) \end{split} \tag{7.28} \end{equation}\]

donde \(EMD\) es el efecto mínimo detectable, es decir, el valor mínimo de \(\tau_0\) para el cual podremos obtener un estimador significativo. - En cuanto al tamaño de muestra \(N\), cabe resaltar que conforme mayor es \(N\), menor es \(se(\hat{\tau})\), por lo tanto, el \(EMD\) es menor. - En cuanto mayor es el poder estadístico (\(\kappa\)), mayor es \(t_{1-\kappa}\) y por lo tanto, el \(EMD\) es mayor. - Al igual, conforme menor es el error tipo I (\(\alpha\)), mayor será \(t_\alpha\) y el \(EMD\) es mayor. En casos en los cuales la asignación se haga por grupos (e.g. escuelas), será importante permitir correlación en los errores de individuos en una misma escuela. Para esto se tendrán que asumir errores tipo cluster o el modelo de efectos fijos. En este caso, entre mayor sea la proporción de la varianza explicada por la correlación dentro de un grupo (cluster) (o el intra-class correlation) mayor es el \(EMD\).