Referencias

  • Abadie, A. (2020). Using Synthetic Controls: Feasibility, Data Requirements, and Methodological Aspects. Article prepared for the Journal of Economic Literature.

  • Almond, D. (2020). Is the 1918 Influenza Pandemic Over? Long-Term Effects of In Utero Influenza Exposure in the Post-1940 U.S. Population. Journal of Political Economy 114 (4), 672-712.

  • Angrist, J. D. and W. N. Evans (1998). Children and Their Parents’ Labor Supply: Evidence from Exogenous Variation in Family Size. American Economic Review 88 (3), 450-477.

  • Angrist, J. D. and J.-S. Pischke (2009). Mostly Harmless Econometrics. Princeton University Press.

  • Athey, S. and G. W. Imbens (2017). Chapter 3 The Econometrics of Randomized Experiments. Handbook of Economic Field Experiments 1, 73-140.

  • Athey, S. and G. W. Imbens (2020). Machine Learning Methods Economists Should Know About. Journal of Political Economy 114 (4), 672-712.

  • Belles, C. and M. Lombardi (2020). Will you marry me, later? Age-of-marriage laws and child marriage in Mexico. The Journal of Human Resources, 1219-10621R2.

  • Bertrand, M. and S. Mullainathan (2004). Are Emily and Greg More Employable than Lakisha and Jamal? A Field Experiment on Labor Market Discrimination. American Economic Review 94 (4), 991-1013.

  • Bharadwaj, P., K. V. Loken, and C. Neilson (2013). Early Life Health Interventions and Academic Achievement. American Economic Review 103 (5), 1862-1891.

  • Caliendo, M. (2008). Some Practical Guidance For The Implementation Of Propensity Score Matching. Journal of Economic Surveys 22 (1), 31-72.

  • Card, D. and A. B. Krueger (1994). Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania. American Economic Review 84 (4), 672-712.

  • Cattaneo, M. D., N. Idrobo, and R. Titiunik (2018a). A Practical Introduction to Regression Discontinuity Designs: Volume I. Monograph prepared for Cambridge Elements: Quantitative and Computational Methods for Social Science.

  • Cattaneo, M. D., N. Idrobo, and R. Titiunik (2018b). A Practical Introduction to Regression Discontinuity Designs: Volume II. Monograph prepared for Cambridge Elements: Quantitative and Computational Methods for Social Science.

  • Davis, L. W. (2008). The Effect of Driving Restrictions on Air Quality in Mexico City. Journal of Political Economy 116 (1), 38-81.

  • de Laat, J. (2015). Matching techniques. Impact Evaluation Research Workshop - World Bank.

  • Duflo, E. (2001). Schooling and Labor Market Consequences of School Construction in Indonesia: Evidence from an Unusual Policy Experiment. American Economic Review 91 (4), 795-813.

  • Duflo, E., R. Glennerster, and M. Kremer (2007). Using Randomization in Development Economics Research: A Toolkit. Handbook of Development Economics 4, 3895-3962.

  • Fitzgerald, J., P. Gottschalk, and R. Moffitt (1998). An Analysis of Sample Attrition in Panel Data: The Michigan Panel Study of Income Dynamics. The Journal of Human Resources 33 (2), 251-299.

  • Heckman, J. J. and E. J. Vytlacil (2007a). Chapter 70 Econometric Evaluation Of Social Programs,Part I: Causal Models, Structural Models And Econometric Policy Evaluation. Handbook of Econometrics Volume 6 (B), 4779-4874.

  • Heckman, J. J. and E. J. Vytlacil (2007b). Chapter 71 Econometric Evaluation Of Social Programs,Part II: Using The Marginal Treatment Effect To Organize Alternative Econometric Estimators To Evaluate Social Programs, And To Forecast Their Effects In New Environments. Handbook of Econometrics Volume 6 (B), 4875-5143.

  • Heckman, J. J. and E. J. Vytlacil (2007c). Chapter 72 Econometric Evaluation Of Social Programs,Part III: Distributional Treatment Effects, Dynamic Treatment Effects, Dynamic Discrete Choice, And General Equilibrium Policy Evaluation. Handbook of Econometrics Volume 6 (B), 5145-5303.

  • Hirano, K., G. W. Imbens, and G. Ridder (2003). Efficient Estimation Of Average Treatment Efects Using The Estimated Propensity Score. Econometrica 71 (4), 1161-1189.

  • Imbens, G. W. (2014). Matching Methods in Practice: Three Examples. The Journal Of Human Resources 50 (2), 373-419.

  • Imbens, G. W. (Fall 2007). Nonparametric Density Estimation. Department of Economics - Harvard University.

  • Lee, D. S. (2002). Trimming for Bounds on Treatment Effects with Missing Outcomes. NBER Technical Working Paper (277).

  • Millan, T. M. and K. Macours (2017). Attrition in randomized control trials: Using tracking information to correct bias. NOVAFRICA Working Paper Series wp1702, Universidade Nova de Lisboa, Faculdade de Economia, NOVAFRICA.

  • Mullainathan, S. and J. Spiess (2017). Machine Learning: An Applied Econometric Approach. Journal of Economic Perspectives 31 (2), 87-106.

  • Stock, J. and M.Watson (2011). Introduction to Econometrics (3 ed.). Addison Wesley.

  • Wooldridge, J. M. (2012). Introductory Econometrics. A Modern Approach (5 ed.). Southwestern Cengage Learning.

  • Zambom, A. Z. and R. Dias (2012). A review of kernel density estimation with applications to econometrics. Universidade Estadual de Campinas.


  1. Aquellos alumnos que sientan que necesitan un repaso más a detalle, se recomienda que revisen el capítulo 2 del Stock y Watson o el apéndice B del Wooldridge.↩︎

  2. Para conocer mas acerca de muestreo se recomienda ver el video https://youtu.be/Rf-fIpB4D50↩︎

  3. En clase haremos simulaciones utilizando la página http://faculty.carrollu.edu/ckuster/CT/Central\%20Limit\%20Theorem\%20Simulation.html para dar una mayor intuición acerca del tema.↩︎

  4. Encuesta Nacional de Ingreso y Gasto de los Hogares, INEGI↩︎

  5. Previamente habíamos indicado que \(\beta\) tiene dimensión \(K+1\). En adelante solo usamos dimensión \(K\) para simplificar la notación. En términos esctrictos podríamos decir que previamente la dimensión era \(K'+1\) y definir a \(K=K'+1\).↩︎

  6. Tomar muestras independientes en distintos momentos del tiempo constituye una base de datos transversal agrupada (pooled cross-section). Esto es diferente que una base de datos de panel y no es útil para derivar los modelos de esta nota.↩︎

  7. \(D2_t\) representa una dummy que indica si la observación corresponde al periodo \(t=2\).↩︎

  8. Este supuesto puede ser omitido, pero esto tendría implicaciones sobre los errores estándar de los coeficientes estimados.↩︎

  9. En este caso, \(\overline{\delta}\) representa una constante y está definida como \(\overline{\delta}=(\delta_2+\dots+\delta_T)\frac{1}{T}\). Además el modelo incluye el factor \(\delta_t\). Esto es equivalente a incluir dummies de tiempo y una constante en el modelo. Esto solo es necesario si se considera que incluir las dummies (i.e. el efecto de cada año) es relevante para el modelo. Si no se considera que el efecto de \(t\) es relevante, el modelo se simplifica mucho ya que se excluyen los factores \(\delta_t\) y \(\overline{\delta}\)↩︎

  10. Solo se incluyen \(N-1\) dummies de individuos para evitar colinearidad con la constante. Si no se incluye el efecto de tiempo, podrían incluirse las \(N\) dummies dejando fuera la constante.↩︎

  11. El método delta resulta de una generalización del teorema central del límite. Es útil para estimar la distribución de una función continua de un parámetro siempre y cuando el parámetro converja en distribución a una normal.↩︎

  12. Cabe señalar que el modelo Logit también suele ser conocido como el modelo logísitco por el hecho de que se asume la distribución logística de los errores↩︎

  13. Por simplicidad, en este caso asumimos que la distribución de la variable latente está concentrada en cero. La derivación del modelo si hay concetración en otro valor ya sea máximo o mínimo es análoga↩︎

  14. El caso de variables discretas no es tan bueno para motivar el uso de regresiones kernel. En dichos casos lo mas recomendable es simplemente el uso de histogramas.↩︎

  15. Nota que la diferencia entre el estimador de la densidad \(\widehat{f_{X}}(x)\) y la densidad poblacional \(f_{X}(x)\) es que la densidad poblacional es no observable y es precisamente lo que queremos estimar.↩︎

  16. Es decir, el primero es la observación más cercana a un punto determinado, el segundo es la segunda observación más cercana, y asi sucesivamente hasta llegar a la \(k\)-ésima observación más cercana a dicho punto.↩︎

  17. Esto no es lo mismo que el valor esperado de los errores al cuadrado. El valor esperado de los errores al cuadrado daría un peso distinto a las observaciones dependiendo de la densidad.↩︎

  18. El Poverty Action Lab (J-PAL) ha sido un fuerte promotor en EU y a nivel mundial de su uso vinculando academicos y hacedores de política en el uso de los experimentos aleatorizados.↩︎

  19. En la exposición que utilizamos en estas notas hacemos la comparación de un tratamiento y el control. Esta descripción la hacemos por simplicidad, aunque es posible plantear una intervención que tenga más de un tipo de tratamiento. Mas adelante en las notas describimos esta situación.↩︎

  20. El Control también puede ser entendido como una política alternativa, aunque generalmente en los análisis de impacto suele ser la falta de tratamiento.↩︎

  21. En una argumentación de sesgo por variables omitidas diriamos que existe una variable omitida no observada, como el interés por la lectura, mismo que esta correlacionado positivamente con la existencia de una biblioteca cercana y con tener mejores capacidades lectoras. Por lo tanto, una estimación de OLS tendría un sesgo positivo para estimar el efecto de las bibliotecas sobre las capacidades lectoras si no es posible controlar por la variable de interés por la lectura.↩︎

  22. Imaginense una situación donde en una tómbola ha \(N_T\) bolitas rojas de tratamiento y \(N_C\) bolitas azules de control. El primer individuo en formarse y tomar una bolita tiene una probabilidad \(N_T/N\) de sacar una bolita roja de tratamiento. Sin embargo, si este individuo efectivamente saca una bolita roja de tratamiento, el segundo individuo ahora tendrá una probabilidad \((N_T-1)/(N-1)\) de sacar una bolita roja de tratamiento.↩︎

  23. Muestran que este término es: \(S_{01}^2=\frac{1}{N-1}\sum_{i=1}^N (Y_i^T-Y_i^C-\tau)^2\)↩︎

  24. No es necesario hacer un promedio ponderado ya que todos los estratos (parejas) tienen el mismo número de observaciones: \(N_g=2\) para toda \(g\)↩︎

  25. típicamente utilizamos en la hipóteiss nula \(\tau_i=0\) para tener una hipótesis nula equivalente a asumir que el tratamiento no tiene efecto.↩︎

  26. Athey e Imbens (2017) sugieren, por ejemplo, el uso de ranks por ser menos sensibles a valores atípicos.↩︎

  27. Para obtener este resultado utilizamos el supuesto de que la distribución de \(V_i\) es normal y que estamos llevando a cabo una integral entre \(-\delta_0-\delta_1T_i-X_i'\delta_2-Z_i'\delta_3\) e \(\infty\)↩︎

  28. Podriamos usar el logaritmo del ingreso también, pero para simplificar la exposición utilizamos solo ingreso.↩︎

  29. Nótese que la generalización de este modelo consiste en sustituir \(Ing_i\) con \(Y_i\) y \(Educ_i\) con \(X_{1i}\)}↩︎

  30. Recuerden que cuando se evalúa la hipótesis de un solo coeficiente, el cuadrado del estadístico t es igual que el estadístico \(\text{F}\). Establecemos esta prueba en términos del estadístico \(\text{F}\), ya que como veremos más adelante en la Nota, puede ser que tengamos más de un instrumento↩︎

  31. De no cumplirse esta condición, no será posible distinguir que tanto de la \(Cov(Ing_i,Z_i)\) se debe al efecto directo de \(Z_i\) sobre \(Ing_i\) y que tanto por el efecto a través de \(Educ_i\).↩︎

  32. Estos pasos asumen que la matriz \(P_Z\) es idempotente (\(P_Z=P_ZP_Z\)) y simétrica (\(P_Z=P_Z'\)).↩︎

  33. La ventaja de tener bins equidistantes es que visualmente, la gráfica es más clara. La ventaja de tener la gráfica cuantil-espaciada es que la misma gráfica te da una idea de la distribución de la variable definitoria (\(G_i\)).↩︎

  34. Los errores en este caso son \(Y_i-g(G_i)\) para observaciones dentro del bandwidth: \(k-h<G_i<k+h\), donde \(g(G_i)\) se estima utilizando el LL.↩︎

  35. \(Y(r)\) corresponde a utilizar \(Y\) como variable dependiente en la regresión (LL) con los datos a la derecha de la discontinuidad (i.e. aquellos entre \(k\) y \(k+h\)). \(Y(l)\) es similar, pero utiliza los datos a la izquierda de la discontinuidad. Asimismo \(T(r)\) y \(T(l)\) corresponden a utilizar \(T_i\) como variable dependiente en la regresión (LL) del first stage.↩︎

  36. Una desventaja de este método es que podría darse el caso que todas las unidades sean asignadas a tratamiento o control, en cuyo caso no se podrá producir el estadístico de interés.↩︎

  37. La ventaja de este estadístico es que es menos sensible a outliers en \(Y\).↩︎

  38. En el caso de una prueba unilateral no se multiplica por 2.↩︎

  39. En este caso debe cumplirse además que la calificación de corte (\(7\) en este caso) no este relacionada con términos no observados que puedan afectar la calificación. Por ejemplo, si se excluye a los de promedio reprobatorio y ser un alumno con promedio reprobatorio te influye en el ánimo, lo cual a su vez afecta tu rendimiento en el examen, entonces controlar por el promedio no será suficiente.↩︎