10 Regresión Discontinua

El método de regresión discontinua es un método cuasiexperimental utilizado para identificar efectos causales de algun tratamiento. Este método se basa en cortes que surgen por ley o por diseño y que implican una discontinuidad en la implementación del tratamiento, mismo que viene definido a lo largo de alguna variable, \(G\) (normalmente llamada la variable definitoria. Este método hará posible determinar la relación causal de cambios en el estatus de tratamiento sobre alguna otra variable (la variable dependiente).

Un ejemplo tradicional que se ha utilizado son las votaciones por mayoría. En casos donde hay dos contrincantes en una elección, si se usa la regla de mayoría sabremos que un candidato gana si obtiene mas del \(50\%\) de las votaciones. Supongamos que nos interesa ver si los gobiernos de izquierda hacen una diferencia en la política fiscal o económica (Pettersson-Lidbom, 2007). Si el partido de izquierda recibe más del \(50\%\) votos gana la elección y si recibe menos la pierde. Llevar a cabo una estimación de MCO donde la variable dependiente es la tasa impositiva y tu variable de interés es que el gobierno de izquierda haya ganado muy probablemente te llevará a un sesgo por variable omitida (en particular, qué tan liberal es el electorado puede llevar a un sesgo). Intuitivamente, el método de regresión discontinua compara situaciones en las cuales el gobierno de izquierda apenas gana (i.e. reciba poco mas del \(50\%\) de los votos) con situaciones donde apenas pierde (i.e. reciba poco menos del \(50\%\) de los votos). En este caso se puede argumentar que justo en la discontinuidad pasamos de una situación en la que el partido de izquierda pierde a una en la que gana. Sin embargo, en ambos casos el electorado debe ser similarmente liberal (de igual manera no debe haber un brinco abrupto en cualquier otra variable que provoque sesgo). Lo que haremos entonces es ver si en esa discontinuidad hay un brinco discontinuo en la variable dependiente. De haberlo, el método de regresión discontinua atribuirá dicho brinco al hecho de que el gobierno de izquierda haya ganado la elección.

10.1 Planteamiento

Este método nos permitirá investigar el efecto de la variable \(T_i\) sobre \(Y_i\), donde \(T_i\) será una variable dummy que especifica si el individuo \(i\) forma parte del grupo de “tratamiento” (\(T_i=1\)) o de “control” (\(T_i=0\)). El planteamiento utiliza nuevamente el concepto de resultados potenciales. Cada individuo tiene dos resultados potenciales, de los cuales únicamente observamos uno (el realizado). \(Y_i^T\) es el nivel de la variable dependiente que \(i\) tendría si forma parte del grupo de tratamiento, \(Y_i^C\) el que tendría si forma parte del grupo de control y \(Y_i\) el nivel observado.

A diferencia que en el caso de experimentos donde ambos grupos (tratamiento y control) eran determinados de forma aleatoria, en este caso son determinados por una regla objetiva de decisión. Dicha regla deberá especificar cortes especificos en los cuales la probabilidad de formar parte del grupo de tratamiento o control cambie de forma abrupta (i.e. discontinua). La regla deberá estar basada en una variable, que llamaremos la variable definitoria (\(G_i\)), misma que no debe poder ser manipulable por los individuos. Esta variable puede estar relacionada directamente con los resultados potenciales (y por tanto, con la variable dependiente), sin embargo, dicha relación (así como con el resto de las variables de control) se asume como continua.

El cambio discontinuo en la probabilidad de formar parte del grupo de tratamiento puede ser de dos tipos:

  • Sharp. Donde la probabilidad de formar parte del tratamiento pasa de \(0\) a \(1\) en la discontinuidad.

  • Fuzzy. Donde la probabilidad de formar parte del tratamiento cambia abruptamente en la discnotinuidad, pero no pasa de \(0\) a \(1\) debido a que existe la posibilidad de que debajo de la discontinuidad haya unidades de observación recibiendo el tratamiento y después de la discontinuidad puede haber unidades de observación no recibiendo el tratamiento (i.e. existe la posibilidad de que existan never-takers y always-takers.

En esta nota desarrollaremos gran parte de la identificación teórica basado en el caso sharp y al final se incluye una sección del caso fuzzy.

10.2 Regresión Discontinua Sharp

Este tipo de discontinuidad se refiere al caso en el cual la probabilidad de formar parte del grupo de tratamiento pasa de \(0\) a \(1\) después del corte que determina la discontinuidad. Ejemplos de este tipo de cortes incluyen: (i) márgenes por los cuales se pierde una elección; (ii) cortes administrativos que definen diferencias en precio (e.g. adulto mayor de 65 años); (iii) política en México de apoyo a los 125 municipios más pobres.\

En este caso \(T_i\) es definida por la variable definitoria (\(G_i\)) y el punto de discontinuidad es \(k\): \[\begin{equation} T_i=1\{G_i\geq k\} \tag{10.1} \end{equation}\] Todos los individuos con \(G_i\geq k\) estarán en el grupo de tratamiento (i.e. su participación es obligatoria) y todos con \(G_i<k\) estarán en el grupo de control (i.e. su participación en el tratamiento está prohibida).

10.2.1 Análisis preliminar de datos

Una primera aproximación suele consistir en combinar dos componentes en una misma gráfica:

  • Medias condicionales locales. Esto consiste en formar distintos bins y para cada bin, calcular la media condicional de la variable dependiente (\(Y_i\)). Esto equivale a llevar a cabo una regresión kernel con un kernel uniforme y solo gráficar los puntos medios de cada bin. Existen dos alternativas para la selección de los bins: (i) equidistantes, que quiere decir que la distancia sobre \(G\) de un punto a otro será el mismo y (ii) {cuantil-espaciado}, que quiere decir que cada bin tendrá el mismo número de observaciones33.

  • Polinomio global. Pese a que nuestra estimación será local en naturaleza, para tener una idea de posibles discontinuidades y una intuición acerca de qué tan extrapolable es el resultado local, muchas veces se hace un análisis exploratorio (que no siempre se presenta) donde se estima un polinomio global (de alto grado) antes y después de la discontinuidad.

Usualmente, estas estrategias muestran la existencia de la discontinuidad. Cuando estas alternativas fallan a mostrar evidencia de la existencia de la discontinuidad, rara vez se identifican en las estimaciones más precisas. Las medias condicionales y el polinomio global se pueden calcular con el comando rdplot.

10.2.2 Estimación con regresión lineal local

Para identificar el efecto del tratamiento sobre la variable dependiente tendremos que asumir:

  • Independencia (condicional en la variable definitoria). \(Y_i^T\), \(Y_i^C\) \(\perp\) \(T_i~|~G_i\)

  • Continuidad. \(E(Y_i^T|G_i=g)\) y \(E(Y_i^C|G_i=g)\) son continuas en \(g=k\).

Además de esos supuestos utilizaremos la ley de esperanzas iteradas que indica que el valor esperado de \(Y_i\) puede ser calculado como: \[\begin{equation} \begin{split} E(Y_i|G_i=g)&=E(Y_i^T|T_i=1,G_i=g)*Pr(T_i=1|G_i=g)+\\ &+E(Y_i^C|T_i=0,G_i=g)*Pr(T_i=0|G_i=g) \end{split} \tag{10.2} \end{equation}\]

Utilizando los supuestos establecidos y (10.2) tenemos que: \[\begin{equation} \begin{split} E[Y_i^C|G_i=k]&=\lim_{g \to k^-}E[Y_i^C|G_i=g]\\ &=\lim_{g \to k^-}E[Y_i^C|T_i=0,G_i=g]\\ &=\lim_{g \to k^-}E[Y_i|G_i=g] \end{split} \end{equation}\] \[\begin{equation} E[Y_i^T|G_i=k]=\lim_{g \to k^+}E[Y_i|G_i=g] \end{equation}\]

Por lo tanto, utilizando estos supuestos podemos obtener el efecto de tratamiento en el punto \(G_i=k\): \[\begin{equation} \tau_s=E[Y_i^T-Y_i^C|G_i=k] \tag{10.3} \end{equation}\]

En este caso será necesario utilizar extrapolación, ya que si \(G_i\) es continua, la probabilidad de observar alguna unidad con \(G_i=k\) será cero. Por lo tanto, no tendríamos observaciones para llevar a cabo la estimación. En este caso utilizaremos observaciones con \(G_i\) arbitrariamente cerca del valor de corte \(k\).

Para estimar el valor de \(\tau_s\), el state-of-the-art sugiere el uso de regresiones lineales locales utilizando únicamente las observaciones con \(|G_i-k|<h\) (es decir, observaciones con \(G_i\) a menos de \(h\) de distancia del valor de corte \(k\)). El uso de regresiones paramétricas globales son un buen complemento para evaluar la continuidad y forma de los resultados potenciales a lo largo de \(G\). El uso de regresiones lineales locales se debe a que nos interesa la estimación en un punto que además es una frontera. NW suele no ser tan adecuado para esos propósitos.

Para estimar el efecto de Regresión Discontinua con regresión lineal local:

\[\begin{align*} \begin{aligned} \underset{\alpha_{L},\beta_{L}}{\text{min}} \sum\limits_{i|k-h\leq G_{i}<k}K\left( \frac{G_{i}-k}{h}\right)\left( y_{i}-\alpha_{L}-\beta_{L}\left(G_{i}-k\right)\right)^{2} \end{aligned} \end{align*}\] y… \[\begin{align*} \begin{aligned} \underset{\alpha_{R},\beta_{R}}{\text{min}} \sum\limits_{i|k\leq G_{i}<k+h}K\left( \frac{G_{i}-k}{h}\right)\left( y_{i}-\alpha_{R}-\beta_{R}\left(G_{i}-k\right)\right)^{2} \end{aligned} \end{align*}\]

Y, por lo tanto, \(\widehat{\tau}_s = \widehat{\alpha_{R}}-\widehat{\alpha_{L}}\). Además suele verse también en algunas aplicaciones evaluar la sensibilidad al grado del polinomio local, de forma tal, que en vez de usar una regresión lineal local, se use un polinomio local.

En diversas aplicaciones, la estimación de la regresión lineal local, suele acompañarse de estimaciones que utilizan una forma paramétrica global. Sin embargo, siendo un estimador local identificado en \(G_i=k\), el uso de estimadores locales como (LL) son preferidos. Las estimaciones paramétricas suelen utilizarse como parte de ejercicios de robustez. La estimación paramétrica consistiría en: \[\begin{align*} {\text{min}} \sum\limits_{i=1}^{N}\left( Y_{i}-\beta_0-\tau_s T_{i}-f_r\left(G_{i}-k,T_{i};\beta \right)\right)^{2} \end{align*}\] donde \(f\left(G_{i}-k,T_{i}; \beta \right)\) es un polinomio grado \(r\) de \((G_i-k)\) que puede tener (o no) sus componentes interactuados con \(T_i\) para indicar que las pendientes antes y después del corte pueden (o no) ser distintas. Para flexibilidad del estimador, se sugiere incluir las interacciones. Asimismo, las pruebas de robustez suelen incluir diversos grados del polinomio para evaluar la sensibilidad del estimador al uso de diferentes grados.

Para llevar a cabo la estimación de LL hay dos componentes que debemos seleccionar:

  1. Seleccionar la función kernel, \(K(\cdot)\). De acuerdo a Cattaneo et al. (2018) se sugiere utilizar la función triangular debido a que, si se elige un bandwidth óptimo que minimice el error medio cuadrático (MSE por sus siglas en inglés), la selección de un kernel triangular derivaría en un estimador puntual con propiedades asintóticas óptimas. Una alternativa que suele utilizarse también es el kernel uniforme debido a que, bajo ciertas condiciones, minimiza la varianza asintótica de un polinomio local (incluyendo LL). Usar un kernel uniforme equivale a llevar a cabo dos regresiones OLS simples de \(Y\) contra \(G\), una con datos en el bandwidth por debajo del corte (i.e. \(k-h\leq G_i < k\)), y la otra con datos en el bandwidth por encima del corte (i.e. \(k\leq G_i<k+h\)). Por último, en diversos casos se ha visto también el uso del kernel Epanechnikov. Dicho esto, Cattaneo et al. (2018) indican que las estimaciones suelen ser poco sensibles a la selección de la función kernel. Se motiva a los alumnos a probar los distintos kernel y comparar sus resultados en la práctica debido al bajo costo computacional de llevar a cabo esto.

  2. Selección del bandwidth, \(h\). Como vimos en la Nota 2 3, la selección de \(h\) involucra un tradeoff entre sesgo y varianza. Es importante resaltar que en esta parte nos enfocamos en la selección óptima de \(h\) para obtener un estimador eficiente de \(\tau_s\). Dado que hay un tradeoff entre sesgo y varianza, este estimador no será insesgado debido a que una selección muy pequeña de \(h\) llevaría a un estimador muy volatil. Imbens y Kalyanaraman (2012) fueron los primeros en sugerir que se minimizara la media de los errores de la estimación al cuadrado (MSE por sus siglas en inglés)34. Posteriormente Calonico, Cattaneo y Titiunik (2014) refinaron el calculo de la \(h\) óptima utilizando también como función objetivo la minimización de MSE. La función objetivo es: \[\begin{equation} \begin{split} MSE(\widehat{\tau}_s)&=Sesgo^2(\widehat{\tau}_s)+Var(\widehat{\tau}_s)=\mathscr{B}^2+\mathscr{V} \\ &=h^{2\left( p+1\right)}~\mathcal{B}^2+\frac{1}{nh}\mathcal{V} \end{split} \end{equation}\]
    donde los términos \(\mathcal{B}\) y \(\mathcal{V}\) son los componentes del sesgo y la varianza que no dependen directamente de \(h\) y \(n\). Estos componentes se relacionan con la estimación de \(E\left(Y_i^T-Y_i^C | G_i=k \right)\). Por lo tanto, tenemos que: \(\mathcal{B}=\mathcal{B}_{+}-\mathcal{B}_{-}\) y \(\mathcal{V}=\mathcal{V}_{+}+\mathcal{V}_{-}\). Donde los componentes del sesgo se pueden aproximar como: \(\mathcal{B}_{+}\approx \mu_{+}^{(p+1)}~\mathit{B}_{+}\), \(\mathcal{B}_{-}\approx \mu_{-}^{(p+1)}~\mathit{B}_{-}\). En este caso los componentes \(\mathit{B}_{+}\) y \(\mathit{B}_{-}\) dependen de la selección de la función kernel (\(K(\cdot)\)) y del grado del polinomio local (\(p\)). Dado que en nuestra estimación asumimos estos componentes, el paquete estadístico de rdrobust utilizará métodos plug-in para estimar estos componentes. Y además: \[\begin{equation*} \begin{split} \mu_{+}^{(p+1)}&=\lim_{g \to k^+}\frac{d^{p+1}E\left(Y_i^T|G_i=g \right)}{d G_i^{p+1}} \\ \mu_{-}^{(p+1)}&=\lim_{g \to k^-}\frac{d^{p+1}E\left(Y_i^C|G_i=g \right)}{d G_i^{p+1}} \end{split} \end{equation*}\]
    Estos componentes \(\mu_{+}^{(p+1)}\) y \(\mu_{-}^{(p+1)}\) dependen de la curvatura de la media de la variable dependiente. En el caso de la LL, estos componentes serán estimados con un polinomio local de segundo grado (o mayor) y utilizando un bandwidth \(b\) (que no necesariamente es igual a \(h\)). Esto lo veremos gráficamente en clase. En este caso, nos estamos enfocando en un bandwidth \(h\) en común, pero existen extensiones sencillas que permiten calcular un diferente bandwidth para observaciones a la izquierda y derecha del corte. Esto vale la pena cuando la curvatura de ambas funciones \(E\left(Y_i^T|G_i \right)\) y \(E\left(Y_i^C|G_i \right)\) es muy distinta (lo cual se puede corroborar gráficamente), que la densidad sea distinta de forma importante (lo cual es raro dado que no puede haber un cambio abrupto en la densidad alrededor de la vecindad de \(k\)) o que la variación de la variable dependiente sea muy distinta antes y después del corte (como veremos abajo).

    En cuanto al término de la varianza, los componentes se pueden aproximar como: \(\mathcal{V}_{+}\approx \frac{\sigma_{+}^2}{f(G_i=k)}~\mathit{V}_{+}\), \(\mathcal{V}_{-}\approx \frac{\sigma_{-}^2}{f(G_i=k)}~\mathit{V}_{-}\). Nuevamente, los componentes \(\mathit{V}_{+}\) y \(\mathit{V}_{-}\) dependen de la selección de la función kernel (\(K(\cdot)\)) y del grado del polinomio local (\(p\)). El término \(f(G_i=k)\) representa la densidad de la variable definitoria en el corte \(k\). Y además: \[\begin{equation*} \begin{split} \sigma_{+}^2&=\lim_{g \to k^+}V\left(Y_i^T|G_i=g \right)\\ \sigma_{-}^2&=\lim_{g \to k^-}V\left(Y_i^C|G_i=g \right) \end{split} \end{equation*}\]

    Como resultado, el \(h\) óptimo tendrá la siguiente forma: \[\begin{equation} h^*_{MSE}=\left(\frac{\mathcal{V}}{2(p+1)\mathcal{B}^2} \right)^{\frac{1}{2p+3}}~n^{\frac{-1}{(2p+3)}} \end{equation}\] Esta ecuación exhibe el tradeoff sesgo-varianza y ademaás muestra que la \(h\) óptima disminuye conforme aumenta el tamaño de muestra (\(n\)). Una precisión final a hacer es que si el sesgo estimado de la \(h^*_{MSE}\) es demasiado pequeño (tiende a cero), esto generará un problema en la definición de \(h^*_{MSE}\). Por ello, en algunos casos la estimación del \(h^*_{MSE}\) incluye un (\(\mathcal{R}\)). \[\begin{equation} h^*_{MSE}=\left(\frac{\mathcal{V}}{2(p+1)\mathcal{B}^2+\mathcal{R}} \right)^{\frac{1}{2p+3}}~n^{\frac{-1}{(2p+3)}} \end{equation}\] Por default, asume que este término es igual a \(1\), pero se puede modificar como parte de las opciones para hacerlo cero.

  3. ¿Agregar controles? Aunque no es necesario agregar controles en el contexto de regresión discontinua para evitar sesgo, pudiera existir una motivación desde el punto de vista de eficiencia. Para llevar a cabo esto hay dos alternativas: (i) hacer partial-out de la variable dependiente y estimar la regresion LL utilizando como variable dependiente los errores de la estimación; (ii) utilizar el comando rdrobust que permite hacer un ajuste local de los controles para llevar a cabo la estimación LL.

10.2.3 Inferencia

Como hemos discutido anteriormente, típicamente estaremos interesados en llevar a cabo una prueba de hipótesis acerca del parámetro poblacional de interés. En este caso, \(\tau_s\). Para esto, será necesario derivar la distribución de nuestro estimador \(\widehat{\tau}_s\).

Una particularidad que es importante tomar en cuenta al momento de calcular el estimador puntual es que el sesgo no es igual a cero. Existen dos alternativas que típicamente se utilizan para corregir el hecho de que en el estimador puntual hay sesgo:

10.2.3.1 Estimar y corregir el sesgo

En este caso, veremos una solución que emplea solo los datos que están dentro del bandwidth elegido por \(h^*_{MSE}\). La distribución del estimador (\(\tau_s\)) es:

\[\begin{equation} \frac{\widehat{\tau}_s-\tau_s-\mathscr{B}}{\sqrt{\mathscr{V}}} \thicksim N(0,1) \end{equation}\]

Hay dos aspectos a tomar en cuenta con respecto a la distribución:

  • Ignorar el término del sesgo es incorrecto al derivar la distribución. Esto puede llevar a sobre-estimar significancia. Dicho de otra manera, tendremos efectos significativos en mayor proporción que la realidad porque nuestro estimador está centrado en \(\tau_s+\mathscr{B}\). Es decir, tiene sesgo positivo.

  • La varianza a su vez debe estar afectada por la corrección de agregar el sesgo

Para corregir por el primer punto, una posibilidad es generar un estimador de \(\mathscr{B}\) y centrar los intervalos de confianza en \(\widehat{\tau}_s-\widehat{\mathscr{B}}\). Previamente, para el calculo de \(h^*_{MSE}\) se había detallado que un estimador del sesgo se podía realizar utilizando la curvatura de la media de la variable dependiente con respecto a \(G_i\), por lo que se utiliza un polinomio de mayor grado al que se usa en la estimación puntual para tener un estimador del sesgo. Esto lo ilustraremos en clase. En cuanto al segundo punto de corrección de la varianza, la introducción del estimador del sesgo \(\mathscr{B}\) hace que la varianza sea mayor a la que sería estimada por métodos tradicionales (e.g. OLS). El comando rdrobust presenta el intervalo de confianza con esta corrección de sesgo y varianza en la líniea indicada como robust. Es importante notar que el intervalo proporcionado por el comando está centrado en \(\widehat{\tau}_s-\widehat{\mathscr{B}}\) y no en el estimador puntual que discutimos previamente. Al igual que en el caso de OLS, la varianza puede ser ajustada para el caso de cluster SEs. Es importante que el estimador del sesgo en este caso se lleva a cabo con un bandwidth igual que el estimador puntual (\(h^*_{MSE}\)).

10.2.3.2 Utilizar un distinto bandwidth para generar intervalos de confianza

En la sección anterior se utilizó el bandwidth \(h^*_{MSE}\) para el estimador puntual y para llevar a cabo inferencia. Sin embargo, dicho bandwidth se selecció por ser óptimo como estimador puntual. Una alternativa es utilizar otro bandwidth para llevar a cabo inferencia: uno que sea óptimo para dicho propósito.

Esta alternativa consiste en utilizar el \(h^*_{MSE}\) para el estimador putual y posteriormente seleccionar uno que minimice un estimador del error de cobertura, que representa el porcentaje de las veces en als cuales el intervalo de confianza que resulta de una estimación no incluye el valor verdadero. Esto da lugar al \(h^*_{CER}\) que se estima como parte del paquete rdrobust. Típicamente \(h^*_{CER}<h^*_{MSE}\). También existe una alternativa como parte del paquete estadístico rdrobust de estimar un distinto bandwidth a la derecha y a la izquierda de la discontinuidad.

10.2.4 Tests de robustez

A continuación enumeramos los tests de robustez más comunmente aplicados en las estimaciones de regresión discontinua.

  1. McCrary test. Una condición fundamental en la estimación con el método de RD es que la variable definitoria no sea manipulable. Si lo fuera, las unidades de observación podrían elegir su posición con respecto al corte (posiblemente basado en sus caracterísitcas observables y no observables) para influenciar si recibirían el tratamiento o no. esto haría imposible distinguir si las diferencias en la variable dependiente se deberían al tratamiento a alguna de estas características. Un test típico se basa en observar la distribución de la variable definitoria vía histogramas o densidades kernel. El McCrary test (2008) consiste en llevar a cabo una densidad kernel usando solo las observaciones a la derecha de la discontinuidad y otra con las observaciones a la izquierda y evaluar si el estimador de la densidad en \(k\) es distinta usando ambos estimadores.

  2. Tests de falsificación. Estos consisten en utilizar controles como variables dependientes. Otra alternativa de distinguir que caracterísitcas de os individuos no provocan que se seleccionen a un lado u otro de la discontinuidad es utilizar variables pre-existentes de los individuos y llevar a cabo las estimaciones de RD empleándolas como variables dependientes. En general, deberían encontrar continuidad, es decir, no debería haber un cambio abrupto en el nivel de ninguno de los controles en la discontinuidad.

  3. Diferentes bandwidths. Pese a que ya hemos discutido a detalle la selección del bandwidth, para el caso en el que usamos un mismo bandwidth para inferencia y estimación puntual, podemos llevar a cabo un test de sensibilidad para mostrar qué tan sensibles son los resultados a la selección del bandwidth. La literatura típicamente emplea para estas sensibilidades un bandwidth igual al doble y la mitad del bandwidth óptimo que se usa en los resultados principales. Idealmente, el resultado no debería ser muy sensible al bandwidth, pero es importante indicar que de ser sensible al bandwidth (especialmente al doble del caso base), esto no quiere decir que los resultados deban invalidarse, sin embargo, sugeriría que posiblemente hay una curvatura importante en las medias de los resultados potenciales que se están estimando. Una alternativa recomendable para tener un bandwidth adicional es seleccionar uno utilizando cross-validation. Para esto, podemos establecer como función objetivo la media del cuadrado de los errores y seguir los pasos establecidos en la sección 5.2 del Capítulo 3 . Imbens sugiere también que dada la naturaleza local del RD, se puede hacer cross validation quitando observaciones de las colas de la distribución de \(G_i\). Algunos autores, por ejemplo, usan reglas de dedo como quitar la mitad de las observaciones de cada lado de la discontinuidad.

  4. Diferentes cortes (placebo cutoffs). Este test consiste en llevar a cabo simulaciones en las cuales se modifica artificialmente el nivel del cutoff \(k\) y se llevan a cabo las estimaciones suponiendo que dicho corte está en otro valor de la variable definitoria. Al ser falsa esta aseveracón, los efectos obtenidos deberían ser muy pequeños y no significativos. Este test suele ser parecido en espiritu a lo que se conoce como tests de permutación (e.g. Fischer Exact Tests).

  5. Quitar observaciones cerca de la discontinuidad. Este test no es muy popular debido a que la teoría de RD indica que la identificación del efecto es local justo en el punto de la discontinuidad, \(k\). Sin embargo, en casos en los cuales se sospecha de manipulación este test se basa en que los valores más cerca de la discontinuidad potencialmente son los más sujetos a manipulación. En este se caso se quitan algunas observaciones cerca de la discontinuidad y se repite la estimación. Obviamente, estamos refiriendonos a intervalos a remover muchos más pequeños que el bandwidth óptimo.

  6. Estimaciones paramétricas globales. Como se mencionó en la sección ??, los resultados de la estimación que utiliza LL, suele compararse con estimaciones paramétricas globales (i.e. no restringidas por el bandwidth) con distintos grados de polinomio.

10.3 Extensiones del modelo RD

En esta sección comentamos brevemente y con pocos detalles técnicos algunas extensiones del modelo de RD.

10.3.1 Regresión Discontinua “Fuzzy”

Como comentamos al inicio de este capítulo, existen en la práctica casos en los cuales algunos individuos que son elegibles para recibir el tratamiento deciden no tomarlo e individuos que no son asignados al tratamiento, consiguen una manera de tener acceso a él. Esto se conoce como imperfect compliance. Algunos ejemplos de fuzzy RD incluyen: (i) PMT, como Progresa/Oportunidades; (ii) becas basadas en la calificación de algún examen de admisión estandarizado.

Para esta sección será necesario entonces distinguir entre asignación al tratamiento y tomar el tratamiento. Para ello, cabe hacer una aclaración en la notación a utilizar: \(T_i\) seguirá siendo una dummy para identificar si el individuo \(i\) recibe o toma el tratamiento, mientras que una varible adicional ahora será \(Z_i\), que es una dummy que indica si el individuo \(i\) es asignado al tratamiento. En el caso de RD, dicha asignación es vía una regla que es función de la variable definitoria \(G_i\). Al igual que en las secciones anteriores, asumiremos que existe un corte y que los indiviuos no pueden modificar su posición de \(G_i\) respecto al punto de corte (\(k\)) que establece la elegibilidad. A diferencia que el caso de RD Sharp, ahora, \(Z_i=1\{ G_i\geq k\}\).

En cuanto al tratamiento, este es ahora una función de la asignación al tratamiento, y de forma similar a los resultados potenciales, cada individuo tendrá dos posibles escenarios: ser o no asignado al tratamiento. En cada posible realización de \(Z_i\), el individuo podrá tomar una decisión con respecto a si toma o no el tratamiento. En este caso \(T_i(Z_i)\) será una dummy que indica si el individuo \(i\) toma el tratamiento y esta decisión es función de la dummy \(Z_i\) que indica asignación. Dada esta notación, existen cuatro tipos de individuos, que previamente hemos descrito en el contexto de experimentos aleatorios:

  1. Always takers: aquellos individuos que sean o no asignados, deciden sí tomar el tratamiento. Es decir, \(T_i(1)=T_i(0)=1\)

  2. Never takers: aquellos individuos que sean o no asignados, deciden no tomar el tratamiento. Es decir, \(T_i(1)=T_i(0)=0\)

  3. Compliers: aquellos individuos que si son asignados al tratamiento deciden sí tomarlo, pero si no son asignados, no lo toman. Es decir, \(T_i(1)=1\) y \(T_i(0)=0\)

  4. Defiers: aquellos individuos que si son asignados al tratamiento deciden no tomarlo, pero si no son asignados, sí lo toman. Es decir, \(T_i(1)=0\) y \(T_i(0)=1\)

En la fuzzy RD, la probabilidad de formar parte del grupo de tratamiento tiene un cambio discontinuo en el punto de corte \(G_i=k\). Sin embargo, dado el , la probabilidad no cambia de \(0\) a \(1\). El hecho de que haya un cambio abrupto en la discontinuidad en el punto \(k\) indica que en esa parte de la distribución existe una proporción razonable de compliers. \

En los contextos antes descritos es posible estimar dos parámetros simplemente siguiendo la estrategia de sharp RD:

  • Intent to Treat (ITT): \(\tau_{ITT}=E\left[(T_i(1)-T_i(0))(Y_i^T-T_i^C) |G_i=k\right]\)

  • First Stage (FS): \(\tau_{FS}=E\left[T_i(1)-T_i(0)|G_i=k\right]\)

Si además de estos parámetros, nos interesara obtener el efecto promedio de tratamiento, será necesario agregar dos supuestos adicionales a los establecidos en el sharp RD:

  1. Independencia de asignacion. \(Y_i^T\) y \(Y_i^C\) no dependen de \(Z_i\).

  2. Monotonicidad. \(T_i(g)\) es no-creciente en \(x\) si \(x=k\). Este supuesto es similar al supuesto de variables instrumentales que indica que no deben existir los defiers.

Cabe destactar respecto a los supuestos, que contrario al caso de variables instrumentales, en este caso no es necesario asumir exogeneidad. Este supuesto se sustituye por el hecho de que las observaciones son muy similares en una vecindad alrededor de la discontinuidad.

Siguiendo con la estrategia de variables instrumentales, en este caso podremos estimar el efecto del tratamiento para los compliers que además tienen \(G_i=k\). Este estimador corresponderá a:

\[\begin{equation} \tau_f=\frac{\lim_{g\to k^+}E[Y_i|G_i=g]-\lim_{g\to k^-}E[Y_i|G_i=g]}{\lim_{g\to k^+}E[T_i|G_i=g]-\lim_{g\to k^-}E[T_i|G_i=g]} \tag{10.4} \end{equation}\]

Para estimar el valor de \(\tau_f\) nuevamente podremos utilizar el resultado de dos regresiones locales lineales, ya que como explicamos anteriormente, utilizando los supuestos de sharp RD podemos estimar el \(\tau_{ITT}\) y el \(\tau_{FS}\). Para obtener el estimados del efecto de tratamiento \(\tau_f\) basta solo utilizar el cociente de los parámetros previos: \[\begin{equation} \widehat{\tau}_f=\frac{\widehat{\tau}_{ITT}}{\widehat{\tau}_{FS}} (\#eq:tfrd_est) \end{equation}\]

Con respecto a la selección del bandwidth ahora la selección es más compleja ya que no solo existe la posibilidad de elegir distintos bandwidths a la derecha e izquierda de la discontinuidad, sino que además tenemos dos outcomes involucrados: \(Y_i\) y \(T_i\). En general, la literatura sugiere elegir un solo bandwidth: aquel que sea el mínimo bandwidth óptimo del \(MSE\) que se eligiría entre usar \(Y_i\) o \(T_i\). Típicamente, \(T_i\) suele tener un comportamiento mas plano (menos variable), lo cual suele implicar que de ambos outcomes, suele ser el que está relacionado con un bandwidth menor.

Finalmente, para llevar a cabo inferencia podemos utilizar nuestro resultado del método Delta y emplear la siguiente distribución:

\[\begin{equation} \sqrt{NH} \left(\widehat{\tau}_f - \tau_f \right) \Longrightarrow N \left(0, \frac{1}{\tau_{FS}^2}\cdot V_{ITT} + \frac{\tau_{ITT}^2}{\tau_{FS}^4}\cdot V_{FS} - 2 \cdot \frac{\tau_{ITT}}{\tau_{FS}^3}\cdot Cov_{ITT,FS} \right) \end{equation}\] donde \[\begin{equation*} \begin{split} V_{ITT}&=\frac{4}{f_G(k)}\cdot \left(\sigma_{Y(r)}^2+ \sigma_{Y(l)}^2 \right) \\ V_{FS}&=\frac{4}{f_G(k)}\cdot \left(\sigma_{T(r)}^2+ \sigma_{T(l)}^2 \right) \\ Cov_{ITT,FS}&=\frac{4}{f_G(k)}\cdot \left(\sigma_{Y(r),T(r)}+ \sigma_{Y(l),T(l)} \right) \end{split} \end{equation*}\]

Necesitamos obtener estimadores de estos componentes: \(\sigma_{Y(r)}^2\), \(\sigma_{Y(l)}^2\), \(\sigma_{T(r)}^2\), \(\sigma_{T(l)}^2\), \(\sigma_{Y(r),T(r)}\), \(\sigma_{Y(l),T(l)}\) y \(f_G(k)\). El último término se puede estimar fácilmente utilizando una densidad kernel. En cuanto a los otros términos, se pueden estimar con los términos de error que resultan de las regresiones (LL) que se utilizaron para estimar \(\tau_{ITT}\) y \(\tau_{FS}\). Para clarificar la notación supongamos que \(\tau_{ITT}=\alpha_{Y(r)}-\alpha_{Y(l)}\) y \(\tau_{FS}=\alpha_{T(r)}-\alpha_{T(l)}\)35. Podemos definir a los términos de error como \(\epsilon_{Y(r),i}=Y_i-\mu_{Y(r)}(X_i)\) para los valores a la derecha de la discontinuidad al usar \(Y_i\) como variable dependiente. Similarmente, podemos obtener los términos de error \(\epsilon_{Y(l),i}\), \(\epsilon_{T(r),i}\) y \(\epsilon_{T(l),i}\). Y con ello podríamos estimar:

\[\begin{equation*} \begin{split} \widehat{\sigma}_{Y(l)}^2&=\frac{1}{N_l} \sum_{i=1}^N 1\{k-h<G_i<k \}~ \widehat{\epsilon}_{Y(l),i}^2 \\ \widehat{\sigma}_{Y(r)}^2&=\frac{1}{N_r} \sum_{i=1}^N 1\{k\leq G_i<k+h \}~ \widehat{\epsilon}_{Y(r),i}^2 \\ \widehat{\sigma}_{T(l)}^2&=\frac{1}{N_l} \sum_{i=1}^N 1\{k-h<G_i<k \}~ \widehat{\epsilon}_{T(l),i}^2 \\ \widehat{\sigma}_{T(r)}^2&=\frac{1}{N_r} \sum_{i=1}^N 1\{k\leq G_i<k+h \}~ \widehat{\epsilon}_{T(r),i}^2 \\ \widehat{\sigma}_{Y(l),T(l)}&=\frac{1}{N_l} \sum_{i=1}^N 1\{k-h<G_i<k \}~ \widehat{\epsilon}_{Y(l),i}^2 \cdot \widehat{\epsilon}_{T(l),i}^2 \\ \widehat{\sigma}_{Y(r),T(r)}&=\frac{1}{N_r} \sum_{i=1}^N 1\{k \leq G_i<k+h \}~ \widehat{\epsilon}_{Y(r),i}^2 \cdot \widehat{\epsilon}_{T(r),i}^2 \end{split} \end{equation*}\]

Aqui \(N_l\) es el número de observaciones que caen dentro del bandwidth \((k-h,k)\) y \(N_r\) el número de observaciones que caen dentro del bandwidth \([k,k+h)\).

10.3.2 Multiples cortes

Una desventaja de las estimaciones de RD es su naturaleza local. Esta característica puede ser parcialmente subsanada en contextos en los cuales existen diversos puntos de corte. Ejemplos de estas situaciones incluyen: (i) votaciones con mas de dos partidos, (ii) reglas escalonadas para dar recursos públicos o privados y (iii) mecanismos de asignación a escuelas con sobre-demanda.

Una estrategia que comúnmente se sigue en estos contextos es recentrar el punto de corte en un único punto (0) que resulta de restar el valor de la variable definitoria para la observación \(i\) de su punto de corte correspondiente \(k_i\). De esta forma se crea una variable definitoria nueva: \(\tilde{G}_i=G_i-k_i\). Y utilizando \(\tilde{G}_i\) se puede llevar a cabo el procedimiento de RD como hemos explicado en esta nota. El resultado de esto será (en el caso de sharp RD:

\[\begin{equation} \tau_s=E\left(Y_i^T-Y_i^C | \tilde{G}_i=0 \right)=\sum_{k \in \mathcal{K}} \tau_s(k) \omega(k) \end{equation}\]

donde \(\mathcal{K}\) es el conjunto de todos los puntos de corte, \(\tau_s(k)\) es el efecto de tratamiento en el punto de corte \(k\) y \(\omega(k)\) es un ponderador que resulta del peso definido por la densidad en el punto \(G_i=k\) como porcentaje de la suma de todas las densidades \(\sum_{\mathcal{K}} f_{G|\mathcal{K}}(k|\mathcal{K})\).

Explotar los diferentes cortes equivale a estimar individualmente cada uno de los \(\tau_s(k)\) y posteriormente analizar cómo se comporta la heterogeneidad de estos efectos de tratamiento a lo largo de la distribución de \(G_i\). Aqui en vez de tener una sola observación del efecto de tratamiento, tendremos tantas como puntos de corte existan.

10.3.3 Kink-RD

El kink-RD es una pequeña extensión de RD y su intuición puede entenderse mejor desde el punto de vista de IV. Este tipo de RD consiste en situaciones en las cuales en el punto de corte hay un cambio discontinuo en la pendiente de la variable variable dependiente y potencialmente del estatus de tratamiento. Algunos ejemplos suelen darse cuando hay topes en cierta cantidad de beneficios, por ejemplo, beneficios de desempleo que dependen del tiempo de desempleo o transferencias monetarias (como Progresa) que dependen del numero de hijos, pero están topadas para desincentivar la fertilidad.

Para poder entender la estimación y la intuición de como se estima el kink-RD empecemos por definir que nuevamente, el parámetro de interés es el efecto del tratamiento sobre alguna variable dependiente \(Y_i\). Para poder llevar a cabo esta estimación nos enfocamos en cambios en pendientes de la variable \(Y\) justo en el punto de la discontinuidad y dividimos dicho cambio de pendiente sobre cambio en la probabilidad de tratamiento. Denotaremos esto como:

\[\begin{equation} \tau_k=\frac{\lim_{g\to k^+} \frac{dE[Y_i|G_i=g]}{d G_i}-\lim_{g\to k^-}\frac{dE[Y_i|G_i=g]}{dG_i}}{\lim_{g\to k^+}\frac{dE[T_i|G_i=g]}{dG_i}-\lim_{g\to k^-}\frac{dE[T_i|G_i=g]}{dG_i}} \end{equation}\]

Esta estimación se puede llevar a cabo nuevamente via regresiones LL, solo que en esta ocasión el enfoque esta sobre la pendiente de la variable definitoria en el punto de la discontinuidad. Se sugiere al lector interesado en profundizar acerca de este tema que revise Card et al. (2016).

10.4 Local randomization

Una última alternativa a la estrategia de regresión discontinua consiste en tratar a las observaciones cercanas al punto de corte como un experimento aleatorio local. Es decir, asumir que aquellas observaciones cerca de la discontinuidad definen de forma exógena su estatus de tratamiento. Esta interpretación tienen que ver con la motivación de RD de asumir que las observaciones un poco antes de la discontinuidad son casi idénticas a las observaciones un poco después de la discontinuidad. Dado que asumimos que estas observaciones cerca de la discontinuidad se comportan aleatoriamente con respecto al experimento, la estrategia de análisis suele ser similar a la utilizada en los experimentos. Basta con llevar a cabo una regresión de la siguiente forma:

\[\begin{equation} Y_i=\tau_1~T_i+ X'_i~\beta + U_i \end{equation}\] donde \(Y_i\) es la variable dependiente, \(T_i\) es la dummy de tratamiento y \(X_i\) es un grupo de controles que pueden o no ser incluidos. En este caso, la estimación se lleva a cabo sólo con las observaciones que están en una ventana alrededor de la discontinuidad. Es decir, aquellas cuya variable definitoria \(G_i\in \left(k-w,k+w \right)\).

Sin embargo, para poder llevar a cabo un análisis de local randomization es importante que se cumplan dos supuestos:

  1. No manipulación de la variable definitoria. De forma similar al caso continuo, debe ser el caso que una unidad no pueda modificar o actuar estratégicamente para afectar su posición de la variable definitoria con el propósito de afectar su elegibilidad al tratamiento.

  2. Independencia de T dentro del bandwidth. Dentro del bandwidth, los resultados potenciales dependen de la variable definitoria únicamente a través del tratamiento (\(T_i\)) y no directamente: \(\{Y_i^T,Y_i^C\}\perp G_i|T_i\). En la práctica este supuesto quiere decir que los resultados potenciales no deben estar relacionados con la variable definitoria \(G_i\) dentro del bandwidth. Es decir, a diferencia que en el caso continuo, no de debe ser el caso que los resultados potenciales tengan una tendencia (positiva o negativa) conforme cambia \(G_i\). Por el contrario, debe haber una tendencia constante (plana). Esto se puede verificar gráficamente y a través de un test de exogeneidad similar al de una tabla de balance que se usa en experimentos aleatorizados (por discutirse mas adelante en la selección del bandwidth). En caso de que esto no se cumpla, se puede hacer una transformación de la variable dependiente (partial-out) para remover la tendencia. Esto requerirá que se asuma una forma funcional paramétrica (tendencia lineal o cuadrática, por ejemplo).

10.4.1 Fischer Exact Test

Una clara desventaja del método de local randomization es la pérdida de poder estadístico que resulta de que pocas observaciones quedan en la muestra una vez que se elige una ventana pequeña de forma que se cumpla con el supuesto (2). Un método que suele utilizarse con muestras pequeñas es el Fischer Exact Test. Para llevar a cabo este método hay tres componentes que deben elegirse:

  • Un bandwidth, \(w\). Cabe señalar que este bandwidth es distinto en espíritu de aquel del caso continuo ya que aquí no enfrentamos el tradeoff sesgo vs varianza. En cambio, aquí el bandwidth debe asegurar que las observaciones que acaban en la muestra se comporten como un experimento local. Por lo pronto asumiremos que \(w\) es conocido y más adelante discutiremos su selección.

  • Un mecanismo de asignación aleatoria para llevar a cabo simulaciones, \(\psi\). Dos alternativas comunes son: aleatorización completa o asignación Bernoulli. El ejemplo disponible en Cattaneo et al. (2018) utiliza aleatorización completa. La asignación Bernoulli toma una probabilidad de asignación a tratamiento específica y cada unidad tiene dicha probabilidad de ser asignada independientemente al tratamiento36.

  • El estadístico de interés (\(S(Y_i,\psi,w)\)). Típicamente será la diferencia de medias entre tratamiento y control. Noten que el estadístico es función del bandwidth (\(w\)), de la variable dependiente (\(Y_i\)) y del mecanismo de asignación (\(\psi\)). Otros estadísticos disponibles en el software locrand son: (i) Kolmogorov-Smirnov (KS), que calcula la máxima distancia de la densidad acumulada de los resultados bajo tratamiento y control; y (ii) Wilcox rank sum (WR), que corresponde a la suma de las posiciones de los individuos en tratamiento (donde la posición se calcula después de ordenar de menor a mayor las observaciones usando \(Y_i\))37.

El objetivo del Fischer Exact Test (FETs) es determinar qué tan atípico es el estadístico observado (\(S^*\), que resulta de la asignación verdadera de tratamiento) si se le compara con una asignación artificial de tratamiento, donde se simulan distintos escenarios de asignación de tratamiento. La intuición detrás de este método es que si el tratamiento no tuviese ningun efecto, el estadístico observado no debería ser muy distinto a simular el tratamiento, ya que en ambos casos el resultado potencial observado debería ser muy similar al no observado. Esto es similar a un ejercicio de falsificación donde se simulan escenarios falsos de asignación del tratamiento. Dichos escenarios falsos deberían resultar en efectos bajos o nulos del tratamiento. Por lo tanto, si el tratamiento no tiene efecto, dichas simulaciones no serían muy distintas al estadístico observado en la realidad.

El estadístico que resumirá qué tan atípico es el estadístico observado es el valor-p de una distribución empírica de estadísiticos que se generan a través de las distintas simulaciones. Imaginemos que las simulaciones generan la siguiente lista de estadísticos: \(\{S_1,\dots,S_M\}\), donde \(M\) es la cantidad de simulaciones. En este caso el valor-p sería (en el caso de una prueba bilateral)38 \[\begin{equation} p=2\cdot \min \left\lbrace \frac{\sum_{m=1}^M \mathbf{1}\left(S_m\geq S^* \right)}{M},\frac{\sum_{m=1}^M \mathbf{1}\left(S_m\leq S^* \right)}{M}\right\rbrace \end{equation}\]

Para generar las simulaciones se siguen los siguientes pasos:

  1. Se utiliza el método seleccionado de asignación aleatoria (\(\psi_m\)) que define para cada simulación \(m\) a que observaciones les corresponde el tratamiento y el control. En este caso \(\psi_m\) es un vector que para designa tratamiento o control a las observaciones que caen dentro del bandwidth: \(G_i \in (k-w,k+w)\).

  2. En cada simulación se calcula el estadístico de interés \(S_m=S(Y_i,\psi_m,w)\)

Un aspecto relevante de las simulaciones es que una unidad \(i\) podría estar designada al tratamiento siendo que en realidad recibió el control (o viceversa). Para poder calcular su resultado potencial contrafactual (el no observado), será necesario establecer una hipótesis nula. En FETs, dicha hipótesis nula corresponde a un efecto homogeneo de tratamiento, \(\tau\) (al ser homogeneo es igual al efecto promedio de tratamiento):

\[\begin{equation} H_0: Y_i^T=Y_i^C+\tau \end{equation}\]

Cabe destacar que \(\tau\) bajo la hipótesis nula será una constante. Típicamente en evaluación de proyectos se utiliza \(\tau=0\) para evaluar si se puede rechazar un efecto nulo del tratamiento. Utilizando esta constante se podrá generar en las simulaciones el resultado potencial para cada observación aun si esta no es observada. Por ejemplo, imaginemos que el individuo 1 recibió tratamiento y tiene \(Y_1=10\). Si dicho individuo en la simulación \(\psi_j\) recibe control, necesitaríamos conocer \(Y_1^C\), pero solo observamos \(Y_1^T\). Bajo la hipótesis nula \(Y_1^T=Y_1^C\), por lo tanto, en la simulación \(\psi_j\), dicho individuo tendrá \(Y_1^C=10\). Si en cambio la hipótesis nula estableciera que \(\tau=2\), en este mismo ejemplo tendríamos (bajo \(H_0\)): \(Y_1^C=Y_1^T-\tau=10-2=8\). En Cattaneo et al. (2018) hay un ejemplo que vale la pena repasar y tener claro en las pp. 16-18.

Por útlimo, es posible generar un intervalo de confianza de \(1-\alpha\) haciendo de forma recurrente el procedimiento anterior. Para esto, se harán varias pruebas de hipótesis para un conjunto definido de \(\{\tau_1,\dots,\tau_L\}\). Todos aquellos valores de \(\tau\) que tengan un valor-p mayor a \(\alpha\) serían incluidos en el intervalo de confianza.

Todos estos pasos descritos se pueden llevar a cabo utilizando el paquete locrand en Stata o R. Dicha función fue creada por Cattaneo et al. y sigue la notación descrita en Cattaneo et al. (2018) que es la principal referencia de esta nota.

10.4.2 Definición de \(w\)

Por último, la definición del bandwidth \(w\) en el caso de local randomization sigue la lógica de identificar la existencia de un escenario similar al de un experimento aleatorio. Por lo tanto, lo que se hace es restringir las observaciones a una ventana \(G_i \in \{k-w,k+w\}\). Utilizando estas observaciones se genera una tabla de balance y se calcula el valor-p de la prueba de que los coeficientes \(\{\gamma_1,\dots,\gamma_K\}\) son conjuntamente iguales a cero utilizando la siguiente especificación:

\[\begin{equation} T_i=\gamma_0+\gamma_1~X_{1i}+\dots+\gamma_K~X_{Ki}+U_i \end{equation}\]

Si efectivamente tuvieramos algo cercano a una asignación aleatoria dicho valor-p debería ser alto. Para definir entonces la ventana se prueban distintos valores para \(w\) y el valor-p resultante nos dará información acerca de valores de \(w\) que es razonable considerar. Recomiendo ver la Figura 2.5 en Cattaneo et al. (2018). Asimismo, una tabla balanceada da evidencia a favor de que para las observaciones dentro del bandwidth, \(Y_i\) no debería de estar relacionada con \(G_i\) mas que a través de \(T_i\), como lo establece el supuesto (2) de local randomization.

10.4.3 Consideraciones finales

Muchas de las pruebas de robustez que describimos para el caso continuo de RD aplican también en el contexto de local randomization, tales como pruebas de falsificación utilizando controles, revisar la densidad de la variable definitoria, sensibilidad al bandwidth y puntos de corte placebo.

El uso de local randomization en vez del RD tradicional suele surgir bajo dos situaciones: pocas observaciones cerca de la discontinuidad y tener una variable definitoria discreta. Una ventaja es que en esta nota hemos revisado diversas pruebas para determinar si una u otra identificación son adecuadas.