3 Estimadores de Máxima Verosimilitud

En esta nota nos enfocamos en los casos en los que nuestra variable dependiente tiene características especiales. Iniciaremos analizando el caso en el cual la variable dependiente es una variable categórica que refleja una decisión. El primer modelo de este tipo que analizaremos será aquel en el cual la variable dependiente se puede caracterizar como una decisión binaria tales como empleado/desempleado, ir o no a la escuela, casado/soltero, o cualquier otra relación binaria. En este caso la variable dependiente podrá representarse con una variable dummy. Los modelos utilizados en este caso son el modelo probit y logit. Después de eso, veremos cómo los modelos de máxima verosimilitud son útiles también para analizar variables de decisión discretas que tengan un orden lógico de mayor a menor. Ejemplos de estas variables son: nivel máximo de estudios (básico/medio superior/superior), qué tan de acuerdo estás con cierta afirmación (nada/poco/algo/mucho), etc. Los modelos que pueden ser utilizados en este caso son: probit ordenado y logit ordenado. Por último, consideraremos casos los cuales la decisión es categórica pero no existe un órden de menor a mayor entre las distintas decisiones. Ejemplos pueden ser elecciones de partidos políticos (PAN/PRI/PRD/otro), selección de medio de transportación (coche/autobus/bicicleta/metro/otro), etc. En estos casos utilizaremos módelos como el logit multinomial.

Además de aquellos casos en los cuales la variable dependiente es una variable categórica, los modelos de máxima verosimilitud son útiles también en casos en los cuales la variable dependiente tiene una distribución particular. Por ejemplo, podremos considerar casos en los cuales existe una alta concentración en uno de los extremos de la distribución. Por ejemplo, pudiera darse el caso que para la pregunta de horas trabajadas a la semana, todos los desempleados contestarán cero, lo cual podría generar una concentración importante en ese valor y posteriormente una distribución en valores positivos. Asimismo, podrían tener casos en las cuales la base de datos por construcción generá dicha concentración en un valor extremo. Por ejemplo, en algunos cuestionarios se reporta ingreso hasta cierto nivel (e.g. por cuestión de confidencialidad, en algunos casos cuando el ingreso es superior a \(99,999\) al mes se reporta como valor en la base de datos \(99,999\) en vez del valor verdadero del ingreso de dicha persona. En los casos anteriores utiliutilizaremos los modelos tobit y de regresión censuarada, respectivamente. Por último, como vimos en la sección 1, tener una muestra sesgada suele ser una preocupación. Esto provoca que la distribución de la muestra no sea necesariamente igual a la distribución poblacional. Si logramos obtener algo de información acerca de observaciones faltantes existen modelos de máxima verosimilitud que permiten hacer una corrección en la estimación para poder obtener estimadores de los parámetros poblacionales. El modelo Heckit es un modelo de este tipo.

Iniciaremos esta nota por mostrar cómo en un caso conocido, como es el de generar una estimación lineal, podemos emplear un modelo de máxima verosimilitud bajo ciertos supuestos para derivar estimadores de los parámetros poblacionales de nuestro interés. El único propósito de este primer ejercicio es describir el procedimiento y entender la intuición de los pasos que seguimos en los estimadores de máxima verosimilitud.

3.1 Motivación de Estimadores de Máxima Verosimilitud: Estimación Lineal

Los modelos de máxima verosimilitud consisten en encontrar los parámetros que maximizan una función de máxima verosimilitud.

Para entender como funcionan, veamos como se puede utilizar para generar estimadores de los parámetros \((\beta,\sigma^2)\) en el caso de la estimación lineal:

\[Y_i=X_i'\beta+U_i\]

Si asumimos, como en el caso de teoría aisntótica que los errores se distribuyen de manera normal con media cero y varianza igual a \(\sigma^2\) (como en el caso de homocedasticidad), podemos aprovechar la función de densidad normal para estimar los parámetros. Dado que asumimos que \(U_i\) se distribuye normal, los errores estarían descritos por la siguiente función de densidad:

\[f(U_i)=\big(\frac{1}{2\pi\sigma^2}\big)^\frac{1}{2}\cdot e^{-\frac{1}{2}\big(\frac{U_i}{\sigma}\big)^2}\]

Si aplicamos la transformación logarítmica y sustituimos \(U_i\) obtenemos nuestra función de máxima verosimilitud:

\[\mathcal{L}(\beta,\sigma^2)=\sum\limits_{i=1}^N-\frac{1}{2}\log{(2\pi\sigma^2)}-\frac{1}{2\sigma^2}(Y_i-X_i'\beta)^2\]

En este caso, nuestros mejores estimadores de \(\beta\) y \(\sigma^2\) serán los que maximizan esta función de máxima verosimilitud (Explicar intuitivamente que estamos haciendo). Si derivamos encontramos nuestras condiciones de primer orden que resultan en:

\[\begin{equation*} \begin{split} \hat{\beta}=&\biggl(\sum_{i=1}^NX_iX_i'\biggl)^{-1}\biggl(\sum_{i=1}^NX_iY_i\biggl)\\ \hat{\sigma}^2=&\frac{1}{N}\sum_{i=1}^N(Y_i-X_i'\hat{\beta})^2 \end{split} \end{equation*}\]

Nótese que el estimador de \(\beta\) es exactamente el mismo que obtuvimos con MCO y el estimador de \(\sigma^2\) es muy similar al que estimamos en el caso de homocedasticidad.

En este caso, en clase vimos cómo se derivan los estimadores de manera analítica. Sin embargo, en los casos de los estimadores que veremos a continuación, llevar a cabo dicha derivación analítica puede ser muy complicado (o imposible). En estos casos, para poder obtener valoes estimados de nuestros estimadores, se utilizan métodos numéricos, como por ejemplo el Newton-Raphson.

3.2 Variable Dependiente Categórica

3.2.1 Variable Dependiente: Dummy

3.2.1.1 Probit

El modelo probit consiste en utilizar una función de densidad acumulada para aproximar la función \(P(Y_i=1|X_i)\). La ventaja de este modelo respecto al modelo de probabilidad lineal es que nunca habrá una predicción fuera del rango \([0,1]\). Como mencionamos anteriormente, este modelo pertenece al grupo de estimadores de máxima verosimilitud, por lo tanto, necesitamos definir una función de máxima verosimilitud para poder derivar los parámetros que queremos estimar. Supongamos que partimos de la aproximación lineal del modelo de probabilidad lineal:

\[Y_i=X_i'\beta+U_i\]

Lo que nos interesa de este modelo son los parámetros \(\beta\) ya que nos dan información acerca del cambio en la probabilidad de que nuestra variable dependiente sea igual a uno por un cambio marginal en alguno de las variables incluidas en \(X_i\).

El modelo probit inicia por sustituir \(Y_i\) por una variable “latente” que llamaremos \(Y_i^*\), donde \(Y_i=1\{Y_i^*>0\}\). Esta función es una función indicador que determina que \(Y_i\) es igual a uno (cero) si \(Y_i^*\) es positivo (negativo). Nuestro modelo lineal será:

\[Y_i^*=X_i'\beta+U_i\]

El modelo probit consiste en asumir que los errores se distribuyen de manera normal estándar. Por lo tanto, la estimación se calcula de la siguiente forma:

\[Pr(Y_i=1|X_i)=Pr(U_i>-X_i'\beta)=Pr(U_i<X_i'\beta)=\Phi(X_i'\beta)\]

En el contexto de estimadores de máxima verosimilitud, tenemos una distribución Bernoulli (\(f(y)=p^y(1-p)^{1-y}\)). Sustituyendo la ecuación anterior y tomando nuevamente la transformación logaritmica obtenemos nuestra función de máxima verosimilitud (ilustrar en clase que estamos haciendo):

\[\mathcal{L}(\beta)=\sum\limits_{i=1}^NY_i\log{(\Phi(X_i'\beta))}+(1-Y_i)\log{(1-\Phi(X_i'\beta))}\]

Como ilustramos en clase, la condición de primer orden no permite encontrar una solución cerrada, por lo tanto, para resolver este problema se emplean métodos numéricos. En cuanto al error estándar, su derivación es algebráicamente compleja y requiere además de teoría asintótic avanzada. La fórmula de los errores estándar es la siguiente y es calculada automáticamente en paquetes estadísticos como Stata:

\[\widehat{Var}(\hat{\beta})=\biggl(\sum\limits_{i=1}^N\frac{\phi(X_i'\hat{\beta})X_iX_i'}{\Phi(X_i'\hat{\beta})[1-\Phi(X_i'\hat{\beta})]}\biggl)^{-1}\]

Cabe mencionar que los coeficientes que resultan no tienen una interpretación intuitiva por si solos, ya que únicamente indicarán el cambio en la variable latente por un cambio marginal en una de las variables independientes \(X_i\). Lo único que podemos saber es que si un coeficiente \(\beta_k\) es positivo (negativo) entonces, la probabilidad de que \(Y_i\) sea igual a uno aumentará (disminuirá) tras un cambio marginal en \(X_k\). Sin embargo, lo que nos interesa es el estimador del cambio en la probabilidad de que \(Y_i\) sea igual a uno. Para llevar a cabo esto, necesitaremos una transformación basada en nuestra función de densidad agregada:

\[\frac{\partial Pr(Y_i=1|X_i)}{\partial X_{ki}}=\frac{\partial\Phi(X_i'\beta)}{\partial X_{ki}}=\phi(X_i'\beta)\beta_k\]

Posteriormente, este efecto se promedia utilizando todas las observaciones y con esto se obtiene un valor estimado del efecto de un cambio marginal en \(X_k\) sobre la probabilidad de que \(Y_i\) sea igual a uno (medido en puntos porcentuales). Esto se conoce como el efecto parcial promedio. Dado que en este caso tenemos una función no lineal, esto corresponde a una aproximación del efecto de un cambio marginal de \(X_k\) y es similar a lo que hicimos en la sección 2.4. Asimismo, podemos seguir el procedimiento especificado en la sección 2 para hacer una estimación exacta. La estimación exacta es particularmente interesante en los casos en que se tiene una variable dummy como variable explicativa en el modelo. Para estimar el error estándar de este efecto en ambos casos se puede utilizar el método delta6 o bootstrap.

3.2.1.2 Logit

La derivación del modelo logit es idéntica al modelo probit. La diferencia entre ambos modelos radica en el supuesto que se establece para la distribución de los errores \(U_i\). En el modelo probit asumimos que se distribuyen normal estándar. En el caso del modelo logit asumiremos que \(\Phi(.)\) es una distribución logística7

\[Pr(Y_i=1|X_i)=\Phi(X_i'\beta)=\frac{\exp{(X_i'\beta)}}{1+\exp{(X_i'\beta)}}\]

La diferencia entre ambos modelos es mínima. Los coeficientes estimados suelen ser distintos, pero a diferencia de probit, en el caso de logit los coeficientes tienen una interpretación intuitiva por si mismos. Para ver esto, calculemos el ratio de la probabilidad condicional de que \(Y_i\) sea igual a uno sobre la probabilidad condicional de que sea igual a cero:

\[\frac{Pr(Y_i=1|X_i)}{Pr(Y_i=0|X_i)}=\frac{Pr(Y_i=1|X_i)}{1-Pr(Y_i=1|X_i)}=\exp{(X_i'\beta)}\]

Por lo tanto, calculando el logaritmo:

\[\log{\biggl(\frac{Pr(Y_i=1|X_i)}{Pr(Y_i=0|X_i)}\biggl)}=X_i'\beta\]

En este caso, la interpretación del coeficiente \(\beta_k\) será: (caeteris paribus) un cambio marginal de \(X_k\) implica un cambio de \(100\beta_k\%\) en el ratio de la probabilidad que \(Y_i\) sea igual a uno sobre la probabilidad que sea igual a cero.

En algunos casos, al reportar los resultados del logit es común encontrar que en vez de ver reportados los coeficientes, se reporta una transformación de dichos coeficientes que suele ser referido como el odds ratio. Para entender en qué consiste dicha transformación veamos lo siguiente. Empecemos por simplificar nuestra notación. Definamos:

\[\frac{Pr(Y_i=1|X_i)}{Pr(Y_i=0|X_i)}=\biggl(\frac{p}{1-p}\biggl|X_i \biggl)\]

Imaginemos ahora que queremos ver el efecto de aumentar en una unidad alguna de nuestras variables explicativas. Sin pérdida de generalidad digamos que aumentamos la variable \(X_{1i}\) de \(19\) a \(20\). Por lo tanto, utilizando la especificación logit tendríamos:

\[\begin{equation} \begin{split} \log{\biggl(\frac{p}{1-p}\biggl|X_{1i}}=20\biggl)&=\beta_0+\beta_1 (20)+\beta_2X_{2i}+\dots+\beta_KX_{Ki} \\ \log{\biggl(\frac{p}{1-p}\biggl|X_{1i}}=19\biggl)&=\beta_0+\beta_1 (19)+\beta_2X_{2i}+\dots+\beta_KX_{Ki} \end{split} \tag{3.1} \end{equation}\]

Ahora supongamos que nos interesa la diferencia entre estos dos valores y que después de calcular la diferencia tomamos la exponencial:

\[\begin{equation} \exp{\biggl[\log{\biggl(\frac{p}{1-p}\biggl|X_{1i}}=20\biggl)-\log{\biggl(\frac{p}{1-p}\biggl|X_{1i}}=19\biggl)\biggl]}=\frac{\exp{\biggl[\log{\biggl(\frac{p}{1-p}\biggl|X_{1i}}=20\biggl)\biggl]}}{\exp{\biggl[\log{\biggl(\frac{p}{1-p}\biggl|X_{1i}}=19\biggl)\biggl]}} \tag{3.2} \end{equation}\]

La expresión que hemos derivado a la derecha la podemos establecer como un cambio porcentual de manera simple:

\[\begin{equation*} \begin{split} \frac{\exp{\biggl[\log{\biggl(\frac{p}{1-p}\biggl|X_{1i}}=20\biggl)\biggl]}}{\exp{\biggl[\log{\biggl(\frac{p}{1-p}\biggl|X_{1i}}=19\biggl)\biggl]}}&=\frac{\biggl(\frac{p}{1-p}\biggl|X_{1i}=20\biggl)}{\biggl(\frac{p}{1-p}\biggl|X_{1i}=19\biggl)} \\ &=\frac{\biggl(\frac{p}{1-p}\biggl|X_{1i}=19\biggl)+\biggl(\frac{p}{1-p}\biggl|X_{1i}=20\biggl)-\biggl(\frac{p}{1-p}\biggl|X_{1i}=19\biggl)}{\biggl(\frac{p}{1-p}\biggl|X_{1i}=19\biggl)} \\ &=1+\frac{\Delta \% \biggl(\frac{p}{1-p}\biggl)}{\Delta X_{1i}=1} \end{split} \end{equation*}\]

Ahora bien, si utilizamos la ecuación (3.1), sacamos la exponencial y simplificamos utilizando las propiedades de la exponencial:

\[\begin{equation*} \begin{split} \exp{\biggl[\log{\biggl(\frac{p}{1-p}\biggl|X_{1i}}=20\biggl)\biggl]}&=\exp{[\beta_0+\beta_1 (20)+\beta_2X_{2i}+\dots+\beta_K X_{Ki}]]} \\ &=\exp{[\beta_0]}\cdot\exp{[\beta_1]}^{20}\cdot\exp{[\beta_2]}^{X_{2i}}\cdots\exp{[\beta_K]}^{X_{Ki}} \\ \exp{\biggl[\log{\biggl(\frac{p}{1-p}\biggl|X_{1i}}=19\biggl)\biggl]}&=\exp{[\beta_0+\beta_1 (19)+\beta_2X_{2i}+\dots+\beta_K X_{Ki}]]} \\ &=\exp{[\beta_0]}\cdot\exp{[\beta_1]}^{19}\cdot\exp{[\beta_2]}^{X_{2i}}\cdots\exp{[\beta_K]}^{X_{Ki}} \end{split} \end{equation*}\]

Combinando este resultado con la ecuación (3.2): \[\begin{equation} 1+\frac{\Delta \%\biggl(\frac{p}{1-p}\biggl)}{\Delta X_{1i}=1}=\exp{[\beta_1]} \end{equation}\]

Como vemos, con este cálculo obtenemos el cambio porcentual del ratio \(\frac{p}{1-p}\) que resulta de cambiar en una unidad el valor de \(X_1\). La derivación que llevamos a cabo la hicimos asumiendo que \(X_1\) cambia de \(19\) a \(20\), pero el mismo resultado lo hubiésemos obtenido eligiendo un cambio de una unidad con cualquier valor. Nuestro resultado es la exponencial del coeficiente original de logit. Es interesante notar que en este caso nuestro resultado no depende de \(i\), lo cual sugiere que con esta derivación el efecto parcial promedio y el efecto parcial para la persona promedio serán equivalentes nuevamente.

Sin embargo, lo mas importante que debemos señalar es que nuestro resultado reportado (\(\exp{[\beta_1]}\))es igual a uno mas el cambio porcentual. Es por esto que en mucho contextos encontrarán que los resultados del modelo logit (también conicido como la regresión logística) suelen compararse con el \(1\). Es decir, ustedes querrían plantear la hipótesis nula de si su resultado es significativamente distinto a \(1\). En términos de interpretación, asi como en el caso del logaritmo, nuestro resultado indica un cambio porcentual del ratio \(\frac{p}{1-p}\).

Es importante señalar que a pesar de lo indicado anteriormente, si queremos hacer comparable las interpretaciones del modelo probit y el modelo logit, de la misma manera que en la sección anterior, podemos calcular el efecto parcial promedio tomando el valor promedio de \(\phi(X_i'\beta)\beta_k\). La diferencia es que en el caso de logit \(\phi(.)\) representa la función de densidad logística. Igual que en el caso anterior, este efecto representará el cambio promedio de la probabilidad de que \(Y_i\) sea igual a uno (en puntos porcentuales) por un cambio marginal en \(X_k\) (caeteris paribus).

En el caso de ambos modelos, suele también reportarse el porcentaje de predicciones de \(Y_i\) correctas. Cabe recordar que en ambos casos (probit y logit) podemos generar un valor estimado de la variable latente (\(Y_i^*\)) para cada individuo (asumiendo errores \(U_i=0\)). Dado el valor de dicha variable latente, podremos predecir basados en las variable independientes (\(X_i\)) si dicho individuo tiene una \(Y_i\) igual a uno o cero. Una manera de describir qué tan exacto es el modelo consiste en reportar el porcentaje de predicciones correctas. En algunos casos, dicho estadístico es criticado ya que un modelo puede ser muy bueno (malo) para predecir cuando \(Y_i\) es igual a cero (uno) o viceversa. Si en este caso la mayor parte de los \(Y_i\) observados es igual a cero, el estadístico puede reportar que el modelo es muy bueno para predecir a pesar de que casi nunca prediga correctamente cuando \(Y_i\) es igual a uno. Alternativas para este estadístico consisten en reportar por separado el porcentaje de predicciones correctas para cada caso (i.e. cuando \(Y_i\) es igual a cero y cuando es igual a uno).

Es importante señalar que en todos estos modelos aplican las preocupaciones de validez interna que se tienen en el modelo de MCO. En particular, el sesgo por variables omitidas sigue siendo un limitante importante para interpretar los efectos parciales promedio de forma causal.

Un ejemplo de estos modelos se pueden obtener utilizando los siguientes comandos de Stata:

  • webuse nhanes2d

  • reg highbp height weight age female, r

  • probit highbp height weight age female, r

  • predict probit_hbp

  • mfx

  • logit highbp height weight age female, r

  • predict logit_hbp

  • mfx

  • logit highbp height weight age female, r or

3.2.2 Variable Dependiente: Multivariada Ordenada

3.2.2.1 Probit ordenado

El modelo de probit ordenado asume que la variable dependiente es una variable categorica y que sus valores tienen un orden lógico de menor a mayor. En clase veremos algunos ejemplos.

Este modelo es una extensión del modelo probit. Nuevamente, esta basado en una variable latente: \[\begin{equation} Y_i^*=X_i'\beta+U_i \tag{3.3} \end{equation}\]

Sin embargo, en este caso la variable latente estará definida para \(j=\{0,\dots,J\}\) (donde \(J\) es el número de valores que puede tomar la variable dependiente ordenada) como:

\[\begin{equation} Y_i=j~~\text{si}~~\alpha_j\leq Y_i^*<\alpha_{j+1}~~\text{donde}~~ \alpha_0=-\infty,~\alpha_{J+1}=\infty~~\text{y}~~\alpha_j<\alpha_{j+1} \tag{3.4} \end{equation}\]

Siguiendo los mismos pasos que en el caso del modelo probit asumimos que el error se distribuye normal estándar. Por lo tanto, la probabilidad condicional de que \(Y_i=0\) será:

\[Pr(Y_i=0|X_i)=Pr(X_i'\beta+U_i<\alpha_1)=Pr(U_i<\alpha_1-X_i'\beta)=\Phi(\alpha_1-X_i'\beta)\]

Y la probabilidad condicional de que \(Y_i=j\) para \(j=1,\dots,J-1\) será: \[\begin{equation*} \begin{split} Pr(Y_i=j|X_i)=&Pr(\alpha_j<X_i'\beta+U_i<\alpha_{j+1})=Pr(\alpha_j-X_i'\beta<U_i<\alpha_{j+1}-X_i'\beta)\\ & =\Phi(\alpha_{j+1}-X_i'\beta)-\Phi(\alpha_j-X_i'\beta) \end{split} \end{equation*}\]

Finalmente, la probabilidad condicional de que \(Y_i=J\) será:

\[Pr(Y_i=J|X_i)=Pr(\alpha_J<X_i'\beta+U_i)=Pr(\alpha_J-X_i'\beta<U_i)=1-\Phi(\alpha_J-X_i'\beta)\]

En base a esto podemos generar la función de máxima verosimilitud que utilizaremos para encontrar los valores de \(\beta\) y \(\alpha_1,\dots,\alpha_J\):

\[\begin{equation*} \begin{split} \mathcal{L}(\beta,\alpha_1,\dots,\alpha_J)=&\sum\limits_{i=1}^N\biggl[1\{Y_i=0\}\cdot \log{(\Phi(\alpha_1-X_i'\beta))}\\ &+ \sum\limits_{j=1}^{J-1}1\{Y_i=j\}\cdot \log{(\Phi(\alpha_{j+1}-X_i'\beta)-\Phi(\alpha_j-X_i'\beta))}\\ &+ 1\{Y_i=J\}\cdot \log{(1-\Phi(\alpha_J-X_i'\beta))}\biggl] \end{split} \end{equation*}\]

Nuevamente, en este caso los coeficientes no tendrán ninguna interpretación intuitiva por si mismos. Lo interesante en este caso será predecir el cambio en la probabilidad de la ocurrencia de distintos valores de la variable dependiente por un cambio marginal en alguna de las variables independientes (\(X_i\)). Por ejemplo:

\[\frac{\partial Pr(Y_i=j|X_i)}{\partial X_{ki}}=\phi(\alpha_{j}-X_i'\beta)\beta_k-\phi(\alpha_{j+1}-X_i'\beta)\beta_k\]

Igual que en el caso del modelo probit, se calcula el promedio para todas las observaciones y esto resultará en el estimador del efecto parcial promedio. En este caso lo único que sabemos a partir del signo de \(\beta_k\) es que si es positivo (negativo), la probabilidad de que \(Y_i=J\) aumentará (disminuirá) y la probabilidad de que \(Y_i=0\) disminuirá (aumentará) por un aumento marginal en \(X_k\).

En clase veremos un ejemplo de estos modelos utilizando los siguientes comandos de Stata:

  • webuse nhanes2f

  • oprobit health female black age, r

  • predict pr1 pr2 pr3 pr4 pr5

  • mfx

  • mfx compute, predict (outcome(#3))

3.2.2.2 Logit ordenado

La relación entre el logit ordenado y probit ordenado es muy similar a la relación entre el logit y el probit cuando utilizamos una variable binaria como variable dependiente.

Al igual que en probit ordenado, las ecuaciones (3.3) y (3.4) describen el planteamiento de este tipo de modelos. Al igual que en Logit asumiremos que los errores tienen una distribución logísitca. Para poder ver la diferencia entre los resultados anteriores y los que tenemos en logit ordenado vale la pena desarrollar el cáculo de algunas probabilidades:

\[\begin{equation*} \begin{split} Pr(Y_i=0|X_i)&=Pr(Y^*_i\leq \alpha_1) \\ &=Pr(X_i'\beta+U_i\leq \alpha_1) \\ &=Pr(U_i\leq \alpha_1-X_i'\beta) \\ &=1-Pr(U_i>\alpha_1-X_i'\beta) \\ &=1-Pr(U_i<X_i'\beta-\alpha_1) \\ &=1-\Phi(X_i'\beta-\alpha_1) \\ &=1-\frac{\exp{(X_i'\beta-\alpha_1)}}{1+\exp{(X_i'\beta-\alpha_1)}} \\ &=\frac{1}{1+\exp{(X_i'\beta-\alpha_1)}} \end{split} \end{equation*}\]

Siguiendo la misma lógica podemos derivar:

\[\begin{equation*} \begin{split} Pr(Y_i=1|X_i)&=Pr(\alpha_1<Y^*_i\leq \alpha_2) \\ &=Pr(Y^* _i\leq \alpha_2)-Pr(Y^*_i\leq \alpha_1) \\ &=\biggl( 1-\frac{\exp{(X_i'\beta-\alpha_2)}}{1+\exp{(X_i'\beta-\alpha_2)}} \biggl) - \biggl( 1-\frac{\exp{(X_i'\beta-\alpha_1)}}{1+\exp{(X_i'\beta-\alpha_1)}} \biggl) \\ &= \frac{\exp{(X_i'\beta-\alpha_1)}}{1+\exp{(X_i'\beta-\alpha_1)}} - \frac{\exp{(X_i'\beta-\alpha_2)}}{1+\exp{(X_i'\beta-\alpha_2)}} \end{split} \end{equation*}\]

A partir de este resultado podemos derivar efectos parcial promedio y efectos parciales para la persona promedio por cambios marginales en cualquier variable explicativa \(X_j\). Unicamente es importante mantener en cuenta cómo llevar a cabo una derivada parcial cuando tenemos una exponencial. Para poder simplificar este cálculo tomemos en cuenta lo siguiente:

\[\begin{equation*} \begin{split} \Phi(X_i'\beta-\alpha_j)&=\frac{\exp{(X_i'\beta-\alpha_j)}}{1+\exp{(X_i'\beta-\alpha_j)}} \\ \frac{\partial \Phi(X_i'\beta-\alpha_j)}{\partial X_{1i}}&=\frac{(1+\exp{(X_i'\beta-\alpha_j)})\exp{(X_i'\beta-\alpha_j)}\beta_1-\exp{(X_i'\beta-\alpha_j)}\exp{(X_i'\beta-\alpha_j)}\beta_1}{(1+\exp{(X_i'\beta-\alpha_j)})^2} \\ &=\biggl[\frac{\exp{(X_i'\beta-\alpha_j)}}{1+\exp{(X_i'\beta-\alpha_j)}} - \biggl( \frac{\exp{(X_i'\beta-\alpha_j)}}{1+\exp{(X_i'\beta-\alpha_j)}}\biggl)^2\biggl] \beta_1 \\ &=\Phi(X_i'\beta-\alpha_j) (1-\Phi(X_i'\beta-\alpha_j))\beta_1 \end{split} \end{equation*}\]

Por lo tanto, podemos calcular el cambio en la probabilidad de que \(Y_i\) tenga un valor en especifico por un cambio marginal en alguna de las variables explicativas. Para ver esto, partimos de la derivación de \(Pr(Y_i=1|X_i)\) y utilizamos el resultado que acabamos de derivar:

\[\begin{equation*} \begin{split} Pr(Y_i=1|X_i)&=\frac{\exp{(X_i'\beta-\alpha_1)}}{1+\exp{(X_i'\beta-\alpha_1)}} - \frac{\exp{(X_i'\beta-\alpha_2)}}{1+\exp{(X_i'\beta-\alpha_2)}} \\ &=\Phi(X_i'\beta-\alpha_1)-\Phi(X_i'\beta-\alpha_2) \\ \frac{\partial Pr(Y_i=1|X_i)}{\partial X_{1i}} &=\frac{\partial \Phi(X_i'\beta-\alpha_1)}{\partial X_{1i}} - \frac{\partial \Phi(X_i'\beta-\alpha_2)}{\partial X_{1i}} \\ &=\beta_1\biggl[ \biggl( \Phi(X_i'\beta-\alpha_1) (1-\Phi(X_i'\beta-\alpha_1))\biggl) - \biggl( \Phi(X_i'\beta-\alpha_2) (1-\Phi(X_i'\beta-\alpha_2))\biggl) \biggl] \end{split} \end{equation*}\]

Por último, una característica atractiva de logit es que los coeficientes tenían una interpretación específica sin la necesidad de llevar a cabo ningun cálculo o transformación. Esto se mantiene en logit ordenado. Para ver esto notemos que:

\[\begin{equation*} \begin{split} Pr(Y_i>j|X_i)&=Pr(Y^*_i>\alpha_{j+1}) \\ &=Pr(U_i>\alpha_{j+1}-X_i'\beta) \\ &=Pr(U_i<X_i'\beta-\alpha_{j+1}) \\ &=\Phi(X_i'\beta-\alpha_{j+1}) \\ &=\frac{\exp{(X_i'\beta-\alpha_{j+1})}}{1+\exp{(X_i'\beta-\alpha_{j+1})}} \\ Pr(Y_i\leq j|X_i)&=1-Pr(Y_i>j|X_i) \\ &=1-\frac{\exp{(X_i'\beta-\alpha_{j+1})}}{1+\exp{(X_i'\beta-\alpha_{j+1})}} \\ &=\frac{1}{1+\exp{(X_i'\beta-\alpha_{j+1})}} \end{split} \end{equation*}\]

Por lo tanto, tenemos al igual que antes un ratio de dos probabilidades. Lo importante es que una sea complementaria de la otra. De esta forma obtenemos:

\[\begin{equation*} \begin{split} \frac{Pr(Y_i>j|X_i)}{Pr(Y_i\leq j|X_i)} &=\exp{(X_i'\beta-\alpha_{j+1})} \\ \log{\biggl(\frac{Pr(Y_i>j|X_i)}{Pr(Y_i\leq j|X_i)}\biggl)} &=X_i'\beta-\alpha_{j+1} \\ \frac{\partial \log{\biggl(\frac{Pr(Y_i>j|X_i)}{Pr(Y_i\leq j|X_i)}\biggl)}}{\partial X_{1i}} &=\beta_1 \end{split} \end{equation*}\]

Cabe notar que este resultado que derivamos no depende de \(j\), lo cual indica que esto se puede generalizar para el ratio de dos probabilidades para \(j=\{0,1,\dots,J-1\}\).

3.2.3 Variable Dependiente: Multivariada no Ordenada

Este modelo aplica cuando la variable dependiente consiste en la selección de alternativas discretas, pero que no tienen un órden lógico de menor a mayor entre si. Ejemplos incluyen selección de forma de transporte (metro/camión/coche), selección de algún producto de diferentes características (TV bulbo, plasma, LED, no TV) tipo de gasolina (magna, premium), etc

3.2.3.1 Logit Multinomial y Logit Condicional

\(Y \in \left\{ 0,1,...,J \right\}\) sin orden entre las variables. Cada valor representa una alternativa que se puede elegir.

El objetivo es generar predicciones adecuadas de dichas alternativas utilizando información de variables acerca de las alternativas o de los individuos llevando a cabo la selección. Las variables pueden depender del individuo llevando a cabo la decisión \(X_{i}\) o de la opción a ser elegida (posiblemente junto cada individuo) \(X_{i,j}\).

McFadden desarrolló estos modelos basados en maximización de utilidad. Desarrolla un modelo para la probabilidad condicional de elegir j dados los valores de las variables explicativas: \[\begin{align*} Pr(Y_{i} = j | X) = P_{j}(X_{i}\beta) \end{align*}\]

Utilizando las probabilidades, deriva la siguiente función de máxima verosimilitud: \[\begin{align*} \mathcal{L} = \sum\limits_{i=1}^{N}\sum\limits_{j=0}^{J}\mathbf{1}\left\{ Y_{i} = j \right\} \log P_{j}\left( X_{i,j},\beta\right) \end{align*}\]

El multinomial logit es un modelo sencillo que asume que solo tenemos variables explicativas a nivel individual. Con ello extendemos el modelo logit y obtenemos: \[\begin{align*} &Pr(Y_{i} = j | X_{i}) = \frac{\exp(X_{i}'\beta_{j})}{1+\sum\limits_{l=0}^{J}\exp(X_{i}'\beta_{l})}\\ &Pr(Y_{i} = 0 | X_{i}) = \frac{1}{1+\sum\limits_{l=0}^{J}\exp(X_{i}'\beta_{l})}\\ &\Longrightarrow \log\left( \frac{Pr(Y_{i} = j | X_{i})}{ Pr(Y_{i} = 0 | X_{i})}\right) = X_{i}'\beta_{j} \end{align*}\]

con lo cual podemos interpretar las \(\beta\)’s.

Este modelo puede ser visto como un caso particular del modelo logit condicional el cual tiene variables explicativas que varían según la alternativa a elegir. \[\begin{align*} Pr(Y_{i} = j | X_{i,0},X_{i,1},...,X_{i,J}) = \frac{\exp(X_{i,j}'\beta_{j})}{\sum\limits_{l=0}^{J}\exp(X_{i,l}'\beta_{l})} \end{align*}\]

Vinculo con maximización de utilidad: \[\begin{align*} U_{i,j} = X_{i,j}'\beta+\epsilon_{i,j} \end{align*}\]

Asumimos que un individuo elige \(j\) si le da la mayor nivel de utilidad: \[\begin{align*} Y_{i} = j \quad \text{si} \quad U_{i,j}\geq U_{i,l} \quad \forall \quad l\neq j \end{align*}\]

Asumimos independencia de \(\epsilon_{i,j}\) para diferentes elecciones y distribución de Tipo-I Extreme Value. Esta distribución se caracteriza por: \[\begin{align*} F(\epsilon) &= \exp(-\exp(-\epsilon))\\ f(\epsilon) &= \exp(-\epsilon)\exp(-\exp(-\epsilon)) \end{align*}\]

Dados estos supuestos: \[\begin{align*} &Pr(Y_{i}= 0|X_{i}) = Pr(U_{i,0}>U_{i,1},U_{i,0}>U_{i,2},...,U_{i,0}>U_{i,J})\\ &= Pr(\epsilon_{i,0}+X_{i,0}'\beta-X_{i,1}\beta>\epsilon_{i,1},...,\epsilon_{i,0}+X_{i,0}'\beta-X_{i,J}'\beta>\epsilon_{i,J})\\ &= \int\limits_{-\infty}^{\infty}\int\limits_{-\infty}^{\epsilon_{i,0}+X_{i,0}'\beta-X_{i,1}'\beta}\cdots\int\limits_{-\infty}^{\epsilon_{i,0}+X_{i,0}'\beta-X_{i,J}'\beta}f(\epsilon_{i,0})f(\epsilon_{i,1})\cdots f(\epsilon_{i,J})d\epsilon_{i,0}d\epsilon_{i,1}\cdots d\epsilon_{i,J}\\ &= \int\limits_{-\infty}^{\infty} \exp(-\epsilon_{i,0})\exp(-\exp(-\epsilon_{i,0}))\exp(-\exp(-\epsilon_{i,0}-X_{i,0}'\beta+X_{i,1}'\beta))\cdots\\ & \hspace{6cm} \cdots\exp(-\exp(-\epsilon_{i,0}-X_{i,0}'\beta+X_{i,J}'\beta))d\epsilon_{i,0}\\ &= \int\limits_{-\infty}^{\infty} \exp(-\epsilon_{i,0})\exp(-\exp(-\epsilon_{i,0})-\exp(-\epsilon_{i,0}-X_{i,0}'\beta+X_{i,1}'\beta)\cdots\\ & \hspace{6cm}\cdots-\exp(-\epsilon_{i,0}-X_{i,0}'\beta+X_{i,J}'\beta))d\epsilon_{i,0}\\ &= \int\limits_{-\infty}^{\infty} \exp(-\epsilon_{i,0})\exp(-\exp(-\epsilon_{i,0})-\exp(-\epsilon_{i,0})\exp(-X_{i,0}'\beta+X_{i,1}'\beta)\cdots\\ &\hspace{6cm}\cdots-\exp(-\epsilon_{i,0})\exp(-X_{i,0}'\beta+X_{i,J}'\beta))d\epsilon_{i,0}\\ &= \int\limits_{-\infty}^{\infty} \exp(-\epsilon_{i,0})\exp(-\exp(-\epsilon_{i,0})(1+\exp(X_{i,1}'\beta-X_{i,0}'\beta)\cdots\\ &\hspace{6cm}\cdots+\exp(X_{i,J}'\beta-X_{i,0}'\beta)))d\epsilon_{i,0} \end{align*}\]

Sea \(c_{i} = -\log (1+\exp(X_{i,1}'\beta-X_{i,0}'\beta)+\cdots+\exp(X_{i,J}'\beta-X_{i,0}'\beta))\)

\[\begin{align*} &= \int\limits_{-\infty}^{\infty} \exp(-\epsilon_{i,0})\exp(-\exp(-\epsilon_{i,0})\exp(-c_{i}))d\epsilon_{i,0}\\ &= \int\limits_{-\infty}^{\infty} \exp(-\epsilon_{i,0})\exp(-\exp(-\epsilon_{i,0}-c_{i}))d\epsilon_{i,0} \end{align*}\]

Sea \(\eta_{i} = \epsilon_{i,0}+c_{i}\)

\[\begin{align*} &= \int\limits_{-\infty}^{\infty} \exp(c_{i}-\eta_{i})\exp(-\exp(-\eta_{i}))d\eta_{i}\\ &= \int\limits_{-\infty}^{\infty} \exp(c_{i})\exp(-\eta_{i})\exp(-\exp(-\eta_{i}))d\eta_{i}\\ & = \exp(c_{i})\int\limits_{-\infty}^{\infty}\exp(-\eta_{i})\exp(-\exp(-\eta_{i}))d\eta_{i}\\ & = \exp(c_{i}) \end{align*}\]

Finalmente vemos que: \[\begin{align*} \exp(-c_{i}) &= \frac{1}{\exp(c_{i})}\\ \exp(-c_{i}) &= 1+\exp(X_{i,1}'\beta-X_{i,0}'\beta)+\cdots+\exp(X_{i,J}'\beta-X_{i,0}'\beta)\\ &= \exp(X_{i,0}'\beta-X_{i,0}'\beta)+\exp(X_{i,1}'\beta-X_{i,0}'\beta)+\cdots+\exp(X_{i,J}'\beta-X_{i,0}'\beta)\\ &= \exp(-X_{i,0}'\beta)\left[\sum\limits_{l=0}^{J}\exp(X_{i,l}'\beta)\right]\\ &= \frac{\sum\limits_{l=0}^{J}\exp(X_{i,l}'\beta)}{\exp(X_{i,0}'\beta)}\\ \Longrightarrow \exp(c_{i}) &= Pr(Y_{i}=0|X_{i}) = \frac{\exp(X_{i,0}'\beta)}{\sum\limits_{l=0}^{J}\exp(X_{i,l}'\beta)} \end{align*}\]

Para la interpretación de coeficientes, veamos un ejemplo basado en McFadden (82).

El objetivo es analizar la elección de los hogares entre comprar secadora eléctrica, secadora de gas o no comprar secadora.

Para ello plantea: \[\begin{align*} &U_{i,elec} = \beta_{0,elec}+\beta_{1,elec}own_{i}+\beta_{2,elec}persons_{i}+\beta_{3,elec}gas_{i}+\cdots\\ &\hspace{6cm}\cdots+\beta_{oper}elec*oper_{i}+\beta_{cap}elec*cap_{i}+\epsilon_{i,elec}\\ &U_{i,gas} = \beta_{0,gas}+\beta_{1,gas}own_{i}+\beta_{2,gas}persons_{i}+\beta_{3,gas}gas_{i}+\cdots\\ &\hspace{6cm}\cdots+\beta_{oper}gas*oper_{i}+\beta_{cap}gas*cap_{i}+\epsilon_{i,gas}\\ &U_{i,no} = \beta_{0,no}+\beta_{1,no}own_{i}+\beta_{2,no}persons_{i}+\beta_{3,no}gas_{i}+\epsilon_{i,no} \end{align*}\]

Por lo que se asume que los costos de operación y de capital de no tener secadora son cero.

\[\begin{align*} Pr(elec) = \frac{\exp(U_{i,elec}^*)}{\exp(U_{i,elec}^*)+\exp(U_{i,gas}^*)+\exp(U_{i,no}^*)} \end{align*}\]

MNL equivaldría a restar de cada utilidad un valor constante a nivel individuo: \[\begin{align*} c_{i} = \beta_{0,no}+\beta_{1,no}own_{i}+\beta_{2,no}persons_{i}+\beta_{3,no}gas_{i} \end{align*}\]

Supongamos aquí que nos interesa una elasticidad: \[\begin{align*} \epsilon_{elec,elec\cdot oper} &= \frac{\partial Pr(elec)}{\partial elec\cdot oper}\cdot\frac{elec\cdot oper}{Pr(elec)} \end{align*}\]

Entonces:

\[\frac{\partial Pr(elec)}{\partial elec\cdot oper} = \frac{(\exp(U^{*}_{i,elec})+\exp(U_{i,gas}^{*})+\exp(U_{i,no}^{*}))\cdot\exp(U_{i,elec}^*)\beta_{oper}-...-\exp(U_{i,elec}^*)\exp(U_{i,elec})\beta_{oper} }{\left(\exp(U^{*}_{i,elec})+\exp(U_{i,gas}^*)+\exp(U_{i,no}^*)\right)^2}\]

\[\begin{multline*} =\left(\frac{\exp(U_{i,elec}^{*})}{exp(U_{i,elec}^*)+\exp(U_{i,gas}^*)+\exp(U_{i,no}^*)}\right)\beta_{oper}\\ -\left(\frac{\exp(U_{i,elec}^{*})}{\exp(U_{i,elec}^*)+\exp(U_{i,gas}^*)+\exp(U_{i,no}^*)}\right)^2\beta_{oper} \end{multline*}\]

3.3 Variable Dependiente: Alta Concentración en un Extremo de la Distribución

3.3.1 Tobit

En el caso del modelo tobit nos interesa ver cómo son afectadas las estimaciones si la variable dependiente tiene una alta concentración en un valor específico y para el resto de los valores hay una distribución relativamente continua. En la literatura suele hacerse referencia a este modelo como el de respuestas de solución de esquina. Ejemplos de este tipo de variable dependiente incluyen casos en los cuales se pregunte por la cantidad de horas trabajadas al mes o la cantidad de bebidas alcohólicas consumidas. En este caso utilizar MCO puede llevarnos a tener predicciones ilógias para la variable dependiente, igual que el caso del modelo de probabilidad lineal. Asimismo, la concentración de valores para la variable dependiente puede llevarnos a un sesgo por la forma funcional si queremos estimar el efecto de un cambio marginal en \(X_k\) para los valores de la variable dependiente donde existe una distribución continua (es decir, omitiendo a aquellos que no trabajan o consumen alcohol en los ejemplos).

Nuevamente, el modelo se especifica en términos de una variable latente (\(Y_i^*\))8

\[Y_i^*=X_i'\beta+U_i\]

donde ahora \(Y_i=\max\{0,Y_i^*\}\).

Igual que en los modelos anteriores, asumimos que los errores se distribuyen asintóticamente normal con media cero y varianza \(\sigma^2\). Dado este supuesto de los errores, la probabilidad condicional de que \(Y_i=0\) será :

\[\begin{equation*} \begin{split} Pr(Y_i=0|X_i)&=Pr(Y_i^*<0|X_i)=Pr(U_i<-X_i'\beta|X_i)=Pr\biggl(\frac{U_i}{\sigma}<\frac{-X_i'\beta}{\sigma}|X_i\biggl)\\ &=\Phi\biggl(\frac{-X_i'\beta}{\sigma}\biggl)=1-\Phi\biggl(\frac{X_i'\beta}{\sigma}\biggl) \end{split} \end{equation*}\]

Y para el caso de \(Y_i>0\), la densidad de \(Y_i\) dado \(X_i\) será igual a:

\[f(U_i)=\biggl(\frac{1}{2\pi\sigma^2}\biggl)^{1/2}\exp{\biggl(\frac{-(Y_i-X_i'\beta)^2}{2\sigma^2}\biggl)}\]

Por lo tanto, la función de máxima verosimilitud que utilizaremos para definir los valores de \(\beta\) y \(\sigma^2\), similarmente que en los casos anteriores, resulta en:

\[\begin{equation*} \begin{split} \mathcal{L}(\beta,\sigma^2)=&\sum\limits_{i=1}^N\biggl[1\{Y_i=0\}\cdot\log{(1-\Phi(X_i'\beta/\sigma))}\\ &+ 1\{Y_i>0\}\cdot\bigg(-\frac{1}{2}\log{(2\pi\sigma^2)}-\frac{1}{2\sigma^2}(Y_i-X_i'\beta)^2\bigg)\biggl] \end{split} \end{equation*}\]

Como resultado obtendremos estimadores de los coeficientes \(\beta\) y sus errores estándar. Sin embargo, nuevamente, los coeficientes no tienen una interpretación intuitiva por si solos. En el caso del modelo tobit existen diferentes componentes que resulta interesante analizar. En el caso de MCO, los coeficientes estimados nos daban información acerca del cambio en \(E(Y_i|X_i)\) por un cambio marginal en \(X_k\) (caeteris paribus). Dicho efecto es de gran interés ya que busca establecer relaciones causales de una variable a otra. En el caso del modelo tobit también es posible estimar dicho efecto, pero además existen otros componentes que pueden ser estimados utilizando la estructura de este modelo. Para entender esto podemos partir de especificar \(E(Y_i|X_i)\) utilizando este modelo:

\[E(Y_i|X_i)=Pr(Y_i>0|X_i)E(Y_i|Y_i>0,X_i)=\Phi(X_i'\beta/\sigma)*E(Y_i|Y_i>0,X_i)\]

En este caso, para encontrar el término \(E(Y_i|Y_i>0,X_i)\) tomaremos en cuenta que \(U_i\) tienen una distribución normal con media cero y varianza \(\sigma^2\), por lo tanto [Nota: para simplificar las siguientes ecuaciones utilizaremos el ratio inverso de Mills que se define como \(\lambda(k)=\frac{\phi(k)}{\Phi(k)}\)]:

\[\begin{equation*} \begin{split} E(Y_i|Y_i>0,X_i)&=X_i'\beta+E(U_i|U_i>-X_i'\beta,X_i)\\ &=X_i'\beta+\sigma E(U_i/\sigma|U_i/\sigma>-X_i'\beta/\sigma,X_i)\\ &=X_i'\beta+\sigma\frac{\phi(-X_i'\beta/\sigma)}{1-\Phi(-X_i'\beta/\sigma)}\\ &=X_i'\beta+\sigma\frac{\phi(X_i'\beta/\sigma)}{\Phi(X_i'\beta/\sigma)}\\ &=X_i'\beta+\sigma\lambda(X_i'\beta/\sigma)\\ \end{split} \end{equation*}\]

Una vez obtenido esto podemos calcular el efecto que nos interesa:

\[\begin{equation} \frac{\partial E(Y_i|X_i)}{\partial X_k}=\frac{\partial Pr(Y_i>0|X_i)}{\partial X_k}\cdot E(Y_i|Y_i>0,X_i)+Pr(Y_i>0|X_i)\cdot\frac{\partial E(Y_i|Y_i>0,X_i)}{\partial X_k} \tag{3.5} \end{equation}\]

Para especificar esta ecuación necesitamos encontrar dos factores que por si solos pueden ser estadísticos o efectos de interés: (i) el cambio en la probabilidad condicional de que \(Y_i\) sea mayor a cero por un cambio marginal en \(X_k\) y (ii) el cambio en \(E(Y_i|Y_i>0,X_i)\) por un cambio marginal en \(X_k\).

\[\begin{equation} \begin{split} \frac{\partial Pr(Y_i>0|X_i)}{\partial X_k}&=\frac{\partial \Phi(X_i'\beta/\sigma)}{\partial X_k}=\biggl(\frac{\beta_k}{\sigma}\biggl)\phi(X_i'\beta/\sigma)\\ \frac{\partial E(Y_i|Y_i>0,X_i)}{\partial X_k}&=\beta_k\biggl[1-\lambda(X_i'\beta/\sigma)\biggl(X_i'\beta/\sigma+\lambda(X_i'\beta/\sigma)\biggl)\biggl]\\ \end{split} \tag{3.6} \end{equation}\]

Sustituyendo estas ecuaciones en la ecuación (3.5) obtenemos:

\[\begin{equation} \frac{\partial E(Y_i|X_i)}{\partial X_k}=\Phi(X_i'\beta/\sigma)\beta_k \tag{3.7} \end{equation}\]

En conclusión, dependiendo de que efecto nos interese estimar, tomámos la media de nuestra muestra para alguna de las ecuaciones en (3.6) o (3.7).

3.3.2 Regresión Censuarada

Este tipo de modelos toma en cuenta que por diseño algunas bases de datos reportan un nivel máximo para algunos valores. Un ejemplo clásico es que las encuestas a hogares preguntan por el ingreso mensual de un individuo. Al reportar este nivel de ingreso en la base de datos por confidencialidad todos aquellos individuos por encima de un valor de ingreso determinado sustituyen el valor verdadero del ingreso del individuo por un ingreso tope que se determina en la encuesta (e.g. \(99,999\) pesos al mes). Como resultado, la persona que analiza los datos en algunos casos no observa el nivel verdadero de los ingresos para todos aquellos individuos con ingreso mayor al tope (únicamente saben que el ingreso es mayor o igual a dicho valor).

Para llevar a cabo la derivación de este tipo de modelos tomemos el caso donde se censuaran valores altos de la variable dependiente y se les da un mismo valor máximo \(C_i\)):

\[Y_{i} = X_{i}'\beta + U_{i} \quad, \quad U_{i}|X_{i}, C_{i} \sim N(0,\sigma^2)\]

\[w_{i} = min\left\{ Y_{i},C_{i} \right\}\]

Ojo: \(U_{i}\) no solo es independiente de \(X_{i}\) (homocedasticidad) sino también de \(C_{i}\). Usualmente \(C_{i}\) es una constante y no depende de \(i\).

Para observaciones censuradas: \[\begin{align*} Pr(w_{i} = C_{i}|X_{i}) &= Pr(Y_{i}>C_{i}|X_{i})\\ &= Pr(U_{i}>C_{i}-X_{i}'\beta)\\ &= Pr\left(\frac{U_{i}}{\sigma}<\frac{X_{i}'\beta-C_{i}}{\sigma}\right)\\ &= \Phi\left(\frac{X_{i}'\beta-C_{i}}{\sigma}\right) \end{align*}\]

De forma similar a Tobit, las observaciones no censuradas: \(w_{i} = Y_{i}\).

Usamos: \[\begin{align*} f(w_{i}) = \left( \frac{1}{2\pi \sigma^2}\right)^{1/2} \exp\left(-\frac{1}{2\sigma^2}(w_{i}-X_{i}'\beta)^2 \right) \end{align*}\]

La función de Máxima Verosimilitud es: \[\begin{align*} \mathcal{L}(\beta,\sigma) &= \sum\limits_{i=1}^{n}\Biggl[ \mathbf{1}\left\{ w_{i} = C_{i} \right\} \log\left[ \Phi\left( \frac{X_{i}'\beta-C_{i}}{\sigma} \right) \right] + ... \\ ... &+\mathbf{1}\left\{ w_{i} < C_{i} \right\} \left[-\frac{1}{2}\log(2\pi \sigma^2) -\frac{1}{2\sigma^2}(w_{i}-X_{i}'\beta)^2 \right] \Biggr] \end{align*}\]

Los coeficientes en este caso se interpretan como un OLS estándar, solo que la corrección de la censura suele ser relevante en casos en que la densidad en dicho punto es importante para hacer una corrección funcional que evite que \(\beta\) este sesgada.

3.4 Otros modelos

Otros modelos que están basados en funciones de máxima verosimilitud y que se derivan de manera similar a la que hemos expuesto en esta nota incluyen:

  1. Modelo de regresión truncado. Este tipo de modelos se utiliza cuando se quiere llevar a cabo inferencia para toda una población, pero la encuesta por diseño solo incluye a un grupo restringido de la población. En este caso no se observa información para los individuos que no cumplen con la restricción establecida para la selección de la muestra y, por lo tanto, no son una muestra aleatoria de la población.

  2. Modelo de regresión poisson. Aplica cuando la variable dependiente es una variable de conteo y tiene pocos valores (usualmente menor a cinco). Ejemplos incluyen número de hijos, número de trabajos, número de materias reprobadas, etc.


  1. El método delta resulta de una generalización del teorema central del límite. Es útil para estimar la distribución de una función continua de un parámetro siempre y cuando el parámetro converja en distribución a una normal.↩︎

  2. Cabe señalar que el modelo logit también suele ser conocido como el modelo logísitco por el hecho de que se asume la distribución logística de los errores↩︎

  3. Por simplicidad, en este caso asumimos que la distribución de la variable latente está concentrada en cero. La derivación del modelo si hay concetración en otro valor ya sea máximo o mínimo es análoga↩︎