4 Kernel

En esta nota nos enfocaremos a estimar densidades de ciertas variables y una vez hecho, utilizaremos las herramientas desarrolladas para llevar a cabo estimaciones no paramétricas de medias condicionales. Daremos una intuición de cómo esto se asocia y cómo se diferencia de las estimaciones tradicionales de MCO.

4.1 Histogramas

Empezaremos por estimar densidades de variables continuas9. Nuestro objetivo es llevar a cabo la estimación de la densidad poblacional. Para poder llevar a cabo esto, empezaremos por estudiar en detalle la teoría detrás de los histogramas. El problema que buscamos resolver es: si consideramos las variables aleatorias \(\{X_{1},...,X_{n}\}\) i.i.d con pdf \(f_{X}(x)\), sea \(\{x_{1},...,x_{n}\}\) la realización de estas variables aleatorias. Nos interesa estimar la función de densidad en un punto especifico, \(f_{X}\left(x\right)\), donde \(x\) es una constante.

Sea \(\left[a,b\right]\) el soporte de \(X\). Para llevar a cabo un hisotgrama empezaremos por dividir este soporte en \(K\) intervalos del mismo tamaño: \(\frac{b-a}{K}\). Los intervalos son, entonces: \[\begin{equation*} \left[a+\left(k-1\right)\left(\frac{b-a}{K}\right), a +\left(\frac{b-a}{K}\right) k\right]\phantom{t}\text{para}\phantom{t}k=1,\dots,K \end{equation*}\]

Sea \(N_{k}\) el número de observaciones en el intervalo \(k\), entonces: \[\begin{align*} N_{k} = \sum\limits_{i=1}^{N}\mathbf{1}\left\{a+\left(k-1\right) \left(\frac{ b-a}{K}\right) < X_{i} < a + k \left(\frac{b-a}{K}\right)\right\}\quad k = 1,...,K \end{align*}\]

Recordemos que \(X_i\) es una variable aleatoria. Por lo tanto, podemos calcular la proporción esperada de observaciones que caeran en un intervalo dado y, con ello, la probabilidad de que una observación elegida al azar caería en dicho intervalo:

\[\begin{align*} \frac{\mathbb{E}(N_{k})}{N} &= Pr\left( a+\left(k-1\right) \left(\frac{ b-a}{K}\right) < X < a + k \left(\frac{b-a}{K}\right) \right)\\ &= \int\limits_{a+\left(k-1\right) \left(\frac{ b-a}{K}\right)}^{a + k \left(\frac{b-a}{K}\right)}f_{X}(x)dx\\ \end{align*}\]

En el caso de los histogramas, asumimos que el estimador de la densidad de todos los puntos dentro del intervalo es igual. Por lo tanto, siendo que la probabilidad (area de cada barra en el histograma) resulta de multiplicar la densidad (\(\widehat{f_{X}}(x)\)) por el ancho del bin (\(\frac{b-a}{K}\)), podríamos obtener la densidad en un punto específico \((x)\) solo despejando10:

\[\begin{align*} \widehat{f_{X}}(x) = \frac{\frac{N_{k}}{N}}{\frac{b-a}{K}} = \frac{N_{k}}{N}\frac{K}{b-a}\phantom{tt}\text{para}\phantom{tt}x \in \left[ a+\left(k-1\right) \left(\frac{b-a}{K}\right), a + k \left(\frac{b-a}{K}\right) \right] \end{align*}\]

Un aspecto que debemos decidir al llevar a cabo los histogramas es la selección del número de bins, o equivalentemente, el ancho de cada bin. Esto equivale a seleccionar \(K\). La selección del ancho de cada bin es análogo a lo que veremos después como la selección del bandwidth (\(h\)) en el caso de densidades kernel. La intuición clave es que conforme mas pequeñno sea el ancho de los bins, menor será el sesgo de nuestro estimador, pero mayor será la varianza. El sesgo disminuye porque al disminuir el ancho del bin, estamos aumentando la precisión de la estimación. El aumento en la varianza surge porque corremos un mayor riesgo de que nuestro bin capture la cantidad adecuada de observaciones en el muestreo.

Empezaremos por ver el argumentos en términos de sesgo. Imaginen que nos interesa estimar la densidad en un punto específico (\(c\)). La definición de sesgo será: \[\begin{align*} f_{X}(c) - \mathbb{E}\left[\widehat{f_{X}}(c)\right] &= f_{X}(c) - \frac{\int\limits_{\tiny{a+\left(k-1\right) \left(\frac{ b-a}{K}\right)}}^{\tiny{a + k \left(\frac{b-a}{K}\right)}}f_{X}(x)dx}{\left(\frac{b-a}{K}\right)} = f_{X}(c)-\int f_{X}(x)dx\left(\frac{K}{b-a}\right)\\ &= f_{X}(c) - f_{X}(\tilde{a}) \end{align*}\]

para \(\tilde{a} \in \left( a+\left(k-1\right) \left(\frac{ b-a}{K}\right), a + k \left(\frac{b-a}{K}\right) \right]\)

Conforme \(\uparrow K\) disminuye el sesgo porque hace más chicos los intervalos, ganando exactitud.

Dado lo argumentado anteriormente, uno podría pensar que lo mejor entonces es hacer lo más pequeñnos posible los intervalos. Sin embargo, esta afirmación no es del todo correcta por el hecho de que al estar llevando a cabo una estimación poblacional, lo que nos interesará es tener un intervalo de confianza acerca de nuestro estimador. A continuación lo que haremos es demostrar que existe un tradeoff entre sesgo y varianza al elegir la longitud de los intervalos: mientras más pequeñnos sean los intervalos menor será el sesgo, pero también mientras menores sean los intervalos mayor será la varianza.

El resultado anterior indica que la probabilidad de tener una observacion aleatoria en el intervalo \(\left[ a+\left(k-1\right) \left(\frac{ b-a}{K}\right), a + k \left(\frac{b-a}{K}\right) \right]\) es:

\[\begin{align*} \hat{p} = \hat{f}(\tilde{a})\frac{b-a}{K} \Longrightarrow \frac{K}{b-a}\hat{p} = \hat{f}(\tilde{a}) \end{align*}\]

Por lo tanto, la probabilidad del intervalo p entre la longitud del intervalo \(\left(\frac{b-a}{K}\right)\) es una forma de estimar la densidad de un punto. Esto se debe a que se distribuye uniformemente la probabilidad del intervalo.

Las observaciones aleatorias \(\left\lbrace X_{1},..,X_{n}\right\rbrace\) tendrán una distribución binomial donde una dummy indicará si caen en el intervalo. La estimación de \(p\) surge de promediar las dummies (cuantas caen en el intervalor) y por lo tanto, la varianza podrá surgir de estimar la varianza de \(p\) entre \(N\) debido a que estamos sacando la varianza de un promedio:

\[\begin{align*} Var(p) &= \hat{p}(1-\hat{p})\frac{1}{N} = f(\tilde{a}) \left(\frac{b-a}{K}\right)\left[1-f(\tilde{a})\left(\frac{b-a}{K}\right)\right]\frac{1}{N}\\ \Longrightarrow &\phantom{t} Var(\hat{f}(\tilde{a})) = Var\left(\frac{K}{b-a} p\right) = \left(\frac{K}{b-a} \right)^{2}Var(p)\\ &= f(\tilde{a})\left(\frac{K}{b-a}-f(\tilde{a})\right)\frac{1}{N} \end{align*}\]

Cabe señnalar dos cosas en la derivación de la varianza:

  • \(\uparrow K \Longrightarrow \quad \uparrow Var\left(f(\tilde{a})\right)\)
  • \(\uparrow N \Longrightarrow \quad \downarrow Var\left(f(\tilde{a})\right)\)

4.1.1 Histogramas Centrados

Un problema en el uso de histogramas para estimar la densidad de una variable es que puntos adyacentes pueden ser muy distintos si caen de uno u otro lado de la frontera de un intervalo. Dicho de otra manera, hay cambios discontinuos en el estimador de la densidad justo en la frontera de cada bin. Esto genera mayor sesgo cerca de la frontera del intervalo que en el centro.

Una solución es estimar la densidad asumiendo que cada punto es el centro del intervalo: \[\begin{align*} \widehat{f}(c) = \sum\limits_{i=1}^{N}\mathbf{1}\left\lbrace c-h \leq x_{i} \leq c+h \right\rbrace\frac{1}{2hN} \end{align*}\]

Esta metodología es equivalente a lo que más adelante definiremos como un estimador de densidad kernel uniforme.

4.1.2 Estimador de nearest neighbor

Otra alternativa consiste en utilizar un estimador de nearest neighbor. Empecemos por dar una intuición. El concepto de nearest neighbor se define como aquella observación que se encuentra lo más cercano posible a un punto. Posteriormente, se define al \(k\)-ésimo nearest neighbor como el \(k\)-ésimo en estar lo mas cerca posible si las observaciones se ordenan en términos de distancia11. Para el caso de una distribución la definición de distancia no tiene ninguna complicación ya que estamos trabajando en una dimensión. Con ello podemos definir la distancia al \(k\)-ésimo nearest neighbor como: \[\begin{equation} \begin{split} d_k(x)&=\text{argmin}~d \\ &\text{s.t.}~d\geq 0 \\ &~~~~~1\{|X_i-x|\leq d \}\geq k \end{split} \end{equation}\]

Con este concepto de distancia, el estimador de densidad de nearest neighbor es similar a los histogramas. En este caso, se tiene q fijar \(k\), donde tener una \(k\) mayor o menor replica el tradeoff de sesgo y varianza que se explicó en el caso de histogramas con el ancho del bin. Una vez especificado \(k\) el estimador de densidad se construye como: \[\begin{equation} \hat{f}_X(x)=\frac{k-1}{2~N~d_k(x)} \end{equation}\]

La lógica en esta ecuación es que:

  • \(k-1\) son el número de individuos que se observan en un intervalo específico

  • Dicho intervalo tiene longitud \(2~d_k(x)\) ya que la distancia puede ir hacia dos lados

  • Dividir \(k-1\) sobre \(N\) indica la proporción de observaciones que posteriormente se distribuyen uniformemente en el intervalo \(2~d_k(x)\)

4.2 Kernel Density Estimation

Intuición: Cada observación de \(X_{i}\) tiene una masa 1 que distribuirá en el soporte usando una función, llamada la función Kernel. Esta función Kernel es una densidad. Una vez distribuida la masa de todas las observaciones, al sumar todas las masas, habremos distribuido una masa N. Solamente normalizamos dividiendo entre N y esto nos da el estimador de la densidad. Al distribuir la masa de cada observación será muy relevante decidir qué tan lejos se distribuirá, esto es, la selección del bandwidth (\(h\)).

Veamos cómo hacerlo con una distribución uniforme y empecemos por asumir que tenemos un bandwidth específico dado por \(h\). Más adelante discutiremos como seleccionar dicho bandwidth. \[\begin{align*} K(z) = \frac{1}{2} \quad \text{ si} \quad z \in (-1,1) \end{align*}\]

Con esta función utilizaremos el espíritu de histogramas centrados. Tomemos un histograma centrado en \(x\); para saber si una observación especifica le reparte densidad a este punto calculamos:

\[\begin{align*} K\left(\frac{X_{i}-x}{h}\right) &= \frac{1}{2}\quad \text{si}\quad \frac{X_{i}-x}{h} \in (-1,1)\\ &= \frac{1}{2} \quad \text{si}\quad X_{i} \in (x-h,x+h) \end{align*}\]

Ahora repetimos con todas las observaciones, sumamos y dividimos entre N: \[\begin{align*} \widehat{f}(x) = \frac{1}{Nh}\sum\limits_{i = 1}^{N}K\left(\frac{X_{i}-x}{h}\right) \end{align*}\]

Además de la función Kernel Uniforme, existen también los siguientes casos populares de la función \(K\):

  1. \(K(z) = \left(1-|z|\right)\) si \(z \in (-1,1)\quad\) Triangular

  2. \(K(z) = \frac{1}{\sqrt{2\pi}}exp\left(-\frac{1}{2}z^{2}\right)\quad\) Gaussian

  3. \(K(z) = \frac{3}{4\sqrt{5}}\left(1-\frac{z^{2}}{5}\right)\) si \(z \in (-\sqrt{5},\sqrt{5})\quad\) Epanechnikov

Las funciones Kernel tienen las siguientes propiedades:

  • \(\int K(u)du = 1 \rightarrow\) Masa de la densidad = 1

  • \(\int uK(u)du = 0 \rightarrow\) Valor esperado del error usando como peso la densidad Kernel es igual a 0

  • \(\int u^{2}K(u)du = k_{2} > 0 \rightarrow\) permite estimar la varianza. (Similar a valor esperado de errores al cuadrado)

4.3 Selección de Bandwidth (\(h\))

No existe una regla general para la selección óptima de un bandwidth (\(h\)). Muchas veces lo que se hace es probar distintos bandwidths hasta que la distribución ya no tiene un comportamiento muy escalonado, es decir, da una distribución ``smooth’’.

Una alternativa ampliamente utilizada consiste en elegir el bandwidth utilizando como función objetivo minimizar la integral de los errores al cuadrado12.

La integral de los errores al cuadrado es una función conveniente para la selección de \(h\) porque representa el tradeoff entre sesgo y varianza debido a que se puede demostrar que:

\[\begin{align} \text{ISE} = \int\left(\widehat{f}(x) - f(x)\right)^{2}dx = \int \text{sesgo}^{2}\left(\widehat{f}(x) \right)dx + \int Var\left(\widehat{f}(x) \right)dx \tag{4.1} \end{align}\]

Empecemos por revisar el componente del sesgo: \[\begin{align*} \text{sesgo}\left(\widehat{f}(x) \right) &= \mathbb{E}\left(\widehat{f}(x)\right) - f(x) = \mathbb{E}\left[\frac{1}{Nh}\sum\limits_{i=1}^{N}K\left(\frac{X_{i}-x}{h}\right) \right]-f(x)\\ &= \frac{1}{Nh}\sum\limits_{i=1}^{N}\mathbb{E}\left[K\left(\frac{X_{i}-x}{h}\right)\right]-f(x)\underbrace{=}_{\text{iid}} \frac{1}{h}\mathbb{E}\left[K\left(\frac{X_{i}-x}{h}\right)\right]-f(x)\\ &= \frac{1}{h}\int K\left(\frac{y-x}{h}\right)f(y)dy - f(x) = \frac{1}{h}\int K\left(u\right)f(x+hu)h{\cdot}du - f(x) \end{align*}\]

Donde \(u = \frac{y-x}{h}\) y \(dy = h\cdot du\)

\[\begin{align} =& \int K(u)f(x+hu)du-f(x) \end{align}\] \[\begin{align*} &\therefore \quad \text{si } h \rightarrow 0\\ =& \int K(u)f(x)du-f(x) = f(x) \overbrace{\int K(u)du}^{\Large\color{blue}{\nearrow^1}} - f(x)\\ & \Longrightarrow \quad \text{sesgo} \rightarrow 0 \tag{4.2} \end{align*}\]

Partiendo de la ecuación (4.2) podemos utilizar una expansión de Taylor de segundo grado en \(h\):

\[\begin{align*} \text{sesgo}\left(\widehat{f}(x)\right) \approx& \int \overbrace{K(u)f(x)}^{\Large\color{blue}{\nearrow^{f(x)}}}du+\int \overbrace{K(u)uhf'(x)}^{\Large\color{blue}{\nearrow^0}}du+\frac{1}{2}\int K(u)u^{2}h^{2}f''(x)du - f(x)\\ =& h^{2}k_{2}f''(x)\\ \therefore \quad \int \text{sesgo}^{2}\left(\widehat{f}(x)\right) =& \frac{1}{4}h^{4}k_{2}^{2}\int \left(f''(x)\right)^{2}dx \end{align*}\] Puede verse en esta fórmula que conforme disminuye \(h\), el sesgo tiende a cero. Siguiendo pasos similares podemos calcular la varianza (la demostración va más alla de lo que se pretende en esta clase y se dejan las referencias para el lector interesado):

\[\begin{align} Var\left( \widehat{f}(x) \right)=\frac{1}{Nh}f(x)~\int~K(u)^2du~~-~~\frac{1}{N}f(x)^2 \end{align}\]

Cabe notar de la derrivación de esta varianza dos aspectos. En primer lugar, esta fórmula es útil en el caso de que nos interese generar una distribución o hacer una prueba de hipótesis acerca de \(f(x)\). Para ello habría que asumir una función kernel \(K(.)\) y emplear el \(h\) óptimo. En segundo lugar, en proceso de selección óptimo de \(h\) el segundo término de la fórmula anterior no importa debido a que \(h\) no interviene en ese componente. Por ello no lo empleamos en los siguientes términos. Usando el primer término de dicha varianza tenemos que: \[\begin{align*} \int \text{Var}\left( \widehat{f}(x) \right)dx \approx& \frac{1}{Nh}\int K(u)^{2}du \end{align*}\] Aqui podemos notar que conforme \(h\) disminuye, la varianza aumenta. Por lo tanto, ambos componentes que hemos derivado efectivamente representan el tradeoff entre sesgo y varianza que se pretendía. Sustituyendo estos términos en la ecuación (4.1) obtenemos:
\[\begin{align} \text{ISE} = \frac{1}{4}h^{4}k_{2}^{2}\int \left(f''(x)\right)^{2}dx+\frac{1}{Nh}\int K(u)^{2}du \end{align}\]

Si minimizamos esta función con respecto a \(h\) obtenemos (despues de calcular CPO):

\[\begin{align} h^{*} = k_{2}^{-\frac{2}{5}}N^{-\frac{1}{5}}\left(\int K(u)^{2}du\right)^{1/5}\left(\int f''(x)^{2}dx\right)^{-1/5} \tag{4.3} \end{align}\]

Si bien, este es el bandwidth óptimo tenemos el problema de que depende de \(f(\cdot)\) que es lo que queremos estimar en primer lugar. Cabe señnalar algunas cosas con respecto a este valor óptimo:

  • Conforme \(N\) aumenta, \(h^*\) disminuye (pero lentamente por el factor (\(1/5\))
  • La \(f''(x)\) representa que tan suave es la curvatura de la función de densidad estimada. Un valor pequeñno (en términos absolutos) para la \(f''(x)\) indica una curvatura suave con cambios no abruptos. Este término agrega el cuadrado de dicha curvatura a lo largo de toda la distribución de \(x\). Curvaturas suaves estan relacionadas con menores valores de \(h^*\).

La mayor parte de la selección de bandwidth óptimo parten de la función objetivo (4.1). Algunos métodos siguiente este proceso y utilizando el resultado de la ecuación (4.3) hacen diferentes supuestos para encontrar una solución. Empezaremos viendo dos ejemplos de este tipo de procedimientos.

4.3.1 Asumir una Distribución

Silverman (86) asume que tanto \(K(\cdot)\) como \(f(\cdot)\) son normales. Si tomamos este supuesto, la ecuación (4.3) puede simplificarse enormemente para obtener:

\[\begin{align} h^*_{Silv} = 1.06\cdot \sigma_X \cdot N^{-1/5} \end{align}\]

A \(h^*_{Silv}\) se le conoce como el Silverman Rule of Thumb.

Además, hay una alternativa más robusta a outliers que, en vez de utilizar \(\sigma_X\), utiliza:

\[\begin{align*} h^*_{robust} = 1.06\cdot N^{-1/5} \cdot min\left\{\sigma_X,\frac{R}{1.34}\right\} \end{align*}\] donde \(R\) es el rango intercuartil \(Q(X)_{75}-Q(X)_{25}\).

Cabe señnalar que la función Kernel Epanechnikov curiosamente es la que, dada una distribución, minimiza el valor esperado del \(ISE\).

4.3.2 Plug-In Methods

Estos métodos son más intensivos en cálculo y consisten en los siguientes pasos:

  1. tomemos un valor inicial de \(h\), llamémoslo \(h_{0}\) (pudiera ser el Silverman o un valor elegido aleatoriamente)

  2. Utilizando este \(h_{0}\) calculamos: \(\int \widehat{f}''(x)dx\)

  3. Con este valor calculamos \(h_{1} = k_{2}^{-2/5}N^{-1/5}\left(\int K(u)^{2}du \right)^{1/5}\left(\int \hat{f}''(x)dx\right)^{-1/5}\)

4.Iteramos este proceso hasta lograr convergencia en \(h^*\).

Este método fue sugerido por Scott, Tapia y Thompson (77).

Existen otros plug-in methods que cambian la forma de aproximar \(\int \hat{f}''(x)dx\) o en usar una expansión de Taylor con más términos en la varianza en \(ISE\). Esto puede verse en Turlach (93).

4.3.3 Cross-Validation

Este es otro método clásico para determinar \(h^*\) y existe en diferentes versiones. Aquí veremos dos:

4.3.3.1 Least-Squares Cross Validation

Recordemos que nuestra función objetivo es minimizar el ISE (ecuación (4.1):

\[\begin{align*} \text{ISE}(h) = \int \left(\widehat{f}(x)-f(x)\right)^{2}dx \end{align*}\]

Si desarrolamos el término cuadrático obtenemos:

\[\begin{align*} \int \hat{f}(x)^{2}dx-2\int \hat{f}(x)f(x)dx+\int f(x)^{2}dx \end{align*}\]

De estos términos, sólo \(\hat{f}(x)\) depende de \(h\), por lo tanto, minimizar \(ISE\) será lo mismo que minimizar \(\mathbb{L}(h)\), donde: \[\begin{align*} \mathbb{L}(h) = ISE - \int f(x)^{2}dx = \int \widehat{f}(x)^{2}dx-2\int \widehat{f}(x)f(x)dx \end{align*}\]

Notemos que \(\widehat{f}(x)^{2}dx\) se puede calcular directamente a partir de asumir una función Kernel y agregar la estimación de las densidades a lo largo del rango de posibles valores de \(x\). Sin embargo, \(f(x)\) no es observable. Por lo tanto, utilizamos como estimador de \(\mathbb{L}(h)\) a: \[\begin{align*} \text{CV}_{LS}(h) =\int \widehat{f}(x)^{2}dx-2\frac{1}{n}\sum\limits_{i}\hat{f}_{-i}(X_{i}) \end{align*}\]

El segundo término consiste en estimar la densidad de \(X_{i}\) tomando en cuenta todas las observaciones de la muestra, excepto \(i\) y luego promediar a través de \(X_{i}\):

\[\begin{align*} f_{-i}(X_{i})= \frac{1}{(n-1)h}\sum\limits_{j\neq i}K\left(\frac{X_{j}-X_{i}}{h}\right) \end{align*}\]

Finalmente Cross Validation resuelve numéricamente utilizando muchos valores de \(h\) y viendo cuál da un valor más chico de \(CV_{LS}(h)\).

4.3.3.2 Likelihood CV

Este método consiste en preguntarse: >Qué pasaría si tuviéramos una observación más independiente? ¿Qué tan buena sería la estimación de \(\widehat{f}(x)\) para predecir la densidad?

Para no elegir arbitrariamente una observación, sacamos el promedio de qué pasaría si no tuviéramos cada una de las observaciones de la muestra:

\[\Longrightarrow \quad \max\limits_{h} \quad CV_{L}(h)\]

donde \(CV_{L}(h) = \frac{1}{n}\sum\limits_{i=1}^{n}\log\widehat{f_{-i}}(X_{i})\)

Este método fue propuesto por Haberman, Herman, y Van der Brock (74) y Duvin (76), aunque tiene algunos predecesores.

4.4 Regresiones Kernel

Este es un método para estimar regresiones sin asumir ninguna forma funcional. Nota que, con variables X discretas simplemente promediamos. Este método, que se centra en suavizar la tendencia, se basa más en el caso de X continuas. La metodología es muy similar a la estimación de densidades.

Primero definamos la regresión: \(g(x) = E(Y|X = x)\). Empecemos imaginando que conocemos el estimador de la densidad conjunta \(\widehat{f_{YX}}(y,x)\). Con esto podríamos estimar una densidad condicional y una vez teniendo esto:

\[\begin{align*} \widehat{g(x)} = \int y\widehat{f_{Y|X}}(y|x)dy = \int y \frac{\widehat{f_{YX}}(y,x)}{\widehat{f_{X}}(x)}dy = \int y \frac{\widehat{f_{YX}}(y,x)}{\int \widehat{f_{Y,X}}(z,x)dz}dy \end{align*}\]

Para simplificar la estimación asumiremos que tenemos un Kernel bivariado que se puede separar en dos Kernel univariados \(K(u,v) = K_{1}(u)K_{2}(v)\).

El denominador:

\[\begin{align*} \widehat{f_{X}}(x) &= \int f_{YX}(z,x)dz = \frac{1}{nh^{2}}\int \sum\limits_{i = 1}^{n}K\left(\frac{X_{i}-x}{h},\frac{Y_{i}-y}{h} \right)dz = \frac{1}{nh^{2}}\int \sum\limits_{i = 1}^{n}K\left(\frac{X_{i}-x}{h},v \right)h\cdot dv\\ = & \frac{1}{nh}\int \sum\limits_{i = 1}^{n}K_{1}\left(\frac{X_{i}-x}{h}\right) K_{2}\left(v \right)dv = \frac{1}{nh}\sum\limits_{i = 1}^{n}K_{1}\left(\frac{X_{i}-x}{h}\right) \end{align*}\]

El numerador:

\[\begin{align*} \int y \widehat{f_{YX}}(y,x)dy &= \frac{1}{nh^{2}}\int \sum\limits_{i = 1}^{n} y_{i} K\left(\frac{x_{i}-x}{h},\frac{Y_{i}-y}{h} \right)dy = \frac{1}{nh}\int \sum\limits_{i = 1}^{n}y_{i} K_{1}\left(\frac{X_{i}-x}{h}\right) K_{2}\left(v \right)dv\\ =& \frac{1}{nh}\sum\limits_{i = 1}^{n}y_{i}K_{1}\left(\frac{X_{i}-x}{h} \right) \end{align*}\] Por lo tanto: \[\begin{align*} \widehat{g}(x) = \sum\limits_{i=1}^{n}w\left(X_{i},x\right)Y_{i} \end{align*}\] donde: \[\begin{align*} w\left(X_{i},x\right) = \frac{K_{1}\left(\frac{X_{i}-x}{h}\right)}{\sum\limits_{j=1}^{n}K\left(\frac{X_{j}-x}{h}\right)} \end{align*}\]

Esta estimación se conoce como la Nadaraya Watson

4.4.1 Regresion lineal local (LL)

El estimador de Nadaraya Watson también resultaría de: \[\begin{align*} \begin{aligned} \widehat{\alpha} = \underset{a}{\text{argmin}}\sum\limits_{i=1}^{n}K\left(\frac{x_{i}-x}{h}\right)\left(y_{i}-a\right)^{2} \end{aligned} \end{align*}\] \[\begin{align*} \mathcal{L} &= \sum\limits_{i=1}^{n}K\left(\frac{x_{i}-x}{h}\right)\left(y_{i}-\alpha\right)^{2}\\ \frac{\partial \mathcal{L}}{\partial \alpha} &= -2\sum\limits_{i=1}^{n}K\left(\frac{x_{i}-x}{h}\right)\left(y_{i}-\alpha\right) = 0 \Longrightarrow\\ \alpha &= \frac{\sum\limits_{i=1}^{n}K\left(\frac{x_{i}-x}{h}\right)y_{i}}{\sum\limits_{i=1}^{n}K\left(\frac{x_{i}-x}{h}\right)} \end{align*}\]

Esto sugiere que también podríamos encontrar otras formas funcionales. En vez de esto, podríamos definir una regresión lineal local (LL): \(g(x) = \alpha + \beta x\), donde:

\[\begin{align*} \begin{aligned} (\widehat{\alpha},\widehat{\beta}) = \underset{a,b}{\text{argmin}}\sum\limits_{i=1}^{n}K\left(\frac{x_{i}-x}{h}\right)\left(y_{i}-a-bx_{i}\right)^{2} \end{aligned} \end{align*}\]

El resultado de esto es muy cercano a OLS:

\[\begin{align*} \widehat{\beta} = \frac{\sum\limits_{i=1}^{n}\left[w\left(x_{i},x\right)\left(x_{i}-\sum\limits_{j=1}^{n}w\left(x_{j},x\right)x_{j}\right)\left(y_{i}-\sum\limits_{j=1}^{n} w\left(x_{j},x\right)y_{j}\right) \right]}{\sum\limits_{i=1}^{n}w\left(x_{i},x\right) \left(x_{i}-\sum\limits_{j=1}^{n}w\left(x_{j},x\right)x_{j}\right)^{2} } \end{align*}\]

\[\begin{align*} \widehat{\alpha} = \sum\limits_{i=1}^{n}w\left(x_{i},x\right)y_{i}-\widehat{\beta}\sum\limits_{i=1}^{n}w\left(x_{i},x\right)x_{i} \end{align*}\]

Esto corresponde a una regresión local ponderada por K.

Una característica favorable es que LL suele ser un mejor estimador cerca de las fronteras.

Nadaraya Watson es mejor si la relación entre \(y\) y \(x\) es más plana. LL es mejor si es más irregular.

4.4.2 Cross Validation (Jackknife)

Para determinar \(h\), nuevamente podemos usar \(CV:\)

  1. Sea \(\widehat{g_{-i}}^{h}(x) = \sum\limits_{j\neq i}w^{h}\left(X_{j},x \right)Y_{j}\), donde: \(w^{h}\left(X_{j},x \right) = K\left(\frac{X_{j}-x}{h}\right)/\sum\limits_{k \neq i}K\left(\frac{X_{k}-x}{h}\right)\)

  2. Definimos el siguiente criterio de Cross-Validation \[\begin{align*} CV(h) = \sum\limits_{i=1}^{n}\left(\widehat{g_{-i}}^{h}(X_{i})-Y_{i}\right)^{2} \end{align*}\]

  3. Elegimos \(h\) tal que \(h^{*} = \text{argmin}\hspace{.1cm} CV(h)\), lo cual se puede resolver numéricamente.

4.4.3 Distribución del estimador

Para poder llevar a cabo inferencia, nos interesará la distribución del estimador. Al igual que en la discusión acerca del tradeoff de sesgo y varianza, en el caso de la varianza, esta tendrá una relación negativa con el bandwidth. No llevaremos a cabo la derivación formal de la varianza, pero hay dos cosas por señnalar. Primero, la varianza tendrá la siguiente forma:

\[\begin{equation} Var \left( \widehat{g}(x)\right)=\frac{1}{N\cdot h} \cdot \frac{\sigma^2(x)}{\widehat{f}(x)} \int K(u)^2 du + o \left( \frac{1}{N\cdot h}\right) \end{equation}\]

donde \(sigma^2(x)\) resultará de calcular los residuales \(Y_i-\widehat{g}(X_i)\) y posteriormente hacer una regresión kernel del cuadrado de los residuales vs \(X\). Todos los demás términos son conocidos. El término final \(o\left(\frac{1}{Nh} \right)\) es un término que conforme N aumenta va disminuyendo, lo cual hace que la distribución asintótica (muestras grandes) no sea relevante este último término.

Es común en la práctica ver estrategias que utilizan un bandwidth pequeñno para el estimador y bandwidths un poco mas grandes para la varianza. En clase discutiremos brevemente esta práctica.


  1. El caso de variables discretas no es tan bueno para motivar el uso de regresiones kernel. En dichos casos lo mas recomendable es simplemente el uso de histogramas.↩︎

  2. Nota que la diferencia entre el estimador de la densidad \(\widehat{f_{X}}(x)\) y la densidad poblacional \(f_{X}(x)\) es que la densidad poblacional es no observable y es precisamente lo que queremos estimar.↩︎

  3. Es decir, el primero es la observación más cercana a un punto determinado, el segundo es la segunda observación más cercana, y asi sucesivamente hasta llegar a la \(k\)-ésima observación más cercana a dicho punto.↩︎

  4. Esto no es lo mismo que el valor esperado de los errores al cuadrado. El valor esperado de los errores al cuadrado daría un peso distinto a las observaciones dependiendo de la densidad.↩︎