Capítulo 6 Estrategia de estimación
6.1 Estimadores de los parámetros de interés
Con base en los parámetros definidos anteriormente, y teniendo en cuenta el diseño de muestreo que se propone en este documento, se definen las siguientes expresiones que inducen una estructura inferencial insesgada.
- Estimación de un total poblacional: para estimar el total poblacional de una variable de interés se utiliza el estimador de Horvitz-Thompson dado por la siguiente ecuación (Särndal, Swensson & Wretman, 2003):
\[\hat{t}_{y, \pi}= \sum_s w_k^{(design)} y_k\]
En donde \(w_k^{(design)}=1/\pi_k\) es el inverso de la probabilidad de inclusión (\(\pi_k = Pr(k\in s)\)) del \(k\)-ésimo estudiante en la muestra. El estimador anterior puede ser reescrito considerando el diseño muestral propuesto como se especifica en la siguiente expresión:
\[\hat{t}_{y, \pi}= \sum_{h=1}^H\sum_{i\in s_{hI}}\sum_{k\in s_i}\frac{y_k}{\pi_k} =\sum_{h=1}^H\sum_{i\in s_{hI}}\frac{1}{\pi_{Ihi}}\sum_{k\in s_i}\frac{y_k}{\pi_{k|i}} =\sum_{h=1}^H\sum_{i\in s_{hI}}\frac{t_{xh}}{n x_i}\sum_{k\in s_i}\frac{N_i}{n_i}y_k\]
En donde
- \(i\) denota el subíndice de las escuelas seleccionadas en la muestra estratificada de la primera etapa \(s_{hI}\),
- \(h\) denota el subíndice del estrato explícito y \(H\) denota el número total de estratos explícitos definidos por cada país,
- \(s_i\) hace referencia a la muestra de estudiantes en la escuela \(i\),
- \(\pi_{Ihi} \propto \frac{n_{Ih} x_i}{t_{xh}} \leq 1\) es la probabilidad de inclusión de la \(i\)-ésima escuela en el estrato explícito \(h\),
- \(n_{Ih}\) es el número de escuelas seleccionadas en el estrato explicito \(h\).
- \(x_i\) es la medida de tamaño de la \(i\)-ésima escuela en el estrato explícito \(h\),
- \(t_{xh}\) es el total agregado de la medida de tamaño \(x\) en el estrato \(h\),
- \(N_i\) es el número de estudiantes en la escuela \(i\),
\(n_i\) es el número de estudiantes seleccionados en la muestra de la escuela \(i\).
Estimación de una razón poblacional: para obtener la estimación de una razón (\(\hat{R}\)) se deben estimar los totales asociados a una variable de interés \(y\), y el total asociado a una variable de interés \(\mathbf{Z}\). Posteriormente realizar el cociente entre estas estimaciones, es decir:
\[\hat{R}=\frac{\hat{t}_{y, \pi}}{\hat{t}_{z, \pi}} =\frac{\sum_s w_k^{(design)} y_k}{\sum_s w_k^{(design)} z_k}\]
Para la estimación de los anteriores totales se utilizan las mismas expresiones utilizadas para estimar un total poblacional.
- Estimación del promedio poblacional: para estimar un promedio basta con aplicar las expresiones para estimar una razón considerando \(z_k=1\) \(\forall k \in U\); es decir, \(\hat{t}_{z, \pi}=\hat{N}\). Por tanto, la estimación del promedio se estima como sigue:
\[\tilde{Y} = \frac{\hat{t}_{y, \pi}}{\hat{N}} =\frac{\sum_s w_k^{(design)} y_k}{\sum_s w_k^{(design)}}\]
Tanto \(\hat{t}_{y, \pi}\) como \(\hat{N}\) son estimaciones de totales. Para estimar estos totales son utilizadas las expresiones detalladas anteriormente para estimar un total poblacional. Es posible también estimar insesgadamente al dividir por \(N\), aunque es posible que esta última estimación arroje una mayor varianza.
- Estimación de una proporción poblacional: para estimar la proporción poblacional se siguen los mismos principios que en la estimación de un promedio, pero sobre una variable dicotómica \(z_{dk}\) que toma el valor de 1 si el \(k\)-ésimo individuo tiene el atributo de interés \(d\) y de 0 en otro caso. Se obtiene la estimación de una proporción realizando la estimación del total de la variable y dividido sobre la estimación del total poblacional como se presenta a continuación:
\[\tilde{P} = \frac{\hat{t}_{z_d, \pi}}{\hat{N}} =\frac{\sum_s w_k^{(design)} z_{dk}}{\sum_s w_k^{(design)}}\]
6.2 Pesos de muestreo
Los pesos de muestreo se calculan para escuelas y estudiantes, según el diseño muestral del estudio para el piloto y aplicación principal del XXXXXXX. Como se mencionó en secciones anteriores, el muestreo se realiza en dos etapas. En cada una de las etapas, la unidad que será seleccionada, ya sean escuelas o estudiantes, tiene una probabilidad de ser elegida (en el caso de las escuelas dependiendo de la medida de tamaño o del número de estudiantes en la escuela). Los pesos de muestreo reflejan esas probabilidades de selección, teniendo en cuenta procesos de ajuste por ausencia de respuesta y el recorte de pesos en cada estrato (para reducir el error estándar al reducir la influencia de los sub-grupos pequeños de escuelas o estudiantes).
Estos pesos evidencian el diseño de la muestra y corresponden al recíproco de la probabilidad de inclusión de la unidad que será seleccionada (con algunos ajustes por las razones ya mencionadas). Dado el diseño bietápico, primero se calculan los pesos muestrales de las escuelas y después los del estudiante (considerando la probabilidad de ser elegido, dado que la escuela ya fue seleccionada en la muestra de la primera etapa. En principio, el peso muestral total de los estudiantes se define como el producto de estos dos resultados y es el que se requiere para el cálculo de estimadores de las características de la población objetivo, que sean imparciales o consistentes.
En el caso de las escuelas, aquellas más grandes tienen una mayor probabilidad de inclusión, en comparación con aquellas más pequeñas. Por lo tanto, los pesos muestrales para las escuelas más grandes tienden a ser más pequeños que los asociados a las escuelas más pequeñas. Además, es importante destacar que estos pesos indican el número de escuelas que la escuela seleccionada en la muestra está representando.
En el caso de los estudiantes, las probabilidades de inclusión reflejan la probabilidad de ser seleccionados dado que la escuela fue seleccionada en la muestra, es decir, se trata de una probabilidad condicional. Dentro de la escuela, cada estudiante tiene la misma probabilidad de ser elegido. Así, los pesos muestrales de los estudiantes en cada escuela serán los mismos.
Las muestras de escuelas y estudiantes deben ser representativas de la población objetivo y están diseñadas para obtener estimadores precisos, considerando un margen de error específico. Una vez se han recolectado todos los datos (provenientes de los instrumentos cognitivos y de los cuestionarios que contestan estudiantes, familias, profesores y directores), las estimaciones estadísticas se realizan teniendo en cuenta los pesos de muestreo como factor de ponderación, por esta razón es muy importante calcularlos correctamente.
Nótese que el peso muestral total no será el mismo para todos los estudiantes y esto puede deberse a varias razones. Por ejemplo, la información de los marcos de muestreo no fue exacta y una escuela que se esperaba fuera grande en realidad fue pequeña, lo que modifica la probabilidad de selección de los estudiantes dentro de ella (será mayor en comparación al resto de estudiantes de la muestra); o también puede suceder que la ausencia de respuesta en una escuela conduzca a una subrepresentación de los estudiantes en el estrato al que la escuela pertenece. En cualquier caso es necesario realizar un ajuste para que al final los pesos de muestreo representen correctamente a la población de interés.
6.2.1 Pesos de muestreo para las escuelas
El peso muestral de la escuela es el recíproco de su probabilidad de inclusión (proporcional a su medida de tamaño), con algunos ajustes como la corrección por ausencia de respuesta. Recordemos que la medida de tamaño para XXXXXXX son los estudiantes en los grados de interés. Para minimizar el efecto de las escuelas pequeñas en el cálculo de los pesos muestrales, es posible modificar la medida de tamaño. Por ejemplo, en PISA 2015 el tamaño esperado de la muestra por escuela era 35 estudiantes. Si el número de estudiantes de 15 años (medida de tamaño) es menor a ese valor esperado, pero mayor a 17, la medida de tamaño era 35. Si el número de estudiantes de 15 años era menor o igual a 17, pero mayor a 3, entonces la medida de tamaño es la mitad del tamaño esperado de la muestra por escuela. Y, si en la escuela había entre uno y dos estudiantes de 15 años, la medida de tamaño era la cuarta parte del tamaño esperado de la muestra por escuela.
El factor de expansión a nivel de la escuela (UPM) \(i\) en el estrato explícito \(h\) está dado por la siguiente expresión:
\[w_{hi}^{(school)}=\frac{1}{\pi_{Ihi}}\propto\frac{t_{xh}}{n_{Ih} x_i}\]
En donde \(\pi_{Ihi}\) se definió anteriormente y corresponde a la probabilidad de inclusión de primer orden de la escuela \(i\) y es obtenida a partir de la implementación del diseño muestral proporcional a la medida de tamaño.
6.2.2 Pesos de muestreo para los estudiantes
Las probabilidades de inclusión para los estudiantes indican la probabilidad de ser seleccionados dado que la escuela a la que pertenece fue seleccionada en la muestra, es decir, como se mencionó anteriormente, se trata de una probabilidad condicional. El peso de muestreo para los estudiantes es el recíproco de esa probabilidad, con dos ajustes: primero se aplica un factor de corrección por ausencia de respuesta y después se usa un recorte definido.
Cabe resaltar que todos los estudiantes de una misma escuela tienen igual probabilidad de ser elegidos. Si todos los estudiantes en un grado de interés (o ambos) son seleccionados, su peso de muestreo será igual a uno (puesto que cada estudiante se representa a si mismo), pero si no todos fueron seleccionados, los pesos de muestreo serán mayores.
En el caso de la segunda etapa, en donde el muestreo de los estudiantes es aleatorio simple sin reemplazo, el peso de muestreo de un estudiante \(k\) adscrito a la escuela \(i\) en el estrato explícito \(h\) está dada por la siguiente expresión:
\[w_{k|i}^{(student|school)} =\frac{1}{\pi_{k|i}} =\frac{N_i}{n_i}\]
Por la anterior, y debido a que el muestreo es independiente en cada etapa, el factor de expansión general para un estudiante que pertenece a una escuela del estrato explícito \(h\) está dado por la multiplicación de los anteriores pesos:
\[w_{k}^{(design)} =w_{hi}^{(school)}w_{k|i}^{(student|school)} \propto\frac{t_{xh}}{n_{Ih} x_i}\frac{N_i}{n_i}\]
6.2.3 Modificación de los pesos de estudiantes: Student house-weight
El método house-weight permite realizar transformaciones proporcionales en los pesos de muestreo para que sumen un tamaño determinado dentro de cada país. Estas transformaciones no afectan las estimaciones de medias o parámetros de interés, aunque sí modifican la suma del propio peso de muestreo.
El house-weight le da un peso diferente a cada país, dependiendo del tamaño de población. Se utiliza cuando el error estándar está siendo calculado en la suma de los pesos de muestreo y no en el propio tamaño de la muestra y se requiere corregir esta situación (con los avances en los softwares de análisis de datos, esta necesidad es cada vez menor).
Este tipo de ponderación, también llamado peso normalizado, se utiliza cuando los análisis son sensibles al tamaño de la muestra y representa, esencialmente, una transformación lineal del peso total del estudiante de modo que la suma de los pesos sea igual al tamaño de la muestra de cada país \(n\). En general, se tiene que
\[w_{k}^{(house)}=\frac{w_{k}^{(design)}}{\sum_s{w_{k}^{(design)}}}*n\]
6.2.4 Modificación de los pesos de estudiantes: Student senate-weight
Al igual que la modificación anterior, el método senate-weight permite realizar transformaciones proporcionales en los pesos de muestreo para que sumen un tamaño determinado dentro de cada país, sin afectar las estimaciones de medias o coeficientes (se modifica la suma del propio peso de muestreo). En este método, a diferencia de house-weight, los países tienen el mismo peso, sin que se considere el tamaño de la población (las poblaciones objetivo dentro de cada país participante serán del mismo tamaño), por lo que es útil para realizar análisis entre países.
Este método se utiliza cuando los análisis involucran más de un país porque es el peso total del estudiante escalado de tal manera que los pesos de senado de todos los estudiantes suman a 500 (o 1000)28 en cada país. De esta forma, la siguiente ecuación define la forma estructural de estos pesos:
\[w_{k}^{(senate)}=\frac{w_{k}^{(design)}}{\sum_s{w_{k}^{(design)}}}*\kappa\]
En donde \(\kappa\) es un número que se fija de antemano, y que puede ser igual a 500 o 1000.
6.2.5 Acerca de los pesos de muestreo de estudiantes de terceroo y sexto
Por la naturaleza del estudio, en donde un mismo marco de muestreo cuenta con escuelas de grados terceroo y sexto, se necesita plantear un diseño que contemple los pesos de muestreo que sean representativos para esta realidad. Para empezar, utilizaremos tres estratos, definido a continuación.
- Estrato 1: escuelas que cuentan solo con el grado terceroo.
- Estrato 2: escuelas que cuentan con el grado terceroo y sexto conjuntamente.
- Estrato 3: escuelas que cuentan solo con el grado sexto.
Ahora bien, nótese que para seleccionar las escuelas dentro de cada estrato, se utiliza un diseño proporcional, cuya medida de tamaño es el número de estudiantes en los grados terceroo y sexto. Teniendo esto en mente, para construir un diseño eficiente y que sea representativo, debemos garantizar que
\[\sum_{s}w_{k}^{(design)} = \hat{N} \approx N\].
Por ejemplo, para el caso del grado terceroo, si asumimos que \(N_{3}^{schools}\) representa el total de estudiantes de este grado, entonces:
\[\sum_{i\in s_{36}}w_{2i}^{(school)}+\sum_{i\in s_{3}}w_{3i}^{(school)} \approx N_{3}^{schools}\]
En donde \(w_{2i}^{(school)}=\frac{t_{x2}}{n_{I2}x_{i}}\) es el peso de la escuela en el Estrato 2; \(w_{3i}^{(school)}=\frac{t_{x3}}{n_{I3}x_{i}}\) es el peso de la escuela en el Estrato 3; \(t_{x2}\) es el total de estudiantes de grado terceroo y sexto; \(t_{x3}\) total de estudiantes del grado sexto; \(n_{Ii}\) es el tamaño de la muestra seleccionada en el estrato \(i\) con \(i=1,2,3\); \(s_{36}\) es la muestra obtenida en el Estrato 2 y \(s_{3}\) es la muestra obtenida en el Estrato 1.
6.3 Ajuste por ausencia de respuesta
Las tasas de respuesta de escuelas y estudiantes no siempre corresponden al 100% de la población muestreada. La ausencia de respuesta en ambas unidades afecta los análisis estadísticos, razón por la cual deben ajustarse los pesos de muestreo por medio de factores que disminuyan el sesgo ocasionado por la ausencia de respuesta. Estos factores deben ser una función de una variable que esté disponible para aquellos que contestaron y para los que no, y que esté correlacionada con la tasa de respuesta y las variables de interés.
Para encontrar esta variable es posible buscar variables que estén relacionadas con el hecho de responder o no a la prueba y esperar que estén relacionadas también con las variables de interés (teniendo en cuenta los datos del estudio), o buscar variables que cumplan ambos requisitos con seguridad (considerando datos históricos de otro estudio que tenga características similares).
Esta última técnica es la más utilizada, puesto que ofrece más estabilidad (las tasas de respuesta pueden variar mucho en cada aplicación), permite la estandarización de procesos, lo cual es útil para generar ajustes en cortos periodos de tiempo, y facilita la identificación y uso de las variables de mayor interés en el estudio, como el logro de aprendizaje que es evaluado. Una vez definida la variable los ajustes se aplican a las escuelas y, posteriormente, a los estudiantes.
Generalmente en una investigación por muestreo se presentan dos tipos de ausencia de respuesta: una es cuando la persona seleccionada se niega a responder algunas preguntas del cuestionario, la otra es cuando hay imposibilidad de levantar toda la información del cuestionario por cualquier razón. El primer tipo de ausencia de respuesta se puede solucionar a través de métodos de imputación que buscan asignar información plausible a las variables no levantadas en campo, usando la información de individuos similares. La mayoría de textos de análisis de datos presentan los métodos de imputación con sus ventajas y desventajas; lo más importante es controlar adecuadamente los niveles de ausencia de respuesta, pues se aconseja que los datos imputados no tengan una tasa alta.
Särndal y Lundstrom (2005) muestran diferentes métodos para el tratamiento de la ausencia de respuesta, donde además se enfatiza en los supuestos para poder llevar a cabo este tipo de procedimientos de imputación de datos entre los cuales se destaca que el esquema de datos faltantes sea aleatorio. El tratamiento de la ausencia de respuesta implicará el uso de estimadores de calibración, como información auxiliar se considerará el total de estudiantes y demás parámetros disponibles para este grupo poblacional, si es posible.
6.3.1 Ausencia de respuesta de escuelas
La ausencia de respuesta en las escuelas no está relacionada fuertemente con los logros de aprendizaje, puesto que estas tasas de respuesta se ven afectadas por otros temas del contexto de cada país que no afectan el rendimiento promedio de los estudiantes. Sin embargo, las tasas de respuesta pueden variar mucho entre los estratos y países, por lo cual un ajuste es necesario para mitigar el sesgo. Además, si una escuela originalmente muestreada decide no participar y sus dos reemplazos no acceden a ser parte del estudio, el peso de la escuela debe ajustarse para compensar la pérdida. El factor de ajuste por ausencia de respuesta permite ponderar las escuelas para representar a todos los estudiantes. El mecanismo es crear distintos grupos de escuelas con características similares y, dentro de cada grupo, ajustar los pesos de las escuelas para compensar aquellas sin respuesta.
Las variables utilizadas para realizar el ajuste son, por lo general, variables de estratificación, porque están relacionadas con las variables de interés y representan subpoblaciones de interés para los países participantes. De igual forma, en el cálculo del factor de ajuste se considera la matrícula estimada de estudiantes para cada escuela, con el fin de reconocer el número de estudiantes que están representados por cada escuela en la muestra.
6.3.2 Ausencia de respuesta de estudiantes
La ausencia de respuesta de los estudiantes es, por lo general, mayor que la observada en las escuelas y, de igual forma, se relaciona en mayor medida con los logros de aprendizaje. Con frecuencia, los estudiantes que se ausentan de la prueba son aquellos con el rendimiento académico más bajo, quienes no muestran interés en asistir a la escuela o que tienen alguna condición de salud deficiente, lo cual puede causar un sesgo en las estimaciones, presentando resultados más altos que los reales. El ajuste por ausencia de respuesta de estudiantes disminuye ese sesgo.
Debido a que la información sobre las características de los estudiantes es usualmente limitada, es posible utilizar otras variables (de la escuela) como predictores de la respuesta del estudiante. Así, los ajustes se realizan formando grupos de estudiantes de escuelas similares: se puede comparar estudiantes en escuelas públicas y privadas o de alto y bajo desempeño, por ejemplo.
6.3.3 Ausencia de respuesta en cuestionarios de contexto
Es posible que los cuestionarios de contexto (no cognitivos) - que indagan al estudiante, profesor o rector acerca de los factores asociados al desempeño escolar - no sean diligenciados en su totalidad por los respondientes. En este caso, es posible considerar procedimientos de imputación. Son varios los autores que han propuesto diferentes procedimientos para tratar la ausencia de respuesta, existen diversos paquetes en R
que permiten modelar este fenómeno. Por ejemplo, los paquetes MissMDA
, mice
, statmatch
, hotdeck
, `mitools entre otros. Sin embargo, el propósito debe ser siempre garantizar que el método que se utiliza es apropiado y se ajusta bien al esquema de ausencia de respuesta del estudio. Por esta razón se propone realizar una prueba usando una muestra de entrenamiento con la cual se genera el modelo de imputación, se deja una muestra de comprobación donde no se tenga valores faltantes, con esta se calcula la tasa de error aparente con el fin de identificar si el modelo de imputación es apropiado o haciendo pruebas de hipótesis sobre la distribución de los datos sin imputar e imputados.
Para el tratamiento de la ausencia de respuesta, como se mencionó, se puede usar la función mice del paquete de R con el mismo nombre, considerando el método que viene por defecto, el método de predicción de emparejamiento por la media (Predictive mean matching). Los detalles de este método de imputación se describen en van Buuren (2012).
En el segundo tipo de ausencia de respuesta, se da cuando la sobremuestra generada no logra cubrir la ausencia de respuesta y esta se considera no ignorable por las características de las unidades finales de muestreo que no respondieron, se debe llevar a cabo un ajuste a los factores de expansión. El ajuste de los factores de expansión busca fundamentalmente evitar sesgos debidos a la ausencia de respuesta.
6.4 Estimadores ajustados
La falta de respuesta de unidades finales de muestreo no ignorables obliga a realizar una calibración o ajuste al factor inicial calculado en el diseño, a través del cálculo de un factor de ajuste. El peso muestral total de los estudiantes se define como el producto de los pesos de muestreo de las escuelas y de los estudiantes, después de ajustar por ausencia de respuesta y recortes por estrato. Este resultado permite calcular de forma precisa los estimadores de las características de la población objetivo. La expresión matemática para el cálculo del factor de expansión final es:
\[w_k^{(nonr)} = w_k^{(design)} * w_k^{(adj)}\]
En donde \(w_k^{(design)}\) hace referencia al peso de muestreo inducido por el diseño de muestreo aplicado en cada país y \(w_k^{(adj)}\) hace referencia al factor de ajuste que debe realizarse para modelar la ausencia de respuesta (no ignorable) en cada país.
El principal reto para la calibración del factor debido a la ausencia de respuesta es que implica disponer de información secundaria para las unidades finales de muestreo, de modo que los resultados de los que efectivamente respondieron sean extrapolables al universo; aún en el caso en que haya una fracción de éstos que inicialmente fueron seleccionados en la muestra y que no respondieron o no pudieron ser contactados. En esté documento se propone utilizar la metodología definida por Gutiérrez & Rojas (2013) donde se ajusta la forma funcional del estimador final utilizando la metodología de propensity score.
Para esto, se denota la muestra de los respondientes como \(s_r\) y para cada individuo \(k \in s\) se observa la variable \(R_k\), la cual es una variable indicadora para el evento el \(k\)-ésimo individuo es respondiente. Por lo anterior, \(R_k\) tiene distribución Bernoulli con parámetro
\[\phi_k = Pr(R_k = 1) = Pr(k \in s_r)\]
Por otro lado, para estimar correctamente \(\phi_k\), se debe contar con un vector de información auxiliar \(\mathbf{z}_k\) conocido para todo \(k\in s\) se puede estimar por medio de un modelo de regresión logística; esto es,
\[ \hat{\phi}_k = \frac{\exp\{\mathbf{z}_k'\hat{\mathbf{\beta}\}}}{1 + \exp\{\mathbf{z}_k'\hat{\mathbf{\beta}\}}}\]
donde \(\hat{\mathbf{\beta}}\) es el vector de coeficientes estimado de la regresión logística. Finalmente, el estimador para un total poblacional, con el ajuste debido a la ausencia de respuesta no ignorable, queda expresado como
\[\hat{t}_{adj}= \sum_{k\in s_r}w_k^{(nonr)}y_k\]
En donde
\[w_k^{(nonr)} = w_k^{(design)} * w_k^{(adj)} = \frac{w_k^{(design)}}{\hat{\phi}_k}\]
La varianza de este estimador está dada por
\[\widehat{Var}(\hat{t}_{adj}) = \frac{1}{N^2} \sum_{k\in s_r} \frac{(1-\hat{\phi}_k)}{\pi_k \hat{\phi}_k^2} (y_k - \mathbf{z}_k'\hat{\phi}_k\hat{\mathbf{\gamma}})^2\]
En donde la expresión para \(\hat{\gamma}\) puede ser consultada en Kim & Riddles (2012). En ausencia de información auxiliar que permita establecer una buena estrategia de modelamiento para la ausencia de respuesta, es posible recurrir a métodos de ajuste tradicionales como por ejemplo el que Bautista (1998) presenta, en donde se supone un factor de ajuste clásico para corregir defectos del marco, cobertura y de ausencia de respuesta, el cual tiene la siguiente expresión matemática:
\[w_k^{(adj)}=\frac{n + n_{add} - n_{out}}{n + n_{add} - n_{out} - n_{rej}}\]
donde \(n\) es el tamaño de muestra propuesto, \(n_{add}\) es la cantidad de elementos adicionales que se encuentran por defectos del marco, \(n_{out}\) es la cantidad de elementos que están fuera del universo de estudiantes y \(n_{rej}\) es la cantidad de rechazos en la muestra.
6.5 Calibración de los pesos de muestreo iniciales
Después de considerar el ajuste por ausencia de respuesta, es posible calibrar los pesos de muestreo sobre la información auxiliar disponible en los sistemas educativos de cada país, a nivel nacional, por estratos de interés, e incluso por las sobremuestras definidas por los coordinadores nacionales.
Es posible utilizar un enfoque de calibración funcional para el ajuste de los factores de expansión bajo información faltante. Así, Särndal y Lundström (2005) afirman que cuando los estudios por muestreo están afectados por la ausencia de respuesta, es deseable tener las siguientes propiedades en la estructura inferencial que sustenta el muestreo:
- Sesgo pequeño o nulo.
- Errores estándares pequeños.
- Un sistema de ponderación que reproduzca la información auxiliar disponible29.
- Un sistema de ponderación que sea eficiente al momento de estimar cualquier característica de interés en un estudio multipropósito.
Las anteriores características son satisfechas al usar el enfoque de calibración (Deville, Särndal, Swensson & Wretman, 2003) que induce una estructura inferencial robusta en presencia de información auxiliar precisa puesto que reduce tanto el error de muestreo como el error debido a la ausencia de respuesta. Por lo anterior, se considera que existe información auxiliar disponible para cada respondiente. Como vector de información auxiliar \(\mathbf{t}_\mathbf{Z} = (t_z^*, \hat{t}_z^0)'\), en donde \(t_z^* = \sum_{k\in U}z_k^*\) se define como el total auxiliar disponible a nivel de la población finita \(U\), y \(\hat{t}_z^0 = \sum_{k\in s} \frac{z_k^0}{\pi_k}\) representa la información auxiliar disponible a nivel de la muestra \(s\), expandida a la población mediante el estimador de Horvitz-Thompson.
Esta propuesta considera un procedimiento en dos etapas, en donde primero se calibra el conjunto de pesos ajustados, a partir de la información auxiliar \(z_k^0\). Esta primera etapa calibra desde la muestra efectiva de respondientes \(s_r\) a la muestra original \(s\). Luego, se realiza una segunda calibración, a partir de la información auxiliar \(z_k^*\), desde la muestra \(s\) a la población de interés \(U\). Luego, como pesos finales se considera el siguiente sistema
\[w_k^{(cal)} = w_k^{0} v_k^*\]
En donde,
\[v_k^* = 1 + \lambda_r' \mathbf{z}_k^*\] representa el factor de ajuste para la calibración. Nótese que \(\lambda_r'=(\sum_U \mathbf{z}_k^* - \sum_{s_r} w_k^{0} \mathbf{z}_k^*)'(\sum{s_r}w_k^{0} \mathbf{z}_k^* \mathbf{z'}_k^* )^{-1}\).
Además,
\[w_k^0 = w_k^{(nonr)}v_k^0\]
En donde, \(v_k^0 = 1 + \lambda_r'^0 \mathbf{z}_k^0\) y \(\lambda_r'^0=(\sum_s w_k^{(nonr)}\mathbf{z}_k^0 - \sum_{s_r} w_k^{(nonr)} \mathbf{z}_k^0)'(\sum{s_r} w_k^{(nonr)} \mathbf{z}_k^0 \mathbf{z'}_k^0)^{-1}\). Luego, la estimación del total calibrado se calcula como:
\[\hat{t}_{cal}= \sum_{k\in s_r}w_k^{(cal)}y_k\]
Para implementar los estimadores de calibración es posible utilizar las siguientes funciones implementadas en el software estadístico R
:
calibrate
del paquetesurvey
(Lumley, 2017).Wk
del paqueteTeachingSampling
(Gutiérrez, 2017).calib
del paquetesampling
(Tillé & Matei, 2016).