Regresión lineal múltiple
Introducción
La estadística multivariable es una rama de la estadística donde se intenta explicar un fenómeno de salud teniendo en cuenta varias variables de cualquier tipo (cuantitativas, ordinales, cualitativas etc.)1. Por ejemplo, supongamos que realizamos una investigación para conocer el efecto que tienen fumar en el embarazo, el peso de la madre, la presencia de comorbilidades y el uso de medicamentos sobre el peso del recién nacido. En este ejemplo, nuestra variable dependiente es el peso al nacer e intentamos explicar como influyen el resto de las variables (variables independientes). Otro ejemplo de le estadística multivarible podría ser el estudio de variables asociadas a tensión arterial, en el que se podría incluir variables como consumo de sal, edad, sexo, la presencia de comorbilidades y el habito de fumar. Utilizando la estadística multivariable se podría conocer cual es el efecto de todas estas variables juntas sobre la tensión arterial. También, con estadística multivariable podemos aislar el efecto de una variable sobre otra, por ejemplo, podríamos aislar el efecto del consumo de sal sobre la tensión arterial, teniendo en cuenta el resto de las variables.
Dos de las pruebas estadísticas multivariables más utilizadas son la regresión lineal múltiple y la regresión logistica multivariable. Aquí nos enfocaremos en la regresión lineal múltiple.
Martínez González y cols. en su libro Bioestadística amigable 2 describe los usos que pueden tener los modelos de regresión multivariable. Se muestra un extracto de este tema en los siguientes puntos:
“Determinar cuáles son los predictores de una variable biosanitaria (variable Y, o variable dependiente) a partir de una lista más o menos amplia de posibles variables predictoras o explicativas (variables X o variables independientes). Por ejemplo, de un listado de 20 posibles polimorfismos genéticos, ¿cuántos y cuáles de ellos son capaces de predecir en más o menos grado la probabilidad de ser obeso? ¿Cuál será la probabilidad de ser obeso si se posee el polimorfismo A? ¿Y si se tienen los polimorfismos A y B? ¿Y si se poseen los polimorfismos A, B y C?”
“Construir un índice pronóstico (ecuación) para predecir una determinada condición (variable Y) a partir de los valores recogidos en un conjunto de variables (variables X). Por ejemplo, predecir la probabilidad de que un paciente presente enfermedad coronaria en los siguientes 10 años conociendo su sexo, su edad, el nivel de colesterol, la tensión arterial y el hábito tabáquico (ecuación de Framingham)”.
“Determinar el efecto de una variable X1 sobre otra variable Y teniendo en cuenta otras características (X2, X3… Xp; factores de confusión) que pudieran que pudieran distorsionar la verdadera asociación entre estas variables. Por ejemplo, determinar el efecto del consumo de comida rápida sobre el riesgo de desarrollar depresión, considerando la cantidad de actividad física realizada por el individuo y su hábito tabáquico”.
“Detectar y describir fenómenos de interacción entre variables (modificación del efecto) sobre un determinado resultado. Es decir, si la presencia de una variables X2 es capaz de modificar el efecto ejercido por la variable independiente X1 sobre la variable dependiente Y. Por ejemplo, se desea determinar si el efecto del consumo de una dieta rica en grasas saturadas sobre el cambio de peso es diferente según exista o no presencia de un determinado polimorfismo genético”.
Por otro lado, la estadística multivariada, hace referencia a la aplicación de técnicas estadísticas a conjuntos de datos que involucran más de una variable dependiente3. En este caso, se busca determinar la relación entre las variables dependientes y las variables independientes. Posteriormente nos enfocaremos en estos temas.
Regresión lineal múltiple
Modelo de regresión lineal múltiple
El análisis de regresión múltiple se puede interpretar como una ampliación de la regresión lineal cuando incluye más de una variable independiente. Así, el modelo general para k variables independientes se expresa de manera simplificada como:
Donde:
, , … son los coeficientes de la regresión para el intercepto y para cada uno de las variables. son las variables independiente.
Conceptos sobre regresión lineal múltiple
Antes continuar con la realización de los modelos de regresión lineal múltiple, es necesario revisar algunos conceptos claves para entender el modelo de regresión múlitple.
Variables dummy.
En un modelo de regresión múltiple es posible incluir variables categóricas, sin embargo, su inclusión requiere la creación de variables dummy. La creación de este tipo de variables para poder ajustar los modelos con aquellas variables categóricas que tienen más de dos niveles.
“Si la variable categórica está formada por
Algo que se debe tener en cuenta cuando se crean las variables dummy, es que estas solo tienen sentido cuando se analizan en conjunto, nunca deben de analizarse por separado. Fuera de un modelo de regresión o un modelo de machine learning, las variables dummy no tienen sentido.
Supongamos que queremos realizar un modelo en el que se incluya una variable relacionada al hábito de fumar. Esta variables contiene los siguientes niveles:
- No fumador
- Ex-fumador
- Fumador.
La creación y por tanto la introducción de esta variable al modelo requerirá de la creación de dos variables dummy (
X1 | X2 | |
---|---|---|
No fumador | 0 | 0 |
Ex fumador | 1 | 0 |
Fumador | 0 | 1 |
En la tabla anterior podemos identificar que uno de lo niveles sirve para comparar a las otras dos y funciona como un estado basal. Podemos comparar la ausencia (no fumador) con la variable X1 (ex fumador) y la ausencia del viento (no fumador) con X2 (fumador). Esta explicación la podemos trasladar a los coeficientes de la regresión.
Interpretación Coeficientes en la regresión lineal
Al igual como sucede en la regresión lineal simple, en los resultados de la regresión lineal múltiple podemos obtener coeficientes
Suponga que tenemos una regresión múltiple en la que nuestra variable dependiente es el peso al nacer de un grupo de recién nacidos medidos en gramos. Este modelo se ajustó por la edad de la madre, el peso de la madre y el consumo de tabaco (no fumador, ex fumador y fumador). La edad se expresa en años, el peso de la madre en kilos y el consumo de tabaco como un factor de tres niveles.
La siguiente tabla muestra los resultados del ANOVA para esta regresión.
Estimate Std. | Error | t value | Pr(>|t|) | |
---|---|---|---|---|
(Intercept) | 1.08572 | 0.20398 | -20.872 | 4.61e-09 *** |
Edad | -0.70000 | 0.0145 | 38.628 | < 2e-16 *** |
Peso _Madre | 20.34 | 0.18676 | -3.473 | < 2e-16 *** |
ex-fumador | -30.4 | 0.20398 | -20.872 | < 2e-16 *** |
Fumador | 40.8 | 0.01293 | -10.234 | < 2e-16 *** |
El ANOVA para la variable edad indica un coeficiente
Para la variable de consumo de tabaco, podemos observar que para la primer variable dummy que corresponde para el nivel de ex fumador tenemos un valor de
Intervalos de confianza
La interpretación de los intervalos de confianza para los coeficientes es el mismo que para la regresión lineal simple. Se busca que el coeficiente sea distinto de cero.
Coeficiente de determinación ajustado
Cuando al modelo de regresión se añaden variables este coeficiente tiende a aumentar, por lo que este coeficiente requiere de ajustes para su correcta interpretación. La formula siguiente representa la estimación para el coeficiente de determinación ajustado.
Se podría decir que el coeficiente de determinación es el porcentaje que explica el modelo. Por ejemplo, con un coeficiente de 0.70, se podría decir que el modelo explica un 70% de lo que sucede con la variable dependiente dadas las variables independientes.
En el caso de la regresión linela múlitple si no se ajusta el valor de
No ajustar el valor del coeficiente de determinación sería un error que exageraría “lo que explica en modelo”
No olvidemos que también en el caso de la regresión múltiple es necesaria la realización de un ANOVA para evaluar si el modelo pudiera ser útil.
Supuestos para la aplicación del modelo de regresión lineal múltiple.
En el caso de la regresión lineal múltiple debemos de cumplir con los mismos supuestos que se revisaron en el tema de regresión lineal simple.
- Las variables están relacionadas linealmente.
- La distribución de la variable dependiente condicionada a cada posible combinación de valores de las independientes es una distribución normal multivariable.
- Las observaciones para cada variable son independientes unas de otras. No existen dos observaciones autocorrelacionadas entre sí (p. ej., observación ojo derecho/ojo izquierdo del mismo individuo).
- Existe homogeneidad de las varianzas (homocedasticidad): las varianzas de la variable Y condicionadas a los valores de X son homogéneas.”
- No debe presentarse multicolinealidad entre las variables independientes.
Multicolinealidad
Un punto importante que se de debe tomar en cuenta es que las variables no deben de presentar colinealidad, es decir no deben de estar autocorrelacionadas entre si. Dos variables independientes altamente correlacionadas entre si, modificarán de forma crítica los coeficientes
- Inestabilidad en los coeficientes: Los coeficientes estimados de las variables correlacionadas pueden volverse muy inestables. Un pequeño cambio en los datos puede llevar a grandes variaciones en los coeficientes, lo que dificulta interpretar correctamente la relación entre las variables independientes y la variable dependiente.
- Pérdida de significancia estadística: A pesar de que las variables incluidas podrían ser importantes para el modelo, la multicolinealidad puede hacer que pierdan significancia estadística (es decir, altos valores de p), lo que lleva a la interpretación errónea de que esas variables no son útiles para el modelo.
- Difícil interpretación de los coeficientes: Debido a la alta correlación entre las variables, se vuelve complicado interpretar los coeficientes de cada una de ellas. Es difícil distinguir el impacto de una variable independiente en la variable dependiente sin que esté influenciado por la otra variable correlacionada.
- Aumento de los errores estándar: La multicolinealidad incrementa los errores estándar de los coeficientes, lo que reduce la precisión de las estimaciones.
Evaluación de la colinealidad
La colinealidad (o multicolinealidad, en el contexto de múltiples variables predictoras) se refiere a la situación en la cual dos o más variables predictoras en un modelo estadístico están altamente correlacionadas, es decir, tienen una relación lineal entre sí.
Existen dos formas de evaluar la colinealidad. La primera es realizando una matriz de correlación; y la segunda es evaluando factor inflación o incremento de la varianza (VIF)
En la caso de realizar una matriz de correlación puede proceder conforme a lo revisado en clase. Otra opción es utilizar la función corrplot.mixed
de la librería cor
. Esta función requiere un data frame con variables de tipo numérico o en su defecto, un data frame con las variables que serán evaluadas en el modelo.
La siguiente opción es utilizar el VIF. El VIF se define como la proporción de variabilidad de la variable
Para evaluar el VIF, se puede utilizar la función vif
de la librería car
. Esta función requiere de un modelo de regresión lineal múltiple.
Cómo lidiear con la multicolinealidad
- Eliminar una de las variables altamente correlacionadas para reducir la redundancia.
- Usar técnicas de regularización como Ridge o Lasso, que penalizan los coeficientes para mitigar el impacto de la multicolinealidad.
- Transformar las variables en combinaciones lineales, como a través del Análisis de Componentes Principales (PCA), para reducir la colinealidad. Este punto se revisará en clase más adelante.
Variables confusoras
Una variable confusora es una variable que se encuentra relacionada tanto con la variable dependiente como con alguna o varias de las variables independientes.
El resultado de la presencia de una variable de confusión puede ser desde la perdida de asociación hasta la exageración de esta asociación.
Incluso en algunos casos se puede invertir el sentido de la asociación. La identificación de una variable de confusión requiere de experiencia y de conocimiento sobre el tema. Por ejemplo, para considerar una variable como confusora deberá, entre otras cosas, estar asociada con el efecto y con la exposición de forma independiente y no estar condicionada por la presencia del mismo. Además nunca una variable de confusión deberá evaluarse únicamente utilizando valores de p, sino que deberá evaluarse la magnitud del efecto. Se considera como valido un cambio mayor al 10% en el cambio del coeficiente.
El modelo correcto siempre es el que se ajusta por la variable confusora.
La siguiente figura muestra un ejemplo de cuando evaluar una variable confusora.
Footnotes
Hidalgo B, Goodman M. Multivariate or multivariable regression? Am J Public Health. 2013 Jan;103(1):39-40. doi: 10.2105/AJPH.2012.300897. Epub 2012 Nov 15. PMID: 23153131; PMCID: PMC3518362.↩︎
Martínez-González, M. A., & Martínez-González, M. A. (2011). Bioestadística amigable. Elsevier España.↩︎
Hidalgo B, Goodman M. Multivariate or multivariable regression? Am J Public Health. 2013 Jan;103(1):39-40. doi: 10.2105/AJPH.2012.300897. Epub 2012 Nov 15. PMID: 23153131; PMCID: PMC3518362.↩︎
Martínez-González, M. A., & Martínez-González, M. A. (2011). Bioestadística amigable. Elsevier España.↩︎