Ejercicios regresión logística

Para realizar un regresión logística en R se utiliza la función glm. Esta función se utiliza para ajustar modelos lineales generalizados, especificados dando una descripción simbólica del predictor lineal y una descripción de la distribución de errores.

Ejemplo 1

Se desea identificar las variables asociadas al bajo peso al nacer. Para ello, se parte del data frame “birthwt2” que fue construida con anterioridad en la clase de medidas de asociación y riesgo. Se describen a continuación los pasos para la elaboración de un modelo de regresión logística en R. Puede descargar la base de datos de aquí

Importar base de datos

birthwt2 <- read.csv("Bases/birthwt2", stringsAsFactors = T)
attach(birthwt2) # Para no tener problemas con los nombres
Construcción de los modelos

Se parte del supuesto que todas la variables del dataframe pudieran estar asociadas al bajo peso al nacer. Por ello se construye un modelo con todas las variables y se comenzarán a eliminar variables hasta quedarnos con un modelo adecuado.

Modelo incial

mod1 <- glm(low~age+lwt+race+smoke+ptl+ht+ui+ftv, family = "binomial", data = birthwt2)

glm(formula = low ~ age + lwt + race + smoke + ptl + ht + ui + 
    ftv, family = "binomial", data = birthwt2)

             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  1.361119   1.104589   1.232  0.21786   
age         -0.029549   0.037031  -0.798  0.42489   
lwt         -0.015424   0.006919  -2.229  0.02580 * 
raceblack    0.391764   0.537609   0.729  0.46618   
racewhite   -0.880496   0.440778  -1.998  0.04576 * 
smokeYes     0.938846   0.402147   2.335  0.01957 * 
ptl          0.543337   0.345403   1.573  0.11571   
htYes        1.863303   0.697533   2.671  0.00756 **
uiYes        0.767648   0.459318   1.671  0.09467 . 
ftv          0.065302   0.172394   0.379  0.70484   
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 234.67  on 188  degrees of freedom
Residual deviance: 201.28  on 179  degrees of freedom
AIC: 221.28

Number of Fisher Scoring iterations: 4
Supuestos del modelo


Binned residual plot

Un “binned residual plot” es una herramienta útil en el análisis de regresión para evaluar la adecuación de un modelo a los datos. En un binned residual plot, estos residuos se agrupan (“binning”) en intervalos basados en los valores predichos o alguna otra variable relevante, y luego se analizan colectivamente.

Aspectos Clave del Binned Residual Plot

  1. Eje Horizontal: Muestra los valores predichos por el modelo o alguna variable independiente de interés.
  2. Eje Vertical: Muestra los residuos o alguna medida resumida de los residuos (como la media o mediana) para cada grupo.


  1. Residuos Cerca de Cero: Idealmente, la media (o mediana) de los residuos en cada bin debería estar cerca de cero. Esto indica que el modelo está haciendo predicciones precisas en ese rango.

  2. Patrón Aleatorio: La ausencia de patrones sistemáticos sugiere que el modelo se ajusta bien a los datos. Un patrón aleatorio de puntos alrededor de la línea de residuo cero es un buen signo.

  3. Patrones en los Residuos: La presencia de patrones, como una tendencia lineal o curvilínea, esto sugiere que el modelo no está capturando alguna relación subyacente en los datos.

  4. Variabilidad Constante: La dispersión de los residuos debería ser más o menos constante a través de los diferentes bins. Si la variabilidad de los residuos cambia significativamente (por ejemplo, aumenta con valores predichos mayores), esto puede indicar heterocedasticidad, lo que sugiere que las suposiciones del modelo podrían no ser apropiadas.

  5. Outliers: Los valores atípicos pueden ser identificados en un binned residual plot. Si hay muchos outliers o si estos siguen un patrón, puede ser necesario revisar el modelo o investigar más sobre estos casos.

Prueba de Hosmer-Lemeshow


Psuedo R2

[1] 0.2277177

Modelos sucesivos

Se eliminarán variables tomando los valores de p. Se comienza por eliminar la variable age ya que es la que menos aporta al modelo

 mod2 <- glm(low~lwt+race+smoke+ptl+ht+ui, family = "binomial")

glm(formula = low ~ lwt + race + smoke + ptl + ht + ui, family = "binomial")

             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  0.810528   0.859994   0.942  0.34595   
lwt         -0.015905   0.006855  -2.320  0.02033 * 
raceblack    0.428641   0.538963   0.795  0.42643   
racewhite   -0.897078   0.433881  -2.068  0.03868 * 
smokeYes     0.938727   0.398717   2.354  0.01855 * 
ptl          0.503215   0.341231   1.475  0.14029   
htYes        1.855042   0.695118   2.669  0.00762 **
uiYes        0.785698   0.456441   1.721  0.08519 . 
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 234.67  on 188  degrees of freedom
Residual deviance: 201.99  on 181  degrees of freedom
AIC: 217.99

Number of Fisher Scoring iterations: 4

Se elimina la variable ptl

mod3 <- glm(low~lwt+race+smoke+ht+ui, family = "binomial")

glm(formula = low ~ lwt + race + smoke + ht + ui, family = "binomial")

             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  0.982473   0.849736   1.156  0.24760   
lwt         -0.016732   0.006803  -2.459  0.01392 * 
raceblack    0.398365   0.536721   0.742  0.45795   
racewhite   -0.926197   0.430386  -2.152  0.03140 * 
smokeYes     1.035831   0.392558   2.639  0.00832 **
htYes        1.871416   0.690902   2.709  0.00676 **
uiYes        0.904974   0.447553   2.022  0.04317 * 
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 234.67  on 188  degrees of freedom
Residual deviance: 204.22  on 182  degrees of freedom
AIC: 218.22

Number of Fisher Scoring iterations: 4

Dado que la variable race tiene tres niveles uno de ellos es significativo por lo que no se puede eliminar la variable

 other  black  white 
    67     26     96 

En este caso se tomo la variable otros fue la variable que se tomo como referencia

Intervalos de confianza para los coeficientes

Valores de OR

Para obtener los OR solo basta estimar el exponente de cada uno de los coeficientes

(Intercept)         lwt   raceblack   racewhite    smokeYes       htYes 
  2.6710537   0.9834068   1.4893874   0.3960571   2.8174471   6.4974921 
Forward, backward and stepwise logistic regression

Para realizar una regresión por pasos se parte de los mismo principios de la regresión lineal múltiple

Creación del modelo vacio y modelo completo

modelo.vacio <- glm(low~1,family = "binomial")
modelo.completo <- glm(low~age+lwt+race+smoke+ptl+ht+ui, family = "binomial")

glm(formula = low ~ 1, family = "binomial")

            Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -0.790      0.157  -5.033 4.84e-07 ***
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 234.67  on 188  degrees of freedom
Residual deviance: 234.67  on 188  degrees of freedom
AIC: 236.67

Number of Fisher Scoring iterations: 4

glm(formula = low ~ age + lwt + race + smoke + ptl + ht + ui, 
    family = "binomial")

             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  1.326038   1.104915   1.200  0.23009   
age         -0.027070   0.036452  -0.743  0.45772   
lwt         -0.015183   0.006928  -2.192  0.02841 * 
raceblack    0.401584   0.538868   0.745  0.45613   
racewhite   -0.861635   0.439191  -1.962  0.04978 * 
smokeYes     0.923349   0.400853   2.303  0.02125 * 
ptl          0.541755   0.346264   1.565  0.11768   
htYes        1.833696   0.691765   2.651  0.00803 **
uiYes        0.758597   0.459389   1.651  0.09867 . 
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 234.67  on 188  degrees of freedom
Residual deviance: 201.43  on 180  degrees of freedom
AIC: 219.43

Number of Fisher Scoring iterations: 4


modelo.forward <- step(modelo.vacio, 
                       scope = list(lower=modelo.vacio,
                                    upper=modelo.completo), direction = "forward")
glm(formula = low ~ ptl + lwt + ht + race + smoke + ui, family = "binomial")

             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  0.810528   0.859994   0.942  0.34595   
ptl          0.503215   0.341231   1.475  0.14029   
lwt         -0.015905   0.006855  -2.320  0.02033 * 
htYes        1.855042   0.695118   2.669  0.00762 **
raceblack    0.428641   0.538963   0.795  0.42643   
racewhite   -0.897078   0.433881  -2.068  0.03868 * 
smokeYes     0.938727   0.398717   2.354  0.01855 * 
uiYes        0.785698   0.456441   1.721  0.08519 . 
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 234.67  on 188  degrees of freedom
Residual deviance: 201.99  on 181  degrees of freedom
AIC: 217.99

Number of Fisher Scoring iterations: 4


modelo.backward <- step(modelo.completo, 
                        scope = list(lower=modelo.vacio, 
                                     upper=modelo.completo), direction = "backward") 
modelo.stepwise <- step(modelo.vacio, 
                        scope = list(lower=modelo.vacio, 
                                     upper=modelo.completo),direction = "both")
Ejercicios de practica

Ejercicio de practica 1. Con la base de dato pima.tr

Ejercicio de practica 1

Utilice la base de datos “pima.tr” para identificar variables asociadas a diabetes (type). Construya un modelo manual

Importar base de datos

Modelo manual

Modelo con todas las varibles

mod1 <- glm(type~npreg+glu+bp+skin+bmi+ped+age, family = "binomial")

glm(formula = type ~ npreg + glu + bp + skin + bmi + ped + age, 
    family = "binomial")

             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -9.773062   1.770386  -5.520 3.38e-08 ***
npreg        0.103183   0.064694   1.595  0.11073    
glu          0.032117   0.006787   4.732 2.22e-06 ***
bp          -0.004768   0.018541  -0.257  0.79707    
skin        -0.001917   0.022500  -0.085  0.93211    
bmi          0.083624   0.042827   1.953  0.05087 .  
ped          1.820410   0.665514   2.735  0.00623 ** 
age          0.041184   0.022091   1.864  0.06228 .  
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 256.41  on 199  degrees of freedom
Residual deviance: 178.39  on 192  degrees of freedom
AIC: 194.39

Number of Fisher Scoring iterations: 5

Modelos por pasos

Para realizar una regresión por pasos se parte de los mismo principios de la regresión lineal múltiple

Creación del modelo vacio y modelo completo

modelo.vacio <- glm(type~1,family = "binomial", data = Pima.tr)
modelo.completo <- glm(type~., family = "binomial", data = Pima.tr)


modelo.forward <- step(modelo.vacio, 
                       scope = list(lower=modelo.vacio,
                                    upper=modelo.completo), direction = "forward")
modelo.backward <- step(modelo.completo, 
                        scope = list(lower=modelo.vacio, 
                                     upper=modelo.completo), direction = "backward") 
modelo.stepwise <- step(modelo.vacio, 
                        scope = list(lower=modelo.vacio, 
                                     upper=modelo.completo),direction = "both")
Estimación de OR

Seleccione su modelo final y luego estime los OR y sus intervalos de confianza con el siguiente código:


Ejericios de tarea

Ejericio 1. Tarea


La Organización Mundial de la Salud ha estimado que cada año ocurren 12 millones de muertes a nivel mundial debido a enfermedades cardíacas. La mitad de las muertes en Estados Unidos y otros países desarrollados se deben a enfermedades cardiovasculares. El pronóstico temprano de las enfermedades cardiovasculares puede ayudar en la toma de decisiones sobre cambios en el estilo de vida en pacientes de alto riesgo y, a su vez, reducir las complicaciones. Esta investigación tiene como objetivo identificar los factores de riesgo más relevantes de la enfermedad cardíaca, así como predecir el riesgo general utilizando la regresión logística. Puede consultar más información en aquí

Base de datos


El conjunto de datos está disponible públicamente en el sitio web de Kaggle, y proviene de un estudio cardiovascular en curso sobre los residentes de la ciudad de Framingham, Massachusetts. El objetivo de la clasificación es predecir si el paciente tiene un riesgo a 10 años de enfermedad coronaria futura (CHD, por sus siglas en inglés). El conjunto de datos proporciona información de los pacientes. Incluye más de 4,000 registros y 15 atributos.


Cada atributo es un potencial factor de riesgo. Hay factores de riesgo demográficos, conductuales y médicos.La base de datos contiene las siguientes varialbles:

A continuación se describen las variables de la base de datos y su significado

  • Demographic varibles:

  • Sex: male or female (Nominal)

  • Age: Age of the patient;(Continuous - Although the recorded ages have been truncated to whole numbers, the concept of age is continuous) Behavioral

  • Current Smoker: whether or not the patient is a current smoker (Nominal)

  • Cigs Per Day: the number of cigarettes that the person smoked on average in one day.(can be considered continuous as one can have any number of cigarettes, even half a cigarette.)

  • Medical( history) viriables

  • BP Meds: whether or not the patient was on blood pressure medication (Nominal)

  • Prevalent Stroke: whether or not the patient had previously had a stroke (Nominal)

  • Prevalent Hyp: whether or not the patient was hypertensive (Nominal)

  • Diabetes: whether or not the patient had diabetes (Nominal) Medical(current) variables

  • Tot Chol: total cholesterol level (Continuous)

  • Sys BP: systolic blood pressure (Continuous)

  • Dia BP: diastolic blood pressure (Continuous)

  • BMI: Body Mass Index (Continuous)

  • Heart Rate: heart rate (Continuous - In medical research, variables such as heart rate though in fact discrete, yet are considered continuous because of large number of possible values.)

  • Glucose: glucose level (Continuous) Predict variable (desired target)

  • Dependent variable (TenYearCHD)

  • 10 year risk of coronary heart disease CHD (binary: “1”, means “Yes”, “0” means “No”)


Relizar modelos de regresión lógistica para identificar variables asociadas al riesgo cardiovascular a los diez años

Puede descargar la base de datos de aquí Puede encontrar más información sobre el resultado en: https://www.kaggle.com/datasets/dileep070/heart-disease-prediction-using-logistic-regression

Deberá realizar lo siguiente:

  1. Análisis vibariado agrupando por la variable TenYearCHD para identificar variables asociadas al riesgo cardivascular que puedieran incluirse en el modelo
  2. Seleccionar y ajustar un modelo de regresión logística con las variables seleccionadas
  3. Evaluar los supuestos del modelo
  4. Realizar la prueba de Hosmer-Lemeshow
  5. Calcular la pseudo R2
  6. Estimar los OR y sus intervalos de confianza
  7. Interpretar sus OR
  8. Concluir

Como ayuda a su análisis se muestra una tabla con el análisis bivariado


a base de datos bmd.csv contiene datos un grupo de pacientes con fracturas y un grupo de pacientes sin fracturas. Utilizando las variables AGE, SEX, BMI and BMD cree un modelo de regresión logística. Utilice la variable fracture como variable dependiente para la construcción de este modelo. Seleccione el mejor modelo posible manualmente y utilizando el algoritmo de stepwise. Estime para estos modelos el OR y realice una interpretación de los mismos.

Ejercicio 2.

El conjunto de datos bdiag.csv incluye varios detalles de imágenes de pacientes a los que se les realizó una biopsia para detectar cáncer de mama.

La variable Diagnóstico clasifica el tejido biopsiado como M = maligno o B = benigno. Con esta base de datos estime;

  1. El mejor modelo de forma manual
  2. El mejor modelo utilizando el stepwise
  3. OR y sus IC
  4. Interprete sus resultados

Ejercicio 3.

El conjunto de datos SBI.csv contiene información de más de 2300 niños que acudieron a los servicios de emergencia con fiebre y se les realizó una prueba de infección bacteriana grave. El resultado sbi tiene 4 categorías: No aplicable (sin infección) / UTI / Pneum / Bact

Cree un modelo de regresión de logística para identificar a los pacientes sin infección o aquellos pacientes con cualquiera de las infecciones (UTI/Pneum/Bact). Si es necesario cree una variable. Para este modelo seleccione aquellas variables que aportan significativamente al modelo. Estime los OR y sus intervalos de confianza. Interprete este modelo.

Ejercicio 4.

Utilizando la base de datos salt_tension_arterial.csv realice un modelo de regresión logística para identificar las variables asociadas a la hipertensión (Más de 140 mmHg). Seleccione las variables que aportan significativamente al modelo. Estime los OR y sus intervalos de confianza. Interprete este modelo.

Resolución ejercicios Regresión Logística

Resolución ejercicio 1

Importar base de datos

df <- read.csv("Bases/framingham.csv")

Adecuación de la base de datos

df$male <- factor(df$male, levels = c(0, 1), labels = c("Female", "Male"))

df$currentSmoker <- factor(df$currentSmoker, levels = c(0, 1), labels = c("No", "Yes"))

df$BPMeds <- factor(df$BPMeds, levels = c(0, 1), labels = c("No", "Yes"))

df$prevalentStroke <- factor(df$prevalentStroke, levels = c(0, 1), labels = c("No", "Yes"))

df$prevalentHyp <- factor(df$prevalentHyp, levels = c(0, 1), labels = c("No", "Yes"))

df$diabetes <- factor(df$diabetes, levels = c(0, 1), labels = c("No", "Yes"))

df$TenYearCHD <- factor(df$TenYearCHD, levels = c(0, 1), labels = c("No risk", "Yes, risk"))

Visualizar base de datos


Para poder hacer el modelo de regresión logística se debe de tener en cuenta que no debe de haber NA. El siguiente código se utiliza para identificar si hay NA en la base de datos:

df <- na.omit(df)


Ahora si podemos hacer el modelo de regresión logística

Moedelo regresión forward

MASS::stepAIC(glm(TenYearCHD ~ ., family = "binomial", data = df), direction = "both")
De acuerdo con este resultado el mejor modelo es:

modelo.final <- glm(formula = TenYearCHD ~ male + age + 
                      cigsPerDay + prevalentStroke + 
                      prevalentHyp + totChol + sysBP + 
                      glucose, family = "binomial", 
                    data = df)

Para visualizar los resultadosde una mejor manera puede emplear el siguient código:


# Extraer los OR y sus IC
resultado <- tidy(modelo.final, exponentiate = TRUE, conf.int = TRUE)

# Visualizar los resultados
# Extraer los coeficientes y la matriz de covarianzas del modelo
coeficientes <- coef(modelo.final)
vcov_matriz <- vcov(modelo.final)

# Calcular OR e IC
OR <- exp(coeficientes)
se <- sqrt(diag(vcov_matriz))
ci_lower <- exp(coeficientes - 1.96 * se)
ci_upper <- exp(coeficientes + 1.96 * se)

# Crear un data frame con los resultados
resultado <- data.frame(
  Variable = names(coeficientes),
  OR = OR,
  IC_Lower = ci_lower,
  IC_Upper = ci_upper

# Visualizar los resultados
Evaluación del modelo mediante AUC

predicciones <- predict(modelo.final, type = "response")
eval_modelo <- roc(df$TenYearCHD, predicciones)

Area under the curve: 0.7374