Chapter 2 Modulos

Las bases de datos que fueron utilizadas para realizar el analisis de las variables de interes fueron las siguientes:

  • Modulo 64: Caracteristicas del hogar

    • RECH0: Informacion del hogar

    • RECH1: Cuestionario individual

    • RECH4: Cuestionario individual

  • Modulo 65: Caracteristicas de la vivienda

    • RECH23: Informacion de la vivienda
  • Modulo 66: Indicadores basicos del MEF

    • RECH0111: Informacion general
  • Modulo 70: Inmunizacion y salud

    • RECH43: Inmunizacion y salud

    • RECH85: Inmunizacion y salud

  • Modulo 74: Peso, Talla y Anemia

    • RECH5: Peso, Talla y Anemia en madres

    • RECH6: Peso, Talla y Anemia en niños

2.1 Bases de datos

library(tidyverse)
library(haven)
library(labelled)
library(skimr)
RECH0 <- read_sav("C:/Users/Bryan Fernandez/Desktop/Bryan/Lab Innovacion/ENDES/Modulo64/RECH0.SAV") %>% 
  mutate(HHID=str_trim(HHID))
RECH1 <- read_sav("C:/Users/Bryan Fernandez/Desktop/Bryan/Lab Innovacion/ENDES/Modulo64/RECH1.SAV") %>% 
  mutate(HHID=str_trim(HHID)) %>%
  rename(ID=HVIDX)
RECH4 <- read_sav("C:/Users/Bryan Fernandez/Desktop/Bryan/Lab Innovacion/ENDES/Modulo64/RECH4.SAV") %>% 
  mutate(HHID=str_trim(HHID)) %>%
  rename(ID = IDXH4)
RECH23 <- read_sav("C:/Users/Bryan Fernandez/Desktop/Bryan/Lab Innovacion/ENDES/Modulo65/RECH23.SAV") %>% 
  mutate(HHID = str_trim(HHID))
REC0111 <- read_sav("C:/Users/Bryan Fernandez/Desktop/Bryan/Lab Innovacion/ENDES/638-Modulo66/REC0111.SAV") %>%
  distinct(HHID, .keep_all = T)
REC43 <- read_sav("C:/Users/Bryan Fernandez/Desktop/Bryan/Lab Innovacion/ENDES/638-Modulo70/REC43.SAV") %>% 
  mutate(CASEID = str_squish(CASEID)) %>%
  separate(CASEID, c("HHID", "ID"), sep = " ", remove = F) %>%
  mutate(ID = as.numeric(ID)) %>%
  distinct(CASEID, .keep_all = T)
REC95 <- read_sav("C:/Users/Bryan Fernandez/Desktop/Bryan/Lab Innovacion/ENDES/638-Modulo70/REC95.SAV") %>%
  mutate(CASEID = str_squish(CASEID)) %>%
  separate(CASEID, c("HHID", "ID"), sep = " ", remove = F) %>%
  mutate(ID = as.numeric(ID)) %>%
  distinct(CASEID, .keep_all = T)
RECH5 <- read_sav("C:/Users/Bryan Fernandez/Desktop/Bryan/Lab Innovacion/ENDES/638-Modulo74/RECH5.SAV") %>%
  mutate(HHID = str_squish(HHID)) %>%
  rename(ID = HA0)
RECH6 <- read_sav("C:/Users/Bryan Fernandez/Desktop/Bryan/Lab Innovacion/ENDES/638-Modulo74/RECH6.SAV") %>%
  mutate(HHID = str_squish(HHID)) %>%
  rename(ID = HC0)


hh <- RECH0 %>%
  full_join(RECH23, by = "HHID")


RH14 <- RECH1 %>%
  full_join(RECH4, by = c("HHID", "ID"))

2.2 Exploracion de datos

Las variables de interes para el presente trabajo de investigacion son las siguientes:

  • HA57: Anemia

  • HA53: Nivel de hemoglobina en sangre (g-dl - 1 decimal)

  • HA2: Peso en kilogramos (1dec)

  • HA1: Edad en años

  • Ubigeo: codigo geografico

  • HV104: Sexo

  • HV024: Region (departamento)

  • HV025: Tipo de residencia (urbano y rural)

  • HV026: Tipo de ciudad (capital -> Campo)

  • HV109: Nivel educativo (Sin nivel -> Superior)

  • HV207: Su hogar ¿Tiene radio?

  • HV208: Su hogar ¿Tiene televisor?

  • HV225: Servicio higienico compartido

  • HV235: Ubicacion de la fuente de agua

  • HV241: Comida preparada en el hogar, edificio separado o fuera

  • HV242: Hay un cuarto para la cocina

  • SH42: Agua potable disponible todo el dia

  • SHREGION: Region natural (Lima metr -> Selva)

  • HA54: Actualmente embarazada

  • HV270: Indice de riqueza

  • S466GA: Practico como dar de lactar al niño/a

  • S466GB: Practico como preparar los alimentos al niño/a

  • S465DB_A: Ultimos 12 meses recibió del MINSA Hierro en jarabe

2.3 Prevalencia de anemia

Overall
(n=19669)
Anemic
No Anemic 15501 (78.8%)
Anemic 4168 (21.2%)
Nivel de Anemia
Severa 20 (0.1%)
Moderada 453 (2.3%)
Leve 3695 (18.8%)
No anémico 15501 (78.8%)
No Anemic
(n=15501)
Anemic
(n=4168)
Overall
(n=19669)
Edad de la mujer en años
Mean (SD) 30.4 (7.01) 30.3 (7.42) 30.4 (7.10)
Median [Min, Max] 30.0 [13.0, 49.0] 30.0 [14.0, 49.0] 30.0 [13.0, 49.0]
Sexo
Hombre 0 (0%) 0 (0%) 0 (0%)
Mujer 15501 (100%) 4168 (100%) 19669 (100%)
Región
Amazonas 680 (4.4%) 123 (3.0%) 803 (4.1%)
Ancash 568 (3.7%) 111 (2.7%) 679 (3.5%)
Apurimac 551 (3.6%) 112 (2.7%) 663 (3.4%)
Arequipa 551 (3.6%) 157 (3.8%) 708 (3.6%)
Ayacucho 640 (4.1%) 147 (3.5%) 787 (4.0%)
Cajamarca 625 (4.0%) 81 (1.9%) 706 (3.6%)
Callao 546 (3.5%) 173 (4.2%) 719 (3.7%)
Cusco 504 (3.3%) 126 (3.0%) 630 (3.2%)
Huancavelica 480 (3.1%) 177 (4.2%) 657 (3.3%)
Huanuco 667 (4.3%) 120 (2.9%) 787 (4.0%)
Ica 571 (3.7%) 168 (4.0%) 739 (3.8%)
Junin 569 (3.7%) 173 (4.2%) 742 (3.8%)
La Libertad 573 (3.7%) 130 (3.1%) 703 (3.6%)
Lambayeque 668 (4.3%) 123 (3.0%) 791 (4.0%)
Lima 1911 (12.3%) 574 (13.8%) 2485 (12.6%)
Loreto 524 (3.4%) 258 (6.2%) 782 (4.0%)
Madre de Dios 509 (3.3%) 137 (3.3%) 646 (3.3%)
Moquegua 493 (3.2%) 155 (3.7%) 648 (3.3%)
Pasco 475 (3.1%) 147 (3.5%) 622 (3.2%)
Piura 634 (4.1%) 154 (3.7%) 788 (4.0%)
Puno 338 (2.2%) 179 (4.3%) 517 (2.6%)
San Martin 576 (3.7%) 163 (3.9%) 739 (3.8%)
Tacna 550 (3.5%) 156 (3.7%) 706 (3.6%)
Tumbes 656 (4.2%) 131 (3.1%) 787 (4.0%)
Ucayali 642 (4.1%) 193 (4.6%) 835 (4.2%)
Área de residencia
Urbana 10866 (70.1%) 2921 (70.1%) 13787 (70.1%)
Rural 4635 (29.9%) 1247 (29.9%) 5882 (29.9%)
Lugar de residencia
Capital, ciudad grande 1908 (12.3%) 575 (13.8%) 2483 (12.6%)
Ciudad pequeña 4650 (30.0%) 1195 (28.7%) 5845 (29.7%)
Pueblo 4308 (27.8%) 1151 (27.6%) 5459 (27.8%)
Campo 4635 (29.9%) 1247 (29.9%) 5882 (29.9%)

2.4 Tendencias

Prevalencia de anemia en el Peru segun tipo de ciudad

El grafico mostrado anteriormente, evidencia que las madres que se encuentran viviendo en la capital registran mayor prevalencia de anemia para el año 2018 en el Peru, mientras que la menor prevalencia de anemia se encuentra en las ciudades pequeñas.

Prevalencia de anemia segun tipo de residencia

El grafico mostrado revela que las madres que se encuentran en el area rural presentan una mayor prevalencia de anemia que las personas que residen en el area urbana.

Prevalencia de anemia segun region

Prevalencia de anemia segun region natural

Para el año 2018, Lima Metropolitana se consolido como la region natural con mayor prevalencia de anemia en el Peru.

Prevalencia de anemia y edad segun sexo

La prevalencia de anemia en madres tiene una tendencia marcada, incrementa a medida que pasa el tiempo, premisa que el grafico comprueba y ademas enos muestra que existe una disminucion de la prevalencia de dicha enfermedad entre los 20 y 25 años.

Prevalencia de anemia, edad y sexo segun tipo de residencia

La prevalencia de anemia en madres, para el 2018, tuvo resultados opuestos para la primera etapa de vida de estas, ya que, para el area rural se evidencia una disminucion desde el año 0 hasta los 20 años aproximadamente. Mientras que para el area urbana, se logra apreciar un incremento de la prevalencia de anemia desde el año 0 hasta los 20 años. Para la etapa que esta comprendida entre los años 40 y 50, la prevalencia es mucho mayor en las madres que se encuentran en el area urbana.

Prevalencia de anemia, edad y sexo segun tipo de ciudad

Este grafico muestra la prevalencia de anemia de acuerdo al tipo de residencia y al tipo de area. La tendencia en el area urbana apunta al incremento de la prevalencia de anemia a medida que pasan los años (Capital, ciudad grande y pueblo), mientras que en el area rural, la tendencia apunta a su disminucion (campo).

La prevalencia de anemia en madres en una ciudad que sea capital se encuentra por encima de la mediana.

Prevalencia de anemia, edad y nivel educativo

Las madres que han logrando alcanzar un nivel educativo superior tienen menor probabilidad de padecer de anemia a medida que pase el tiempo. Quizas esta reduccion se deba a que tienen mayor poder adquisitivo y pueden invertir mayor dinero en atenciones medicas, tanto curativas como preventiva, que las personas que no han alcanzado el nivel educativo superior.

Prevalencia de anemia, edad y embarazo

Es un hecho que las probabilidades de que las mujeres tengan anemia cuando estan embarazadas sean altas, y esto una vez mas se lgora afirmar mediante el grafico expuesto.

Prevalencia de anemia, edad e indice de riqueza

Durante las primeras etapas de vida, la prevalencia de anemia es mucho mayor en las mujeres con indices de riqueza rico y muy rico, pero con el paso del tiempo, este valor disminuira. Caso contrario sucede con las personas muy pobres y pobres, ya que, la prevalencia de anemia para esta poblacion se incrementa a medida que pasa el tiempo. La menor prevalencia de anemia la registra la poblacion correspondiente al indice de riqueza medio.

Prevalencia de y recepcion de hierro del MINSA

Es algo ilogico que las madres que SI RECIBIERON HIERRO DEL MINSA tengan mayor prevalencia de anemia que las madres que no lo hicieron. Ademas, las madres que no saben si recibieron hierro del MINSA son la poblacion que menor prevalencia de anemia tiene.

Prevalencia de anemia, edad y razones de no acudir a un centro de salud cuando el niño se enfermo

Las razones de no acudir al ES que hacen que la prevalencia de anemia aumente a medida que pasa el tiempo en las madres peruanas son las siguientes: el establecimiento de salud se encuentra muy lejos, las madres no confian en el personal y la poca disponibilidad de tiempo.

Prevalencia de anemia segun region y recepcion de hierro en jarabe MINSA

Prevalencia de anemia y edad segun posesion de radio en la vivienda

Las madres que tienen radio registran mayor prevalencia de anemia cuando se encuentran entre los 40 y 50 años.

Prevalencia de anemia y edad segun posesion de televisor en la vivienda

La tendencia de la prevalencia de anemia cuando comparada con la variable tiene televisor apunta a disminuir a medida que pasa el tiempo, independientemente de la posesion de un televisor en el hogar.

Prevalencia de anemia y edad segun el tipo de servicio higienico

Aquellas madres que comparten los servicios higienicos tienen mayor probabilidad de padecer de anemia. Informacion proporcionada por la OMS afirma que la higiene y el saneamiento son factores causantes de esta enfermedad.

Prevalencia de anemia y edad segun la condicion de poseer cuarto para la cocina

Las madres que no tienen un cuarto especifico para la cocina son aquellas que presentan mayor prevalencia de anemia en comparacion a las madres que si cuentan con uno.

Prevalencia de anemia, edad y disponibilidad de agua potable en el dia

La prevalencia de anemia se registra con mayores valores en las madres que no disponen de agua potable todo el dia, la tendencia se incrementa a medida que pasa el tiempo.

Tendencia de anemia por region

2.4.1 Variables nulas

En esta seccion, se presentaran todas las variables que por alguna razon no albergan datos en la E

Prevalencia de anemia y edad segun la condicion de practicar lactancia materna

El grafico muestra las variables definidas previamente en la estetica de ggplot (eje x e y), pero no se pudo hacer el facet segun la variable S466GA “practico como dar de lactar al niño/a”, debido a que la variable no registra datos. Esto lo podemos comprobar de la siguiente manera:

## [1] 19669

El resultado de la suma es 19669, que es el numero total de observaciones dentro de la base de datos.

El grafico muestra las variables definidas previamente en la estetica de ggplot (eje x e y), pero no se pudo hacer el facet segun la variable S466GB “practico como preparar los alimentos al niño/a”, debido a que la variable no registra datos. Esto lo podemos comprobar de la siguiente manera:

## [1] 19669

El resultado de la suma es 19669, que es el numero total de observaciones dentro de la base de datos.

Prevalencia de anemia y edad según la ubicacion de la fuente de agua

El grafico muestra las variables definidas previamente en la estetica de ggplot (eje x e y), pero no se pudo hacer el facet segun la variable HV235 “ubicacion de la fuente de agua”, debido a que la variable no registra datos. Esto lo podemos comprobar de la siguiente manera:

## [1] 19669

El resultado de la suma es 19669, que es el numero total de observaciones dentro de la base de datos.

Prevalencia de anemia y edad segun el lugar en el que se prepara la comida

El grafico muestra las variables definidas previamente en la estetica de ggplot (eje x e y), pero no se pudo hacer el facet segun la variable HV241 “Comida preparada en el hogar, edificio separado o fuera”, debido a que la variable no registra datos. Esto lo podemos comprobar de la siguiente manera:

## [1] 19669

2.5 Conclusiones

  • La anemia es una enfermedad que se explica por un bajo nivel de hemoglobina en sangre y que trae consigo problemas al momento de transportar el oxigeno a las celulas del cuerpo. Existen diversos factores causantes de esta enfermedad, entre ellos tenemos a factores nutricionales, factores socioeconomicos, factores culturales, etc. Es por ello que, las autoridades deben tomar medidas multisectoriales para poder afrontar esta enfermedad que sigue siendo un problema para los peruanos.

  • Para el año 2018, el 21.2% de las madres peruanas tuvieron esta enfermedad. Existen categorias que clasifican a las madres segun el nivel de anemia que tienen. Anemia severa (0.1%), anemia moderada (2.3%), y anemia leve (18.8%).

  • Dentro de los factores asociados a causar una mayor o menor prevalencia de anemia en las madres peruanas tenemos al tipo de ciudad (mayor prevalencia en la capital y menor prevalencia en el ciudades pequeñas), el tipo de residencia (madres en el area rural tienen mayor prevalencia de anemia), la edad (madres entre los 40 y 50 años registran mayor prevalencia de anemia), el embarazo (madres embarazadas tienen mayor prevalencia de anemia), el indice de riqueza (Durante las primeras etapas de vida, la prevalencia de anemia es mucho mayor en las mujeres con indices de riqueza rico y muy rico, pero disminuira con el paso del tiempo, las mujeres con indices de riqueza muy y pobre tienen menor prevalencia de anemia que la otra poblacion mencionada, pero la prevalencia aumentara a medida que pase el tiempo).

2.6 Decision Trees

Las variables que no se tomaran en cuenta por no registrar ningun dato son las siguientes:HV241, HV235, S466GB, S466GA

2.6.1 Creacion de sets de entreamiento y prueba

Despues de haber dejado limpia la base que utilizaremos para el modelo, necesitamos particionarla en dos subconjuntos. Uno destinado al entrenamiento y otro a la prueba. La distribucion que se utilizara para la particion de los datasets sera 80% para el entrenamiento y 20% para la prueba.

Ahora verificamos si es que la distribucion de la variable Anemic es la misma en ambas bases de datos.

## 
## No Anemic    Anemic 
##      1777       462
## 
## No Anemic    Anemic 
##       444       116

La relacion No Ameic/Anemic se encuentra alrededor de 3.8 en ambas bases.

2.6.3 Podando el arbol

## 
## Classification tree:
## rpart(formula = Anemic ~ ., data = dat_train)
## 
## Variables actually used in tree construction:
## [1] HA53     HA54     HV024    SHREGION
## 
## Root node error: 462/2239 = 0.20634
## 
## n= 2239 
## 
##         CP nsplit rel error  xerror     xstd
## 1 0.668831      0   1.00000 1.00000 0.041447
## 2 0.028139      1   0.33117 0.33117 0.025842
## 3 0.010823      5   0.21429 0.21429 0.021055
## 4 0.010000      7   0.19264 0.19913 0.020330

El xerror con menor valor para el arbol de decision que hemos creado es 0.21645. Por tal motivo, utilizaremos el CP que le corresponde a ese valor y es 0.01