Ejercicios Dia 1
BASE mtcars
## 'data.frame': 32 obs. of 11 variables:
## $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
## $ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
## $ disp: num 160 160 108 258 360 ...
## $ hp : num 110 110 93 110 175 105 245 62 95 123 ...
## $ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
## $ wt : num 2.62 2.88 2.32 3.21 3.44 ...
## $ qsec: num 16.5 17 18.6 19.4 17 ...
## $ vs : num 0 0 1 1 0 1 0 1 1 1 ...
## $ am : num 1 1 1 0 0 0 0 0 0 0 ...
## $ gear: num 4 4 4 3 3 3 3 4 4 4 ...
## $ carb: num 4 4 1 1 2 1 4 2 2 4 ...
## 'data.frame': 32 obs. of 11 variables:
## $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
## $ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
## $ disp: num 160 160 108 258 360 ...
## $ hp : num 110 110 93 110 175 105 245 62 95 123 ...
## $ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
## $ wt : num 2.62 2.88 2.32 3.21 3.44 ...
## $ qsec: num 16.5 17 18.6 19.4 17 ...
## $ vs : num 0 0 1 1 0 1 0 1 1 1 ...
## $ am : num 1 1 1 0 0 0 0 0 0 0 ...
## $ gear: num 4 4 4 3 3 3 3 4 4 4 ...
## $ carb: num 4 4 1 1 2 1 4 2 2 4 ...
## 4 6 8
## 0.5086326 0.4645102 0.4229655
0.1 Analisis Exploratorio
## 'data.frame': 1994 obs. of 128 variables:
## $ state : int 8 53 24 34 42 6 44 6 21 29 ...
## $ county : int NA NA NA 5 95 NA 7 NA NA NA ...
## $ community : int NA NA NA 81440 6096 NA 41500 NA NA NA ...
## $ communityname : Factor w/ 1828 levels "Aberdeencity",..: 796 1626 2 1788 142 1520 840 1462 669 288 ...
## $ fold : int 1 1 1 1 1 1 1 1 1 1 ...
## $ population : num 0.19 0 0 0.04 0.01 0.02 0.01 0.01 0.03 0.01 ...
## $ householdsize : num 0.33 0.16 0.42 0.77 0.55 0.28 0.39 0.74 0.34 0.4 ...
## $ racepctblack : num 0.02 0.12 0.49 1 0.02 0.06 0 0.03 0.2 0.06 ...
## $ racePctWhite : num 0.9 0.74 0.56 0.08 0.95 0.54 0.98 0.46 0.84 0.87 ...
## $ racePctAsian : num 0.12 0.45 0.17 0.12 0.09 1 0.06 0.2 0.02 0.3 ...
## $ racePctHisp : num 0.17 0.07 0.04 0.1 0.05 0.25 0.02 1 0 0.03 ...
## $ agePct12t21 : num 0.34 0.26 0.39 0.51 0.38 0.31 0.3 0.52 0.38 0.9 ...
## $ agePct12t29 : num 0.47 0.59 0.47 0.5 0.38 0.48 0.37 0.55 0.45 0.82 ...
## $ agePct16t24 : num 0.29 0.35 0.28 0.34 0.23 0.27 0.23 0.36 0.28 0.8 ...
## $ agePct65up : num 0.32 0.27 0.32 0.21 0.36 0.37 0.6 0.35 0.48 0.39 ...
## $ numbUrban : num 0.2 0.02 0 0.06 0.02 0.04 0.02 0 0.04 0.02 ...
## $ pctUrban : num 1 1 0 1 0.9 1 0.81 0 1 1 ...
## $ medIncome : num 0.37 0.31 0.3 0.58 0.5 0.52 0.42 0.16 0.17 0.54 ...
## $ pctWWage : num 0.72 0.72 0.58 0.89 0.72 0.68 0.5 0.44 0.47 0.59 ...
## $ pctWFarmSelf : num 0.34 0.11 0.19 0.21 0.16 0.2 0.23 1 0.36 0.22 ...
## $ pctWInvInc : num 0.6 0.45 0.39 0.43 0.68 0.61 0.68 0.23 0.34 0.86 ...
## $ pctWSocSec : num 0.29 0.25 0.38 0.36 0.44 0.28 0.61 0.53 0.55 0.42 ...
## $ pctWPubAsst : num 0.15 0.29 0.4 0.2 0.11 0.15 0.21 0.97 0.48 0.02 ...
## $ pctWRetire : num 0.43 0.39 0.84 0.82 0.71 0.25 0.54 0.41 0.43 0.31 ...
## $ medFamInc : num 0.39 0.29 0.28 0.51 0.46 0.62 0.43 0.15 0.21 0.85 ...
## $ perCapInc : num 0.4 0.37 0.27 0.36 0.43 0.72 0.47 0.1 0.23 0.89 ...
## $ whitePerCap : num 0.39 0.38 0.29 0.4 0.41 0.76 0.44 0.12 0.23 0.94 ...
## $ blackPerCap : num 0.32 0.33 0.27 0.39 0.28 0.77 0.4 0.08 0.19 0.11 ...
## $ indianPerCap : num 0.27 0.16 0.07 0.16 0 0.28 0.24 0.17 0.1 0.09 ...
## $ AsianPerCap : num 0.27 0.3 0.29 0.25 0.74 0.52 0.86 0.27 0.26 0.33 ...
## $ OtherPerCap : num 0.36 0.22 0.28 0.36 0.51 0.48 0.24 0.18 0.29 0.17 ...
## $ HispPerCap : num 0.41 0.35 0.39 0.44 0.48 0.6 0.36 0.21 0.22 0.8 ...
## $ NumUnderPov : num 0.08 0.01 0.01 0.01 0 0.01 0.01 0.03 0.04 0 ...
## $ PctPopUnderPov : num 0.19 0.24 0.27 0.1 0.06 0.12 0.11 0.64 0.45 0.11 ...
## $ PctLess9thGrade : num 0.1 0.14 0.27 0.09 0.25 0.13 0.29 0.96 0.52 0.04 ...
## $ PctNotHSGrad : num 0.18 0.24 0.43 0.25 0.3 0.12 0.41 0.82 0.59 0.03 ...
## $ PctBSorMore : num 0.48 0.3 0.19 0.31 0.33 0.8 0.36 0.12 0.17 1 ...
## $ PctUnemployed : num 0.27 0.27 0.36 0.33 0.12 0.1 0.28 1 0.55 0.11 ...
## $ PctEmploy : num 0.68 0.73 0.58 0.71 0.65 0.65 0.54 0.26 0.43 0.44 ...
## $ PctEmplManu : num 0.23 0.57 0.32 0.36 0.67 0.19 0.44 0.43 0.59 0.2 ...
## $ PctEmplProfServ : num 0.41 0.15 0.29 0.45 0.38 0.77 0.53 0.34 0.36 1 ...
## $ PctOccupManu : num 0.25 0.42 0.49 0.37 0.42 0.06 0.33 0.71 0.64 0.02 ...
## $ PctOccupMgmtProf : num 0.52 0.36 0.32 0.39 0.46 0.91 0.49 0.18 0.29 0.96 ...
## $ MalePctDivorce : num 0.68 1 0.63 0.34 0.22 0.49 0.25 0.38 0.62 0.3 ...
## $ MalePctNevMarr : num 0.4 0.63 0.41 0.45 0.27 0.57 0.34 0.47 0.26 0.85 ...
## $ FemalePctDiv : num 0.75 0.91 0.71 0.49 0.2 0.61 0.28 0.59 0.66 0.39 ...
## $ TotalPctDiv : num 0.75 1 0.7 0.44 0.21 0.58 0.28 0.52 0.67 0.36 ...
## $ PersPerFam : num 0.35 0.29 0.45 0.75 0.51 0.44 0.42 0.78 0.37 0.31 ...
## $ PctFam2Par : num 0.55 0.43 0.42 0.65 0.91 0.62 0.77 0.45 0.51 0.65 ...
## $ PctKids2Par : num 0.59 0.47 0.44 0.54 0.91 0.69 0.81 0.43 0.55 0.73 ...
## $ PctYoungKids2Par : num 0.61 0.6 0.43 0.83 0.89 0.87 0.79 0.34 0.58 0.78 ...
## $ PctTeen2Par : num 0.56 0.39 0.43 0.65 0.85 0.53 0.74 0.34 0.47 0.67 ...
## $ PctWorkMomYoungKids : num 0.74 0.46 0.71 0.85 0.4 0.3 0.57 0.29 0.65 0.72 ...
## $ PctWorkMom : num 0.76 0.53 0.67 0.86 0.6 0.43 0.62 0.27 0.64 0.71 ...
## $ NumIlleg : num 0.04 0 0.01 0.03 0 0 0 0.02 0.02 0 ...
## $ PctIlleg : num 0.14 0.24 0.46 0.33 0.06 0.11 0.13 0.5 0.29 0.07 ...
## $ NumImmig : num 0.03 0.01 0 0.02 0 0.04 0.01 0.02 0 0.01 ...
## $ PctImmigRecent : num 0.24 0.52 0.07 0.11 0.03 0.3 0 0.5 0.12 0.41 ...
## $ PctImmigRec5 : num 0.27 0.62 0.06 0.2 0.07 0.35 0.02 0.59 0.09 0.44 ...
## $ PctImmigRec8 : num 0.37 0.64 0.15 0.3 0.2 0.43 0.02 0.65 0.07 0.52 ...
## $ PctImmigRec10 : num 0.39 0.63 0.19 0.31 0.27 0.47 0.1 0.59 0.13 0.48 ...
## $ PctRecentImmig : num 0.07 0.25 0.02 0.05 0.01 0.5 0 0.69 0 0.22 ...
## $ PctRecImmig5 : num 0.07 0.27 0.02 0.08 0.02 0.5 0.01 0.72 0 0.21 ...
## $ PctRecImmig8 : num 0.08 0.25 0.04 0.11 0.04 0.56 0.01 0.71 0 0.22 ...
## $ PctRecImmig10 : num 0.08 0.23 0.05 0.11 0.05 0.57 0.03 0.6 0 0.19 ...
## $ PctSpeakEnglOnly : num 0.89 0.84 0.88 0.81 0.88 0.45 0.73 0.12 0.99 0.85 ...
## $ PctNotSpeakEnglWell : num 0.06 0.1 0.04 0.08 0.05 0.28 0.05 0.93 0.01 0.03 ...
## $ PctLargHouseFam : num 0.14 0.16 0.2 0.56 0.16 0.25 0.12 0.74 0.12 0.09 ...
## $ PctLargHouseOccup : num 0.13 0.1 0.2 0.62 0.19 0.19 0.13 0.75 0.12 0.06 ...
## $ PersPerOccupHous : num 0.33 0.17 0.46 0.85 0.59 0.29 0.42 0.8 0.35 0.15 ...
## $ PersPerOwnOccHous : num 0.39 0.29 0.52 0.77 0.6 0.53 0.54 0.68 0.38 0.34 ...
## $ PersPerRentOccHous : num 0.28 0.17 0.43 1 0.37 0.18 0.24 0.92 0.33 0.05 ...
## $ PctPersOwnOccup : num 0.55 0.26 0.42 0.94 0.89 0.39 0.65 0.39 0.5 0.48 ...
## $ PctPersDenseHous : num 0.09 0.2 0.15 0.12 0.02 0.26 0.03 0.89 0.1 0.03 ...
## $ PctHousLess3BR : num 0.51 0.82 0.51 0.01 0.19 0.73 0.46 0.66 0.64 0.58 ...
## $ MedNumBR : num 0.5 0 0.5 0.5 0.5 0 0.5 0 0 0 ...
## $ HousVacant : num 0.21 0.02 0.01 0.01 0.01 0.02 0.01 0.01 0.04 0.02 ...
## $ PctHousOccup : num 0.71 0.79 0.86 0.97 0.89 0.84 0.89 0.91 0.72 0.72 ...
## $ PctHousOwnOcc : num 0.52 0.24 0.41 0.96 0.87 0.3 0.57 0.46 0.49 0.38 ...
## $ PctVacantBoarded : num 0.05 0.02 0.29 0.6 0.04 0.16 0.09 0.22 0.05 0.07 ...
## $ PctVacMore6Mos : num 0.26 0.25 0.3 0.47 0.55 0.28 0.49 0.37 0.49 0.47 ...
## $ MedYrHousBuilt : num 0.65 0.65 0.52 0.52 0.73 0.25 0.38 0.6 0.5 0.04 ...
## $ PctHousNoPhone : num 0.14 0.16 0.47 0.11 0.05 0.02 0.05 0.28 0.57 0.01 ...
## $ PctWOFullPlumb : num 0.06 0 0.45 0.11 0.14 0.05 0.05 0.23 0.22 0 ...
## $ OwnOccLowQuart : num 0.22 0.21 0.18 0.24 0.31 0.94 0.37 0.15 0.07 0.63 ...
## $ OwnOccMedVal : num 0.19 0.2 0.17 0.21 0.31 1 0.38 0.13 0.07 0.71 ...
## $ OwnOccHiQuart : num 0.18 0.21 0.16 0.19 0.3 1 0.39 0.13 0.08 0.79 ...
## $ RentLowQ : num 0.36 0.42 0.27 0.75 0.4 0.67 0.26 0.21 0.14 0.44 ...
## $ RentMedian : num 0.35 0.38 0.29 0.7 0.36 0.63 0.35 0.24 0.17 0.42 ...
## $ RentHighQ : num 0.38 0.4 0.27 0.77 0.38 0.68 0.42 0.25 0.16 0.47 ...
## $ MedRent : num 0.34 0.37 0.31 0.89 0.38 0.62 0.35 0.24 0.15 0.41 ...
## $ MedRentPctHousInc : num 0.38 0.29 0.48 0.63 0.22 0.47 0.46 0.64 0.38 0.23 ...
## $ MedOwnCostPctInc : num 0.46 0.32 0.39 0.51 0.51 0.59 0.44 0.59 0.13 0.27 ...
## $ MedOwnCostPctIncNoMtg: num 0.25 0.18 0.28 0.47 0.21 0.11 0.31 0.28 0.36 0.28 ...
## $ NumInShelters : num 0.04 0 0 0 0 0 0 0 0.01 0 ...
## $ NumStreet : num 0 0 0 0 0 0 0 0 0 0 ...
## $ PctForeignBorn : num 0.12 0.21 0.14 0.19 0.11 0.7 0.15 0.59 0.01 0.22 ...
## $ PctBornSameState : num 0.42 0.5 0.49 0.3 0.72 0.42 0.81 0.58 0.78 0.42 ...
## $ PctSameHouse85 : num 0.5 0.34 0.54 0.73 0.64 0.49 0.77 0.52 0.48 0.34 ...
## [list output truncated]
## [1] 1994
## [1] "Numero de filas de STATE = state 1994"
## state
## Min. : 1.00
## 1st Qu.:12.00
## Median :34.00
## Mean :28.68
## 3rd Qu.:42.00
## Max. :56.00
## [1] 1948
0.2 Rango de Representatividad
## # A tibble: 46 x 4
## state NumeroObservaciones Porcentaje RangoRepresentatividad
## <int> <int> <dbl> <chr>
## 1 10 1 0.0502 BAJA
## 2 11 1 0.0502 BAJA
## 3 20 1 0.0502 BAJA
## 4 2 3 0.150 BAJA
## 5 50 4 0.201 BAJA
## 6 32 5 0.251 BAJA
## 7 16 7 0.351 BAJA
## 8 27 7 0.351 BAJA
## 9 56 7 0.351 BAJA
## 10 38 8 0.401 BAJA
## # … with 36 more rows
0.3 Veces que se repite un valor
## # A tibble: 26 x 3
## state NumeroObservaciones Porcentaje
## <int> <int> <dbl>
## 1 49 24 52.2
## 2 5 25 54.3
## 3 8 25 54.3
## 4 21 26 56.5
## 5 44 26 56.5
## 6 45 28 60.9
## 7 41 31 67.4
## 8 51 33 71.7
## 9 47 35 76.1
## 10 40 36 78.3
## # … with 16 more rows
## state NumeroObservaciones Porcentaje RangoRepresentatividad
## Min. : 1.00 Min. : 1.00 Min. : 0.05015 ALTA : 2
## 1st Qu.:16.50 1st Qu.: 10.50 1st Qu.: 0.52658 BAJA :40
## Median :30.50 Median : 25.50 Median : 1.27884 MEDIA: 4
## Mean :29.52 Mean : 43.35 Mean : 2.17391
## 3rd Qu.:43.50 3rd Qu.: 45.25 3rd Qu.: 2.26931
## Max. :56.00 Max. :278.00 Max. :13.94182
0.4 Imputación de Datos perdidos
## customerID MonthlyCharges TotalCharges PaymentMethod Churn
## 1 7590-VHVEG 29.85 109.9 Electronic check yes
## 2 5575-GNVDE 56.95 <NA> Mailed check yes
## 3 3668-QPYBK 108.15 -- yes
## 4 7795-CFOCW 42.3 1840.75 Bank transfer no
## 5 9237-HQITU 70.7 NA Electronic check no
## 6 9305-CDSKC Nan 820.5 -- yes
## 'data.frame': 10 obs. of 5 variables:
## $ customerID : chr "7590-VHVEG" "5575-GNVDE" "3668-QPYBK" "7795-CFOCW" ...
## $ MonthlyCharges: chr "29.85" "56.95" "" "42.3" ...
## $ TotalCharges : chr "109.9" NA "108.15" "1840.75" ...
## $ PaymentMethod : chr "Electronic check" "Mailed check" "--" "Bank transfer" ...
## $ Churn : chr "yes" "yes" "yes" "no" ...
## Rows: 10
## Columns: 5
## $ customerID <chr> "7590-VHVEG", "5575-GNVDE", "3668-QPYBK", "7795-CFOCW",…
## $ MonthlyCharges <chr> "29.85", "56.95", "", "42.3", "70.7", "Nan", "89.1", ""…
## $ TotalCharges <chr> "109.9", NA, "108.15", "1840.75", "NA", "820.5", "1949.…
## $ PaymentMethod <chr> "Electronic check", "Mailed check", "--", "Bank transfe…
## $ Churn <chr> "yes", "yes", "yes", "no", "no", "yes", "no", "yes", "n…
## customerID MonthlyCharges TotalCharges PaymentMethod Churn
## 1 7590-VHVEG 29.85 109.9 Electronic check yes
## 2 5575-GNVDE 56.95 <NA> Mailed check yes
## 3 3668-QPYBK <NA> 108.15 <NA> yes
## 4 7795-CFOCW 42.3 1840.75 Bank transfer no
## 5 9237-HQITU 70.7 <NA> Electronic check no
## 6 9305-CDSKC <NA> 820.5 <NA> yes
## 'data.frame': 10 obs. of 5 variables:
## $ customerID : chr "7590-VHVEG" "5575-GNVDE" "3668-QPYBK" "7795-CFOCW" ...
## $ MonthlyCharges: chr "29.85" "56.95" NA "42.3" ...
## $ TotalCharges : chr "109.9" NA "108.15" "1840.75" ...
## $ PaymentMethod : chr "Electronic check" "Mailed check" NA "Bank transfer" ...
## $ Churn : chr "yes" "yes" "yes" "no" ...