3.2 変数の関係

次にこれらの変数の関係性を確認しよう.ここではggpairsを利用して散布図行列を作成する.

df %>% 
  dplyr::select(Diagnosis, Radius_mean, Smoothness_mean) %>% 
  mutate(Diagnosis = as.factor(Diagnosis)) %>% 
  summary()
##  Diagnosis  Radius_mean     Smoothness_mean  
##  0:357     Min.   : 6.981   Min.   :0.05263  
##  1:212     1st Qu.:11.700   1st Qu.:0.08637  
##            Median :13.370   Median :0.09587  
##            Mean   :14.127   Mean   :0.09636  
##            3rd Qu.:15.780   3rd Qu.:0.10530  
##            Max.   :28.110   Max.   :0.16340
library(GGally)
df %>% 
  dplyr::select(Diagnosis, Radius_mean, Smoothness_mean) %>% 
  mutate(Diagnosis = as.factor(Diagnosis)) %>% 
  ggpairs(lower=list(combo=wrap("facethist", bins=30)))

Diagnosisは0と1のどちらかをとる二値の変数で,0(良性)が357,1(悪性)が212ケースである.散布図行列を見ると,Radius_meanSmoothness_meanの間の相関係数は高くないため多重共線性の問題は考慮しなくて良さそうに見える. また,それぞれの二つをDiagnosisの値別の分布は差があるように思えるので,説明変数として採用してみることにしよう.

以上を踏まえて,Diagnosisを目的変数,Radius_mean, Smoothness_meanを説明変数とする回帰モデルを考えていこう.