3.2 変数の関係
次にこれらの変数の関係性を確認しよう.ここではggpairs
を利用して散布図行列を作成する.
df %>%
dplyr::select(Diagnosis, Radius_mean, Smoothness_mean) %>%
mutate(Diagnosis = as.factor(Diagnosis)) %>%
summary()
## Diagnosis Radius_mean Smoothness_mean
## 0:357 Min. : 6.981 Min. :0.05263
## 1:212 1st Qu.:11.700 1st Qu.:0.08637
## Median :13.370 Median :0.09587
## Mean :14.127 Mean :0.09636
## 3rd Qu.:15.780 3rd Qu.:0.10530
## Max. :28.110 Max. :0.16340
library(GGally)
df %>%
dplyr::select(Diagnosis, Radius_mean, Smoothness_mean) %>%
mutate(Diagnosis = as.factor(Diagnosis)) %>%
ggpairs(lower=list(combo=wrap("facethist", bins=30)))
Diagnosis
は0と1のどちらかをとる二値の変数で,0(良性)が357,1(悪性)が212ケースである.散布図行列を見ると,Radius_mean
とSmoothness_mean
の間の相関係数は高くないため多重共線性の問題は考慮しなくて良さそうに見える.
また,それぞれの二つをDiagnosis
の値別の分布は差があるように思えるので,説明変数として採用してみることにしよう.
以上を踏まえて,Diagnosis
を目的変数,Radius_mean, Smoothness_mean
を説明変数とする回帰モデルを考えていこう.