4.10 Scatterplot散布図

Scatterplot(散布図)は\(xy\)平面上にデータ点をプロットする手法である. 量的変数同士の相関やその他の関連性を探るのに用いられることが多い.

ここではirisのデータを利用して例を紹介する.irisのデータはRで最初から利用できるようになっているデータセットの一つで, irisとコンソールに入力し実行すればデータの中身を見ることができる.

head(iris)
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa

このデータのSepal.LengthPetal.LengthをScatterplotでプロットしてみよう.plot関数を利用する場合は次のようにするだけで良い.

plot(iris$Sepal.Length, iris$Petal.Length)

さらに,これに質的変数の値ごとに色を分けることで,3次元的な可視化を行うこともできる. col=iris$Speciesという指定で,Speciesの値ごとに色を分けている. pch=19という指定で,プロットする点のタイプを変えている.デフォルトだと中抜きの丸だが,他にもいろいろな点のタイプがある.

plot(iris$Sepal.Length, iris$Petal.Length, col=iris$Species, pch=19)

次にggplotを利用した場合を紹介する.以下のような実装となる.

iris %>% 
  ggplot(aes(x=Sepal.Length, y=Petal.Length, color=Species)) +
  geom_point()

Exercise 4.6 (Scatterplot) answersheightincomeをScatterplotで可視化しなさい.