課題

(1) \(K\)平均クラスタリング

演習のためのシミュレーションデータを作成する。

set.seed(2021-11-09)  ## seedの値 は変えてもよい
X <- matrix(rnorm(60 * 2), ncol = 2)
X[1:20, 1] <- X[1:20, 1] + 3
X[1:20, 2] <- X[1:20, 2] - 4
X[21:40, 1] <- X[21:40, 1] - 2
X[21:40, 2] <- X[21:40, 2] - 3
colnames(X) <- c("x1", "x2")
D2 <- as_tibble(X) 

このデータは、1行から20行がグループ1、21行から40行がグループ2、41行から60行がグループ3として生成されている。

  1. \(K=3\) として\(K\)平均クラスタリングを実行し、真のクラスのラベルと比較して、うまくクラスタリングできているか考察しなさい。
  2. \(K=2\) として、1と同じことを行いなさい。
  3. \(K=4\) として、1と同じことを行いなさい。
  4. 各変数を標準化してから\(K=3\)として\(K\)平均クラスタリングを実行し、1の結果と比較しなさい。


(2) 階層的クラスタリング

Slack で配布した info3_hw03.csv を次のようにして読み込み、以下の問に答えなさい。

myd2 <- read.csv("data/info3_hw03.csv", row.names = 1)

このデータは、SSDSE(教育用標準データセット)2021年版 の SSDSE-C の一部で、各都道府県の県庁所在地における緑茶 (green)、紅茶 (black)、コーヒー (coffee) の消費データである。

  1. 完全リンク法(最大距離法)による階層的クラスタリングを用いて、都道府県をクラスタリングしなさい。
  2. 3つのクラスタができるように樹形図を切断し、どの都道府県がどのクラスタに属するか明らかにしなさい。
  3. クラスタごとにどのような特徴があるか検討しなさい。
  4. 変数を標準化してから1から3を実行し、標準化する前の結果と比較しなさい。


注意



授業の内容に戻る