情報科学3

課題

(1) \(K\)平均クラスタリング

演習のためのシミュレーションデータを作成する。

set.seed(2021-11-09)  ## seedの値 は変えてもよい
X <- matrix(rnorm(60 * 2), ncol = 2)
X[1:20, 1] <- X[1:20, 1] + 3
X[1:20, 2] <- X[1:20, 2] - 4
X[21:40, 1] <- X[21:40, 1] - 2
X[21:40, 2] <- X[21:40, 2] - 3
colnames(X) <- c("x1", "x2")
D2 <- as_tibble(X)

このデータは、1行から20行がグループ1、21行から40行がグループ2、41行から60行がグループ3として生成されている。

\(K=3\) として\(K\)平均クラスタリングを実行し、真のクラスのラベルと比較して、うまくクラスタリングできているか考察しなさい。
\(K=2\) として、1と同じことを行いなさい。
\(K=4\) として、1と同じことを行いなさい。
各変数を標準化してから\(K=3\)として\(K\)平均クラスタリングを実行し、1の結果と比較しなさい。

(2) 階層的クラスタリング

Slack で配布した info3_hw03.csv を次のようにして読み込み、以下の問に答えなさい。

myd2 <- read.csv("data/info3_hw03.csv", row.names = 1)

このデータは、SSDSE（教育用標準データセット）2021年版の SSDSE-C の一部で、各都道府県の県庁所在地における緑茶 (green)、紅茶 (black)、コーヒー (coffee) の消費データである。

完全リンク法（最大距離法）による階層的クラスタリングを用いて、都道府県をクラスタリングしなさい。
3つのクラスタができるように樹形図を切断し、どの都道府県がどのクラスタに属するか明らかにしなさい。
クラスタごとにどのような特徴があるか検討しなさい。
変数を標準化してから1から3を実行し、標準化する前の結果と比較しなさい。

注意

提出期限：2021年11月21日（日）17時（日本時間）
提出方法：Slack のDM
提出するファイル：Rmd を knit したPDFファイル
- ファイル名：info3_hw03_YourName.pdf (YourName は自分の名前に変えること)
- グローバルチャンクオプションで echo = TRUE を設定し、Rコードも表示したファイルを提出すること。

授業の内容に戻る

情報科学3

課題3

矢内　勇生

2021-11-09

課題

注意

情報科学3

課題3

矢内 勇生

2021-11-09

課題

注意

矢内　勇生