上記の調査結果をRで行列として表現してみよう。
tbl_cab <- matrix(c(15, 10, 10, 15), nrow = 2, byrow = TRUE)
row.names(tbl_cab) <- c("女性", "男性") # 行に名前をつける
colnames(tbl_cab) <- c("不支持", "支持") # 列に名前をつける
addmargins(tbl_cab) # 周辺度数を加えて表示する
## 不支持 支持 Sum
## 女性 15 10 25
## 男性 10 15 25
## Sum 25 25 50
このクロス表(行列)に対し、chisq.test()
を使うことで\(\chi^2\) 乗検定を行う。イェーツの連続性補正 (Yate’s continuity correction) は行わないので correct = FALSE
とする。有意水準は5% (0.05) に設定する。
##
## Pearson's Chi-squared test
##
## data: tbl_cab
## X-squared = 2, df = 1, p-value = 0.1573
この結果を見ると、 \(\chi^2\)の値が「X-squared = 2」と示されている。\(p\)値 (p-value) が 0.1573 なので、ここで設定した帰無仮説:「母集団では、内閣支持は男女間で違いがない」は5%の有意水準で棄却されない。よって、ここで分析したデータから、母集団で内閣支持について男女間に差があるという証拠は得られない。
height をcm単位で測る ht_cm と、weightをkg単位で測るwt_kg という変数を作る。
## height weight ht_cm wt_kg
## 1 58 115 147.32 52.1640
## 2 59 117 149.86 53.0712
## 3 60 120 152.40 54.4320
## 4 61 123 154.94 55.7928
## 5 62 126 157.48 57.1536
## 6 63 129 160.02 58.5144
## 7 64 132 162.56 59.8752
## 8 65 135 165.10 61.2360
## 9 66 139 167.64 63.0504
## 10 67 142 170.18 64.4112
## 11 68 146 172.72 66.2256
## 12 69 150 175.26 68.0400
## 13 70 154 177.80 69.8544
## 14 71 159 180.34 72.1224
## 15 72 164 182.88 74.3904
相関係数を求める。
## [1] 0.9954948
## [1] 0.9954948
相関係数が1に近いことから、強い正の相関だと考えられる。
散布図も描いて確かめる。
scat_women <- ggplot(women, aes(x = ht_cm, y = wt_kg)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE) +
labs(x = "身長 (cm)", y = "体重 (kg)")
print(scat_women)
観測された身長と体重のペアがほぼ一直線上に並んでいることから、強い正の相関があると考えられる。
最後に、有意水準5%で、二変数の相関について統計的検定を行う。
##
## Pearson's product-moment correlation
##
## data: women$height and women$weight
## t = 37.855, df = 13, p-value = 1.091e-14
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9860970 0.9985447
## sample estimates:
## cor
## 0.9954948
\(p\)値 (p-value) が0.05より小さいので、二変数の相関はゼロであるという帰無仮説を棄却する。 よって、身長と体重には正の相関があると判断する。
体重を増やしても身長は伸びないし、体重を減らしても身長は縮まないので、体重が原因で身長が結果という因果関係はないだろう。
それに対し、身長が伸びれば体重が増えるということは考えられる。したがって、身長が原因で体重が結果という因果関係はあるかもしれない。
しかし、身長が伸びても体重が増えなかったり、身長が変わらなくても体重だけが増えたりすることがある。また、栄養状態などの第三の要因が身長と体重の両者に影響していることも考えられる。さらに、身長は自由に変えることができないので、体重に影響するとしても、原因とはいえないと考えることもできる。そうだとすると、身長と体重の間に因果関係は存在せず、相関関係があるだけだと考えられる。
speed の単位をkm/h に変換したspd_kmh と、distの単位を meter に変換した dist_m という変数を作る。
## speed dist spd_kmh dist_m
## 1 4 2 6.4 0.6096
## 2 4 10 6.4 3.0480
## 3 7 4 11.2 1.2192
## 4 7 22 11.2 6.7056
## 5 8 16 12.8 4.8768
## 6 9 10 14.4 3.0480
## 7 10 18 16.0 5.4864
## 8 10 26 16.0 7.9248
## 9 10 34 16.0 10.3632
## 10 11 17 17.6 5.1816
## 11 11 28 17.6 8.5344
## 12 12 14 19.2 4.2672
## 13 12 20 19.2 6.0960
## 14 12 24 19.2 7.3152
## 15 12 28 19.2 8.5344
## 16 13 26 20.8 7.9248
## 17 13 34 20.8 10.3632
## 18 13 34 20.8 10.3632
## 19 13 46 20.8 14.0208
## 20 14 26 22.4 7.9248
## 21 14 36 22.4 10.9728
## 22 14 60 22.4 18.2880
## 23 14 80 22.4 24.3840
## 24 15 20 24.0 6.0960
## 25 15 26 24.0 7.9248
## 26 15 54 24.0 16.4592
## 27 16 32 25.6 9.7536
## 28 16 40 25.6 12.1920
## 29 17 32 27.2 9.7536
## 30 17 40 27.2 12.1920
## 31 17 50 27.2 15.2400
## 32 18 42 28.8 12.8016
## 33 18 56 28.8 17.0688
## 34 18 76 28.8 23.1648
## 35 18 84 28.8 25.6032
## 36 19 36 30.4 10.9728
## 37 19 46 30.4 14.0208
## 38 19 68 30.4 20.7264
## 39 20 32 32.0 9.7536
## 40 20 48 32.0 14.6304
## 41 20 52 32.0 15.8496
## 42 20 56 32.0 17.0688
## 43 20 64 32.0 19.5072
## 44 22 66 35.2 20.1168
## 45 23 54 36.8 16.4592
## 46 24 70 38.4 21.3360
## 47 24 92 38.4 28.0416
## 48 24 93 38.4 28.3464
## 49 24 120 38.4 36.5760
## 50 25 85 40.0 25.9080
相関係数を求める。
## [1] 0.8068949
## [1] 0.8068949
これは強い正の相関だと考えられる。
散布図も描いて確かめる。
scat_cars <- ggplot(cars, aes(x = spd_kmh, y = dist_m)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE) +
labs(x = "スピード (km/h)", y = "停止距離 (m)")
print(scat_cars)
観測されたスピードと停止距離のペアが直線の周りに散らばっており、それなりに強い正の相関があると考えられる。
最後に、有意水準5%で、二変数の相関について統計的検定を行う。
##
## Pearson's product-moment correlation
##
## data: cars$speed and cars$dist
## t = 9.464, df = 48, p-value = 1.49e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.6816422 0.8862036
## sample estimates:
## cor
## 0.8068949
\(p\)値 (p-value) が0.05より小さいので、二変数の相関はゼロであるという帰無仮説を棄却する。 よって、スピードと停止距離には正の相関があると判断する。
スピードのほうが停止距離より先に決まるので、時間的先行関係がある。 また、スピードを速くすれば停止距離が伸び、スピードを遅くすれば停止距離が縮まるという共変関係もある。 そして、スピード以外の要因を一切変えなくても、スピードだけ変えれば停止距離が変わる。 したがって、スピードが原因で停止距離が結果という因果関係があると考えられる。