統計の分野で使われる考え方を押さえていく。3級は高校生レベルだが一応確認しておきたかったので日本統計学会公認の教科書を読んだ。
箱ひげ図
boxplotについてよくまとまったページを参考にする。 箱ひげ図では平均のところに太線、IQR(四分位範囲)が箱、その外側を線で表す。最小値から最大値までを線で表す場合と、1.5IQRより外側を外れ値とみなして別にプロットする方法の二通りある。
# サンプルデータを作成 x <- rnorm(100, 100, 10) y <- rnorm(500, 120, 30) # par(mfcol=c(2, 2)) png(filename="boxplot.png") # ボックスプロット boxplot(x, y) # 外れ値を含める boxplot(x, y, range=0) # 項目名と色の変更 boxplot( x, y, names = c("X", "Y"), border = "black", # 枠の色 col = c("blue", "red"), # 塗り色 varwidth = FALSE # ボックスの大きさをデータに合わせるか ) boxplot( x, y, names = c("X", "Y"), border = "black", col = c("blue", "red"), varwidth = TRUE ) dev.off()
同時分布、周辺分布
同時分布: 度数分布表そのもの 周辺分布: 度数分布表の周りにつく小計
相関係数
$r = \dfrac{s_{xy}}{s_{x}s_{y}}$ (ここで$s_{xy}$は共分散、$s_{x}$は標準偏差)。xやyに値をかけたり足しても変化はない。
cor(x, y)
変動係数
$z = \dfrac{x_{i} - \bar{x}}{s}$。平均0、分散1になる。
SD
正規分布で平均±1sdで68%、2sdで95%、3sdで99%が含まれる。
> pnorm(1) - pnorm(-1) [1] 0.6826895 > pnorm(2) - pnorm(-2) [1] 0.9544997 > pnorm(3) - pnorm(-3) [1] 0.9973002