tak0kadaの何でもノート

発声練習、生存確認用。

医学関連は 医学ノート

復元抽出で選択される要素の割合 - 「Think Stats」第7章

ブートストラップ法では復元抽出を繰り返す。つまり、この方法では必ず全ての要素が抽出されるわけではなく、一定の割合で全く選択されないのがいることになる。この割合を調べてみる。

集合\(S = (s_{1},..,s_{n})\)から、m個抽出するとき、ある要素\(s_{i}\)が含まれる確率は \[ \begin{align} P(s_{i} \in S) &= 1 - P(s_{i} \notin S)\\ &= 1 - (1 - 1/n)^{m} \end{align} \]

ブートストラップ法ではもとの標本数と同じ数だけ再抽出するので\(m = n\)。よって \[ \begin{align} P(s_{i} \in S) &\to 1 - \dfrac{1}{e}\\ &= 0.6321205588285577\cdots\\ &\simeq 0.6321 \end{align} \]

参考

What is .632 rule in bootstrapping?