読者です 読者をやめる 読者になる 読者になる

tak0kadaの何でもノート

発声練習、生存確認用。

医学関連は 医学ノート

サンプリングについて - 「Think Stats」第3章

サンプリングについて。参考にした文献の関係で社会学的な関心が強い。

バイアスとランダム誤差

  • バイアスはシステマチックに生じるもの、誤差はランダムに生じるものという違いがある。
  • バイアスは母集団に対する全数調査でも起こりうる。(調査に応じない = セルフ・セレクションことがある)
  • 逆に抽出バイアスは抽出する際の調査者側の問題である。
  • 層化 --> 割当(比例or任意) --> 抽出(ランダムor有意) --> 加重が基本的な流れ。

単語 意味
層化 事前の知識に基づいて母集団を属性別に分割すること。
割当 層化した集団に標本数を割り振ること。
抽出 割り当てられた標本数だけそれぞれの層から選択すること。

層化、割当

母集団からそのまま抽出するのではなく事前の知識に応じて層化してから抽出することで効率良く調査ができる。例えば性別だけで昼食のメニューが決まっている国が仮にあるとすれば、たった2人調べれば十分である。

層化した後に割当を行う。比例抽出は層化された集団の人数に比例して標本を割り当てる方法である。ただこの方法では母数が少ない層や分散の大きい層で誤差が大きくなってしまう。意図的にそのような層に対して大きい標本数を割り当てて後で加重することで誤差を小さくできる。(オーバーサンプリング --> ウェイトバックの流れ)

欠損が生じた後でそれに合わせてウェイトバックを行う場合はセルフ・セレクションによるバイアスが生じる可能性がある。(ランダム抽出そのものに対してウェイトバックをおこなってもバイアスは生じない。)

抽出

  • 事前の知識で層化された属性で推定したい変数が決まる --> 有意抽出
  • それ以外の撹乱要因がある --> ランダム抽出

が基本である。

有意抽出は事前の知識がある場合は有効であるが、そうでない場合のほうが多くランダム抽出によって擬似的に母集団を層化するための次善の策として用いられる。ランダム抽出の際に誤差を小さくするためには標本サイズが大きいこと、抽出バイアスがないことが必要である。

セルフ・セレクションなどの撹乱要因よりも抽出誤差が大きいと考える場合は(例えばブラック企業の社員は忙しすぎてアンケートに回答してもらえないだろう。等)、層化有意抽出を考慮しても良い場面である。

多段抽出

コストを削減するために、クラスターを抽出してから調査すること。抽出するクラスターが偏ると誤差が生じるので多数のクラスターを抽出した方が誤差が少ない。(例えば1クラスだけの抽出で全校で学力調査をすると、たまたま高学年クラスを選択してしまうと高い結果が出る。多段抽出の際には標本のばらつきが一段階抽出より大きくなりがちである。)層化が必要である。

参考:サンプリングについてのひとつのお話 - 社会学者の研究メモ