統計を勉強するイントロとしてThink Statsを読んでいる。最初は手を動かさず理解だけして最後まで読みきってから復習するつもりだったが、最後2章くらいでついて行けなくなってしまった。これから手を動かして復習するつもり。 ページ数も少ないので英語で構わないので訳本ではなくGreen Tea Pressで公開されているものをダウンロードした。分かりやすい用語の説明がついていたのでまとめておく。
まとめ
事例証拠だけだと誤りが導かれやすいので統計を勉強しないといけない。CDCが行なっている全米世帯動向調査(NSFG)を分析するらしい。配布されているsurvey.pyとfirst.pyはrecodeの入ったdatファイルからデータベースみたくデータを引っ張ってくるもの。
単語
英語 | 日本語 | 意味 |
---|---|---|
anecdotal evidence | 事例証拠 | 綿密に計画された調査ではなくむしろ個人的な経験や逸話などの形で集められた証拠(エビデンス) |
population | 母集団 | 調査の対象となった集団全体。ヒトだけでなく動物や植物に対しても用いられる。 |
cross-sectional study | 横断的研究、断面調査 | ある母集団、ある時点においてデータを集めること。 |
longitudinal study | 縦断的研究 | ある同じ母集団について繰り返しデータを集めること。 |
respondent | 回答者 | 調査に応じた人 |
cohort | コホート | 回答者の集団 |
sample | サンプル、標本 | 母集団の部分集合(subset)、ここから実際のデータを集めることになる。 |
representative | 代表? | 母集団の構成要員が全て同じ確率で抽出されるとき、その標本をrepresentativeという。 |
oversampling | オーバーサンプリング | 小さい部分母集団で統計誤差を避けるために意図的にその集団の抽出率を上げる技術。 |
record | レコード | データベースのデータ1件分。(列) |
field | フィールド | データベースの入力項目。(行) |
table | テーブル | データベースでレコードを集めたもの(レコード+フィールド) |
rawdata | 生データ | 全くあるいはほとんどチェックされておらず、計算や解釈前のデータ。 |
recode | 再コード値? | 生データに解釈や計算を加えて変化させたもの。 |
summary statistic | 要約統計量 | データの特徴を要約して表す値。 |
apparent effect | 見かけ上の効果 | 要約統計量やデータから(直感的に)何かが起こっていると思われること。 |
statistically significant | 統計学的有意 | 統計学的に偶然ではないと考えられること。 |
artifact | アーチファクト | 偏り(バイアス)や測定誤差、他の誤差によって生じたもの。 |
bias | 偏り、バイアス | 標本の偏り、推定量の偏りの2つ。 |