読者です 読者をやめる 読者になる 読者になる

tak0kadaの何でもノート

発声練習、生存確認用。

医学関連は 医学ノート

「Think Stats」第1章を読んだ

統計 読書メモ thinkstats

統計を勉強するイントロとしてThink Statsを読んでいる。最初は手を動かさず理解だけして最後まで読みきってから復習するつもりだったが、最後2章くらいでついて行けなくなってしまった。これから手を動かして復習するつもり。 ページ数も少ないので英語で構わないので訳本ではなくGreen Tea Pressで公開されているものをダウンロードした。分かりやすい用語の説明がついていたのでまとめておく。

まとめ

事例証拠だけだと誤りが導かれやすいので統計を勉強しないといけない。CDCが行なっている全米世帯動向調査(NSFG)を分析するらしい。配布されているsurvey.pyとfirst.pyはrecodeの入ったdatファイルからデータベースみたくデータを引っ張ってくるもの。

単語

英語 日本語 意味
anecdotal evidence 事例証拠 綿密に計画された調査ではなくむしろ個人的な経験や逸話などの形で集められた証拠(エビデンス)
population 母集団 調査の対象となった集団全体。ヒトだけでなく動物や植物に対しても用いられる。
cross-sectional study 横断的研究、断面調査 ある母集団、ある時点においてデータを集めること。
longitudinal study 縦断的研究 ある同じ母集団について繰り返しデータを集めること。
respondent 回答者 調査に応じた人
cohort コホート 回答者の集団
sample サンプル、標本 母集団の部分集合(subset)、ここから実際のデータを集めることになる。
representative 代表? 母集団の構成要員が全て同じ確率で抽出されるとき、その標本をrepresentativeという。
oversampling オーバーサンプリング 小さい部分母集団で統計誤差を避けるために意図的にその集団の抽出率を上げる技術。
record レコード データベースのデータ1件分。(列)
field フィールド データベースの入力項目。(行)
table テーブル データベースでレコードを集めたもの(レコード+フィールド)
rawdata 生データ 全くあるいはほとんどチェックされておらず、計算や解釈前のデータ。
recode 再コード値? 生データに解釈や計算を加えて変化させたもの。
summary statistic 要約統計量 データの特徴を要約して表す値。
apparent effect 見かけ上の効果 要約統計量やデータから(直感的に)何かが起こっていると思われること。
statistically significant 統計学有意 統計学的に偶然ではないと考えられること。
artifact アーチファクト 偏り(バイアス)や測定誤差、他の誤差によって生じたもの。
bias 偏り、バイアス 標本の偏り、推定量の偏りの2つ。