読者です 読者をやめる 読者になる 読者になる

tak0kadaの何でもノート

発声練習、生存確認用。

医学関連は 医学ノート

thinkstats

「Think Stats」第9章を読んだ

最後の1章。本を返却しないといけないので単語を先に調べておく。

「Think Stats」第8章を読んだ

第8章は推定について。MSE、MLE、ベイズ推定、打ち切りがテーマ。

交差検証(Cross Validation) - 「Think Stats」第7章

TODO

χ2検定 - 「Think Stats」第7章

ピアソンの\(\chi^{2}\)検定について \(\chi^{2}\)検定は計数データに対して用いる手法である*1。係数した「集計表」が偶然生じたものか検定する際に用いる。 *1:Rjpwiki

ベイズ確率の報告 - 「Think Stats」第7章

観測あるいは実験の結果に基づいて\(p(H_{A}|E)\)を報告したいところだが、ベイズの定理より \[ p(H_{A}|E) = \dfrac{p(E|H_{0})p(H_{0})}{p(E|H_{0})p(H_{0})+p(E|H_{A})p(H_{A})} \] なので、事前分布を与えないといけなく、これは議論になるところである…

過誤 - 「Think Stats」第7章

過誤の種類 + - True o 偽陰性(\(\alpha\)過誤) False 偽陽性(\(\beta\)過誤) 検出力 偽陽性はType I errorまたは\(\alpha\)過誤ともいう。(あわてものの過誤) 偽陰性はType II errorまたは\(\beta\)過誤ともいう。 検出力は帰無仮説を正しく棄却する確率。…

リサンプリング - 「Think Stats」第7章

リサンプリング法 母集団から何度も標本抽出して調べられるのは理想であるが、実際には不可能なことが多い。しかし、得られている推定量\(\hat{\theta}\)の性能を把握するために\(\hat{\theta}\)の分布を知りたい。このような場合に、ランダムなリサンプリン…

「Think Stats」第7章を読んだ

第7章は仮説検定について。マンガでわかる統計学のレベルにようやく達しつつある。

歪度、畳み込み、中心極限定理 - 「Think Stats」第6章

Think Statsの第6章は分布の操作について。いちいちシミュレーションするのは疲れたし捗らないので理論の理解に集中する。確率変数の定義も中心極限定理の証明も理解できない...

「Think Stats」第6章を読んだ

第6章は分布の操作について。歪度による記述、畳み込み、中心極限定理について。

ベイズの定理 - 「Think Stats」第5章

ベイズの定理 \[ p(h_{i}|d) = \dfrac{p(d|h_{i})}{p(d)}p(h_{i}) \] である。ここで各項にそれぞれ 事後確率: \(p(h_{i}|d)\) 事前確率: \(p(h_{i})\) 尤度: \(p(d|h_{i})\) と名前が付いている。

モンティ・ホール - 「Think Stats」第5章

モンティ・ホール問題は確率の分野で陥りやすい問題の一つとして有名である。しばらく理解出来なくて困っていたがようやく理解した。 ポイント: モンティは答えを知っている。ランダムに開けているのではない。 前提条件をきちんと理解していなかったため混…

正規確率プロットやその他の確率プロット - 「Think Stats」第4章

正規確率プロットを試してみる。ややこしめの関数が出てきたら使いたい。縦軸は与えられたリスト、横軸はそのrankit(順序統計量)に対応する正規乱数である。

「Think Stats」第5章を読んだ

モンティ・ホールはいつも騙されているやつ。ベイズ主義もなかなか理解できていないがこれを機に克服したい。

分布について - 「Think Stats」第4章

様々な分布の定義を確認して、実際のデータが分布に従っているか確認する方法を見ていく。連続分布に従って生成される実際の分布は離散的なので\(\rm PDF\)は使い勝手が悪い。\(\rm CDF\)について考える。

任意の連続関数に従って乱数を生成する - 「Think Stats」第4章

numpy.randomにはたくさんの関数が用意されていて分布だけでもかなりの種類があるが、今回はそれ以外の関数について値を得たい場合について考える。 実装 cdf-1(random.random_sample()) とすればいい。

「Think Stats」第4章を読んだ

分布と確認のためのプロット方法について学ぶ。

サンプリングについて - 「Think Stats」第3章

サンプリングについて。参考にした文献の関係で社会学的な関心が強い。 バイアスとランダム誤差 バイアスはシステマチックに生じるもの、誤差はランダムに生じるものという違いがある。 バイアスは母集団に対する全数調査でも起こりうる。(調査に応じない = …

「Think Stats」第3章を読んだ

2章の演習のついでにCDFまで進めた。np.randomなどが山場になりそう。

生存時間解析について -その2(定式化、その他)- 「Think Stats」第2章

生存時間解析の定式化 生存時間解析は興味のあるイベントが起こるまで観察し、その時間について考察を加えるものである。 \(S\)、\(F\)、\(s\)、\(f\) 生存時間解析でまず最初に観察されるのが、ある時間\(t\)以上生存する確率を表す生存関数\(S(t)\)と、\(t…

生存時間解析について -その1(可視化)- 「Think Stats」第2章

RのsurvivalパッケージにあるcolonはStage B/Cの結腸癌患者を対象とした術後補助化学療法の比較臨床試験データ。pythonを使ってこのデータの生存時間解析をやってみる。まずは可視化から。 colon.csvの様子 id,study,rx,sex,age,obstruct,perfor,adhere,node…

降水量について調べてみる - その2 - 「Think Stats」第2章

前回5月と6月前半の降水量について意外な結果が出たので友人に聞いたところ5月と6月前半だと5月の方が雨が少ないと思っているようだったのでその原因を考えたい。 仮説1: 6月後半から梅雨に入るのでそのイメージが強すぎる 仮説2: 実際5月にはひどく雨が降る…

「Think Stats」第2章を読んだ

単語をまとめた。2章はプロットが入ってくるので1章よりは手間が掛かりそう。

降水量について調べてみる - 「ThinkStats」第1章

どこかからデータを拾ってきて「統計学的に有意」かどうかはともかく計算してみる練習をする。今回は手間だがnumpyなどの関数は使わずに自作する。 Q1: 一年を通じて雨が多い月はいつか Q2: スキー部の活動で例年5月にBBQをするのだが雨が振りやすい曜日、週…

「Think Stats」第1章を読んだ

統計を勉強するイントロとしてThink Statsを読んでいる。最初は手を動かさず理解だけして最後まで読みきってから復習するつもりだったが、最後2章くらいでついて行けなくなってしまった。これから手を動かして復習するつもり。 ページ数も少ないので英語で構…