2014-05-01から1ヶ月間の記事一覧
一般的な統計手法をあまり知らないのは問題なので、「Think Bayes」で挫けたついでに基本のきから積み上げていくこととする。 第2章でヒストグラムについて扱っている。ビンの幅によってかなり恣意的に情報の見た目を弄ることができるので決め方にも一定の規…
先輩のブログで虫食い算を見つけたので自分もやってみる。 解くのは SEND +) MORE ------- MONEY である。 ループ回すだけの簡単なプログラム from itertools import permutations ans=[] for p in permutations(range(10), 8): if p[0] == 0 or p[4] == 0: …
今まで確率を表すのには[0, 1]の範囲の数を使ってきたが、オッズはこれの違った方法の表現。競馬とかでよく聞く表現である。 \[ \begin{align} p(H|D) &= p(D|H)p(H)/p(D)\\ p(\bar{H}|D) &= p(D|\bar{H})p(\bar{H})/p(D) \end{align} \] を片々割って、 \[ …
最後の1章。本を返却しないといけないので単語を先に調べておく。
第8章は推定について。MSE、MLE、ベイズ推定、打ち切りがテーマ。
ブートストラップ法では復元抽出を繰り返す。つまり、この方法では必ず全ての要素が抽出されるわけではなく、一定の割合で全く選択されないのがいることになる。この割合を調べてみる。 集合\(S = (s_{1},..,s_{n})\)から、m個抽出するとき、ある要素\(s_{i}…
TODO
ピアソンの\(\chi^{2}\)検定について \(\chi^{2}\)検定は計数データに対して用いる手法である*1。係数した「集計表」が偶然生じたものか検定する際に用いる。 *1:Rjpwiki
観測あるいは実験の結果に基づいて\(p(H_{A}|E)\)を報告したいところだが、ベイズの定理より \[ p(H_{A}|E) = \dfrac{p(E|H_{0})p(H_{0})}{p(E|H_{0})p(H_{0})+p(E|H_{A})p(H_{A})} \] なので、事前分布を与えないといけなく、これは議論になるところである…
過誤の種類 + - True o 偽陰性(\(\alpha\)過誤) False 偽陽性(\(\beta\)過誤) 検出力 偽陽性はType I errorまたは\(\alpha\)過誤ともいう。(あわてものの過誤) 偽陰性はType II errorまたは\(\beta\)過誤ともいう。 検出力は帰無仮説を正しく棄却する確率。…
リサンプリング法 母集団から何度も標本抽出して調べられるのは理想であるが、実際には不可能なことが多い。しかし、得られている推定量\(\hat{\theta}\)の性能を把握するために\(\hat{\theta}\)の分布を知りたい。このような場合に、ランダムなリサンプリン…
第7章は仮説検定について。マンガでわかる統計学のレベルにようやく達しつつある。
Think Statsの第6章は分布の操作について。いちいちシミュレーションするのは疲れたし捗らないので理論の理解に集中する。確率変数の定義も中心極限定理の証明も理解できない...
第6章は分布の操作について。歪度による記述、畳み込み、中心極限定理について。
三重大学の奥村先生の記事信頼区間って何?とwikipedhiaの記事、http://suzuki-tokuhisa.com/ushigome/6_95pct.htmlを読んだ。今のところは理解できていないがメモ。
ベイズの定理 \[ p(h_{i}|d) = \dfrac{p(d|h_{i})}{p(d)}p(h_{i}) \] である。ここで各項にそれぞれ 事後確率: \(p(h_{i}|d)\) 事前確率: \(p(h_{i})\) 尤度: \(p(d|h_{i})\) と名前が付いている。
モンティ・ホール問題は確率の分野で陥りやすい問題の一つとして有名である。しばらく理解出来なくて困っていたがようやく理解した。 ポイント: モンティは答えを知っている。ランダムに開けているのではない。 前提条件をきちんと理解していなかったため混…
正規確率プロットを試してみる。ややこしめの関数が出てきたら使いたい。縦軸は与えられたリスト、横軸はそのrankit(順序統計量)に対応する正規乱数である。
モンティ・ホールはいつも騙されているやつ。ベイズ主義もなかなか理解できていないがこれを機に克服したい。
様々な分布の定義を確認して、実際のデータが分布に従っているか確認する方法を見ていく。連続分布に従って生成される実際の分布は離散的なので\(\rm PDF\)は使い勝手が悪い。\(\rm CDF\)について考える。
numpy.randomにはたくさんの関数が用意されていて分布だけでもかなりの種類があるが、今回はそれ以外の関数について値を得たい場合について考える。 実装 cdf-1(random.random_sample()) とすればいい。
分布と確認のためのプロット方法について学ぶ。
サンプリングについて。参考にした文献の関係で社会学的な関心が強い。 バイアスとランダム誤差 バイアスはシステマチックに生じるもの、誤差はランダムに生じるものという違いがある。 バイアスは母集団に対する全数調査でも起こりうる。(調査に応じない = …