tak0kadaの何でもノート

発声練習、生存確認用。

医学関連は 医学ノート

統計

KLダイバージェンス、JSダイバージェンス

# Kallback-Leiblerダイバージェンス def kld(p, q): p = np.array(p) q = np.array(q) return np.sum(p * np.log(p/q)) # Jensen-Shannonダイバージェンス def jsd(p, q): p = np.array(p) q = np.array(q) m = 0.5 * (p + q) return 0.5 * (kld(p, m) + kl…

「Imitation, Genetic Lineages, and Time Influenced the Morphological Evolution of the Violin」を読んだ

細胞の形の分析に取り組んでいるわけだが、バイオリンの形に関する分析の論文があったので読んでみた。以下は手法と解釈についてのメモ。数学的に厳密な理解までは手が届いていない。

「ロスマンの疫学」第1~3章を読んだ

一人で勉強するのは辛いものだが、後輩が疫学に興味を持っているということなので、ロスマンの疫学の勉強会をすることにした。章末問題があるが、問題と解答が英語だが公開されているので毎回確認していく(が、以下の答えは自分勝手に書いたものなので気にな…

「データ解析の実務プロセス入門」を読んだ

データ解析の実務プロセス入門 | 森北出版株式会社を読んだ。 この本は統計手法についての解説はほとんど含んでいない本で、「数学屋」ではなく「統計屋」のための参考書だと感じた。内容としてはデータ解析の利点、限界の解説や、実際の業務のプロセス全て…

Wright–Fisher モデルについて

遺伝的浮動とは ある集団内で特定の遺伝子の占める割合が偶然に変動する現象。 Wright-Fisherモデル 世代ごとに個体がが総入れ替え、遺伝子は親世代の遺伝子プールからの無作為抽出とみなすモデル。

法数学セミナー by Charles Brenner

去年のメモがなぜか(後半のcontinuous methodについて調べものをしてからupしようみたいな意図で放置されていたのだろうが...)発掘されたので公開。 κメソッドやDNA-VIEWで有名なCharles Brennerのセミナーが法医学教室の主催で開かれたので参加してきた。専…

p値ハッキングについての論文を読んだ

PLOS Biology: The Extent and Consequences of P-Hacking in Scienceを読んだ。 世の中にはp値が小さい(つまり統計的に有意)なデータが尊ばれる傾向がある。そうすると発表される結果は有意なものばかりだし、悪ければ詐称かもしれない。間違った結果を集め…

「統計的学習の基礎」第2章を読んだ - その1

第2章は教師あり学習の概要。予測と決定理論を区別して理解する。 TDOO: コードの追加

ベイズ推定とは

「ベイズ推定とはベイズ主義に基づいて言えば、観測された事象$D$に基づいて推定したい仮説$H$を確率的に求めることを言う。」 ベイズの定理 この確率の更新について元になっているのがベイズの定理と呼ばれているもので $$ P(H_{i}|D) = \dfrac{P(D|H_{i})P…

「統計的学習の基礎」第1章を読んだ

これから水曜日の5時15分から統計基礎勉強会に参加する。題材は「統計的学習の基礎」で、機械学習、データマイニングの教科書らしい。このページをまとめページとして利用する。 目次 サポートページ(英語)

「確率と確率過程」を読んだ

ディリクレ過程が分かればLDAなど言語学で使われているモデルが理解できそうなので確率過程を勉強したい。オーム社の確率と確率過程を読んでいる。どうやらマルコフ過程(MCMCで使うやつ)やランダムウォークも理解できそうで去年やっていたことが少し理解でき…

「Probabilistic Programming and Bayesian Methods for Hackers」を読んだ - (5章)

第5章は損失関数について。損失関数の計算に真の値を使わずにどう計算するのか気になっていたが事後分布を使うと知って納得。

「Probabilistic Programming and Bayesian Methods for Hackers」を読んだ - (4章)

4章は大数の法則と大数の法則にまつわる注意点について。

「Probabilistic Programming and Bayesian Methods for Hackers」を読んだ - (3章)

第3章はMCMCの原理について。

「Probabilistic Programming and Bayesian Methods for Hackers」を読んだ - (0 ~ 2章)

MCMCの勉強のためにProbabilistic Programming and Bayesian Methods for Hackersを読んだ。翻訳は終わっていないが、日本語版もある。

指数分布とガンマ分布について

私の今後は?潜伏期・再発 - ryamadaの遺伝学・遺伝統計学メモでガンマ分布を扱っていた。ガンマ分布について調べていると指数分布にも関係があるようだったのでメモ。

種類数の予測(その3) - 「thinkbayes」第15章

この記事には数式の間違いがあるので注意 その1、その2の続き。前回は母集団の推定分布$\hat{F_{K}}$に対して$F_{K}$がどのくらいの位置にいるかを調べた。今回はこの値(p)が、母集団がどのような分布のときにどれくらい誤差を生じるのかを調べたい。

統計検定3級の教科書を読んだ

統計の分野で使われる考え方を押さえていく。3級は高校生レベルだが一応確認しておきたかったので日本統計学会公認の教科書を読んだ。

何かよく分からない検定と生存時間解析(その1)

友人が論文で使われている統計の意味が分からんと言っていたので首を突っ込んだ。論文はこちら。 雑なまとめ 目的 先天性の心房中隔欠損(ASD)の患者でカテーテルによる閉鎖と外科手術とで効果と長期的な安全性を比較する。 結果 718人の先天性ASD患者で調べ…

種類数の予測(その2) - 「thinkbayes」第15章

この記事には数式の間違いがあるので注意 その1では与えられたデータから分布を予測したが、今回はシミュレーションを通して母集団に与えるパラメータが推定精度にどのような影響を与えるか調べたい。

種類数の予測(その1) - 「thinkbayes」第15章

この記事には数式の間違いがあるので注意 thinkbayesの第15章では「belly buttom bacteria」の数を予測する問題を取り扱っている。テキストではシミュレーションによって予測していたが、解析的に解けることが分かったのでメモ。

ラプラス変換を勉強した

ラプラス変換 ラプラス変換は微分方程式などで積分を掛け算、割り算の形に書き換えて解くための方法。 $$ F(s) = \mathcal{L}(f(t)) \equiv \int_{0}^{\infty} f(t)e^{-st}dt $$

ディリクレ分布をRとpythonで描いてみる

ディリクレ分布 $$ p(\mathbf{x}, \mathbf{\alpha}) = \dfrac{1}{B(\mathbf{\alpha})}\prod x_{i}^{a_{i}-1} $$ $$ B(\mathbf{\alpha}) = \dfrac{\prod(\Gamma a_i)}{\Gamma(\sum a_{i})} $$ ベータ分布と同じく式の中にベータ関数が含まれていて、多次元ベ…

2項分布、ベータ分布をRとpythonで描いてみる

2項分布 R $$ P(X=k) = \begin{pmatrix} n\\ k\\ \end{pmatrix} p^{k}(1-p)^{n-k} $$

2変数の関連 - 「マンガでわかる統計学」第6章

数量データ、カテゴリーデータの関連度を計算する。母集団ではなく、標本についての統計量。 数量データ カテゴリーデータ 数量データ 単相関係数 相関比 カテゴリデータ 相関比 クラメールの連関係数 と書いてある。単相関係数が[-1, 1]、相関比、クラメー…

積み上げ棒グラフ - 「マンガでわかる統計学」第3章

カテゴリーデータを扱う。カテゴリーデータを可視化するときにも棒グラフは使える。 うどん ラーメン そうめん そば 40% 30% 20% 10% を表示したかったが、現状python3に移行できていないのでラベルはa,b,c,dにする。

ヒストグラムのビンの決め方 - 「マンガでわかる統計学」第2章

一般的な統計手法をあまり知らないのは問題なので、「Think Bayes」で挫けたついでに基本のきから積み上げていくこととする。 第2章でヒストグラムについて扱っている。ビンの幅によってかなり恣意的に情報の見た目を弄ることができるので決め方にも一定の規…

オッズとベイズの定理 - 「Think Bayes」第5章

今まで確率を表すのには[0, 1]の範囲の数を使ってきたが、オッズはこれの違った方法の表現。競馬とかでよく聞く表現である。 \[ \begin{align} p(H|D) &= p(D|H)p(H)/p(D)\\ p(\bar{H}|D) &= p(D|\bar{H})p(\bar{H})/p(D) \end{align} \] を片々割って、 \[ …

「Think Stats」第9章を読んだ

最後の1章。本を返却しないといけないので単語を先に調べておく。

「Think Stats」第8章を読んだ

第8章は推定について。MSE、MLE、ベイズ推定、打ち切りがテーマ。

交差検証(Cross Validation) - 「Think Stats」第7章

TODO

χ2検定 - 「Think Stats」第7章

ピアソンの\(\chi^{2}\)検定について \(\chi^{2}\)検定は計数データに対して用いる手法である*1。係数した「集計表」が偶然生じたものか検定する際に用いる。 *1:Rjpwiki

ベイズ確率の報告 - 「Think Stats」第7章

観測あるいは実験の結果に基づいて\(p(H_{A}|E)\)を報告したいところだが、ベイズの定理より \[ p(H_{A}|E) = \dfrac{p(E|H_{0})p(H_{0})}{p(E|H_{0})p(H_{0})+p(E|H_{A})p(H_{A})} \] なので、事前分布を与えないといけなく、これは議論になるところである…

過誤 - 「Think Stats」第7章

過誤の種類 + - True o 偽陰性(\(\alpha\)過誤) False 偽陽性(\(\beta\)過誤) 検出力 偽陽性はType I errorまたは\(\alpha\)過誤ともいう。(あわてものの過誤) 偽陰性はType II errorまたは\(\beta\)過誤ともいう。 検出力は帰無仮説を正しく棄却する確率。…

リサンプリング - 「Think Stats」第7章

リサンプリング法 母集団から何度も標本抽出して調べられるのは理想であるが、実際には不可能なことが多い。しかし、得られている推定量\(\hat{\theta}\)の性能を把握するために\(\hat{\theta}\)の分布を知りたい。このような場合に、ランダムなリサンプリン…

「Think Stats」第7章を読んだ

第7章は仮説検定について。マンガでわかる統計学のレベルにようやく達しつつある。

歪度、畳み込み、中心極限定理 - 「Think Stats」第6章

Think Statsの第6章は分布の操作について。いちいちシミュレーションするのは疲れたし捗らないので理論の理解に集中する。確率変数の定義も中心極限定理の証明も理解できない...

「Think Stats」第6章を読んだ

第6章は分布の操作について。歪度による記述、畳み込み、中心極限定理について。

95%信頼区間とは?

三重大学の奥村先生の記事信頼区間って何?とwikipedhiaの記事、http://suzuki-tokuhisa.com/ushigome/6_95pct.htmlを読んだ。今のところは理解できていないがメモ。

ベイズの定理 - 「Think Stats」第5章

ベイズの定理 \[ p(h_{i}|d) = \dfrac{p(d|h_{i})}{p(d)}p(h_{i}) \] である。ここで各項にそれぞれ 事後確率: \(p(h_{i}|d)\) 事前確率: \(p(h_{i})\) 尤度: \(p(d|h_{i})\) と名前が付いている。

モンティ・ホール - 「Think Stats」第5章

モンティ・ホール問題は確率の分野で陥りやすい問題の一つとして有名である。しばらく理解出来なくて困っていたがようやく理解した。 ポイント: モンティは答えを知っている。ランダムに開けているのではない。 前提条件をきちんと理解していなかったため混…

正規確率プロットやその他の確率プロット - 「Think Stats」第4章

正規確率プロットを試してみる。ややこしめの関数が出てきたら使いたい。縦軸は与えられたリスト、横軸はそのrankit(順序統計量)に対応する正規乱数である。

「Think Stats」第5章を読んだ

モンティ・ホールはいつも騙されているやつ。ベイズ主義もなかなか理解できていないがこれを機に克服したい。

分布について - 「Think Stats」第4章

様々な分布の定義を確認して、実際のデータが分布に従っているか確認する方法を見ていく。連続分布に従って生成される実際の分布は離散的なので\(\rm PDF\)は使い勝手が悪い。\(\rm CDF\)について考える。

任意の連続関数に従って乱数を生成する - 「Think Stats」第4章

numpy.randomにはたくさんの関数が用意されていて分布だけでもかなりの種類があるが、今回はそれ以外の関数について値を得たい場合について考える。 実装 cdf-1(random.random_sample()) とすればいい。

「Think Stats」第4章を読んだ

分布と確認のためのプロット方法について学ぶ。

サンプリングについて - 「Think Stats」第3章

サンプリングについて。参考にした文献の関係で社会学的な関心が強い。 バイアスとランダム誤差 バイアスはシステマチックに生じるもの、誤差はランダムに生じるものという違いがある。 バイアスは母集団に対する全数調査でも起こりうる。(調査に応じない = …

「Think Stats」第3章を読んだ

2章の演習のついでにCDFまで進めた。np.randomなどが山場になりそう。

生存時間解析について -その2(定式化、その他)- 「Think Stats」第2章

生存時間解析の定式化 生存時間解析は興味のあるイベントが起こるまで観察し、その時間について考察を加えるものである。 \(S\)、\(F\)、\(s\)、\(f\) 生存時間解析でまず最初に観察されるのが、ある時間\(t\)以上生存する確率を表す生存関数\(S(t)\)と、\(t…

生存時間解析について -その1(可視化)- 「Think Stats」第2章

RのsurvivalパッケージにあるcolonはStage B/Cの結腸癌患者を対象とした術後補助化学療法の比較臨床試験データ。pythonを使ってこのデータの生存時間解析をやってみる。まずは可視化から。 colon.csvの様子 id,study,rx,sex,age,obstruct,perfor,adhere,node…