読者です 読者をやめる 読者になる 読者になる

tak0kadaの何でもノート

発声練習、生存確認用。

医学関連は 医学ノート

歪度、畳み込み、中心極限定理 - 「Think Stats」第6章

統計 thinkstats

Think Statsの第6章は分布の操作について。いちいちシミュレーションするのは疲れたし捗らないので理論の理解に集中する。確率変数の定義も中心極限定理の証明も理解できない...

歪度、尖度

歪度は分布の歪み、尖度は分布の尖り具合を表す統計量。

歪度

分布の平均を\(\mu\)として、\(\mu\)を中心とするr次モーメント\(\mu_{r}'\)を\(\mu_{r} = E(X-\mu)^{r} = \dfrac{1}{n}(x_{i}-\mu)^{r}\)と置き、分散を\(σ^{2}\)とすれば、

\[ \beta_{1}^{1/2} \equiv \dfrac{\mu_{3}}{σ^{3}}、\beta_{2} \equiv \dfrac{\mu_{4}}{σ^{4}}-3 \]

である。歪度\(\beta_{2}\)の右辺に3を引いているのは正規分布で0にするためである。

ピアソンの中央値歪度係数

\[ g_{p} = 3(\mu - median)/σ \] の方が外れ値の影響を受けにくく頑健である。

尖度

\[ \beta_{2} = \dfrac{\mu_{4}}{\mu^{2}_{2}}-3 \]

である。正規分布で0である。

畳み込み

二つの確率変数X、Yがあるときに\(Z=X+Y\)としたときのZの分布を考えると、 \[ \begin{align} \rm{pdf}_{Z} &= &\displaystyle \int_{-\infty}^{\infty}\rm{pdf}_{X}(x)\rm{pdf}_{Y}(z-x)dx\\ &\equiv &\rm{pdf}_{X} * \rm{pdf}_{Y} \end{align} \] である。テキストの証明?はちょっとおかしい気がする。

正規分布の場合

\(X \sim N(\mu, σ)\)とすると、\(Z = aX + bY + c\)とすると、 \[ Z \sim N(a\mu_{x}+b\mu_{y}+c, a^{2}σ_{x}^{2}+b^{2}σ_{y}^{2}) \]

中心極限定理

大抵の分布は、分布からたくさんの値を取り出した和は正規分布に収束するという便利な定理。

この定理が適用できる条件と制約

  • 値はそれぞれ独立であること
  • 同じ分布から(例外はあるらしい)
  • 有限の平均と分散を持つ分布のみ
  • 収束の速さは歪度に依存する
  • 平均\(\mu\)、分散\(σ^{2}\)の分布だと\(N(n\mu, nσ^{2})\)に収束する(平均は\(N(\mu, \dfrac{σ^{2}}{n})\))

平均の定義

cdfが連続な場合pmfも簡単に定義できるので、\(\mu = \displaystyle \int x\rm{pm f}(x)dx\)としていた。しかしcdfが離散的な分布の場合はpdfが定義しづらいので、 \[ \displaystyle \int xd\rm{cdf}(x) \]

とすれば良い。詳しい議論はmathematics stackexchangeにある。この方法以外には連続でない点aにおいて\(f = p\delta(x,a)\)などとしてしまう方法もある。