ディリクレ過程が分かればLDAなど言語学で使われているモデルが理解できそうなので確率過程を勉強したい。オーム社の確率と確率過程を読んでいる。どうやらマルコフ過程(MCMCで使うやつ)やランダムウォークも理解できそうで去年やっていたことが少し理解できる可能性がある。

序章: 確率と確率過程の学び方

1章: 確率論の基礎

集合や順列組み合わせについて(高校数学範囲) 根源事象は標本空間の要素、標本空間は根源事象の空間みたいな循環定義になっていて、高校数学の実数と虚数のときに似た空気になっている。

2章: 確率変数

チェビシェフの不等式 $$ P(|X-\mu| \geq aσ) \leq \dfrac{1}{a^{2}} $$

どんな分布でも $2σ$ なら $1/4$ 、 $3σ$ なら $1/9$ より小さいことを保証する。

$$ \begin{align} σ^{2} &= &\int_{\infty}^{\infty} (x-\mu^{2})f(x)dx\\ &\geq &\int_{|x-\mu|\geq aσ} (x-\mu)^{2}f(x)dx\\ &\geq &\int_{|x-\mu|\geq aσ} (aσ)^{2}f(x)dx\\ &= &(aσ)^{2}P(|X-\mu| \geq aσ) \end{align} $$ より示せる。( $P(X \geq \alpha) \leq \dfrac{η}{\alpha}$ からも示せる。)

モーメント $$ E[\phi(X)] = \begin{cases} \sum \phi(x_{i})f(x_{i})\\ \int \phi(x)f(x)dx \end{cases} $$ として、 $\phi(X) = X^{k}$ としたものがk次モーメント、 $(X-\mu)^{k}$ としたものが平均 $\mu$ の周りのk次モーメントという。特に1次のモーメントが平均、2次の平均周りのモーメントが分散、3次の平均周りのモーメントが歪度(ひずみ度)と呼ばれている。このあたりは以前やっていたようだが使っていないのでなかなか覚えられない。
モーメント母関数(積率母関数) $$ M(s) \equiv E[e^{sX}] $$ である。これをテイラー展開したものは

$$ \begin{align} M(x) &= &\int e^{sX}f(x)dx\\ &= &E[1] + \dfrac{E[X]}{1!}s \ldots \dfrac{E[X^{k}]}{k!}s^{k} \ldots \end{align} $$ これを微分して $s=0$ を代入したものは任意の次数のモーメントになる。

その他 $$ E[aX+b] = aE[X] + b $$ $$ V[aX+b] = a^{2}V[X] $$ $$ V[X] = σ^{2} = E[(X-\mu)^{2}] = E[X^{2}] - \mu^{2} $$
変数変換 $Y = \phi(X)$ で新しい確率変数を作った時、 $g(y)dy = f(x)dx$ となる。

3章: 多変数の確率分布

同時確率密度関数例えば2次元では $$ F(X, Y) \equiv \begin{cases} \sum_{x_{i} < x}\sum_{y_{i} < y} f(x_{i},y_{i})\\ \int_{-\infty}^{x}\int_{-\infty}^{y} f(u,v) dudv \end{cases} $$ と定義される。

周辺分布はxやyの一方を全区間で積分したもの(xのみoryのみ)

共分散、相関係数

共分散: $$ σ_{xy} = C ov[X,Y] = E[(X-\mu_{x})(Y-\mu_{y})] = \begin{cases} \sum_{i}\sum_{j}(x-\mu_{x})(y-\mu_{y})f(x_{i}, y_{i})\\ \int\int(x-\mu_{x})(y-\mu_{y})f(x,y)dxdy \end{cases} $$

相関係数: $\rho_{xy} = \dfrac{σ_{xy}}{σ_{x}σ_{y}}$

その他 $$ C ov[X,Y] = E[XY] - E[X]E[Y] $$ $$ V[aX+bY] = a^{2}V[X] + 2abC ov[X,Y] + b^{2}V[Y] $$
変数変換 $g(z,w) = f(x,y) |\dfrac{\partial(x,y)}{\partial(z,w)}|$ ここで絶対値の部分はヤコビアンで $\mathrm{det}\begin{pmatrix} \dfrac{\partial x}{\partial z} &\dfrac{\partial x}{\partial w}\\ \dfrac{\partial y}{\partial z} &\dfrac{\partial y}{\partial w} \end{pmatrix}$。

4章: 離散分布

二項分布、ベルヌーイ分布: モーメント母関数を使って期待値、分散を計算しているところが新鮮
幾何分布: ベルヌーイ試行を成功するまで繰り返すときの回数の分布 $Geo(n; p) = p(1-p)^{n-1}$
ポアソン分布: 1000人に誕生日を尋ねて自分と一致する確率を求める問題でnが大きく、pが小さいということで分布をポアソン分布とみなして説いていた。分布の使い方は定義に則ってそのまま適応するだけでなくいいタイミングで近似を利用して計算量を減らすことも大事かもしれない。

5章: 連続分布

指数分布
正規分布: 積分するときは極座標に変数変換する。
$\chi^{2}$ 分布: 標準正規分布に従う独立な変数n個の2乗の和の分布 $x>0$ で $f(x; n) = \dfrac{1}{\Gamma(n/2)2^{n/1}}x^{n/2-1}e^{-x/2}$

6章: 特性関数

特性関数: 確率密度関数をフーリエ変換したもの。(通常のフーリエ変換とはeの指数の符号が逆) $$ \phi(\omega) = E[e^{i\omega X}] = \int_{-\infty}^{\infty} e^{i\omega x}f(x)dx $$ 特性関数から確率密度関数を得るには逆フーリエ変換する。 $$ f(x) = \dfrac{1}{2\pi}\int_{-\infty}^{\infty} e^{-i\omega x}\phi(\omega) d\omega $$

確率密度関数と特性関数は一対一対応していて、モーメント母関数も一対一対応するので $f_{1} = f_{2} \Leftrightarrow M_{1} = M_{2}$ 。実際、 $\phi(\omega) = M(i\omega)$ が成り立つ。また1をフーリエ変換するとデルタ関数になる。畳み込み積分のフーリエ変換はフーリエ変換したものの積に等しい。つまり、 $f_{3}(x) = \int_{-\infty}^{\infty} f_{1}(x-t)f_{2}(t)dt$ が $\phi_{3}(\omega) = \phi_{1}(\omega)\phi_{2}(\omega)$ 。

分布	特性関数
2項分布
幾何分布
ポアソン分布
指数分布
正規分布
$\chi^{2}$ 分布

これ以外の離散分布などでも表現できる。信頼区間の狭い関数は特性関数にすると信頼区間が広くなる。(不確定性原理)

<追記(2018/12/14): 畳み込みが何か分からなくなったのでメモ>

逆畳み込みについて教えてください -逆畳み込みについて教えてください- 数学 | 教えて!goo

一般に、convolution f=ghにおいてfとgを与えてhを推定する問題をdeconvolutionと言います。多分これのことでしょう。例えばg(x,y)が濃淡画像、h(x,y)が線形な光学系のpoint spread function (これは光学系での呼び名で、一般には伝達関数modulation transfer function[MTF]と言います)、f(x,y)が「画像gを光学系hで撮影した像」ということだとすると、fは二つの関数g,hの二次元畳み込み(convolution) f = ghで表せます。だからこの場合、gとfからpoint spread function hを推定するのがdeconvolutionです。
たたみ込み演算による画像処理
- 1次元のやつを見ると理解が生えやすい

<追記ここまで>

7章: 中心極限定理

大数の法則: 大標本では標本平均を母平均とみなしてよい。
中心極限定理: 母集団によらず確率変数の和の確率分布の形はnが大きくなると正規分布に近づく。

チェビシェフの不等式を用いて二項分布の場合の大数の法則が示せる。

8章: 推定

推定量: 不偏性、一致性(標本数が大きくなれば真の値に近づく)、漸近正規性(分布が正規分布に近づく)、有効性(分散が小さい)を満たすものは良い推定量と考えられる。
最尤法(ML推定): 尤度関数を最大化するパラメータ推定法。
最大事後確率推定(MAP推定): 事後確率分布が最大になるようなパラメータ推定法。

9章: 統計学的検定

有意水準: 仮説を棄却するかしないかの基準。
帰無仮説: (= 仮説)
対立仮説: 帰無仮説と対立する仮説。
第1種の過誤( $\alpha$ 過誤): 偽陽性、第2種の過誤( $\beta$ 過誤): 偽陰性

この章と演習問題の記述は分散と標準偏差が入れ替わっているところがあるので注意。

平均に関する検定

母分散 $σ$ が既知の場合:

正規分布を仮定して、標本の平均と基準の差を正規化した値を $Z$ は、 $\bar{X}$ の分散は $\dfrac{σ^{2}}{n}$ であることに注意して計算すると、 $Z = \dfrac{\bar{X}- \mu}{σ/\sqrt{n}}$ 。これは正規分布に従うので有意水準を下回れば帰無仮説を支持、上回れば棄却する。両側検定と片側検定がある。

母分散が未知の場合:

正規分布を仮定した上で、 $n \times s^{2}/σ^{2}$ は自由度n-1の $\chi^{2}$ 分布に従うことを利用する( $s^{2}$ は標本分散)。t統計量を $t = \dfrac{\dfrac{\bar{X} - \mu}{σ/\sqrt{n}}}{\sqrt{ns^{2}/σ^{2}}/n} = \dfrac{\bar{X} - \mu}{s\sqrt{1/n}}$ と定義すると、これは自由度n-1のt分布に従うので有意水準と比較する。

分散に関する検定

分散の比 $\dfrac{(n-1)s^{2}}{σ_{0}^{2}}$ (または $\dfrac{nS^{2}}{σ_{0}^{2}}$ )が自由度n-1の $\chi^{2}$ 分布に従うと仮定して有意水準と比較する(両側検定、片側検定どちらも可。)。ここで $s$ は不偏分散、 $S$ は標本分散。

平均の差に関する検定

母分散 $σ_{1}$ 、 $σ_{2}$ が既知の場合:

差は $N(\mu_{1} - \mu_{2}, \dfrac{σ_{1}^{2}}{m} + \dfrac{σ_{2}^{2}}{n})$ に従う。標準化変数 $Z = \dfrac{(\bar{X} - \bar{Y}) - (\mu_{1} - \mu_{2})}{\sqrt{\frac{σ_{1}^{2}}{m} + \frac{σ_{2}^{2}}{n}}}$ を用いて検定する。

母分散が等しいが未知の場合: (多重検定になるのでいきなりWelchの検定を行うほうが良いらしい)

それぞれが正規分布に従うと仮定する。2つの標本を合わせたものの不偏分散を $s = \dfrac{\sum(X_{i} - \bar{X})^{2} + \sum(Y_{i} - \bar{Y})^{2}}{m + n - 2}$ とすると、 $(m + n - 2)s^{2}/σ^{2}$ は自由度m+n-2の $\chi^{2}$ 分布に従うことを利用する。 $t = \dfrac{(\bar{X} - \bar{Y}) - (\mu_{1} - \mu_{2})}{s\sqrt{(1/m + 1/n)}}$ として、自由度m+n-2のt分布の有意水準と比較する。

母分散が等しいとは限らず未知の場合: Welchのt検定と呼ばれる近似的な手法である。

母分散が既知の場合の標準化変数Zに $σ^{2}$ に標本分散 $s^{2}$ を代入したもの $t = \dfrac{(\bar{X} - \bar{Y})-(\mu_{1} - \mu_{2})}{\sqrt{\frac{s_{1}^{2}}{m} + \frac{s_{2}^{2}}{n}}}$ が自由度 $v^{*} = \mathrm{round}(\dfrac{(\frac{s_{1}^{2}}{m} + \frac{s_{2}^{2}}{n})^{2}}{\frac{(s_{1}^{2}/m)^{2}}{m -1} + \frac{(s_{2}^{2}/n)^{2}}{n-1}})$ のt分布の有意水準と比較する。

10章: 確率過程

確率過程: 確率変数(tの関数) $X_{t}$ の列を確率過程と呼ぶ。tが連続な連続時間型と離散な離散時間型がある。
ガウス過程: n変量の正規分布の列(TODO: 理解できていない)。線型結合は正規分布になる。分散 $σ^{2}$ の正規分布に従い互いに独立な列を正規白色過程or正規ホワイトノイズという。
マルチンゲール: E[S(n+1)|S(n)] = S(n)。過去の情報から計算した期待値と未来の期待値が同じになる。この性質は公平な賭け事を行っているときの持ち金の変遷に現れるものだと考えられている。
ランダムウォーク(ブラウン運動、ウィーナー過程): なんとなく知っている奴。マルチンゲールになっている。

マルコフ過程

次の時点での確率分布が直前のn個の時刻の値によることをマルコフ性といい、マルコフ過程はマルコフ性を持つ確率過程。

$$ \begin{align} P(X(t+1)|X(t)=x_{t}, \ldots, X(1) = x_{1}) &\equiv &P(X(t+1)|X(t)=x_{t}, \dots, X(t-n+1) = x_{t-n+1})\\ P(X(t+1)|X(t)=x_{t}, \dots, X(1) = x_{1}) &\equiv &P(X(t+1)|X(t)=x_{t}) \end{align} $$ 上がn重マルコフ過程、下が1重マルコフ過程。

Xの取りうる値を状態、取りうる値の集合を状態空間といい、1重マルコフ過程を考えるとき、状態xiから状態xjに移動する確率をpijとすると行列 $P=(p_{ij})$ は遷移行列と呼ばれる。遷移行列t個の積はt回遷移する行列である。

(強)定常過程: 確率分布が時間や位置によって変化しない(wikipedia)or時間や区間によって変化しない(このテキスト)。
(弱)定常過程: 平均と分散が時間によらない。相関関数 $E[X(t)X(t+τ)$ ]が時間差 $τ$ のみに依存する。
エルゴード性: 集団平均と時間平均が一致すること。定常過程では $E[X(t)$ ]とある時間間隔での平均 $1/nσ_{t=t_{0}}^{t_{0}+n}X(t)$ が一致すること。任意の状態から他の任意の状態に到達可能なときにエルゴード性を持つ。
隠れマルコフ過程: 観測される状態系列から内部の遷移状態が直接観測できない。(例: サイコロを2つの一方を転がした目は教えてもらえるがどちらかは教えてもらえない。)
マルコフ決定過程、報酬行列: 状態の遷移に対して報酬を設定、それぞれ状態で得られる状態と合わせた和が大きくなるようにする問題らしい。

11章: 相関関数とスペクトル

自己相関関数

$\phi_{XX}(t_{1},t_{2})=E[X(t_{1})X(t_{2})$ ]。定常過程なら時間差 $τ$ の関数になる。 $E[(X(t_{1}-\mu_{1}))(X(t_{2}-\mu_{2}))$ ]で定義される自己共分散関数を自己相関関数という場合もある。

自己相関関数の性質
- $\phi(τ) = \phi(-τ)$
- $\phi(τ) \leq \phi(0)$

相互相関関数

$\phi_{XY}(t_{1}, t_{2}) = E[X(t_{1})Y(t_{2})$ ]。それぞれが定常過程なら、時間差 $τ$ の関数になる。

ここから先は今は関係なさそうなので単語の定義だけ列挙しておく

パワースペクトル
離散フーリエ変換、離散逆フーリエ変換
ウィーナーヒンチンの定理
ピリオドグラム
クロススペクトル
窓関数
- 矩形窓、ハニング窓、ハミング窓

12章: 予測と推定

線形システム
時不変
単位インパルス信号
z変換
伝達関数
零点
収束領域(ROC)
自己回帰過程
自己回帰係数
線形予測係数
予測残差
正規方程式、Yule-Warker方程式
移動平均過程
移動平均システム
自己回帰移動平均過程
多変量自己回帰過程
非定常過程
トレンド

感想

簡単で読みやすいのだけれど、誤植、用語の誤用が若干ある。自分が知りたいタイプの確率過程(ディリクレ過程とかガウス過程)はあまり対象でないらしくかなりさらっと流す感じである。しかし自分のような基礎がない人には入門確率過程だけを読むよりはインプットも多くなってスムーズだと思う。11章、12章は詰め込んでいる感じが否めないのでそのような内容を期待する場合でももう少しページをとって説明してある本を読みたい。

tak0kadaの何でもノート

発声練習、生存確認用。

「確率と確率過程」を読んだ