これから水曜日の5時15分から統計基礎勉強会に参加する。題材は「統計的学習の基礎」で、機械学習、データマイニングの教科書らしい。このページをまとめページとして利用する。
目次
- 第1章: 序章
- 第2章: 教師あり学習の概要
- 線型手法
- 第3章: 回帰のための線型手法
- 第4章: 分類のための線型手法
- 第5章: 基底展開と正則化
- 第6章: カーネル平滑化法
- 第7章: モデルの評価と選択
- 第8章: モデル推論と平均化
- 第9章: 加法的モデル、木、および関連手法
- 第10章: ブースティングと加法的木
- 第11章: ニューラルネットワーク
- 第12章: サポートベクトルマシンと適応型判別
- 第13章: プロトタイプ法と再近傍探索
- 第14章: 教師なし学習
- 第15章: ランダムフォレスト
- 第16章: アンサンブル学習
- 第17章: 無向グラフィカルモデル
- 第18章: 高次元の問題: p >> N
基本的に教師あり学習のほうが研究が進んでいるそうで、教師なし学習の話題は14章以降。
学習の例
教師あり学習の例であることに注目して読むこと!
分類問題
不連続データ教師あり学習の例として、電子メールのスパム振り分けを考える。テキスト中の表は人(教師)が分類した結果である。スパムの偽陽性は読むべきメールが除去されるので好ましくないが、偽陰性は深刻な問題を起こしにくいという点で非対称性がある。
他の分類問題としてはエクソンとイントロン、がん陽性、陰性とか?後者はペナルティが絶対必要だし、人間の判断に任せる部分が合ってもいいかもしれない。
回帰問題
連続データの例として測定済みのデータを利用して、それぞれのパラメータの関係を調べたものを利用して得られていない情報を推定することを考えている?多数の測定値の間の相関関係を調べることを考える。
Rでプロットするにはマトリックスでデータを与えれば良さそう。
> head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa # irisデータの散布図行列 > plot(iris) or pairs(iris)
# 種類だけ別に色情報として表示 > pairs(iris[1:4], pch = 21, bg = c("red", "green3", "blue")[unclass(iris$Species)])
たくさんの微分方程式の係数を決めたりできそう。線型な関係しか見ないのなら相関係数を計算してしまってもいいかもしれない。
文字認識
郵便配達のために数字の識別を考えている。例1との違いは精度をかなり高めないといけないので、そのために読み取り不能カテゴリを設定している点。
教師なし学習(DNA発現マイクロアレイ)
DNAマイクロアレイの説明は東レのHPがわかりやすかった。複数サンプル、複数種類のmRNAの発現量を測定する方法。相補的なDNAを結合させておいたウェルに蛍光マーカー付きのサンプルを投入すると、mRNAの量に応じて色が変わる。赤>黒(黄?)>緑の順に発現量が少なくなる。
データ量がかなり多くて出力データには相当量の情報が含まれている。例えば行が遺伝子、列がサンプルに対応しているなら、遺伝子とサンプル間の関係や遺伝子間、サンプル間の関係は人の目でも関係が強い(弱い)ものは見分けられそう。回帰として見る場合、遺伝子の発現量からがんの種類への関数を調べる問題としてみるのだろうか。教師なし学習問題として見る場合、データだけから何か知見を得る過程をいうらしい。