読者です 読者をやめる 読者になる 読者になる

tak0kadaの何でもノート

発声練習、生存確認用。

医学関連は 医学ノート

「Imitation, Genetic Lineages, and Time Influenced the Morphological Evolution of the Violin」を読んだ

統計 系統樹 論文 かたち 線形判別 主成分分析 スプライン 順位相関係数 分散分析

細胞の形の分析に取り組んでいるわけだが、バイオリンの形に関する分析の論文があったので読んでみた。以下は手法と解釈についてのメモ。数学的に厳密な理解までは手が届いていない。

  • 変数として、楽器の種類、作者、製造年、土地、形を考えてそれらの関係を調べる。
  • 形は楕円フーリエ記述子解析、調和関数を基底として展開する。
    • 「形」はそのままだと扱えないので、数学の助けを借りないなら面積などでクラス分けしてカテゴリ変数にすることになりそう。(少し恣意的か?)
    • バイオリンの画像は上から撮った写真を二値化したものを用いる。競売のためのもので、高級なものが多いなどの選択バイアスがありそう。
  • 形が連続で高次元ということで、一番情報量が多いからか、形を説明変数に用いている。

  • 解析手法

    • 主成分分析でまとまった指標を作る
    • 線形判別解析でクラス分けする
    • 階層クラスタリングで系統の有無を調べる
  • 主成分分析と線形判別解析の共通点としては、ひとまとまりにすることで次元を削減する点がある。違いとしては

    • 主成分分析は全体を説明する←→線形判別解析は集団内での違いを説明する
    • 主成分分析: 固有ベクトルの係数のベクトルという連続な指標になる←→線形判別解析: 順序のつかないカテゴリ指標にクラス分けする

1. 主成分分析(PCA)

楕円フーリエ記述子解析

  • ここでは楕円フーリエ記述子解析で取り出したベクトルを主成分分析する
  • 楕円フーリエ解析参考サイト1参考サイト2
    • これは中村さんが自己紹介の時に説明していた解析とおそらく同じ
    • 楕円は3パラメータで決定される
    • MΦの形など角度から円弧へ一対一の対応がない場合は事前に変形が必要
    • 他にも基底はありえるらしい。無限次元なら自由だと思うが離散なら基底次第で取れる情報が変わりそう

主成分分析

f:id:kuyata:20160128174239p:plain

  • 「主な」方向から順に取り出していく
  • 一般的に固有ベクトルはPC1、PC2と命名される
  • 主な成分から取り出すのですべての基底をとり出さなくても全体の説明がつく(次元削減)
  • Dの図を見るとPC1軸の方がPC2軸より分散が少ないのは取り出す順番のため

2. 線形判別解析(LDA)

f:id:kuyata:20160128174440p:plain

  • 線形判別解析は確率に基づいたクラス分けという点でパーセプトロンとは異なる(参考サイト4)
    • 集団がよく分離するようなベクトルを見つけてクラス分けしていく

調和関数

  • PCA参考サイト2に出てくるL.Shenさんの論文でも見られる
  • 線形判別解析の方が細かい解析をしやすいのでMANOVA、スピアマンの順序相関係数が使われている
  • ここでは調和関数を基底として展開する
    • 楕円フーリエ記述子解析の3次元以上版らしいが、手法を変えた理由は不明
    • 参考サイト3によるとルジャンドル陪関数?の計算が遅いため調和関数を用いるほうが時間はかかる

MANOVA

  • 参考サイト5参考サイト6
    • ANOVA、MANOVAはカテゴリ変数に対して、連続変数の分散を用いてカテゴリ変数間の平均の違いがあるかを検出する
    • ANOVAは説明変数は1つ、MANOVAは複数

スピアマンの順序相関係数

f:id:kuyata:20160128185727p:plain

  • スピアマンの順位相関係数
    • 順序のある2つの変数の差を図る方法。順番のみに依存するノンパラメトリック手法。-1が逆向き、1が順方向の相関、0が無相関を表す
    • Bのグラフはρ値の絶対値が小さいなら帰無仮説が否定されるということがわかる

3. 階層クラスタリング

階層化クラスタリングは系統の分岐を調べてグループごとに解釈をするのに役立つ。

4. その他、可視化

Thin Plateスプライン

f:id:kuyata:20160128174440p:plain

  • Dの網目はThin Plateスプラインのプロット
    • 形の変化を目で見やすい(3次元以上は苦しそう)

ボックスプロットその他

f:id:kuyata:20160128182709p:plain f:id:kuyata:20160128185837p:plain

ボックスプロットを複数並べるだけでも結構な情報量がある。