変異のモード

統計学において、変動モード[1]は、平均を中心とする連続的にインデックス付けされたベクトルまたは関数のセットであり、母集団またはサンプルの変動を表すために使用されます。通常、データの変動パターンは、対応する固有ベクトルまたは固有関数で表された方向を持つ固有値の降順に分解できます。変動モードは、この分解を視覚化し、平均値の周りの変動を効率的に記述します。主成分分析(PCA)と機能主成分分析(FPCA)の両方において、変動モードは、各固有成分によってもたらされるデータ内の変動を視覚化および記述する上で重要な役割を果たします。[2]実際のアプリケーションでは、固有成分と関連する変動モードは、特に探索的データ分析(EDA)で複雑なデータを解釈するのに役立ちます

処方

変動モードは、PCAFPCAの自然な拡張です。

変動のモードPCA

ランダムベクトルが平均ベクトルと、固有値と対応する直交固有ベクトルを持つ共分散行列 を持つ場合、実対称行列 の固有値分解により、共分散行列は次のように分解できます。 X = ( X 1 , X 2 , , X p ) T {\displaystyle \mathbf {X} =(X_{1},X_{2},\cdots ,X_{p})^{T}} μ p {\displaystyle {\boldsymbol {\mu }}_{p}} Σ p × p {\displaystyle \mathbf {\Sigma } _{p\times p}} λ 1 λ 2 λ p 0 {\displaystyle \lambda _{1}\geq \lambda _{2}\geq \cdots \geq \lambda _{p}\geq 0} e 1 , e 2 , , e p {\displaystyle \mathbf {e} _{1},\mathbf {e} _{2},\cdots ,\mathbf {e} _{p}} Σ {\displaystyle \mathbf {\Sigma } }

Σ = Q Λ Q T , {\displaystyle \mathbf {\Sigma } =\mathbf {Q} \mathbf {\Lambda } \mathbf {Q} ^{T},}

ここで、は の固有ベクトルを列とする直交行列であり、は の固有値を要素とする対角行列である。ランダムベクトルのカルーネン・レーヴ展開により、中心ランダムベクトルを固有基底で 表すことができる。 Q {\displaystyle \mathbf {Q} } Σ {\displaystyle \mathbf {\Sigma } } Λ {\displaystyle \mathbf {\Lambda } } Σ {\displaystyle \mathbf {\Sigma } }

X μ = k = 1 p ξ k e k , {\displaystyle \mathbf {X} -{\boldsymbol {\mu }}=\sum _{k=1}^{p}\xi _{k}\mathbf {e} _{k},}

ここで、 は-番目の固有ベクトルに関連付けられた主成分[3]であり、その特性は ξ k = e k T ( X μ ) {\displaystyle \xi _{k}=\mathbf {e} _{k}^{T}(\mathbf {X} -{\boldsymbol {\mu }})} k {\displaystyle k} e k {\displaystyle \mathbf {e} _{k}}

E ( ξ k ) = 0 , Var ( ξ k ) = λ k , {\displaystyle \operatorname {E} (\xi _{k})=0,\operatorname {Var} (\xi _{k})=\lambda _{k},} そして E ( ξ k ξ l ) = 0   for   l k . {\displaystyle \operatorname {E} (\xi _{k}\xi _{l})=0\ {\text{for}}\ l\neq k.}

- 番目の変分モードは、 でインデックス付けされたベクトルの集合です k {\displaystyle k} X {\displaystyle \mathbf {X} } α {\displaystyle \alpha }

m k , α = μ ± α λ k e k , α [ A , A ] , {\displaystyle \mathbf {m} _{k,\alpha }={\boldsymbol {\mu }}\pm \alpha {\sqrt {\lambda _{k}}}\mathbf {e} _{k},\alpha \in [-A,A],}

ここで、 は通常 として選択されます A {\displaystyle A} 2   or   3 {\displaystyle 2\ {\text{or}}\ 3}

変動のモードFPCA

二乗積分可能な ランダム関数 (通常、 とは区間)の場合、平均関数を共分散関数を で 表します。 X ( t ) , t T R p {\displaystyle X(t),t\in {\mathcal {T}}\subset R^{p}} p = 1 {\displaystyle p=1} T {\displaystyle {\mathcal {T}}} μ ( t ) = E ( X ( t ) ) {\displaystyle \mu (t)=\operatorname {E} (X(t))}

G ( s , t ) = Cov ( X ( s ) , X ( t ) ) = k = 1 λ k φ k ( s ) φ k ( t ) , {\displaystyle G(s,t)=\operatorname {Cov} (X(s),X(t))=\sum _{k=1}^{\infty }\lambda _{k}\varphi _{k}(s)\varphi _{k}(t),}

ここで、は固有値であり、は線形ヒルベルト・シュミット作用素の直交固有関数である。 λ 1 λ 2 0 {\displaystyle \lambda _{1}\geq \lambda _{2}\geq \cdots \geq 0} { φ 1 , φ 2 , } {\displaystyle \{\varphi _{1},\varphi _{2},\cdots \}}

G : L 2 ( T ) L 2 ( T ) , G ( f ) = T G ( s , t ) f ( s ) d s . {\displaystyle G:L^{2}({\mathcal {T}})\rightarrow L^{2}({\mathcal {T}}),\,G(f)=\int _{\mathcal {T}}G(s,t)f(s)ds.}

カルーネン・レーヴの定理により、中心関数を固有基底で表すことができる。

X ( t ) μ ( t ) = k = 1 ξ k φ k ( t ) , {\displaystyle X(t)-\mu (t)=\sum _{k=1}^{\infty }\xi _{k}\varphi _{k}(t),}

どこ

ξ k = T ( X ( t ) μ ( t ) ) φ k ( t ) d t {\displaystyle \xi _{k}=\int _{\mathcal {T}}(X(t)-\mu (t))\varphi _{k}(t)dt}

は、次の特性を持つ第 -番目の主成分 である。 k {\displaystyle k}

E ( ξ k ) = 0 , Var ( ξ k ) = λ k , {\displaystyle \operatorname {E} (\xi _{k})=0,\operatorname {Var} (\xi _{k})=\lambda _{k},} そして E ( ξ k ξ l ) = 0  for  l k . {\displaystyle \operatorname {E} (\xi _{k}\xi _{l})=0{\text{ for }}l\neq k.}

の変分のモードは、インデックス付けされた関数の集合である k {\displaystyle k} X ( t ) {\displaystyle X(t)} α {\displaystyle \alpha }

m k , α ( t ) = μ ( t ) ± α λ k φ k ( t ) ,   t T ,   α [ A , A ] {\displaystyle m_{k,\alpha }(t)=\mu (t)\pm \alpha {\sqrt {\lambda _{k}}}\varphi _{k}(t),\ t\in {\mathcal {T}},\ \alpha \in [-A,A]}

の範囲にわたって同時に観測されるもので、通常は である[2] α {\displaystyle \alpha } A = 2   or   3 {\displaystyle A=2\ {\text{or}}\ 3}

推定

上記の定式化は母集団の特性から導き出されたものです。実社会での応用では推定が不可欠です。鍵となるのは、平均と共分散を推定することです。

変動のモードPCA

データが平均ベクトルと共分散行列を持つ-次元母集団からの独立した抽出であると仮定する。これらのデータから、標本平均ベクトルと、固有値-固有ベクトルのペア を持つ標本共分散行列 が得られる。この場合、 の- 次モードは次のように推定できる。 x 1 , x 2 , , x n {\displaystyle \mathbf {x} _{1},\mathbf {x} _{2},\cdots ,\mathbf {x} _{n}} n {\displaystyle n} p {\displaystyle p} X {\displaystyle \mathbf {X} } μ {\displaystyle {\boldsymbol {\mu }}} Σ {\displaystyle \mathbf {\Sigma } } x ¯ {\displaystyle {\overline {\mathbf {x} }}} S {\displaystyle \mathbf {S} } ( λ ^ 1 , e ^ 1 ) , ( λ ^ 2 , e ^ 2 ) , , ( λ ^ p , e ^ p ) {\displaystyle ({\hat {\lambda }}_{1},{\hat {\mathbf {e} }}_{1}),({\hat {\lambda }}_{2},{\hat {\mathbf {e} }}_{2}),\cdots ,({\hat {\lambda }}_{p},{\hat {\mathbf {e} }}_{p})} k {\displaystyle k} X {\displaystyle \mathbf {X} }

m ^ k , α = x ¯ ± α λ ^ k e ^ k , α [ A , A ] . {\displaystyle {\hat {\mathbf {m} }}_{k,\alpha }={\overline {\mathbf {x} }}\pm \alpha {\sqrt {{\hat {\lambda }}_{k}}}{\hat {\mathbf {e} }}_{k},\alpha \in [-A,A].}

変動のモードFPCA

平均関数と共分散関数を持つ二乗積分可能なランダム関数実現を考えてみましょう関数主成分分析は、を推定するための詳細な方法を提供し、多くの場合、点ごとの推定と補間を伴います。未知の量に推定値を代入すると、の 次モードは次のように推定できます。 n {\displaystyle n} X 1 ( t ) , X 2 ( t ) , , X n ( t ) {\displaystyle X_{1}(t),X_{2}(t),\cdots ,X_{n}(t)} X ( t ) , t T {\displaystyle X(t),t\in {\mathcal {T}}} μ ( t ) = E ( X ( t ) ) {\displaystyle \mu (t)=\operatorname {E} (X(t))} G ( s , t ) = Cov ( X ( s ) , X ( t ) ) {\displaystyle G(s,t)=\operatorname {Cov} (X(s),X(t))} μ ( t ) {\displaystyle \mu (t)} G ( s , t ) {\displaystyle G(s,t)} k {\displaystyle k} X ( t ) {\displaystyle X(t)}

m ^ k , α ( t ) = μ ^ ( t ) ± α λ ^ k φ ^ k ( t ) , t T , α [ A , A ] . {\displaystyle {\hat {m}}_{k,\alpha }(t)={\hat {\mu }}(t)\pm \alpha {\sqrt {{\hat {\lambda }}_{k}}}{\hat {\varphi }}_{k}(t),t\in {\mathcal {T}},\alpha \in [-A,A].}

アプリケーション

2003年の41カ国の女性死亡率データの第1および第2の変動モード[4]
2003年の41カ国の男性死亡率データの第1および第2の変動モード[4]

変動モードは、固有値でソートされたデータの変動パターンを視覚化し、記述するのに役立ちます。実際の応用では、固有成分に関連付けられた変動モードは、関数特性の進化[5]やその他の無限次元データ[6]などの複雑なデータを解釈することを可能にします。変動モードが実際にどのように機能するかを示すために、右側のグラフに最初の2つの変動モードを示す2つの例を示します。実線は標本平均関数を表します。破線、一点鎖線、点線の曲線は、それぞれおよびの変動モードに対応します α = ± 1 , ± 2 , {\displaystyle \alpha =\pm 1,\pm 2,} ± 3 {\displaystyle \pm 3}

最初のグラフは、2003年の41カ国における女性死亡率データの最初の2つの変動モードを示しています。[4]ここで注目するのは、 0歳から100歳までの対数ハザード関数です。最初の変動モードは、女性死亡率の変動が0歳または100歳付近では小さく、25歳付近では大きいことを示唆しています。適切かつ直感的な解釈としては、25歳付近の死亡率は事故死によるものであり、0歳または100歳付近の死亡率は先天性疾患または自然死によるものであると考えられます。

女性の死亡率データと比較すると、男性の死亡率データの変動モードは、20 歳前後以降の死亡率が高くなることを示しており、これは女性の平均寿命が男性の平均寿命よりも高いという事実と関係している可能性がある。

参考文献

  1. ^ Castro, PE; Lawton, WH; Sylvestre, EA (1986年11月). 「連続標本曲線を持つプロセスの主変動モード」. Technometrics . 28 (4): 329. doi :10.2307/1268982. ISSN  0040-1706. JSTOR  1268982.
  2. ^ ab Wang, Jane-Ling; Chiou, Jeng-Min; Müller, Hans-Georg (2016年6月). 「関数データ分析」. Annual Review of Statistics and Its Application . 3 (1): 257– 295. doi : 10.1146/annurev-statistics-041715-033624 . ISSN  2326-8298.
  3. ^ クレッフ、ユルゲン (1973 年 1 月)。 「分離可能なヒルベルト空間内の値を持つ確率変数の主成分」。数学演算と統計4 (5): 391–406土井:10.1080/02331887308801137。ISSN  0047-6277。
  4. ^ abc 「Human Mortality Database」. www.mortality.org . 2020年3月12日閲覧。
  5. ^ マーク・カークパトリック、ナンシー・ヘックマン(1989年8月)「成長、形状、反応規範、その他の無限次元形質に関する定量的遺伝モデル」Journal of Mathematical Biology . 27 (4): 429– 450. doi :10.1007/bf00290638. ISSN  0303-6812. PMID  2769086. S2CID  46336613.
  6. ^ Jones, MC; Rice, John A. (1992年5月). 「類似曲線の大規模集合における重要な特徴の表示」. The American Statistician . 46 (2): 140– 145. doi :10.1080/00031305.1992.10475870. ISSN  0003-1305.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Modes_of_variation&oldid=1301238477"