変異のモード

統計学において、変動モード^[1]は、平均を中心とする連続的にインデックス付けされたベクトルまたは関数のセットであり、母集団またはサンプルの変動を表すために使用されます。通常、データの変動パターンは、対応する固有ベクトルまたは固有関数で表された方向を持つ固有値の降順に分解できます。変動モードは、この分解を視覚化し、平均値の周りの変動を効率的に記述します。主成分分析（PCA）と機能主成分分析（FPCA）の両方において、変動モードは、各固有成分によってもたらされるデータ内の変動を視覚化および記述する上で重要な役割を果たします。^{[2]実際のアプリケーションでは、固有成分と関連する変動モードは、特に}探索的データ分析（EDA）で複雑なデータを解釈するのに役立ちます。

処方

変動モードは、PCAとFPCAの自然な拡張です。

変動のモードPCA

ランダムベクトルが平均ベクトルと、固有値と対応する直交固有ベクトルを持つ共分散行列を持つ場合、実対称行列の固有値分解により、共分散行列は次のように分解できます。 $\mathbf {X} =(X_{1},X_{2},\cdots ,X_{p})^{T}$ ${\boldsymbol {\mu }}_{p}$ $\mathbf {\Sigma } _{p\times p}$ $\lambda _{1}\geq \lambda _{2}\geq \cdots \geq \lambda _{p}\geq 0$ $\mathbf {e} _{1},\mathbf {e} _{2},\cdots ,\mathbf {e} _{p}$ $\mathbf {\Sigma }$

\mathbf {\Sigma } =\mathbf {Q} \mathbf {\Lambda } \mathbf {Q} ^{T},

ここで、はの固有ベクトルを列とする直交行列であり、はの固有値を要素とする対角行列である。ランダムベクトルのカルーネン・レーヴ展開により、中心ランダムベクトルを固有基底で表すことができる。 $\mathbf {Q}$ $\mathbf {\Sigma }$ $\mathbf {\Lambda }$ $\mathbf {\Sigma }$

\mathbf {X} -{\boldsymbol {\mu }}=\sum _{k=1}^{p}\xi _{k}\mathbf {e} _{k},

ここで、は-番目の固有ベクトルに関連付けられた主成分^[3]であり、その特性は $\xi _{k}=\mathbf {e} _{k}^{T}(\mathbf {X} -{\boldsymbol {\mu }})$ $k$ $\mathbf {e} _{k}$

\operatorname {E} (\xi _{k})=0,\operatorname {Var} (\xi _{k})=\lambda _{k},

そして

\operatorname {E} (\xi _{k}\xi _{l})=0\ {\text{for}}\ l\neq k.

の- 番目の変分モードは、でインデックス付けされたベクトルの集合です。 $k$ $\mathbf {X}$ $\alpha$

\mathbf {m} _{k,\alpha }={\boldsymbol {\mu }}\pm \alpha {\sqrt {\lambda _{k}}}\mathbf {e} _{k},\alpha \in [-A,A],

ここで、は通常として選択されます。 $A$ $2\ {\text{or}}\ 3$

変動のモードFPCA

二乗積分可能なランダム関数（通常、とは区間）の場合、平均関数を、共分散関数をで表します。 $X(t),t\in {\mathcal {T}}\subset R^{p}$ $p=1$ ${\mathcal {T}}$ $\mu (t)=\operatorname {E} (X(t))$

G(s,t)=\operatorname {Cov} (X(s),X(t))=\sum _{k=1}^{\infty }\lambda _{k}\varphi _{k}(s)\varphi _{k}(t),

ここで、は固有値であり、は線形ヒルベルト・シュミット作用素の直交固有関数である。 $\lambda _{1}\geq \lambda _{2}\geq \cdots \geq 0$ $\{\varphi _{1},\varphi _{2},\cdots \}$

G:L^{2}({\mathcal {T}})\rightarrow L^{2}({\mathcal {T}}),\,G(f)=\int _{\mathcal {T}}G(s,t)f(s)ds.

カルーネン・レーヴの定理により、中心関数を固有基底で表すことができる。

X(t)-\mu (t)=\sum _{k=1}^{\infty }\xi _{k}\varphi _{k}(t),

どこ

\xi _{k}=\int _{\mathcal {T}}(X(t)-\mu (t))\varphi _{k}(t)dt

は、次の特性を持つ第 -番目の主成分である。 $k$

\operatorname {E} (\xi _{k})=0,\operatorname {Var} (\xi _{k})=\lambda _{k},

そして

\operatorname {E} (\xi _{k}\xi _{l})=0{\text{ for }}l\neq k.

の変分のモードは、でインデックス付けされた関数の集合である。 $k$ $X(t)$ $\alpha$

m_{k,\alpha }(t)=\mu (t)\pm \alpha {\sqrt {\lambda _{k}}}\varphi _{k}(t),\ t\in {\mathcal {T}},\ \alpha \in [-A,A]

の範囲にわたって同時に観測されるもので、通常はである。^[2] $\alpha$ $A=2\ {\text{or}}\ 3$

推定

上記の定式化は母集団の特性から導き出されたものです。実社会での応用では推定が不可欠です。鍵となるのは、平均と共分散を推定することです。

変動のモードPCA

データが平均ベクトルと共分散行列を持つ-次元母集団からの独立した抽出であると仮定する。これらのデータから、標本平均ベクトルと、固有値-固有ベクトルのペアを持つ標本共分散行列が得られる。この場合、の- 次モードは次のように推定できる。 $\mathbf {x} _{1},\mathbf {x} _{2},\cdots ,\mathbf {x} _{n}$ $n$ $p$ $\mathbf {X}$ ${\boldsymbol {\mu }}$ $\mathbf {\Sigma }$ ${\overline {\mathbf {x} }}$ $\mathbf {S}$ $({\hat {\lambda }}_{1},{\hat {\mathbf {e} }}_{1}),({\hat {\lambda }}_{2},{\hat {\mathbf {e} }}_{2}),\cdots ,({\hat {\lambda }}_{p},{\hat {\mathbf {e} }}_{p})$ $k$ $\mathbf {X}$

{\hat {\mathbf {m} }}_{k,\alpha }={\overline {\mathbf {x} }}\pm \alpha {\sqrt {{\hat {\lambda }}_{k}}}{\hat {\mathbf {e} }}_{k},\alpha \in [-A,A].

変動のモードFPCA

平均関数と共分散関数を持つ二乗積分可能なランダム関数の実現を考えてみましょう。関数主成分分析は、とを推定するための詳細な方法を提供し、多くの場合、点ごとの推定と補間を伴います。未知の量に推定値を代入すると、の次モードは次のように推定できます。 $n$ $X_{1}(t),X_{2}(t),\cdots ,X_{n}(t)$ $X(t),t\in {\mathcal {T}}$ $\mu (t)=\operatorname {E} (X(t))$ $G(s,t)=\operatorname {Cov} (X(s),X(t))$ $\mu (t)$ $G(s,t)$ $k$ $X(t)$

{\hat {m}}_{k,\alpha }(t)={\hat {\mu }}(t)\pm \alpha {\sqrt {{\hat {\lambda }}_{k}}}{\hat {\varphi }}_{k}(t),t\in {\mathcal {T}},\alpha \in [-A,A].

アプリケーション

変動モードは、固有値でソートされたデータの変動パターンを視覚化し、記述するのに役立ちます。実際の応用では、固有成分に関連付けられた変動モードは、関数特性の進化^[5]やその他の無限次元データ^[6]などの複雑なデータを解釈することを可能にします。変動モードが実際にどのように機能するかを示すために、右側のグラフに最初の2つの変動モードを示す2つの例を示します。実線は標本平均関数を表します。破線、一点鎖線、点線の曲線は、それぞれおよびの変動モードに対応します。 $\alpha =\pm 1,\pm 2,$ $\pm 3$

最初のグラフは、2003年の41カ国における女性死亡率データの最初の2つの変動モードを示しています。^[4]ここで注目するのは、 0歳から100歳までの対数ハザード関数です。最初の変動モードは、女性死亡率の変動が0歳または100歳付近では小さく、25歳付近では大きいことを示唆しています。適切かつ直感的な解釈としては、25歳付近の死亡率は事故死によるものであり、0歳または100歳付近の死亡率は先天性疾患または自然死によるものであると考えられます。

女性の死亡率データと比較すると、男性の死亡率データの変動モードは、20 歳前後以降の死亡率が高くなることを示しており、これは女性の平均寿命が男性の平均寿命よりも高いという事実と関係している可能性がある。

参考文献

^ Castro, PE; Lawton, WH; Sylvestre, EA (1986年11月). 「連続標本曲線を持つプロセスの主変動モード」. Technometrics . 28 (4): 329. doi :10.2307/1268982. ISSN 0040-1706. JSTOR 1268982.
^ ab Wang, Jane-Ling; Chiou, Jeng-Min; Müller, Hans-Georg (2016年6月). 「関数データ分析」. Annual Review of Statistics and Its Application . 3 (1): 257– 295. doi : 10.1146/annurev-statistics-041715-033624 . ISSN 2326-8298.
^ クレッフ、ユルゲン (1973 年 1 月)。「分離可能なヒルベルト空間内の値を持つ確率変数の主成分」。数学演算と統計。4 (5): 391–406。土井:10.1080/02331887308801137。ISSN 0047-6277。
^ abc 「Human Mortality Database」. www.mortality.org . 2020年3月12日閲覧。
^ マーク・カークパトリック、ナンシー・ヘックマン（1989年8月）「成長、形状、反応規範、その他の無限次元形質に関する定量的遺伝モデル」Journal of Mathematical Biology . 27 (4): 429– 450. doi :10.1007/bf00290638. ISSN 0303-6812. PMID 2769086. S2CID 46336613.
^ Jones, MC; Rice, John A. (1992年5月). 「類似曲線の大規模集合における重要な特徴の表示」. The American Statistician . 46 (2): 140– 145. doi :10.1080/00031305.1992.10475870. ISSN 0003-1305.

[1] Castro, PE; Lawton, WH; Sylvestre, EA (1986年11月). 「連続標本曲線を持つプロセスの主変動モード」. Technometrics . 28 (4): 329. doi :10.2307/1268982. ISSN 0040-1706. JSTOR 1268982.

[:0-2] Wang, Jane-Ling; Chiou, Jeng-Min; Müller, Hans-Georg (2016年6月). 「関数データ分析」. Annual Review of Statistics and Its Application . 3 (1): 257– 295. doi : 10.1146/annurev-statistics-041715-033624 . ISSN 2326-8298.

[3] クレッフ、ユルゲン (1973 年 1 月)。「分離可能なヒルベルト空間内の値を持つ確率変数の主成分」。数学演算と統計。4 (5): 391–406。土井:10.1080/02331887308801137。ISSN 0047-6277。

[:1-4] 「Human Mortality Database」. www.mortality.org . 2020年3月12日閲覧。

[5] マーク・カークパトリック、ナンシー・ヘックマン（1989年8月）「成長、形状、反応規範、その他の無限次元形質に関する定量的遺伝モデル」Journal of Mathematical Biology . 27 (4): 429– 450. doi :10.1007/bf00290638. ISSN 0303-6812. PMID 2769086. S2CID 46336613.

[6] Jones, MC; Rice, John A. (1992年5月). 「類似曲線の大規模集合における重要な特徴の表示」. The American Statistician . 46 (2): 140– 145. doi :10.1080/00031305.1992.10475870. ISSN 0003-1305.