機能主成分分析

Statistical method for investigating the dominant modes of variation of functional data

関数主成分分析（FPCA）は、関数データの主要な変動モードを調査する統計的手法です。この手法では、ランダム関数が固有基底で表現されます。固有基底は、自己共分散演算子の固有関数からなるヒルベルト空間L ²の直交基底です。FPCAは、固定数の基底関数を使用する場合、固有関数基底が他のどの基底展開よりも多くの変動を説明するという意味で、関数データを最も簡潔な方法で表現します。FPCAは、ランダム関数の表現^[1]や関数回帰^[2] 、分類に適用できます。

処方

平方積分可能な確率過程 X ( t ), t ∈ 𝒯 に対して、

\mu (t)={\text{E}}(X(t))

そして

G(s,t)={\text{Cov}}(X(s),X(t))=\sum _{k=1}^{\infty }\lambda _{k}\varphi _{k}(s)\varphi _{k}(t),

ここで、は固有値であり、、、...は線形ヒルベルト・シュミット作用素の直交固有関数である。 $\lambda _{1}\geq \lambda _{2}\geq ...\geq 0$ $\varphi _{1}$ $\varphi _{2}$

G:L^{2}({\mathcal {T}})\rightarrow L^{2}({\mathcal {T}}),\,G(f)=\int _{\mathcal {T}}G(s,t)f(s)ds.

カルーネン・レーヴの定理によれば、中心過程は固有基底で表現できる。

X(t)-\mu (t)=\sum _{k=1}^{\infty }\xi _{k}\varphi _{k}(t),

どこ

\xi _{k}=\int _{\mathcal {T}}(X(t)-\mu (t))\varphi _{k}(t)dt

はk番目の固有関数に関連付けられた主成分であり、次の性質を持つ。 $\varphi _{k}$

{\text{E}}(\xi _{k})=0,{\text{Var}}(\xi _{k})=\lambda _{k}{\text{ and }}{\text{E}}(\xi _{k}\xi _{l})=0{\text{ for }}k\neq l.

中心化過程はξ ₁、ξ ₂ 、…と等価である。一般的な仮定は、Xは（平均関数を差し引いた後）最初のいくつかの固有関数のみで表すことができるということである。すなわち、

X(t)\approx X_{m}(t)=\mu (t)+\sum _{k=1}^{m}\xi _{k}\varphi _{k}(t),

どこ

\mathrm {E} \left(\int _{\mathcal {T}}\left(X(t)-X_{m}(t)\right)^{2}dt\right)=\sum _{j>m}\lambda _{j}\rightarrow 0{\text{ as }}m\rightarrow \infty .

固有関数の解釈

最初の固有関数は、 Xの変化の主なモードを表します。 $\varphi _{1}$

\varphi _{1}={\underset {\Vert \mathbf {\varphi } \Vert =1}{\operatorname {arg\,max} }}\left\{\operatorname {Var} \left(\int _{\mathcal {T}}(X(t)-\mu (t))\varphi (t)dt\right)\right\},

どこ

\Vert \mathbf {\varphi } \Vert =\left(\int _{\mathcal {T}}\varphi (t)^{2}dt\right)^{\frac {1}{2}}.

k次の固有関数は、、、... 、、に直交する変分の主なモードである。 $\varphi _{k}$ $\varphi _{1}$ $\varphi _{2}$ $\varphi _{k-1}$

\varphi _{k}={\underset {\Vert \mathbf {\varphi } \Vert =1,\langle \varphi ,\varphi _{j}\rangle =0{\text{ for }}j=1,\dots ,k-1}{\operatorname {arg\,max} }}\left\{\operatorname {Var} \left(\int _{\mathcal {T}}(X(t)-\mu (t))\varphi (t)dt\right)\right\},

どこ

\langle \varphi ,\varphi _{j}\rangle =\int _{\mathcal {T}}\varphi (t)\varphi _{j}(t)dt,{\text{ for }}j=1,\dots ,k-1.

推定

Y _ij = X _i ( t _ij ) + ε _ijを位置t _ij（通常は時点）における観測値とします。ここで、X _iはデータを生成する滑らかな確率過程のi番目の実現値であり、 ε _ijは平均0、分散σ ²（j = 1, 2, ..., m _{i ）}の同一かつ独立に分布する正規確率変数です。平均関数μ ( t _ij ) の推定値を得るには、規則的なグリッド上の稠密なサンプルが利用可能な場合、各位置t _ijにおける平均を求めます。

{\hat {\mu }}(t_{ij})={\frac {1}{n}}\sum _{i=1}^{n}Y_{ij}.

観測値がまばらな場合は、局所線形平滑化やスプライン平滑化などの平滑化手法を使用して、すべての観測値からプールされたデータを平滑化して平均推定値を得る必要があります^[3]。

次に、共分散関数の推定値は、生の共分散を平均化（密な場合）または平滑化（疎な場合）することによって得られる。 ${\hat {G}}(s,t)$

G_{i}(t_{ij},t_{il})=(Y_{ij}-{\hat {\mu }}(t_{ij}))(Y_{il}-{\hat {\mu }}(t_{il})),j\neq l,i=1,\dots ,n.

G _iの対角要素は測定誤差を含んでいるため削除する必要があることに注意してください。^[4]

実際には、は等間隔の稠密グリッドに離散化され、固有値λ _kと固有ベクトルv _kの推定は数値線形代数によって行われる。^[5]固有関数の推定値は、固有ベクトルを補間することによって得られる。 ${\hat {G}}(s,t)$ ${\hat {\varphi }}_{k}$ ${\hat {v_{k}}}.$

適合共分散は正定値かつ対称で、次のように得られる。

{\tilde {G}}(s,t)=\sum _{\lambda _{k}>0}{\hat {\lambda }}_{k}{\hat {\varphi }}_{k}(s){\hat {\varphi }}_{k}(t).

を生の共分散行列の対角要素G _i ( t _ij , t _ij )の平滑化版とする。すると、は( G ( t , t ) + σ ² )の推定値となる。σ ²の推定値は次のように得られる。 ${\hat {V}}(t)$ ${\hat {V}}(t)$

{\hat {\sigma }}^{2}={\frac {2}{|{\mathcal {T}}|}}\int _{\mathcal {T}}({\hat {V}}(t)-{\tilde {G}}(t,t))dt,

そうでなければ

{\hat {\sigma }}^{2}>0;

{\hat {\sigma }}^{2}=0.

観測値X _ij , j =1, 2, ..., m _iが𝒯に稠密である場合、k番目のFPC ξ _kは数値積分によって推定でき、

{\hat {\xi }}_{k}=\langle X-{\hat {\mu }},{\hat {\varphi }}_{k}\rangle .

しかし、観測値がスパースな場合、この方法は機能しません。代わりに、最良線形不偏予測変数[ ^3]を使用することができます。

{\hat {\xi }}_{k}={\hat {\lambda }}_{k}{\hat {\varphi }}_{k}^{T}{\hat {\Sigma }}_{Y_{i}}^{-1}(Y_{i}-{\hat {\mu }}),

どこ

{\hat {\Sigma }}_{Y_{i}}={\tilde {G}}+{\hat {\sigma }}^{2}\mathbf {I} _{m_{i}}

、

t _ij , j = 1, 2, ..., miによって生成されたグリッドポイントで評価されます。アルゴリズムPACEは、Matlabパッケージ^[6]とRパッケージ^{[7]で利用可能です}_。 ${\tilde {G}}$

これらの推定値の漸近収束特性が調査されている。^[3]^[8]^[9]

アプリケーション

FPCA は、FPC 同士または FPC に対する応答の散布図で機能的変動のモードを表示するために[ 1] [10]、スパースな縦断的データをモデル化するために[ ³^]、または^機能的回帰および分類 (機能的線形回帰など) に適用できます。^[2] スクリープロットやその他の方法は、含まれるコンポーネントの数を決定するために使用できます。機能的主成分分析は、時系列分析でさまざまな用途があります。現在、この方法は、従来の多変量手法から適応されて、株価指数などの金融データセットを分析し、インプライドボラティリティグラフを生成しています。^[11]機能的アプローチの利点を示す良い例は、Silverman [1996] によって開発され、Pezzulli と Silverman [1993] によって研究された Smoothed FPCA (SPCA) です。これにより、FPCA と、いくつかの線形微分演算子に格納された情報を使用できるようになる一般的な平滑化アプローチを直接組み合わせることができます。多変量PCAで既に知られているFPCAの重要な応用は、ランダム関数を関数パラメータ（因子関数とそれに対応する因子負荷量（スカラーランダム変数））の集合に分解するカルーネン・レーヴ分解に端を発しています。この応用は、標準的な多変量PCAよりもはるかに重要です。ランダム関数の分布は一般に複雑すぎて直接分析できないのに対し、カルーネン・レーヴ分解によって分析が因子関数とスカラーランダム変数の分布の解釈に簡略化されるからです。次元削減とデータ表現の精度の高さにより、金融分野における機能主成分分析のさらなる発展の余地は大きく残されています。

自動車工学におけるPCAの応用。^[12]^[13]^[14]^[15]

主成分分析との関連

次の表は、主成分分析（PCA）とFPCAの様々な要素の比較を示しています。これら2つの手法はどちらも次元削減に用いられます。実装においては、FPCAはPCAステップを使用します。

しかし、PCAとFPCAにはいくつかの重要な違いがあります。第一に、PCAでは多変量データの順序は入れ替え可能で、分析には影響しません。一方、関数データの順序は時間や空間の情報を持ち、並べ替えることはできません。第二に、FPCAでは観測値の間隔が重要ですが、PCAでは間隔の問題はありません。第三に、通常のPCAは正則化なしでは高次元データには適用できませんが、FPCAには関数データの滑らかさと有限個の成分への切り捨てによる正則化が組み込まれています。

要素	PCAでは	FPCAでは
データ	$X\in \mathbb {R} ^{p}$	$X\in L^{2}({\mathcal {T}})$
寸法	$p<\infty$	$\infty$
平均	$\mu ={\text{E}}(X)$	$\mu (t)={\text{E}}(X(t))$
共分散	${\text{Cov}}(X)=\Sigma _{p\times p}$	${\text{Cov}}(X(s),X(t))=G(s,t)$
固有値	$\lambda _{1},\lambda _{2},\dots ,\lambda _{p}$	$\lambda _{1},\lambda _{2},\dots$
固有ベクトル/固有関数	$\mathbf {v} _{1},\mathbf {v} _{2},\dots ,\mathbf {v} _{p}$	$\varphi _{1}(t),\varphi _{2}(t),\dots$
内積	$\langle \mathbf {X} ,\mathbf {Y} \rangle =\sum _{k=1}^{p}X_{k}Y_{k}$	$\langle X,Y\rangle =\int _{\mathcal {T}}X(t)Y(t)dt$
主成分	$z_{k}=\langle X-\mu ,\mathbf {v_{k}} \rangle ,k=1,2,\dots ,p$	$\xi _{k}=\langle X-\mu ,\varphi _{k}\rangle ,k=1,2,\dots$

参照

主成分分析

注記

^ ab Jones, MC; Rice, JA (1992). 「類似曲線の大規模集合における重要な特徴の表示」. The American Statistician . 46 (2): 140. doi :10.1080/00031305.1992.10475870.
^ ab Yao, F.; Müller, HG; Wang, JL (2005). 「縦断的データのための機能線形回帰分析」. The Annals of Statistics . 33 (6): 2873. arXiv : math/0603132 . doi :10.1214/009053605000000660.
^ abcd Yao, F.; Müller, HG; Wang, JL (2005). 「スパース縦断データのための関数データ分析」アメリカ統計学会誌. 100 (470): 577. doi :10.1198/016214504000001745.
^ Staniswalis, JG ; Lee, JJ (1998). 「縦断的データのノンパラメトリック回帰分析」アメリカ統計学会誌. 93 (444): 1403. doi :10.1080/01621459.1998.10473801.
^ ライス, ジョン; シルバーマン, B. (1991). 「データが曲線である場合の非パラメトリックな平均と共分散構造の推定」.英国王立統計学会誌. シリーズB (方法論) . 53 (1): 233– 243. doi :10.1111/j.2517-6161.1991.tb01821.x.
^ 「PACE: 条件付き期待値による主成分分析」。
^ 「fdapace: 機能データ分析と経験的ダイナミクス」2018年2月25日。
^ Hall, P.; Müller, HG; Wang, JL (2006). 「機能的および縦断的データ分析における主成分分析法の特性」. The Annals of Statistics . 34 (3): 1493. arXiv : math/0608022 . doi :10.1214/009053606000000272.
^ Li, Y.; Hsing, T. (2010). 「関数/縦断的データにおけるノンパラメトリック回帰と主成分分析の均一収束率」. The Annals of Statistics . 38 (6): 3321. arXiv : 1211.2137 . doi :10.1214/10-AOS813.
^ Madrigal, Pedro; Krajewski, Paweł (2015). 「Karhunen-Loeve変換を用いたエピゲノムデータセットにおける相関変動の解明」BioData Mining . 8 : 20. doi : 10.1186/s13040-015-0051-7 . PMC 4488123 . PMID 26140054.
^ Michal Benko著『金融における関数データ分析と応用』
^ Lee, Sangdon (2012). 「車両加速の変動モードと理想的な車両加速の開発」. Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering . 226 (9): 1185– 1201. doi :10.1177/0954407012442775.
^ Lee, Sangdon (2010). 「顧客の声をエンジニアリング仕様に反映するためのブレーキシステムにおける理想的なペダル踏力、ペダルストローク、応答時間の特性評価と開発」機械学会論文集、パートD：自動車工学ジャーナル。224 (11): 1433– 1450. doi :10.1243/09544070JAUTO1585.
^ Lee, Sangdon (2008). 「車両加速ゲインの主成分分析と顧客の声の翻訳」. Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering . 222 (2): 191– 203. doi :10.1243/09544070JAUTO351.
^ Lee, Sangdon (2006). 「アイドル騒音と車両ポジショニングに関する多変量統計解析」. International Journal of Vehicle Noise and Vibration . 2 (2): 156– 175. doi :10.1504/IJVNV.2006.011052.

参考文献

ジェームズ・O・ラムゼイ、B・W・シルバーマン（2005年6月8日）『機能データ解析』シュプリンガー、ISBN 978-0-387-40080-8。

[jones_and_rice_1992-1] Jones, MC; Rice, JA (1992). 「類似曲線の大規模集合における重要な特徴の表示」. The American Statistician . 46 (2): 140. doi :10.1080/00031305.1992.10475870.

[Yao_2005b-2] Yao, F.; Müller, HG; Wang, JL (2005). 「縦断的データのための機能線形回帰分析」. The Annals of Statistics . 33 (6): 2873. arXiv : math/0603132 . doi :10.1214/009053605000000660.

[yao_2005a-3] Yao, F.; Müller, HG; Wang, JL (2005). 「スパース縦断データのための関数データ分析」アメリカ統計学会誌. 100 (470): 577. doi :10.1198/016214504000001745.

[Staniswalis_and_Lee_1998-4] Staniswalis, JG ; Lee, JJ (1998). 「縦断的データのノンパラメトリック回帰分析」アメリカ統計学会誌. 93 (444): 1403. doi :10.1080/01621459.1998.10473801.

[rice_and_silverman_1991-5] ライス, ジョン; シルバーマン, B. (1991). 「データが曲線である場合の非パラメトリックな平均と共分散構造の推定」.英国王立統計学会誌. シリーズB (方法論) . 53 (1): 233– 243. doi :10.1111/j.2517-6161.1991.tb01821.x.

[pace-6] 「PACE: 条件付き期待値による主成分分析」。

[Rpace-7] 「fdapace: 機能データ分析と経験的ダイナミクス」2018年2月25日。

[hall_2006-8] Hall, P.; Müller, HG; Wang, JL (2006). 「機能的および縦断的データ分析における主成分分析法の特性」. The Annals of Statistics . 34 (3): 1493. arXiv : math/0608022 . doi :10.1214/009053606000000272.

[li_2010-9] Li, Y.; Hsing, T. (2010). 「関数/縦断的データにおけるノンパラメトリック回帰と主成分分析の均一収束率」. The Annals of Statistics . 38 (6): 3321. arXiv : 1211.2137 . doi :10.1214/10-AOS813.

[madrigal_and_krajewski_2015-10] Madrigal, Pedro; Krajewski, Paweł (2015). 「Karhunen-Loeve変換を用いたエピゲノムデータセットにおける相関変動の解明」BioData Mining . 8 : 20. doi : 10.1186/s13040-015-0051-7 . PMC 4488123 . PMID 26140054.

[11] Michal Benko著『金融における関数データ分析と応用』

[Sangdon_Lee_2012-12] Lee, Sangdon (2012). 「車両加速の変動モードと理想的な車両加速の開発」. Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering . 226 (9): 1185– 1201. doi :10.1177/0954407012442775.

[Sangdon_Lee_2010-13] Lee, Sangdon (2010). 「顧客の声をエンジニアリング仕様に反映するためのブレーキシステムにおける理想的なペダル踏力、ペダルストローク、応答時間の特性評価と開発」機械学会論文集、パートD：自動車工学ジャーナル。224 (11): 1433– 1450. doi :10.1243/09544070JAUTO1585.

[Sangdon_Lee_2008-14] Lee, Sangdon (2008). 「車両加速ゲインの主成分分析と顧客の声の翻訳」. Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering . 222 (2): 191– 203. doi :10.1243/09544070JAUTO351.

[Sangdon_Lee,_2006-15] Lee, Sangdon (2006). 「アイドル騒音と車両ポジショニングに関する多変量統計解析」. International Journal of Vehicle Noise and Vibration . 2 (2): 156– 175. doi :10.1504/IJVNV.2006.011052.