統計学において、 変動モード [1] は、平均を中心とする連続的にインデックス付けされたベクトルまたは関数のセットであり、母集団またはサンプルの変動を表すために使用されます。通常、データの変動パターンは、対応する 固有ベクトル または 固有関数 で表された方向を持つ 固有値 の降順に分解できます。変動モードは、この分解を視覚化し、平均値の周りの変動を効率的に記述します。 主成分分析 (PCA)と 機能主成分分析 (FPCA)の両方において、変動モードは、各固有成分によってもたらされるデータ内の変動を視覚化および記述する上で重要な役割を果たします。 [2]実際のアプリケーションでは、固有成分と関連する変動モードは、特に 探索的データ分析 (EDA)で複雑なデータを解釈するのに役立ちます 。
変動モードは、 PCA と FPCA の自然な拡張です。
ランダムベクトルが 平均ベクトル と、 固有値 と対応する 直交 固有ベクトル を持つ共分散行列 を持つ場合、 実対称行列 の固有値分解 により 、共分散行列は 次のように分解できます。
X
=
(
X
1
,
X
2
,
⋯
,
X
p
)
T
{\displaystyle \mathbf {X} =(X_{1},X_{2},\cdots ,X_{p})^{T}}
μ
p
{\displaystyle {\boldsymbol {\mu }}_{p}}
Σ
p
×
p
{\displaystyle \mathbf {\Sigma } _{p\times p}}
λ
1
≥
λ
2
≥
⋯
≥
λ
p
≥
0
{\displaystyle \lambda _{1}\geq \lambda _{2}\geq \cdots \geq \lambda _{p}\geq 0}
e
1
,
e
2
,
⋯
,
e
p
{\displaystyle \mathbf {e} _{1},\mathbf {e} _{2},\cdots ,\mathbf {e} _{p}}
Σ
{\displaystyle \mathbf {\Sigma } }
Σ
=
Q
Λ
Q
T
,
{\displaystyle \mathbf {\Sigma } =\mathbf {Q} \mathbf {\Lambda } \mathbf {Q} ^{T},}
ここで 、は の 固有ベクトル を列とする直交行列 であり、 は の固有値を要素とする 対角行列 である。ランダムベクトルの カルーネン・レーヴ展開 により 、中心 ランダムベクトルを 固有基底で
表すことができる。
Q
{\displaystyle \mathbf {Q} }
Σ
{\displaystyle \mathbf {\Sigma } }
Λ
{\displaystyle \mathbf {\Lambda } }
Σ
{\displaystyle \mathbf {\Sigma } }
X
−
μ
=
∑
k
=
1
p
ξ
k
e
k
,
{\displaystyle \mathbf {X} -{\boldsymbol {\mu }}=\sum _{k=1}^{p}\xi _{k}\mathbf {e} _{k},}
ここで、 は -番目の固有ベクトル に関連付けられた 主成分 [3] であり、その特性は
ξ
k
=
e
k
T
(
X
−
μ
)
{\displaystyle \xi _{k}=\mathbf {e} _{k}^{T}(\mathbf {X} -{\boldsymbol {\mu }})}
k
{\displaystyle k}
e
k
{\displaystyle \mathbf {e} _{k}}
E
(
ξ
k
)
=
0
,
Var
(
ξ
k
)
=
λ
k
,
{\displaystyle \operatorname {E} (\xi _{k})=0,\operatorname {Var} (\xi _{k})=\lambda _{k},}
そして
E
(
ξ
k
ξ
l
)
=
0
for
l
≠
k
.
{\displaystyle \operatorname {E} (\xi _{k}\xi _{l})=0\ {\text{for}}\ l\neq k.}
の - 番目の変分モード は、 でインデックス付けされたベクトルの集合です 。
k
{\displaystyle k}
X
{\displaystyle \mathbf {X} }
α
{\displaystyle \alpha }
m
k
,
α
=
μ
±
α
λ
k
e
k
,
α
∈
[
−
A
,
A
]
,
{\displaystyle \mathbf {m} _{k,\alpha }={\boldsymbol {\mu }}\pm \alpha {\sqrt {\lambda _{k}}}\mathbf {e} _{k},\alpha \in [-A,A],}
ここで 、 は通常 として選択されます 。
A
{\displaystyle A}
2
or
3
{\displaystyle 2\ {\text{or}}\ 3}
二乗積分可能な ランダム関数 (通常 、 と は区間) の場合、平均関数を 、 共分散関数 を で
表します。
X
(
t
)
,
t
∈
T
⊂
R
p
{\displaystyle X(t),t\in {\mathcal {T}}\subset R^{p}}
p
=
1
{\displaystyle p=1}
T
{\displaystyle {\mathcal {T}}}
μ
(
t
)
=
E
(
X
(
t
)
)
{\displaystyle \mu (t)=\operatorname {E} (X(t))}
G
(
s
,
t
)
=
Cov
(
X
(
s
)
,
X
(
t
)
)
=
∑
k
=
1
∞
λ
k
φ
k
(
s
)
φ
k
(
t
)
,
{\displaystyle G(s,t)=\operatorname {Cov} (X(s),X(t))=\sum _{k=1}^{\infty }\lambda _{k}\varphi _{k}(s)\varphi _{k}(t),}
ここで 、は固有値であり、は 線形 ヒルベルト・シュミット作用素の 直交固有 関数である。
λ
1
≥
λ
2
≥
⋯
≥
0
{\displaystyle \lambda _{1}\geq \lambda _{2}\geq \cdots \geq 0}
{
φ
1
,
φ
2
,
⋯
}
{\displaystyle \{\varphi _{1},\varphi _{2},\cdots \}}
G
:
L
2
(
T
)
→
L
2
(
T
)
,
G
(
f
)
=
∫
T
G
(
s
,
t
)
f
(
s
)
d
s
.
{\displaystyle G:L^{2}({\mathcal {T}})\rightarrow L^{2}({\mathcal {T}}),\,G(f)=\int _{\mathcal {T}}G(s,t)f(s)ds.}
カルーネン・レーヴの定理 により 、中心関数を固有基底で表すことができる。
X
(
t
)
−
μ
(
t
)
=
∑
k
=
1
∞
ξ
k
φ
k
(
t
)
,
{\displaystyle X(t)-\mu (t)=\sum _{k=1}^{\infty }\xi _{k}\varphi _{k}(t),}
どこ
ξ
k
=
∫
T
(
X
(
t
)
−
μ
(
t
)
)
φ
k
(
t
)
d
t
{\displaystyle \xi _{k}=\int _{\mathcal {T}}(X(t)-\mu (t))\varphi _{k}(t)dt}
は、次の特性を持つ第 -番目の主成分
である。
k
{\displaystyle k}
E
(
ξ
k
)
=
0
,
Var
(
ξ
k
)
=
λ
k
,
{\displaystyle \operatorname {E} (\xi _{k})=0,\operatorname {Var} (\xi _{k})=\lambda _{k},}
そして
E
(
ξ
k
ξ
l
)
=
0
for
l
≠
k
.
{\displaystyle \operatorname {E} (\xi _{k}\xi _{l})=0{\text{ for }}l\neq k.}
の変分のモードは、 で インデックス付けされた関数の集合である 。
k
{\displaystyle k}
X
(
t
)
{\displaystyle X(t)}
α
{\displaystyle \alpha }
m
k
,
α
(
t
)
=
μ
(
t
)
±
α
λ
k
φ
k
(
t
)
,
t
∈
T
,
α
∈
[
−
A
,
A
]
{\displaystyle m_{k,\alpha }(t)=\mu (t)\pm \alpha {\sqrt {\lambda _{k}}}\varphi _{k}(t),\ t\in {\mathcal {T}},\ \alpha \in [-A,A]}
の範囲にわたって同時に観測されるもので 、通常は である 。 [2]
α
{\displaystyle \alpha }
A
=
2
or
3
{\displaystyle A=2\ {\text{or}}\ 3}
推定
上記の定式化は母集団の特性から導き出されたものです。実社会での応用では推定が不可欠です。鍵となるのは、平均と共分散を推定することです。
データが 平均ベクトル と共分散行列 を持つ -次元母集団 からの独立した抽出であると仮定する 。これらのデータから、標本平均ベクトルと、 固有値-固有ベクトルのペア を持つ 標本共分散行列 が得られる 。この場合、 の - 次モードは 次のように推定できる。
x
1
,
x
2
,
⋯
,
x
n
{\displaystyle \mathbf {x} _{1},\mathbf {x} _{2},\cdots ,\mathbf {x} _{n}}
n
{\displaystyle n}
p
{\displaystyle p}
X
{\displaystyle \mathbf {X} }
μ
{\displaystyle {\boldsymbol {\mu }}}
Σ
{\displaystyle \mathbf {\Sigma } }
x
¯
{\displaystyle {\overline {\mathbf {x} }}}
S
{\displaystyle \mathbf {S} }
(
λ
^
1
,
e
^
1
)
,
(
λ
^
2
,
e
^
2
)
,
⋯
,
(
λ
^
p
,
e
^
p
)
{\displaystyle ({\hat {\lambda }}_{1},{\hat {\mathbf {e} }}_{1}),({\hat {\lambda }}_{2},{\hat {\mathbf {e} }}_{2}),\cdots ,({\hat {\lambda }}_{p},{\hat {\mathbf {e} }}_{p})}
k
{\displaystyle k}
X
{\displaystyle \mathbf {X} }
m
^
k
,
α
=
x
¯
±
α
λ
^
k
e
^
k
,
α
∈
[
−
A
,
A
]
.
{\displaystyle {\hat {\mathbf {m} }}_{k,\alpha }={\overline {\mathbf {x} }}\pm \alpha {\sqrt {{\hat {\lambda }}_{k}}}{\hat {\mathbf {e} }}_{k},\alpha \in [-A,A].}
平均関数 と共分散関数を持つ 二乗積分可能な ランダム関数 の 実現を 考えてみましょう 。 関数主成分分析は、 と を推定するための 詳細な方法を提供し、多くの場合、点ごとの推定と 補間 を伴います。未知の量に推定値を代入すると、 の 次モードは 次のように推定できます。
n
{\displaystyle n}
X
1
(
t
)
,
X
2
(
t
)
,
⋯
,
X
n
(
t
)
{\displaystyle X_{1}(t),X_{2}(t),\cdots ,X_{n}(t)}
X
(
t
)
,
t
∈
T
{\displaystyle X(t),t\in {\mathcal {T}}}
μ
(
t
)
=
E
(
X
(
t
)
)
{\displaystyle \mu (t)=\operatorname {E} (X(t))}
G
(
s
,
t
)
=
Cov
(
X
(
s
)
,
X
(
t
)
)
{\displaystyle G(s,t)=\operatorname {Cov} (X(s),X(t))}
μ
(
t
)
{\displaystyle \mu (t)}
G
(
s
,
t
)
{\displaystyle G(s,t)}
k
{\displaystyle k}
X
(
t
)
{\displaystyle X(t)}
m
^
k
,
α
(
t
)
=
μ
^
(
t
)
±
α
λ
^
k
φ
^
k
(
t
)
,
t
∈
T
,
α
∈
[
−
A
,
A
]
.
{\displaystyle {\hat {m}}_{k,\alpha }(t)={\hat {\mu }}(t)\pm \alpha {\sqrt {{\hat {\lambda }}_{k}}}{\hat {\varphi }}_{k}(t),t\in {\mathcal {T}},\alpha \in [-A,A].}
アプリケーション
2003年の41カ国の女性死亡率データの第1および第2の変動モード [4]
2003年の41カ国の男性死亡率データの第1および第2の変動モード [4]
変動モードは、固有値でソートされたデータの変動パターンを視覚化し、記述するのに役立ちます。実際の応用では、固有成分に関連付けられた変動モードは、関数特性の進化 [5] やその他の無限次元データ [6] などの複雑なデータを解釈することを可能にします。変動モードが実際にどのように機能するかを示すために、右側のグラフに最初の2つの変動モードを示す2つの例を示します。実線は標本平均関数を表します。破線、一点鎖線、点線の曲線は、それぞれおよびの変動モードに対応し ます 。
α
=
±
1
,
±
2
,
{\displaystyle \alpha =\pm 1,\pm 2,}
±
3
{\displaystyle \pm 3}
最初のグラフは、2003年の41カ国における女性死亡率データの最初の2つの変動モードを示しています。 [4] ここで注目するのは、 0歳から100歳までの対数 ハザード関数 です。最初の変動モードは、女性死亡率の変動が0歳または100歳付近では小さく、25歳付近では大きいことを示唆しています。適切かつ直感的な解釈としては、25歳付近の死亡率は事故死によるものであり、0歳または100歳付近の死亡率は先天性疾患または自然死によるものであると考えられます。
女性の死亡率データと比較すると、男性の死亡率データの変動モードは、20 歳前後以降の死亡率が高くなることを示しており、これは女性の平均寿命が男性の平均寿命よりも高いという事実と関係している可能性がある。
参考文献
^ Castro, PE; Lawton, WH; Sylvestre, EA (1986年11月). 「連続標本曲線を持つプロセスの主変動モード」. Technometrics . 28 (4): 329. doi :10.2307/1268982. ISSN 0040-1706. JSTOR 1268982.
^ ab Wang, Jane-Ling; Chiou, Jeng-Min; Müller, Hans-Georg (2016年6月). 「関数データ分析」. Annual Review of Statistics and Its Application . 3 (1): 257– 295. doi : 10.1146/annurev-statistics-041715-033624 . ISSN 2326-8298.
^ クレッフ、ユルゲン (1973 年 1 月)。 「分離可能なヒルベルト空間内の値を持つ確率変数の主成分」。 数学演算と統計 。 4 (5): 391–406 。 土井 :10.1080/02331887308801137。 ISSN 0047-6277。
^ abc 「Human Mortality Database」. www.mortality.org . 2020年3月12日 閲覧。
^ マーク・カークパトリック、ナンシー・ヘックマン(1989年8月)「成長、形状、反応規範、その他の無限次元形質に関する定量的遺伝モデル」 Journal of Mathematical Biology . 27 (4): 429– 450. doi :10.1007/bf00290638. ISSN 0303-6812. PMID 2769086. S2CID 46336613.
^ Jones, MC; Rice, John A. (1992年5月). 「類似曲線の大規模集合における重要な特徴の表示」. The American Statistician . 46 (2): 140– 145. doi :10.1080/00031305.1992.10475870. ISSN 0003-1305.