スムージングスプライン

平滑化スプラインは、対象とするノイズを含む観測値の集合から得られる関数推定値 であり、への適合の尺度と、 の導関数に基づく平滑度の尺度とのバランスをとるために使用されます。これは、ノイズを含むデータを平滑化する手段となります。最もよく知られている例は3次平滑化スプラインですが、がベクトル量である 場合など、他にも多くの可能性があります。f^×{\displaystyle {\hat {f}}(x)}y{\displaystyle y_{i}}f×{\displaystyle f(x_{i})}f^×{\displaystyle {\hat {f}}(x_{i})}y{\displaystyle y_{i}}f^×{\displaystyle {\hat {f}}(x)}×y{\displaystyle x_{i},y_{i}}×{\displaystyle x}

3次スプラインの定義

を観測値の集合とし、関係式でモデル化される。ここで、 は独立で平均ゼロの確率変数である。関数の3次平滑化スプライン推定値は、コンパクト区間上のソボレフ空間において、 [ 1 ] [ 2 ]の唯一の最小値として定義される。{×はい:1n}{\displaystyle \{x_{i},Y_{i}:i=1,\dots ,n\}}はいf×+ϵ{\displaystyle Y_{i}=f(x_{i})+\epsilon_{i}}ϵ{\displaystyle \epsilon_{i}}f^{\displaystyle {\hat {f}}}f{\displaystyle f}W22{\displaystyle W_{2}^{2}}

1n{はいf^×}2+λf^×2d×\displaystyle \sum _{i=1}^{n}\{Y_{i}-{\hat {f}}(x_{i})\}^{2}+\lambda \int {\hat {f}}^{\prime \prime }(x)^{2}\,dx.}

備考:

  • λ0{\displaystyle \lambda \geq 0}は平滑化パラメータであり、データへの忠実度と関数推定値の粗さの間のトレードオフを制御する。これは、一般化クロスバリデーション[ 3 ]や、スプライン平滑化とベイズ推定の関連性を利用した制限付き周辺尤度法(REML)[ 4 ]によって推定されることが多い(平滑化ペナルティは、の事前分布によって誘発されると考えられる)。[ 5 ]f{\displaystyle f}
  • 積分は実数直線全体にわたって評価されることが多いですが、範囲を に制限することもできます。×{\displaystyle x_{i}}
  • (平滑化なし)の場合、平滑化スプラインは補間スプラインに収束します。λ0{\displaystyle \lambda \to 0}
  • (無限平滑化)の場合、粗さのペナルティが最大となり、推定値は線形最小二乗推定値に収束します。λ{\displaystyle \lambda \to \infty }
  • 2 次導関数に基づく粗さペナルティは現代の統計文献で最も一般的ですが、この方法は他の導関数に基づくペナルティにも簡単に適応できます。
  • 初期の文献では、等間隔の順序付きでは、ペナルティには微分ではなく2次または3次の差分が使用されていました。[ 6 ] Whittaker–Hendersonスムージングも参照してください。×{\displaystyle x_{i}}
  • ペナルティ付き二乗和平滑化目的は、 ペナルティ付き尤度目的で置き換えることができます。ペナルティ付き尤度目的では、二乗和項が、データへの忠実性を表す別の対数尤度ベースの尺度で置き換えられます。[ 1 ]二乗和項は、ガウス仮定に基づくペナルティ付き尤度に対応します。ϵ{\displaystyle \epsilon_{i}}

3次平滑化スプラインの導出

スムージング スプラインのフィッティングは、次の 2 つのステップで考えると便利です。

  1. まず、値を導出します。f^×;1n{\displaystyle {\hat {f}}(x_{i});i=1,\ldots ,n}
  2. これらの値から、すべてのxについて導出します。f^×{\displaystyle {\hat {f}}(x)}

さて、まずは2番目のステップを扱います。

適合値のベクトルが与えられれば、スプライン基準の平方和の部分は固定される。残るは を最小化することだけであり、その最小化関数は点 を補間する自然3次スプラインである。この補間スプラインは線形演算子であり、次のように表される。 メートル^f^×1f^×nT{\displaystyle {\hat {m}}=({\hat {f}}(x_{1}),\ldots ,{\hat {f}}(x_{n}))^{T}}f^×2d×{\displaystyle \int {\hat {f}}''(x)^{2}\,dx}×f^×{\displaystyle (x_{i},{\hat {f}}(x_{i}))}

f^×1nf^×f×{\displaystyle {\hat {f}}(x)=\sum _{i=1}^{n}{\hat {f}}(x_{i})f_{i}(x)}

ここで、これらはスプライン基底関数の集合である。結果として、粗さペナルティは次の形をとる。 f×{\displaystyle f_{i}(x)}

f^×2d×メートル^Tメートル^{\displaystyle \int {\hat {f}}''(x)^{2}dx={\hat {m}}^{T}A{\hat {m}}.}

ここで、 の要素はです。基底関数、つまり行列 は、予測変数 の設定に依存しますが、応答変数やには依存しません。 {\displaystyle A}f×fj×d×{\displaystyle \int f_{i}''(x)f_{j}''(x)dx}{\displaystyle A}×{\displaystyle x_{i}}はい{\displaystyle Y_{i}}メートル^{\displaystyle {\hat {m}}}

{\displaystyle A}は によって与えられる行列です。 n×n{\displaystyle n\times n}ΔTW1Δ{\displaystyle A=\デルタ ^{T}W^{-1}\デルタ }

Δ{\displaystyle \Delta }は次の要素を持つ2階差分行列 です。n2×n{\displaystyle (n-2)\times n}

Δ1/h{\displaystyle \Delta _{ii}=1/h_{i}}、、​Δ+11/h1/h+1{\displaystyle \Delta_{i,i+1}=-1/h_{i}-1/h_{i+1}}Δ+21/h+1{\displaystyle \Delta_{i,i+2}=1/h_{i+1}}

W{\displaystyle W}は、次の要素を持つ対称三角対角行列 です。n2×n2{\displaystyle (n-2)\times (n-2)}

W1W1h/6{\displaystyle W_{i-1,i}=W_{i,i-1}=h_{i}/6}、および、連続するノット間の距離 (または x 値)。 Wh+h+1/3{\displaystyle W_{ii}=(h_{i}+h_{i+1})/3}hξ+1ξ{\displaystyle h_{i}=\xi_{i+1}-\xi_{i}}

さて、最初のステップに戻りましょう。ペナルティ付き平方和は次のように表すことができます。

{はいメートル^}T{はいメートル^}+λメートル^Tメートル^{\displaystyle \{Y-{\hat {m}}\}^{T}\{Y-{\hat {m}}\}+\lambda {\hat {m}}^{T}A{\hat {m}},}

どこ。 はいはい1はいnT{\displaystyle Y=(Y_{1},\ldots ,Y_{n})^{T}}

を に対して微分することによりを最小化する。この結果は次式となる: [ 7 ]および メートル^{\displaystyle {\hat {m}}}メートル^{\displaystyle {\hat {m}}}2{はいメートル^}+2λメートル^0{\displaystyle -2\{Y-{\hat {m}}\}+2\lambda A{\hat {m}}=0}メートル^+λ1はい{\displaystyle {\hat {m}}=(I+\lambda A)^{-1}Y.}

デ・ブールのアプローチ

デ・ブールのアプローチは、滑らかな曲線と与えられたデータに近づくことの間のバランスを見つけるという同じ考え方を利用しています。[ 8 ]

p1nはいf^×δ2+1pf^メートル×2d×{\displaystyle p\sum _{i=1}^{n}\left({\frac {Y_{i}-{\hat {f}}\left(x_{i}\right)}{\delta _{i}}}\right)^{2}+\left(1-p\right)\int \left({\hat {f}}^{\left(m\right)}\left(x\right)\right)^{2}\,dx}

ここで、 は平滑化係数と呼ばれるパラメータで、区間 に属し、 は平滑化の程度を制御する量です(これらは各点 の重みを表します)。 実際には、3次スプラインが主に使用されるため、は通常 です。 の解は、1967 年にChristian Reinschによって提案されました。 [ 9 ]の場合、 に近づくと、は指定されたデータに対する「自然な」スプライン補間に収束します。[ 8 ]に近づくと、は直線(最も滑らかな曲線)に収束します。 の適切な値を見つけるのは試行錯誤の作業であるため、便宜上、冗長な定数が導入されました。[ 9 ]を使用して、関数が次の条件を満たす ようにの値を数値的に決定します。p{\displaystyle p}[01]{\displaystyle [0,1]}δ;1n{\displaystyle \delta _{i};i=1,\dots ,n}δ2{\displaystyle \delta _{i}^{-2}}はい{\displaystyle Y_{i}}メートル{\displaystyle m}2{\displaystyle 2}メートル2{\displaystyle m=2}メートル2{\displaystyle m=2}p{\displaystyle p}1{\displaystyle 1}f^{\displaystyle {\hat {f}}}p{\displaystyle p}0{\displaystyle 0}f^{\displaystyle {\hat {f}}}p{\displaystyle p}S{\displaystyle S}S{\displaystyle S}p{\displaystyle p}f^{\displaystyle {\hat {f}}}

1nはいf^×δ2S{\displaystyle \sum _{i=1}^{n}\left({\frac {Y_{i}-{\hat {f}}\left(x_{i}\right)}{\delta _{i}}}\right)^{2}\leq S}

de Boorによって記述されたアルゴリズムは、から始まり、条件が満たされるまで増加します。[ 8 ]が の標準偏差の推定値である場合、定数はの区間で選択することが推奨されます。 となることは、解が「自然な」スプライン補間であることを意味します。[ 9 ]が増加するということは、与えられたデータから遠ざかることで、より滑らかな曲線が得られることを意味します。 p0{\displaystyle p=0}p{\displaystyle p}δ{\displaystyle \delta_{i}}はい{\displaystyle Y_{i}}S{\displaystyle S}[n2nn+2n]{\displaystyle \left[n-{\sqrt {2n}},n+{\sqrt {2n}}\right]}S0{\displaystyle S=0}S{\displaystyle S}

多次元スプライン

スカラーに関する平滑化からベクトルに関する平滑化へ 一般化する手法には、主に2つの種類があります。最初のアプローチは、スプライン平滑化ペナルティを多次元設定に一般化するだけです。例えば、推定を行う場合、薄板スプラインペナルティを用いて、最小化するような 式を求めることができます。x{\displaystyle x}x{\displaystyle x}f(x,z){\displaystyle f(x,z)}f^(x,z){\displaystyle {\hat {f}}(x,z)}

i=1n{yif^(xi,zi)}2+λ[(2f^x2)2+2(2f^xz)2+(2f^z2)2]dxdz.{\displaystyle \sum _{i=1}^{n}\{y_{i}-{\hat {f}}(x_{i},z_{i})\}^{2}+\lambda \int \left[\left({\frac {\partial ^{2}{\hat {f}}}{\partial x^{2}}}\right)^{2}+2\left({\frac {\partial ^{2}{\hat {f}}}{\partial x\partial z}}\right)^{2}+\left({\frac {\partial ^{2}{\hat {f}}}{\partial z^{2}}}\right)^{2}\right]{\textrm {d}}x\,{\textrm {d}}z.}

薄板スプライン法は、2次元以上の平滑化やペナルティにおける他の微分次数への一般化が可能である。[ 1 ]次元が増加するにつれて、使用できる最小微分次数にはいくつかの制限があるが[ 1 ]、実際にはDuchonの元の論文[ 10 ]では、この制限を回避できるやや複雑なペナルティが示されている。

薄板スプラインは等方性です。つまり、 座標系を回転させても推定値は変わりませんが、同時に、すべての方向で同じレベルの平滑化が適切であると仮定していることも意味します。これは、空間的な位置に関する平滑化においては合理的であると考えられることが多いですが、それ以外の多くのケースでは等方性は適切な仮定ではなく、測定単位の恣意的な選択に敏感になる可能性があります。例えば、距離と時間に関する平滑化において、距離がメートルで時間が秒で測定されている場合、等方性スムージング器は異なる結果を生成しますが、単位をセンチメートルと時間に変更した場合の結果とは異なります。 x,z{\displaystyle x,z}

多次元平滑化への一般化の2番目のクラスは、テンソル積スプライン構成を使用してこのスケール不変性の問題を直接扱います。[ 11 ] [ 12 ] [ 13 ]このようなスプラインには、複数の平滑化パラメータを持つ平滑化ペナルティがあり、これはすべての方向で同じ程度の平滑性が適切であると仮定しないことの代償です。

スムージング スプラインは次のものと関連しますが、異なります。

ソースコード

スプライン平滑化のソースコードは、Carl de Boor著『A Practical Guide to Splines』の例文にあります。例はFortranプログラミング言語で記述されています。更新されたソースコードはCarl de Boorの公式サイト[1]でも公開されています。

参考文献

  1. ^ a b c d Green, PJ; Silverman, BW (1994).ノンパラメトリック回帰と一般化線形モデル:粗さペナルティアプローチ. Chapman and Hall.
  2. ^ Hastie, TJ; Tibshirani, RJ (1990).一般化加法モデル. Chapman and Hall. ISBN 978-0-412-34390-2
  3. ^ Craven, P.; Wahba, G. (1979). 「スプライン関数によるノイズデータの平滑化」Numerische Mathematik . 31 (4): 377– 403. doi : 10.1007/bf01404567 .
  4. ^ 「LMEにおける推定法としての制限付き最尤法」(PDF)オックスフォード統計学部による線形混合モデルの一元配置REML
  5. ^ Kimeldorf, GS; Wahba, G. (1970). 「確率過程におけるベイズ推定とスプラインによる平滑化との対応」 .数理統計年報. 41 (2): 495– 502. doi : 10.1214/aoms/1177697089 .
  6. ^ Whittaker, ET (1922). 「新しい段階的計算法について」.エディンバラ数学協会紀要. 41 : 63–75 . doi : 10.1017/S0013091500077853 .
  7. ^ Rodriguez, German (2001年春). 「平滑化とノンパラメトリック回帰」(PDF) . 2.3.1 計算. p. 12. 2024年4月28日閲覧.{{cite web}}: CS1 maint: location (link)
  8. ^ a b c De Boor, C. (2001). 『スプライン実践ガイド(改訂版)』 Springer. pp.  207– 214. ISBN 978-0-387-90356-9
  9. ^ a b cラインシュ、クリスチャン・H (1967)。 「スプライン関数によるスムージング」。数学数学10 (3): 177–183土井: 10.1007/BF02162161
  10. ^ J. Duchon, 1976, Sobolev 空間における回転不変半ノルムを最小化するスプライン。pp 85–100、In: Constructive Theory of Functions of Multiple Variables、Oberwolfach 1976、W. Schempp およびK. Zeller編、Lecture Notes in Math.、Vol. 571、Springer、Berlin、1977
  11. ^ Wahba, Grace.観測データのためのスプラインモデル. SIAM.
  12. ^ Gu, Chong (2013).スムージングスプライン分散分析モデル(第2版) . Springer.
  13. ^ Wood, SN (2017).一般化加法モデル:R入門(第2版) . Chapman & Hall/CRC. ISBN 978-1-58488-474-3
  14. ^ Eilers, PHCおよびMarx B. (1996). 「Bスプラインとペナルティを用いた柔軟なスムージング」.統計科学. 11 (2): 89– 121. doi : 10.1214/ss/1038425655 .
  15. ^ Ruppert, David; Wand, MP; Carroll, RJ (2003).セミパラメトリック回帰. Cambridge University Press. ISBN 978-0-521-78050-6

さらに読む

  • Wahba, G. (1990).観測データのためのスプラインモデル. SIAM, フィラデルフィア.
  • Green, PJとSilverman, BW (1994).ノンパラメトリック回帰と一般化線形モデル. CRC Press.
  • De Boor, C. (2001). 『スプライン実践ガイド(改訂版)』 Springer.