統計学 や計量経済学 で用いられる時系列分析 において、自己回帰和分移動平均 (ARIMA )モデルと季節ARIMA (SARIMA )モデルは、それぞれ 自己回帰移動平均 (ARMA)モデルを非定常系列と周期変動に一般化したものである。これらのモデルはすべて、時系列をより深く理解し、将来の値を予測するために時系列 に適合される。これらの一般化の目的は、データに可能な限り適合させることである。具体的には、ARMAは系列が定常で ある、つまり期待値が時間的に一定であると仮定する。もし系列にトレンド(ただし分散/自己共分散 は一定)がある場合、「差分」によってトレンドが除去され、[ 1 ] 定常系列が残る。この操作はARMAを一般化し、ARIMAの「統合 」部分に対応する。同様に、周期変動は「季節差分」によって除去される。[ 2 ]
コンポーネント ARMAと同様に、ARIMAの「自己回帰」(AR )部分は、関心のある変数が過去の値に基づいて回帰されることを示します。「移動平均」( MA )部分は、回帰誤差 が、同時期および過去の様々な時点で発生した値を持つ誤差項の線形結合で あることを示します。 [ 3 ] 「統合」(I )部分は、データ値が各値と前の値との差に置き換えられていることを示します。
ウォルドの分解定理 [ 4 ] [ 5 ] [ 6 ] によれば、ARMAモデルは、規則的な (つまり純粋に非決定的な[ 6 ] )広義の定常 時系列を記述するのに十分である。このため、ARMAを使用する前に、例えば差分法を用いて、このような非定常時系列を定常化する必要がある。[ 7 ]
時系列に予測可能な サブプロセス(別名、純粋正弦波または複素数値指数関数[ 5 ] )が含まれている場合、その予測可能な要素はARIMAフレームワークでは平均がゼロではないが周期的な(つまり季節的な)要素として扱われ、季節差分によって除去されます。
非季節性 ARIMA モデルは通常、 ARIMA( p , d , q ) と表記されます。ここで、パラメータ p 、d 、q は負でない整数です。pは 自己回帰モデル の次数(時間ラグの数)、d は差分の次数(データから過去の値が減算された回数)、qは 移動平均モデル の次数です。季節性 ARIMA モデルは通常、 ARIMA( p 、d 、q )( P 、D 、Q ) m と表記されます。ここで、大文字のP 、D 、Q は、ARIMA モデルの季節性部分の自己回帰項、差分項、移動平均項であり、m は各季節の期間数です。[ 8 ] [ 2 ] パラメータのうち2つが0の場合、モデルは0以外のパラメータに基づいて参照され、頭字語から「AR 」、「I 」、または「MA 」が省略されます。例えば、 有馬 ( 1 、 0 、 0 ) {\displaystyle {\text{ARIMA}}(1,0,0)} はAR(1) 、 有馬 ( 0 、 1 、 0 ) {\displaystyle {\text{ARIMA}}(0,1,0)} はI(1) 、 有馬 ( 0 、 0 、 1 ) {\displaystyle {\text{ARIMA}}(0,0,1)} はMA(1) です。
時系列データX t( t は整数インデックス、X t は実数)が与えられた場合、モデルは次のように与えられる。 アルマ ( p ′ 、 q ) {\displaystyle {\text{ARMA}}(p',q)}
X t − α 1 X t − 1 − ⋯ − α p ′ X t − p ′ = ε t + θ 1 ε t − 1 + ⋯ + θ q ε t − q 、 {\displaystyle X_{t}-\alpha _{1}X_{t-1}-\dots -\alpha _{p'}X_{tp'}=\varepsilon _{t}+\theta _{1}\varepsilon _{t-1}+\cdots +\theta _{q}\varepsilon _{tq},} または同等に
( 1 − ∑ 私 = 1 p ′ α 私 L 私 ) X t = ( 1 + ∑ 私 = 1 q θ 私 L 私 ) ε t {\displaystyle \left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)X_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}\,} ここで、 はラグ演算子 、 はモデルの自己回帰部分のパラメータ、 は移動平均部分のパラメータ、 は誤差項です。誤差項は一般に、平均ゼロの 正規分布からサンプリングされた 、独立かつ同一分布に従う 変数であると仮定されます。L {\displaystyle L} α 私 {\displaystyle \alpha _{i}} θ 私 {\displaystyle \theta_{i}} ε t {\displaystyle \varepsilon _{t}} ε t {\displaystyle \varepsilon _{t}}
多項式に重複度dの 単位根 (因数)がある場合、次のように書き直すことができます。 ( 1 − ∑ 私 = 1 p ′ α 私 L 私 ) {\displaystyle \textstyle \left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)} ( 1 − L ) {\displaystyle (1-L)}
( 1 − ∑ 私 = 1 p ′ α 私 L 私 ) = ( 1 − ∑ 私 = 1 p ′ − d φ 私 L 私 ) ( 1 − L ) d 。 {\displaystyle \left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)=\left(1-\sum _{i=1}^{p'-d}\varphi _{i}L^{i}\right)\left(1-L\right)^{d}.} ARIMA( p , d , q )プロセスは、この多項式因数分解特性をp = p'−d で表現し、次のように表されます。
( 1 − ∑ 私 = 1 p φ 私 L 私 ) ( 1 − L ) d X t = ( 1 + ∑ 私 = 1 q θ 私 L 私 ) ε t {\displaystyle \left(1-\sum _{i=1}^{p}\varphi _{i}L^{i}\right)(1-L)^{d}X_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}\,} そして、これはd 個の単位根を持つ自己回帰多項式を持つARMA( p+d , q )過程の特殊なケースです。(これが、 d > 0のARIMAモデルによって正確に記述される過程が広義の定常 ではない理由です。)
上記は以下のように一般化できます。
( 1 − ∑ 私 = 1 p φ 私 L 私 ) ( 1 − L ) d X t = δ + ( 1 + ∑ 私 = 1 q θ 私 L 私 ) ε t 。 {\displaystyle \left(1-\sum _{i=1}^{p}\varphi _{i}L^{i}\right)(1-L)^{d}X_{t}=\delta +\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}.\,} これはドリフト を持つARIMA( p , d , q )プロセスを定義します。 δ 1 − ∑ φ 私 {\displaystyle {\frac {\delta }{1-\sum \varphi _{i}}}}
上記のように自己回帰多項式を因子に分解する明示的な識別は、他のケースにも拡張できます。まず、移動平均多項式に適用し、次に他の特別な因子を含めることができます。たとえば、モデルに因子を含めることは、期間s の非定常季節性をモデルに含める1つの方法です。この因子には、データをs 期間前の変化として再表現する効果があります。もう1つの例は、期間 2 の(非定常)季節性を含む因子です。 最初のタイプの因子の効果は、各季節の値が時間の経過とともに個別にドリフトできるようにすることです。一方、2番目のタイプの因子の効果は、隣接する季節の値が一緒に移動します。 ( 1 − L s ) {\displaystyle (1-L^{s})} ( 1 − 3 L + L 2 ) {\displaystyle \left(1-{\sqrt {3}}L+L^{2}\right)}
ARIMA モデルで適切な要素を識別して指定することは、モデリングにおいて重要なステップとなります。これにより、推定するパラメータの総数を削減できると同時に、論理と経験から予測される動作の種類をモデルに適用できるようになります。
差分化 定常時系列の特性は変化しません。具体的には、広義の定常 時系列では、平均と分散/自己共分散 は時間経過に伴って一定です。統計学における差分化 とは、非定常時系列に対してトレンド定常化 (つまり、平均の意味で定常化)させるために適用される変換であり、トレンドまたは非一定な平均を除去または減算します。ただし、分散または 自己共分散 の非定常性には影響しません。同様に、季節差分化 または季節除去は 、時系列から季節成分を除去するために適用されます。
信号処理、特にフーリエスペクトル解析 理論の観点から見ると、トレンドは系列のスペクトルにおける低周波成分であり、季節は周期周波数成分である。したがって、差分はハイパス (すなわちローストップ)フィルタであり、季節差分はくし形フィルタ であり、それぞれ低周波トレンドと周期周波数季節をスペクトル領域(時間領域で直接抑制するのではなく)で抑制する。[ 7 ]
データの差分をとるには、連続する観測値間の差を計算します。数学的には、これは次のように表されます。
y t ′ = y t − y t − 1 {\displaystyle y_{t}'=y_{t}-y_{t-1}\,} 定常時系列を得るために、データの差分を2回取る必要がある場合があります。これは2次差分 と呼ばれます。
y t ∗ = y t ′ − y t − 1 ′ = ( y t − y t − 1 ) − ( y t − 1 − y t − 2 ) = y t − 2 y t − 1 + y t − 2 {\displaystyle {\begin{aligned}y_{t}^{*}&=y_{t}'-y_{t-1}'\\&=(y_{t}-y_{t-1})-(y_{t-1}-y_{t-2})\\&=y_{t}-2y_{t-1}+y_{t-2}\end{aligned}}} 季節差分とは、ある観測値と、例えば前年の季節における対応する観測値との差を計算することです。これは以下のように表されます。
y t ′ = y t − y t − メートル どこ メートル = シーズンの長さ 。 {\displaystyle y_{t}'=y_{t}-y_{tm}\quad {\text{ここで }}m={\text{季節の長さ}}.} 差分データはARMA モデルの推定に使用されます。
例 いくつかのよく知られた特殊なケースは、自然に発生するか、他の一般的な予測モデルと数学的に同等です。例えば、
ARIMA(0, 0, 0)はホワイトノイズ をモデル化します。 ARIMA(0, 1, 0)モデルはランダムウォーク です。 ARIMA(0, 1, 2) モデルは Damped Holt モデルです。 定数のないARIMA(0, 1, 1)モデルは基本的な指数平滑化 モデルである。[ 9 ] ARIMA(0, 2, 2)モデルは次のように与えられ、これはホルトの加法誤差線形法、つまり二重指数平滑法 と同等である。[ 9 ] X t = 2 X t − 1 − X t − 2 + ( α + β − 2 ) ε t − 1 + ( 1 − α ) ε t − 2 + ε t {\displaystyle X_{t}=2X_{t-1}-X_{t-2}+(\alpha +\beta -2)\varepsilon _{t-1}+(1-\alpha )\varepsilon _{t-2}+\varepsilon _{t}}
注文の選択 p とqの 順序は、標本自己相関関数 (ACF)、部分自己相関関数 (PACF)、および/または拡張自己相関関数(EACF)法を使用して決定できます。[ 10 ]
その他の代替手法としては、AIC、BICなどがある[ 10 ]。 季節性のないARIMAモデルの次数を決定するために有用な基準は、赤池情報量基準(AIC) である。これは次のように表される。
AIC = − 2 ログ ( L ) + 2 ( p + q + け ) 、 {\displaystyle {\text{AIC}}=-2\log(L)+2(p+q+k),} ここで、L はデータの尤度、p は自己回帰係数の次数、q は移動平均係数の次数です。kはARIMA モデルの切片を表します。AICの場合、k = 1のときはARIMAモデルに切片があり(c ≠ 0)、k = 0のときはARIMAモデルに切片はありません(c = 0)。
ARIMAモデルの補正AICは次のように表される。
AICc = AIC + 2 ( p + q + け ) ( p + q + け + 1 ) T − p − q − け − 1 。 {\displaystyle {\text{AICc}}={\text{AIC}}+{\frac {2(p+q+k)(p+q+k+1)}{Tpqk-1}}.} ベイズ情報量基準(BIC)は 次のように表される。
ビック = AIC + ( ( ログ T ) − 2 ) ( p + q + け ) 。 {\displaystyle {\text{BIC}}={\text{AIC}}+((\log T)-2)(p+q+k).} 目的は、優れたモデルを得るためにAIC、AICc、またはBICの値を最小化することです。調査対象となる様々なモデルにおいて、これらの基準のいずれかの値が低いほど、そのモデルはデータに適合していると言えます。AICとBICは全く異なる目的で用いられます。AICはモデルを現実の状況に近づけようとするのに対し、BICは完全に適合するモデルを見つけようとします。BICアプローチは、現実の複雑なデータに完全に適合するモデルは存在しないため、しばしば批判されます。しかしながら、AICよりも多くのパラメータを持つモデルに対して、より厳しいペナルティを課すため、選択においては依然として有用な手法です。
AICcは、差分の次数が同じARIMAモデルの比較にのみ使用できます。差分の次数が異なるARIMAモデルの比較には、RMSEを 使用できます。
ARIMAモデルを使用した予測 ARIMAモデルは、2つのモデルの「カスケード」として捉えることができます。1つ目のモデルは非定常です。
はい t = ( 1 − L ) d X t {\displaystyle Y_{t}=(1-L)^{d}X_{t}} 2番目は広義の定常 です。
( 1 − ∑ 私 = 1 p φ 私 L 私 ) はい t = ( 1 + ∑ 私 = 1 q θ 私 L 私 ) ε t 。 {\displaystyle \left(1-\sum _{i=1}^{p}\varphi _{i}L^{i}\right)Y_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}\,.} 現在では、自己回帰予測 法の一般化を使用して、プロセスの予測を行うことができます。 はい t {\displaystyle Y_{t}}
予測間隔 ARIMAモデルの予測区間(予測の信頼区間 )は、残差が無相関かつ正規分布するという仮定に基づいています。これらの仮定のいずれかが成り立たない場合、予測区間は不正確になる可能性があります。そのため、研究者は予測区間を作成する前に、残差のACFとヒストグラムをプロットして仮定を確認します。
95% 予測区間: 、ここでは の分散です。 y ^ T + h ∣ T ± 1.96 v T + h ∣ T {\displaystyle {\hat {y}}_{T+h\,\mid \,T}\pm 1.96{\sqrt {v_{T+h\,\mid \,T}}}} v T + h ∣ T {\displaystyle v_{T+h\mid T}} y T + h ∣ y 1 、 … 、 y T {\displaystyle y_{T+h}\mid y_{1},\dots ,y_{T}}
の場合、パラメータと順序に関係なく、すべての ARIMA モデルに適用されます。 h = 1 {\displaystyle h=1} v T + h ∣ T = σ ^ 2 {\displaystyle v_{T+h\,\mid \,T}={\hat {\sigma }}^{2}}
ARIMA(0,0,q)の場合、y t = e t + ∑ 私 = 1 q θ 私 e t − 私 。 {\displaystyle y_{t}=e_{t}+\sum _{i=1}^{q}\theta _{i}e_{ti}.}
v T + h ∣ T = σ ^ 2 [ 1 + ∑ 私 = 1 h − 1 θ 私 e t − 私 ] 、 のために h = 2 、 3 、 … {\displaystyle v_{T+h\,\mid \,T}={\hat {\sigma }}^{2}\left[1+\sum _{i=1}^{h-1}\theta _{i}e_{t-i}\right],{\text{ for }}h=2,3,\ldots } 一般に、ARIMA モデルからの予測間隔は、予測期間が長くなるにつれて長くなります。
バリエーションと拡張 ARIMAモデルの様々なバリエーションが一般的に採用されています。複数の時系列を使用する場合は、ベクトルとして考えることができ、VARIMAモデルが適切な場合があります。モデルに季節効果が疑われる場合があります。その場合は、モデルのARまたはMA部分の次数を増やすよりも、SARIMA(季節ARIMA)モデルを使用する方がよいと一般的に考えられています。[ 11 ] 時系列が長期依存性 を示す疑いがある場合は、分数ARIMA(FARIMAまたはARFIMA)モデルとも呼ばれる自己回帰分数積分移動平均モデルで、 d パラメータに非整数値をとることが許可される場合があります。 X t {\displaystyle X_{t}}
ソフトウェア実装 ARIMA モデルに適切なパラメータを見つけるために、 Box–Jenkins パラメータ最適化などの方法論を適用するさまざまなパッケージが利用可能です。
参照
参考文献 ^ 定常性と差分化の詳細については、 https://www.otexts.org/fpp/8/1 を参照してください。 ^ a b Hyndman, Rob J; Athanasopoulos, George. 「8.9 季節性ARIMAモデル」 .予測:原則と実践 . oTexts . 2015年 5月19日 閲覧 。 ^ Box, George EP (2015). 時系列分析:予測と制御 . WILEY. ISBN 978-1-118-67502-1 。^ ハミルトン、ジェームズ (1994). 時系列分析 . プリンストン大学出版局. ISBN 9780691042893 。^ a b Papoulis, Athanasios (2002). 確率、ランダム変数、そして確率過程 . Tata McGraw-Hill Education. ^ a b Triacca, Umberto (2021年2月19日). 「ウォルド分解定理」 (PDF) . 2016年3月27日時点のオリジナルより アーカイブ (PDF) 。 ^ a b Wang, Shixiong; Li, Chongshou; Lim, Andrew (2019-12-18). 「なぜARIMAとSARIMAは不十分なのか」. arXiv : 1904.07632 [ stat.AP ]. ^ 「ARIMAモデルの表記法」 . 時系列予測システム . SAS Institute . 2015年 5月19日 閲覧 。 ^ a b 「ARIMAモデル入門」 people.duke.edu . 2016年6月5日 閲覧 。 ^ a b ミズーリ州立大学. 「モデルの仕様、時系列分析」 (PDF) . ^ Swain, S; et al. (2018). 「インド・オリッサ州コルダ地区における月間降水量予測のためのARIMAモデルの開発」. インテリジェントコンピューティング技術に関する最近の知見 . インテリジェントシステムとコンピューティングの進歩. 第708巻. pp. 325– 331. doi : 10.1007/978-981-10-8636-6_34 . ISBN 978-981-10-8635-9 。^ TimeModels.jl www.github.com^ NCSSのARIMA 、^ NCSSの自動ARMA 、^ NCSSにおける自己相関と偏自己相関 ^ Hyndman, Rob J; Athanasopoulos, George. 「8.7 RにおけるARIMAモデリング」 . 予測:原則と実践 . oTexts . 2015年 5月19日 閲覧 。 ^ 「Box Jenkinsモデル」 SAP 2013年 3月8日 閲覧 。
さらに読む
外部リンク