マクロ経済学 におけるオークンの法則は 、ある経済においてGDP 成長率は失業率の変化に線形に依存すると述べている。ここでは、この法則を記述する回帰直線を作成するために、通常の最小二乗法が用いられている。統計学 において、通常最小二乗法 (OLS )は、 線形回帰モデル( 説明変数 の線形関数 のレベル1効果が固定)における未知のパラメータを 最小二乗原理によって選択する線形最小二乗 法の一種である。最小二乗原理とは、入力データセットにおける観測された 従属変数 (観測される変数の値)と独立変数 の(線形)関数の出力との差の二乗和を最小化することである。OLSは線形 回帰であると考える情報源もある。[ 1 ]
幾何学的には、これは従属変数の軸に平行な、セット内の各データ点と回帰面上の対応する点との間の距離の二乗和として捉えられます。差が小さいほど、モデルはデータに適合していると言えます。得られた推定値は 、特に回帰式の右辺に 単一の回帰変数 が存在する単回帰 の場合、簡単な式で表すことができます。
OLS推定量は、回帰変数が外生的で ある場合にレベル1の固定効果と整合しており 、完全な共線性(順位条件)を形成し、回帰変数が有限の4次モーメントを持つ場合 [ 2 ] 残差の分散推定と整合しており、ガウス・マルコフの定理 により、誤差が等分散かつ連続 的 に無相関で ある場合に線型不偏推定量のクラスで最適である 。これらの条件下では、誤差が有限分散 を持つ場合、 OLS法は最小分散平均不偏推定 値を提供する。誤差が平均ゼロで正規分布する という追加の仮定の下では、OLSはあらゆる非線型不偏推定量よりも優れた最大尤度推定量 である。
線形モデル データが観測値 で構成されていると仮定します。各観測値には、スカラー応答変数とパラメータ(回帰変数)の列ベクトル(つまり )が含まれます。線形回帰モデル において、応答変数 は回帰変数の線形関数です。 n {\displaystyle n} { × 私 、 y 私 } 私 = 1 n {\displaystyle \left\{\mathbf {x} _{i},y_{i}\right\}_{i=1}^{n}} 私 {\displaystyle i} y 私 {\displaystyle y_{i}} × 私 {\displaystyle \mathbf {x} _{i}} p {\displaystyle p} × 私 = [ × 私 1 、 × 私 2 、 … 、 × 私 p ] T {\displaystyle \mathbf {x} _{i}=\left[x_{i1},x_{i2},\dots ,x_{ip}\right]^{\operatorname {T} }} y 私 {\displaystyle y_{i}}
y 私 = β 1 × 私 1 + β 2 × 私 2 + ⋯ + β p × 私 p + ε 私 、 {\displaystyle y_{i}=\beta _{1}\ x_{i1}+\beta _{2}\ x_{i2}+\cdots +\beta _{p}\ x_{ip}+\varepsilon _{i},} またはベクトル 形式では、
y 私 = × 私 T β + ε 私 、 {\displaystyle y_{i}=\mathbf {x} _{i}^{\operatorname {T} }{\boldsymbol {\beta }}+\varepsilon _{i},\,} ここで、前述のように、 はすべての説明変数の - 番目の観測値の列ベクトルであり、 は未知のパラメータのベクトルであり、スカラーは- 番目の観測値の観測されていない確率変数(誤差 )を表します。 は、説明変数以外の情報源からの応答への影響を考慮します。このモデルは、行列表記で次のように表すこともできます。 × 私 {\displaystyle \mathbf {x} _{i}} 私 {\displaystyle i} β {\displaystyle {\boldsymbol {\beta }}} p × 1 {\displaystyle p\times 1} ε 私 {\displaystyle \varepsilon _{i}} 私 {\displaystyle i} ε 私 {\displaystyle \varepsilon _{i}} y 私 {\displaystyle y_{i}} × 私 {\displaystyle \mathbf {x} _{i}}
y = X β + ε 、 {\displaystyle \mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},\,} ここで、 とは応答変数と観測値の誤差のベクトルであり、 は回帰変数の行列(設計行列 とも呼ばれる)で、その行 はであり、すべての説明変数の 番目の観測値が含まれます。 y {\displaystyle \mathbf {y} } ε {\displaystyle {\boldsymbol {\バレプシロン }}} n × 1 {\displaystyle n\times 1} n {\displaystyle n} X {\displaystyle \mathbf {X} } n × p {\displaystyle n\times p} 私 {\displaystyle i} × 私 T {\displaystyle \mathbf {x} _{i}^{\operatorname {T} }} 私 {\displaystyle i}
典型的には、例えばすべての に対してをとることによって、回帰変数の集合に定数項 が含まれる。この回帰変数に対応する係数は切片 と 呼ばれる。切片がないと、近似直線は のときに原点と交差する。 X {\displaystyle \mathbf {X} } × 私 1 = 1 {\displaystyle x_{i1}=1} 私 = 1 、 … 、 n {\displaystyle i=1,\dots ,n} β 1 {\displaystyle \beta _{1}} × 私 = 0 → {\displaystyle x_{i}={\vec {0}}}
推定値の一貫性を保つために、回帰変数は独立している必要はありません。例えば、非線形従属関係にある場合もあります。完全な多重共線性がない場合でも、パラメータ推定値は一貫性を保つ可能性があります。しかし、多重共線性が高まるにつれて、そのような推定値の標準誤差が増加し、推定値の精度が低下します。完全な多重共線性がある場合、関連する回帰変数の係数について一意の推定値を得ることはもはや不可能であり、これらのパラメータの推定値は収束しません(したがって、一貫性を保つことはできません)。
回帰変数が非線形従属的であるにもかかわらず、推定値が整合している可能性がある具体的な例として、応答変数が値とその二乗の両方に線形従属すると疑われる場合が挙げられます。この場合、値が別の回帰変数の二乗に等しい回帰変数を1つ追加します。この場合、モデルは2番目の回帰変数では2次式 になりますが、パラメータ( )に関しては依然として線形である ため、線形 モデルとみなされます。 β {\displaystyle {\boldsymbol {\beta }}}
過剰決定系 を考える
∑ j = 1 p × 私 j β j = y 私 、 ( 私 = 1 、 2 、 … 、 n ) 、 {\displaystyle \sum _{j=1}^{p}x_{ij}\beta _{j}=y_{i},\ (i=1,2,\dots ,n),} 係数が 未知で、、 である線形方程式 の式。これは行列 形式 で次のように表すことができる。n {\displaystyle n} p {\displaystyle p} β 1 、 β 2 、 … 、 β p {\displaystyle \beta _{1},\beta _{2},\dots ,\beta _{p}} n > p {\displaystyle n>p}
X β = y 、 {\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\mathbf {y} ,} どこ
X = [ X 11 X 12 ⋯ X 1 p X 21 X 22 ⋯ X 2 p ⋮ ⋮ ⋱ ⋮ X n 1 X n 2 ⋯ X n p ] 、 β = [ β 1 β 2 ⋮ β p ] 、 y = [ y 1 y 2 ⋮ y n ] 。 {\displaystyle \mathbf {X} ={\begin{bmatrix}X_{11}&X_{12}&\cdots &X_{1p}\\X_{21}&X_{22}&\cdots &X_{2p}\\\vdots &\vdots &\ddots &\vdots \\X_{n1}&X_{n2}&\cdots &X_{np}\end{bmatrix}},\qquad {\boldsymbol {\beta }}={\begin{bmatrix}\beta _{1}\\\beta _{2}\\\vdots \\\beta _{p}\end{bmatrix}},\qquad \mathbf {y} ={\begin{bmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{bmatrix}}.} (注: 上記のような線形モデルでは、 のすべての要素にデータ ポイントの情報が含まれているわけではありません。最初の列には 1 が入力されます。他の列にのみ実際のデータが含まれています。したがって、ここではは回帰変数の数に 1 を加えた数に等しくなります)。 X {\displaystyle \mathbf {X} } X i 1 = 1 {\displaystyle X_{i1}=1} p {\displaystyle p}
このようなシステムは通常、正確な解を持たないため、代わりに、二次 最小化 問題を 解くという意味で、方程式に「最もよく適合する」係数を見つけることが目標となる。β {\displaystyle {\boldsymbol {\beta }}}
β ^ = a r g m i n β S ( β ) , {\displaystyle {\hat {\boldsymbol {\beta }}}={\underset {\boldsymbol {\beta }}{\operatorname {arg\,min} }}\,S({\boldsymbol {\beta }}),} ここで目的関数は次のように与えられる。 S {\displaystyle S}
S ( β ) = ∑ i = 1 n | y i − ∑ j = 1 p X i j β j | 2 = ‖ y − X β ‖ 2 . {\displaystyle S({\boldsymbol {\beta }})=\sum _{i=1}^{n}\left|y_{i}-\sum _{j=1}^{p}X_{ij}\beta _{j}\right|^{2}=\left\|\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right\|^{2}.} この基準を選択した根拠は、以下の「特性」 で示されています。この最小化問題は、行列の列が線形独立で ある場合、いわゆる正規方程式 を解くことで得られる唯一の解を持ちます。p {\displaystyle p} X {\displaystyle \mathbf {X} }
( X T X ) β ^ = X T y . {\displaystyle \left(\mathbf {X} ^{\operatorname {T} }\mathbf {X} \right){\hat {\boldsymbol {\beta }}}=\mathbf {X} ^{\operatorname {T} }\mathbf {y} \ .} 行列は正規行列 またはグラム行列 として知られ、行列は回帰のモーメント行列 として知られ、回帰変数によって表される。[ 3 ] 最後に、最小二乗超平面 の係数ベクトルは次のように表される 。X T X {\displaystyle \mathbf {X} ^{\operatorname {T} }\mathbf {X} } X T y {\displaystyle \mathbf {X} ^{\operatorname {T} }\mathbf {y} } β ^ {\displaystyle {\hat {\boldsymbol {\beta }}}}
β ^ = ( X ⊤ X ) − 1 X ⊤ y . {\displaystyle {\hat {\boldsymbol {\beta }}}=\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y} .} または
β ^ = β + ( X ⊤ X ) − 1 X ⊤ ε . {\displaystyle {\hat {\boldsymbol {\beta }}}={\boldsymbol {\beta }}+\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }}.}
推定 b がパラメータベクトルβ の「候補」値であるとする。i番目の観測値の残差と呼ばれる量y i − x i T b は、データ点 ( x i , y i ) と超平面 y = x T b 間の垂直距離を測定し、 実際 の データ と モデル の 適合度 を 評価 する 。 残差二乗和 ( SSR ) (誤差二乗和 ( ESS ) または残差二乗和 ( RSS ) とも呼ばれる) [ 4 ] は、全体的なモデル適合度の尺度である。
S ( b ) = ∑ i = 1 n ( y i − x i T b ) 2 = ( y − X b ) T ( y − X b ) , {\displaystyle S(b)=\sum _{i=1}^{n}(y_{i}-x_{i}^{\operatorname {T} }b)^{2}=(y-Xb)^{\operatorname {T} }(y-Xb),} ここで、T は行列転置を表し、 X の行は従属変数の特定の値に関連付けられたすべての独立変数の値を表し、X i = x i Tである。この合計を最小化する b の値は、 β の OLS 推定値 と呼ばれる。関数S ( b ) はb の2次関数で、正定値ヘッセ行列 を持つため、この関数は で唯一の大域的最小値を持ち、これは明示的な式[ 5 ] [証明] で与えられる。b = β ^ {\displaystyle b={\hat {\beta }}}
β ^ = argmin b ∈ R p S ( b ) = ( X T X ) − 1 X T y . {\displaystyle {\hat {\beta }}=\operatorname {argmin} _{b\in \mathbb {R} ^{p}}S(b)=(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y\ .} 積N = X T Xは グラム行列 であり、その逆行列Q = N −1 はβ の補因子行列 であり、[ 6 ] [ 7 ] [ 8 ] その共分散行列 C β と密接に関連している。行列 ( X T X ) −1 X T = Q X Tは、 Xの ムーア・ペンローズ擬似逆 行列と呼ばれる。この定式化は、説明変数間に完全な多重共線性 がない場合にのみ推定を実行できるという点を強調している(この場合、グラム行列の逆行列は存在しない)。
予測 β を推定した後、回帰分析から得られる 適合値 (または予測値)は次のようになる。
y ^ = X β ^ = P y , {\displaystyle {\hat {y}}=X{\hat {\beta }}=Py,} ここでP = X ( X T X ) −1 X T は、X の列によって張られる空間Vへの 射影行列 です。この行列P は、変数yに「帽子をかぶせる」ため、 ハット行列 と呼ばれることもあります。Pに密接に関連するもう1つの行列は、 消滅 行列M = I n − P です。これは、 V に直交する空間への射影行列です。行列P とMはどちらも対称かつ べき等 で あり(つまり、P 2 = P およびM 2 = M )、恒等式 PX = X およびMX = 0 を介してデータ行列X に関連付けられます。[ 9 ] 行列M は 回帰からの 残差 を作成します。
ε ^ = y − y ^ = y − X β ^ = M y = M ( X β + ε ) = ( M X ) β + M ε = M ε . {\displaystyle {\hat {\varepsilon }}=y-{\hat {y}}=y-X{\hat {\beta }}=My=M(X\beta +\varepsilon )=(MX)\beta +M\varepsilon =M\varepsilon .} 予測値の分散は、予測値の 分散共分散行列 の主対角線に現れます。s y ^ i 2 {\displaystyle s_{{\hat {y}}_{i}}^{2}}
C y ^ = s 2 P , {\displaystyle C_{\hat {y}}=s^{2}P,} ここでP は射影行列、s2 は 標本分散である。[ 10 ] 完全な行列は非常に大きいため、その対角要素は次のように個別に計算することができる。
s y ^ i 2 = s 2 X i ( X T X ) − 1 X i T , {\displaystyle s_{{\hat {y}}_{i}}^{2}=s^{2}X_{i}(X^{T}X)^{-1}X_{i}^{T},} ここで、X i は行列Xの i 番目の行です。
サンプル統計 これらの残差を使用して、縮小カイ二乗 統計量を使用して標本分散s 2 を推定することができます。
s 2 = ε ^ T ε ^ n − p = ( M y ) T M y n − p = y T M T M y n − p = y T M y n − p = S ( β ^ ) n − p , σ ^ 2 = n − p n s 2 {\displaystyle s^{2}={\frac {{\hat {\varepsilon }}^{\mathrm {T} }{\hat {\varepsilon }}}{n-p}}={\frac {(My)^{\mathrm {T} }My}{n-p}}={\frac {y^{\mathrm {T} }M^{\mathrm {T} }My}{n-p}}={\frac {y^{\mathrm {T} }My}{n-p}}={\frac {S({\hat {\beta }})}{n-p}},\qquad {\hat {\sigma }}^{2}={\frac {n-p}{n}}\;s^{2}} 分母n − pは 統計的自由度 である。最初の量s 2は σ 2 の OLS 推定値であり、2 番目の量はσ 2 の MLE 推定値である。2 つの推定値は大規模なサンプルでは非常に類似している。つまり、最初の推定値は常に不偏で あるのに対し、2 番目の推定値は偏りがあるものの、平均二乗誤差 はより小さくなる。実際には、仮説検定にはs 2の方が便利なので、より頻繁に使用される。 s 2 の平方根は回帰標準誤差 [ 11 ] 、回帰の標準誤差 [ 12 ] 、[ 13 ] 、または式の標準誤差 [ 9 ] と呼ばれる。σ ^ 2 {\displaystyle \scriptstyle {\hat {\sigma }}^{2}}
OLS回帰の適合度を評価する際、標本の初期変動がX に回帰することでどれだけ減少するかを比較するのが一般的です。決定係数 R 2 は、回帰の平方和が残差の平方和と等しい場合における、従属変数y の「説明された」分散と「全体の」分散の比として定義されます。 [ 14 ]
R 2 = ∑ ( y ^ i − y ¯ ) 2 ∑ ( y i − y ¯ ) 2 = y T P T L P y y T L y = 1 − y T M y y T L y = 1 − R S S T S S {\displaystyle R^{2}={\frac {\sum ({\hat {y}}_{i}-{\overline {y}})^{2}}{\sum (y_{i}-{\overline {y}})^{2}}}={\frac {y^{\mathrm {T} }P^{\mathrm {T} }LPy}{y^{\mathrm {T} }Ly}}=1-{\frac {y^{\mathrm {T} }My}{y^{\mathrm {T} }Ly}}=1-{\frac {\rm {RSS}}{\rm {TSS}}}} ここで、TSSは従属変数の平方和の総和 であり、n × n の1の行列です。(は中心化行列であり、定数回帰と同等です。つまり、変数から平均値を単純に減算するだけです。) R 2 が 意味を持つためには、回帰変数のデータの行列Xに、 回帰切片を係数とする定数を表す1の列ベクトルが含まれている必要があります。この場合、R 2 は常に0から1の間の数値となり、1に近い値は適合度が高いことを示します。 L = I n − 1 n J n {\textstyle L=I_{n}-{\frac {1}{n}}J_{n}} J n {\textstyle J_{n}} L {\displaystyle L}
単純線形回帰モデル データ行列X が 定数とスカラー回帰変数x i の2つの変数のみを含む場合、これは「単回帰モデル」と呼ばれます。このケースは、手計算にも適した非常に単純な式を提供するため、統計学の入門クラスでよく取り上げられます。パラメータは一般的に( α , β ) と表記されます。
y i = α + β x i + ε i . {\displaystyle y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}.} この場合の最小二乗推定値は簡単な式で与えられる。
β ^ = ∑ i = 1 n ( x i − x ¯ ) ( y i − y ¯ ) ∑ i = 1 n ( x i − x ¯ ) 2 α ^ = y ¯ − β ^ x ¯ , {\displaystyle {\begin{aligned}{\widehat {\beta }}&={\frac {\sum _{i=1}^{n}{(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}}{\sum _{i=1}^{n}{(x_{i}-{\bar {x}})^{2}}}}\\[2pt]{\widehat {\alpha }}&={\bar {y}}-{\widehat {\beta }}\,{\bar {x}}\ ,\end{aligned}}}
代替導出 前のセクションでは、最小二乗推定値はモデルの残差二乗和を最小化する値として得られました。しかし、他のアプローチからも同じ推定値を導出することが可能です。いずれの場合も、OLS推定値の式は同じです:^ β = ( X T X ) −1 X T y 。唯一の違いは、この結果の解釈方法です。 β ^ {\displaystyle {\hat {\beta }}}
投影 OLS推定は、回帰変数が張る線形空間への投影として考えることができます。(ここで、と はそれぞれデータ行列の列を指します。)X 1 {\displaystyle X_{1}} X 2 {\displaystyle X_{2}} 数学者にとって、OLS法は過剰決定線形方程式Xβ≈y (β は未知数 )の近似解です。この方程式系を正確に解くことはできないと仮定すると(方程式の数n が未知数p よりもはるかに大きい場合)、右辺と左辺の差が最小となるような解を求めます。言い換えれば、
β ^ = a r g min β ‖ y − X β ‖ 2 , {\displaystyle {\hat {\beta }}={\rm {arg}}\min _{\beta }\,\lVert \mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\rVert ^{2},} ここで、 ‖ · ‖は n 次元ユークリッド空間 R n における標準L 2 ノルム である。予測値Xβ は、回帰変数のベクトルの特定の線形結合にすぎない。したがって、残差ベクトルy − Xβ は、 y を X の列によって張られる 線形部分空間 に直交投影した ときに最小の長さになる。この場合の OLS 推定値は、X の基底に沿った^ y = Py のベクトル分解 の係数として解釈できる。 β ^ {\displaystyle {\hat {\beta }}}
言い換えれば、最小値における勾配方程式は次のように表すことができます。
( y − X β ^ ) ⊤ X = 0. {\displaystyle (\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\top }\mathbf {X} =0.} これらの方程式の幾何学的解釈は、任意の共形ベクトル v に対してドット積がゼロとなるため、残差ベクトル は X の列空間に直交するというものです。 これは 、 がすべての 可能な ベクトルの中で最短であること、つまり残差の分散が最小であることを意味します。これは右に示されています。 y − X β ^ {\displaystyle \mathbf {y} -X{\hat {\boldsymbol {\beta }}}} ( y − X β ^ ) ⋅ X v {\displaystyle (\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\cdot \mathbf {X} \mathbf {v} } y − X β ^ {\displaystyle \mathbf {y} -\mathbf {X} {\boldsymbol {\hat {\beta }}}} y − X β {\displaystyle \mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}}
行列が非特異であり、K T X = 0(直交射影を 参照)という仮定の下で行列K を導入すると、残差ベクトルは次の式を満たす必要があります。 γ ^ {\displaystyle {\hat {\boldsymbol {\gamma }}}} [ X K ] {\displaystyle [\mathbf {X} \ \mathbf {K} ]}
r ^ := y − X β ^ = K γ ^ . {\displaystyle {\hat {\mathbf {r} }}:=\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}=\mathbf {K} {\hat {\boldsymbol {\gamma }}}.} したがって、線形最小二乗法の方程式と解は次のように記述されます。
y = [ X K ] [ β ^ γ ^ ] , ⇒ [ β ^ γ ^ ] = [ X K ] − 1 y = [ ( X ⊤ X ) − 1 X ⊤ ( K ⊤ K ) − 1 K ⊤ ] y . {\displaystyle {\begin{aligned}\mathbf {y} &={\begin{bmatrix}\mathbf {X} &\mathbf {K} \end{bmatrix}}{\begin{bmatrix}{\hat {\boldsymbol {\beta }}}\\{\hat {\boldsymbol {\gamma }}}\end{bmatrix}},\\{}\Rightarrow {\begin{bmatrix}{\hat {\boldsymbol {\beta }}}\\{\hat {\boldsymbol {\gamma }}}\end{bmatrix}}&={\begin{bmatrix}\mathbf {X} &\mathbf {K} \end{bmatrix}}^{-1}\mathbf {y} ={\begin{bmatrix}\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\\\left(\mathbf {K} ^{\top }\mathbf {K} \right)^{-1}\mathbf {K} ^{\top }\end{bmatrix}}\mathbf {y} .\end{aligned}}} 別の見方としては、回帰直線をデータセット内の任意の2点を通る直線の加重平均とみなすことである。[ 15 ] この計算方法は計算コストは高くなりますが、OLSに対するより直観的な理解が得られます。
最大尤度 OLS推定量は、誤差項の正規性仮定の下では最大尤度推定量(MLE)と同一である。 [ 16 ] [証明] この正規性仮定は、ユール とピアソン による線型回帰分析の初期の研究の基礎となったため、歴史的に重要である。MLEの特性から、正規性仮定が満たされる場合、OLS推定量は漸近的に効率的である(分散のクラメール・ラオ境界を 達成するという意味で)と推論できる。[ 17 ]
一般化モーメント法 iid の場合、OLS推定量はモーメント条件から生じる GMM 推定量として見ることもできる。
E [ x i ( y i − x i T β ) ] = 0. {\displaystyle \mathrm {E} {\big [}\,x_{i}\left(y_{i}-x_{i}^{\operatorname {T} }\beta \right)\,{\big ]}=0.} これらのモーメント条件は、 回帰変数が誤差と無相関でなければならないことを規定しています。x i はp ベクトルであるため、モーメント条件の数はパラメータベクトルβ の次元に等しく、したがってシステムは正確に同定されます。これは、推定量が重み行列の選択に依存しない、いわゆる古典的GMMの場合です。
元々の厳密な外生性仮定E[ ε i | x i ] = 0 は、上記よりもはるかに豊富なモーメント条件を示唆していることに注意してください。特に、この仮定は、任意のベクトル関数ƒ に対して、モーメント条件E[ ƒ ( x i )· ε i ] = 0が成立することを意味します。しかし、 ガウス・マルコフ定理を用いると、関数 ƒ の最適な選択はƒ ( x ) = x とすることであり、その結果、上記に示したモーメント方程式が 得られることが示されます。
仮定 OLS法を適用するために、線形回帰モデルを 様々なフレームワークに組み込むことができます。これらの設定はどれも同じ式と結果を生成します。唯一の違いは、この手法が意味のある結果をもたらすために課すべき解釈と仮定です。適用可能なフレームワークの選択は、主に手持ちのデータの性質と、実行すべき推論タスクに依存します。
解釈における相違点の 1 つは、回帰変数をランダム変数として扱うか、定義済み定数として扱うかです。前者の場合 (ランダム設計 )、回帰変数x i はランダムであり、観察研究 の場合と同様に、ある母集団から y i とともにサンプリングされます。このアプローチにより、推定値の 漸近特性 をより自然に研究できます。もう一方の解釈 (固定設計 ) では、回帰変数Xは 設計 によって設定される既知の定数として扱われ、y は 実験 の場合と同様に、 X の値に基づいて条件付きでサンプリングされます。実用上は、推定と推論はX を条件として実行されるため、この区別は重要ではないことがよくあります。この記事で述べられている結果はすべて、ランダム設計のフレームワーク内にあります。
古典的モデルは「有限標本」推定と推論に焦点を当てており、これは観測値の数nが固定されていることを意味します。これは、OLSの 漸近的挙動 を研究し、多数の標本における挙動を研究する他のアプローチとは対照的です。OLS推定量の有限標本不偏性を証明するには、以下の仮定が必要です。
線型回帰の一種である三次多項式回帰の例。多項式回帰は データに曲線モデルを当てはめますが、統計的推定問題としては線型です。つまり、条件付き期待値関数が データ から推定される未知のパラメータ に対して線型であるということです。このため、多項式回帰は多重線型回帰 の特殊なケースと考えられています。E [ y | x ] {\displaystyle \mathbb {E} [y|x]} 外生性 。回帰変数は誤差項と共変 しない。これは、例えば、観測変数と共変して応答変数に影響を及ぼす省略変数が存在しないということを必要とする。 数理統計学 において線型回帰を説明するときにしばしば求められる代替(ただしより強い)ステートメントは、予測変数x は ランダム変数 ではなく固定値として扱えるというものである。このより強い形式は、例えば、予測変数は誤差がない、つまり測定誤差の影響を受けないと仮定されることを意味する。この仮定は多くの状況では現実的ではないが、この仮定を外すと、より複雑な変数内誤差モデル や操作変数モデル などが生まれる。E [ ε i x i ] = 0. {\displaystyle \mathbb {E} [\varepsilon _{i}x_{i}]=0.} 線形性 、あるいは正しい指定 。これは、応答変数の平均が、パラメータ(回帰係数)と予測変数の線形結合 であることを意味します。この仮定は、一見したほど制約的ではないことに注意してください。予測変数は固定値として扱われるため(上記参照)、線形性は実際にはパラメータに対する制約にすぎません。予測変数自体は任意に変換可能であり、実際には同じ基礎予測変数を複数コピーして、それぞれ異なる変換を施すことも可能です。この手法は、例えば多項式回帰で用いられます。多項式回帰 では、線形回帰を用いて、応答変数を予測変数の任意の多項式 関数(所定の次数まで)として近似させます。これほど柔軟性が高いため、多項式回帰などのモデルは、データに過剰適合する 傾向があるという点で、「検出力が強すぎる」場合が多くあります。その結果、推定プロセスから不合理な解が得られるのを防ぐために、通常は何らかの正則化を 行う必要があります。一般的な例としては、リッジ回帰 やLasso回帰 が挙げられます。ベイズ線形回帰 も使用できます。ベイズ線形回帰は、その性質上、過剰適合の問題の影響をほぼ受けません。(実際、リッジ回帰 とLasso回帰はどちらも、回帰係数に特定の種類の 事前分布 が適用されるベイズ線形回帰の特殊なケースと見なすことができます。)Matlab を使用した 100 個のランダムな近似値に対する散布図の異分散性の可視化 定分散 または 等分散 。これは、誤差の分散が予測変数の値に依存しないことを意味します。したがって、予測変数の特定の固定値に対する応答の変動性は、応答の大きさに関係なく同じです。ただし、多くの場合は当てはまりません。平均が大きい変数は通常、平均が小さい変数よりも分散が大きくなるためです。たとえば、収入が 10 万ドルと予測されている人の実際の収入は 8 万ドルや 12 万ドル (つまり、標準偏差 が約 2 万ドル) になる可能性は十分にあります。一方、収入が 1 万ドルと予測されている人の標準偏差が同じ 2 万ドルになる可能性は低いです。なぜなら、その場合の実際の収入は -1 万ドルから 3 万ドルの間で変動する可能性があるからです。 (実際、これが示すように、多くの場合(多くの場合、正規分布の誤差という仮定が成り立たないのと同じ場合)、分散または標準偏差は一定ではなく平均に比例すると予測されるはずです。)等分散性の欠如は異分散性 と呼ばれます。この仮定を検証するために、残差と予測値(または各予測変数の値)をプロットし、「扇状効果」(プロット上で左から右に移動するにつれて垂直方向の広がりが増加または減少する)を調べることができます。また、絶対残差または二乗残差と予測値(または各予測変数)をプロットし、傾向または曲率を調べることもできます。正式な検定も使用できます。異分散性を参照してください。異分散性が存在すると、真の分散構造を考慮した推定値ではなく、全体的な「平均」分散推定値が使用されることになります。これにより、精度の低い(ただし、 通常の最小二乗法 の場合はバイアスはありません)パラメータ推定値とバイアスのある標準誤差が生じ、誤った検定と区間推定値が得られます。モデルの平均二乗誤差も誤りとなります。加重最小二乗法や異分散性整合標準誤差の使用など、様々な推定手法を用いることで、異分散 性 を 非常に一般的な方法で扱うことができます。分散が平均の関数であると仮定した場合には、ベイズ線形回帰法も使用できます。また、場合によっては、応答変数に変換を適用することで問題を解決することも可能です(例えば、線形回帰モデルを用いて応答変数の 対数を 近似するなど。これは、応答変数自体が正規分布ではなく対数正規 分布 に従うことを意味します)。E [ ε i 2 | x i ] = σ 2 . {\displaystyle \mathbb {E} [\varepsilon _{i}^{2}|x_{i}]=\sigma ^{2}.} 線形回帰モデルにおける線形性、定分散、および誤差の独立性という仮定に違反がないか確認するために、残差は通常、予測値(または個々の予測変数)に対してプロットされます。0における水平方向の中央線を中心として点が一見ランダムに散在しているのが理想的ですが、誤差の自己相関や、誤差と1つ以上の共 変量との相関など、特定の種類の違反を排除することはできません。 誤差の無相関性 。これは、応答変数の誤差が互いに無相関であることを前提としています。一般化最小二乗法 などの一部の手法は相関誤差を扱うことができますが、何らかの正則化 を用いてモデルを無相関誤差と仮定するようにバイアスをかけない限り、通常ははるかに多くのデータが必要になります。ベイズ線形回帰は 、この問題に対処する一般的な方法です。完全な統計的独立性 は、単なる相関の欠如よりも強い条件であり、平均独立性を意味するものの、多くの場合必要ありません。E [ ε i ε j | x i , x j ] = 0. {\displaystyle \mathbb {E} [\varepsilon _{i}\varepsilon _{j}|x_{i},x_{j}]=0.} 予測変数における完全な多重共線性の欠如 。標準的な最小二乗 推定法では、計画行列Xは完全な 列ランク p : [ 18 ] を持たなければなりません。この仮定が満たされない場合、予測変数に完全な多重共線性 が存在し、2つ以上の予測変数の間に線形関係が存在することを意味します。多重共線性は、データ内で誤って変数を重複させたり、元の変数と共に変数の線形変換を使用したり (例: 華氏と摂氏で同じ温度測定値を表示)、モデルに複数の変数の線形結合 (平均値など) を含めたりすることで発生することがあります。また、推定するパラメータの数に比べて利用可能なデータが少ない場合にも発生する可能性があります (例: 回帰係数よりもデータ ポイントが少ない)。予測変数の相関は高いが完全には一致していないという、この仮定にほぼ違反している場合、パラメータ推定値の精度が低下する可能性があります (「分散膨張係数 」を参照)。完全な多重共線性がある場合、パラメータ ベクトルβ は 識別不能 、つまり一意の解が存在しません。このような場合、パラメータの一部しか特定できません(つまり、その値は、パラメータ空間R p 全体の一部の線形部分空間内でのみ推定できます)。部分最小二乗回帰を 参照してください。多重共線性を持つ線形モデルを近似する手法が開発されており、[ 19 ] [ 20 ] [ 21 ] [ 22 ] 、 その一部では、「効果スパース性」(効果の大部分が正確にゼロである)などの追加の仮定が必要です。一般化線形モデル で使用されるような、パラメータ推定のためのより計算コストの高い反復アルゴリズムは、この問題の影響を受けないことに留意してください。Pr [ rank ( X ) = p ] = 1. {\displaystyle \Pr \!{\big [}\,\operatorname {rank} (X)=p\,{\big ]}=1.} これらの仮定に違反すると、 β の推定値に偏りが生じ、標準誤差の偏りが生じ、信頼できない信頼区間や有意性検定が生じる可能性があります。これらの仮定以外にも、データの他の統計的特性が、様々な推定手法の性能に強く影響を及ぼします。
誤差項と回帰変数間の統計的関係は、推定手順が偏りがなく一貫性があるなどの望ましいサンプリング特性を備えているかどうかを判断する上で重要な役割を果たします。 予測変数x の配置、すなわち確率分布は、 β の推定値の精度に大きな影響を与えます。サンプリング と実験計画法は 、統計学の高度に発達した分野であり、β の正確な推定値を得るためにデータ収集を行うための指針を提供します。
プロパティ
有限サンプル特性 まず、厳密な外生性 仮定の下では、OLS推定値とs 2は 不偏で あり、その期待値はパラメータの真の値と一致する:[ 23 ] [証明] β ^ {\displaystyle \scriptstyle {\hat {\beta }}}
E [ β ^ ∣ X ] = β , E [ s 2 ∣ X ] = σ 2 . {\displaystyle \operatorname {E} [\,{\hat {\beta }}\mid X\,]=\beta ,\quad \operatorname {E} [\,s^{2}\mid X\,]=\sigma ^{2}.} 厳密な外生性が成り立たない場合(外生性が過去のショックに関してのみ想定され、将来のショックに関しては想定されない多くの時系列 モデルの場合のように)、これらの推定値は有限サンプルで偏りが生じます。
の分散共分散行列 (または単に共分散行列 )は[ 24 ] に等しい。β ^ {\displaystyle \scriptstyle {\hat {\beta }}}
Var [ β ^ ∣ X ] = σ 2 ( X T X ) − 1 = σ 2 Q . {\displaystyle \operatorname {Var} [\,{\hat {\beta }}\mid X\,]=\sigma ^{2}\left(X^{\operatorname {T} }X\right)^{-1}=\sigma ^{2}Q.} 特に、各係数の標準誤差は、この行列のj 番目の対角要素の平方根に等しい。この標準誤差の推定値は、未知の量σ 2 をその推定値s 2 に置き換えることによって得られる。したがって、 β ^ j {\displaystyle \scriptstyle {\hat {\beta }}_{j}}
s . e . ^ ( β ^ j ) = s 2 ( X T X ) j j − 1 {\displaystyle {\widehat {\operatorname {s.\!e.} }}({\hat {\beta }}_{j})={\sqrt {s^{2}\left(X^{\operatorname {T} }X\right)_{jj}^{-1}}}} 推定値はモデルの残差と無相関であることも簡単に示せる: [ 24 ] β ^ {\displaystyle \scriptstyle {\hat {\beta }}}
Cov [ β ^ , ε ^ ∣ X ] = 0. {\displaystyle \operatorname {Cov} [\,{\hat {\beta }},{\hat {\varepsilon }}\mid X\,]=0.} ガウス・マルコフ定理は 、球面誤差 仮定(つまり、誤差は無相関かつ 等分散で あるべき)の下で、推定量は線形不偏推定量のクラスにおいて効率的であることを述べている。これは最良線形不偏推定量(BLUE)と呼ばれる。効率性は、 y に関して線形かつ不偏となる別の推定量を求める場合と同様に理解されるべきであり、[ 24 ] β ^ {\displaystyle \scriptstyle {\hat {\beta }}} β ~ {\displaystyle \scriptstyle {\tilde {\beta }}}
Var [ β ~ ∣ X ] − Var [ β ^ ∣ X ] ≥ 0 {\displaystyle \operatorname {Var} [\,{\tilde {\beta }}\mid X\,]-\operatorname {Var} [\,{\hat {\beta }}\mid X\,]\geq 0} これは非負定常行列 であるという意味で最適性を確立する。この定理は線形不偏推定量のクラスにおいてのみ最適性を確立するが、これは非常に限定的である。誤差項ε の分布によっては、他の非線形推定量の方がOLSよりも良い結果をもたらす可能性がある。
正規性を仮定する これまでに挙げた特性は、誤差項の分布に関わらず、すべて有効です。しかし、正規性仮定 (つまり、ε ~ N (0, σ 2 I n ) )が成り立つと仮定すれば、OLS推定量の追加の特性を述べることができます。
推定値は正規分布し、平均と分散は前述の通りである:[ 25 ] β ^ {\displaystyle \scriptstyle {\hat {\beta }}}
β ^ ∼ N ( β , σ 2 ( X T X ) − 1 ) . {\displaystyle {\hat {\beta }}\ \sim \ {\mathcal {N}}{\big (}\beta ,\ \sigma ^{2}(X^{\mathrm {T} }X)^{-1}{\big )}.} この推定量はモデルのクラメール・ラオ境界に達し、したがってすべての不偏推定量のクラスの中で最適である。 [ 17 ] ガウス・マルコフ定理 とは異なり、この結果は線形推定量と非線形推定量の両方の中で最適性を確立するが、正規分布する誤差項の場合のみであることに注意する。
推定値s 2は カイ2乗分布 に比例する:[ 26 ]
s 2 ∼ σ 2 n − p ⋅ χ n − p 2 {\displaystyle s^{2}\ \sim \ {\frac {\sigma ^{2}}{n-p}}\cdot \chi _{n-p}^{2}} この推定値の分散は2 σ 4 /( n − p )に等しく、これは クラメール・ラオの限界である 2 σ 4 / n には達しません。しかし、推定値s 2 の分散よりも小さいσ 2 の不偏推定値は存在しないことが示されています。[ 27 ] 偏りのある推定値を許容し、モデルの残差二乗和(SSR)に比例する推定値のクラスを考慮すると、このクラスで(平均二乗誤差の意味で)最良の推定値は ~ σ 2 = SSR / ( n − p + 2) となり、回帰変数が1つしかない場合(p = 1 )のクラメール・ラオの限界よりも優れています。[ 28 ]
さらに、推定値とs2 は 独立し ており、[ 29 ] この事実は回帰のt検定とF検定を構築する際に役立ちます。 β ^ {\displaystyle \scriptstyle {\hat {\beta }}}
影響力のある観察 前述の通り、推定値はy に関して線形であり、従属変数y i の線形結合を表します。この線形結合における重みは回帰変数X の関数であり、通常は不等です。重みの高い観測値は推定値に顕著な影響を与えるため、 影響力がある と呼ばれます。β ^ {\displaystyle {\hat {\beta }}}
どの観測値が影響力を持つかを分析するために、特定のj 番目の観測値を除外し、推定値がどの程度変化するかを検討する(ジャックナイフ法と同様)。OLS推定値 βの変化は [ 30 ] に等しいことが示される。
β ^ ( j ) − β ^ = − 1 1 − h j ( X T X ) − 1 x j T ε ^ j , {\displaystyle {\hat {\beta }}^{(j)}-{\hat {\beta }}=-{\frac {1}{1-h_{j}}}(X^{\mathrm {T} }X)^{-1}x_{j}^{\mathrm {T} }{\hat {\varepsilon }}_{j}\,,} ここで、 h j = x j T ( X T X ) −1 x j はハット行列Pの j 番目の対角要素であり、x j はj 番目の観測値に対応する回帰変数のベクトルである。同様に、データセットから j 番目の観測値を省略することによるj 番目の観測値の予測値の変化は[ 30 ] に等しい。
y ^ j ( j ) − y ^ j = x j T β ^ ( j ) − x j T β ^ = − h j 1 − h j ε ^ j {\displaystyle {\hat {y}}_{j}^{(j)}-{\hat {y}}_{j}=x_{j}^{\mathrm {T} }{\hat {\beta }}^{(j)}-x_{j}^{\operatorname {T} }{\hat {\beta }}=-{\frac {h_{j}}{1-h_{j}}}\,{\hat {\varepsilon }}_{j}} ハット行列の特性から、0 ≤ h j ≤ 1 であり、それらの合計はp となり、平均するとh j ≈ p/n となる。これらの量h j はてこ比 と呼ばれ、高いh j を持つ観測値はてこ比ポイント と呼ばれる。[ 31 ] 通常、てこ比の高い観測値は、誤りであったり、外れ値であったり、あるいはデータセットの残りの部分と比べて何らかの点で非典型的であったりする可能性があるため、より注意深く精査する必要がある。
分割回帰 回帰分析における変数とそれに対応するパラメータは、論理的に2つのグループに分割されることもあり、その場合、回帰分析は次のような形をとる。
y = X 1 β 1 + X 2 β 2 + ε , {\displaystyle y=X_{1}\beta _{1}+X_{2}\beta _{2}+\varepsilon ,} ここで、X 1 とX 2 は n × p 1 、n × p 2 の 次元を持ち、β 1 、β 2 はp 1 ×1 とp 2 ×1 ベクトルで、p 1 + p 2 = p となります。
フリッシュ・ウォーフ・ラヴェル定理 によれば、この回帰分析における残差とOLS推定値は、次の回帰分析におけるβ2 の 残差とOLS推定値と数値的に同一となる。 [ 32 ] ε ^ {\displaystyle {\hat {\varepsilon }}} β ^ 2 {\displaystyle \scriptstyle {\hat {\beta }}_{2}}
M 1 y = M 1 X 2 β 2 + η , {\displaystyle M_{1}y=M_{1}X_{2}\beta _{2}+\eta \,,} ここで、M 1は回帰変数 X 1 の消滅行列 です。
この定理は、多くの理論的結果を確立するために用いることができます。例えば、定数項と別の回帰変数を用いた回帰分析は、従属変数と回帰変数から平均値を減算し、その後、定数項を除いて、平均を除いた変数について回帰分析を実行することと等価です。
大規模サンプルの特性 最小二乗推定値は、線形回帰モデルのパラメータβの 点推定値です。しかし、一般的には、これらの推定値がパラメータの真の値にどの程度近いかを知ることも重要です。言い換えれば、 区間推定値 を構築したいということです。
誤差項ε i の分布についてはいかなる仮定も立てていないため、推定値との分布を推測することは不可能である。しかしながら、中心極限定理を 適用することで、サンプルサイズnが無限大に近づくにつれて、それらの 漸近 特性を導くことができる。サンプルサイズは必然的に有限であるが、OLS推定値の真の分布がその漸近極限に近づくように、 n は「十分に大きい」と仮定するのが慣例である。 β ^ {\displaystyle {\hat {\beta }}} σ ^ 2 {\displaystyle {\hat {\sigma }}^{2}}
モデルの仮定の下では、 β の最小二乗推定値は整合して おり(つまり、確率的に β に収束する)、漸近的に正規分布に従うことが示される。[証明] β ^ {\displaystyle {\hat {\beta }}}
( β ^ − β ) → d N ( 0 , σ 2 Q x x − 1 ) , {\displaystyle ({\hat {\beta }}-\beta )\ {\xrightarrow {d}}\ {\mathcal {N}}{\big (}0,\;\sigma ^{2}Q_{xx}^{-1}{\big )},} どこQ x x = X T X . {\displaystyle Q_{xx}=X^{\operatorname {T} }X.}
推論 この漸近分布を用いると、ベクトルのj 番目の成分の近似両側信頼区間は次のように構築できる。 β ^ {\displaystyle {\hat {\beta }}}
β j ∈ [ β ^ j ± q 1 − α 2 N ( 0 , 1 ) σ ^ 2 [ Q x x − 1 ] j j ] {\displaystyle \beta _{j}\in {\bigg [}\ {\hat {\beta }}_{j}\pm q_{1-{\frac {\alpha }{2}}}^{{\mathcal {N}}(0,1)}\!{\sqrt {{\hat {\sigma }}^{2}\left[Q_{xx}^{-1}\right]_{jj}}}\ {\bigg ]}} 1 − α 信頼水準 において、ここでqは標準正規分布の 分位関数 を表し、[·] jj は行列の j 番目の対角要素です。
同様に、 σ 2 の最小二乗推定値も、 ε i の4次モーメントが存在する限り、限界分布と 整合し、漸近的に正規分布となる。
( σ ^ 2 − σ 2 ) → d N ( 0 , E [ ε i 4 ] − σ 4 ) . {\displaystyle ({\hat {\sigma }}^{2}-\sigma ^{2})\ {\xrightarrow {d}}\ {\mathcal {N}}\left(0,\;\operatorname {E} \left[\varepsilon _{i}^{4}\right]-\sigma ^{4}\right).} これらの漸近分布は、予測、仮説検定、他の推定値の構築などに使用できます。例として、予測の問題を考えてみましょう。回帰変数の分布領域内のある点を と仮定し、その点における応答変数がどのような値であったかを知りたいとします。平均応答 は であり、予測応答 は です。明らかに、予測応答は確率変数であり、その分布は の分布から導き出すことができます。 x 0 {\displaystyle x_{0}} y 0 = x 0 T β {\displaystyle y_{0}=x_{0}^{\mathrm {T} }\beta } y ^ 0 = x 0 T β ^ {\displaystyle {\hat {y}}_{0}=x_{0}^{\mathrm {T} }{\hat {\beta }}} β ^ {\displaystyle {\hat {\beta }}}
( y ^ 0 − y 0 ) → d N ( 0 , σ 2 x 0 T Q x x − 1 x 0 ) , {\displaystyle \left({\hat {y}}_{0}-y_{0}\right)\ {\xrightarrow {d}}\ {\mathcal {N}}\left(0,\;\sigma ^{2}x_{0}^{\mathrm {T} }Q_{xx}^{-1}x_{0}\right),} これにより、平均応答の信頼区間を構築することができます。 y 0 {\displaystyle y_{0}}
y 0 ∈ [ x 0 T β ^ ± q 1 − α 2 N ( 0 , 1 ) σ ^ 2 x 0 T Q x x − 1 x 0 ] {\displaystyle y_{0}\in \left[\ x_{0}^{\mathrm {T} }{\hat {\beta }}\pm q_{1-{\frac {\alpha }{2}}}^{{\mathcal {N}}(0,1)}\!{\sqrt {{\hat {\sigma }}^{2}x_{0}^{\mathrm {T} }Q_{xx}^{-1}x_{0}}}\ \right]} 1 − α 信頼水準 で。
仮説検定 特に広く使用されている仮説検定は2つあります。まず、推定された回帰式が、応答変数のすべての値がその標本平均値に等しいと単純に予測するよりも優れているかどうかを知りたいと考えます(そうでない場合、説明力がないと言われます)。推定された回帰式に説明力がないという帰無仮説は、 F検定 を用いて検定されます。計算されたF値が、事前に選択された有意水準の臨界値を超えるほど大きいことが判明した場合、帰無仮説は棄却され、回帰式には説明力があるという対立仮説 が受け入れられます。そうでない場合、説明力がないという帰無仮説が受け入れられます。
次に、対象となる各説明変数について、その推定係数がゼロと有意に異なるかどうか、つまり、この特定の説明変数が応答変数を予測する説明力を持っているかどうかを知りたいと考えます。ここでの帰無仮説は、真の係数がゼロであるというものです。この仮説は、係数のt統計量(係数推定値とその 標準誤差 の比)を計算することで検定されます。t統計量が事前に設定された値よりも大きい場合、帰無仮説は棄却され、変数は説明力を持ち、係数がゼロと有意に異なることがわかります。それ以外の場合、真の係数がゼロであるという帰無仮説が受け入れられます。
さらに、チャウ検定は 、2つのサブサンプルが両方とも同じ真の係数値を持つかどうかを検定するために使用されます。各サブセットと結合データセットにおける回帰分析の残差の二乗和をF統計量で比較します。この値が臨界値を超える場合、2つのサブセット間に差がないという帰無仮説は棄却され、そうでない場合は受け入れられます。
仮定違反
時系列モデル 時系列 モデルでは、確率過程 { xi , yi } が 定常 かつエルゴード的 であることが求められる。{ xi , yi } が非定常の場合、{ xi , yi } が 共和分で ない限り、OLSの結果はバイアスを持つことが多い。[ 33 ]
回帰変数は厳密に外生的で ある必要があります:E[ x i ε i ] = 0(すべてのi = 1, ..., nに対して)。回帰変数が 事前に決定されている だけの場合、OLSは有限サンプルにおいてバイアスが生じます。
最後に、分散に関する仮定は、{ x i ε i }がマルチンゲール差分列 であり、有限の2次モーメント行列Q xxε ² = E[ ε i 2 x i x i T ] を持つことを要求する形を取ります。
制約付き推定 回帰の係数が線形方程式の連立方程式を満たすことが分かっていると仮定する。
A : Q T β = c , {\displaystyle A\colon \quad Q^{\operatorname {T} }\beta =c,\,} ここで、Q はp × q 行列、cは q ×1ベクトルで既知の定数であり、q<pである。 この場合、最小二乗推定は、制約A を課したモデルの残差二乗和を最小化することと等価である。制約付き最小二乗(CLS) 推定量は、明示的な式で与えられる:[ 34 ]
β ^ c = β ^ − ( X T X ) − 1 Q ( Q T ( X T X ) − 1 Q ) − 1 ( Q T β ^ − c ) . {\displaystyle {\hat {\beta }}^{c}={\hat {\beta }}-(X^{\operatorname {T} }X)^{-1}Q{\Big (}Q^{\operatorname {T} }(X^{\operatorname {T} }X)^{-1}Q{\Big )}^{-1}(Q^{\operatorname {T} }{\hat {\beta }}-c).} この制約付き推定量の式は、行列X T X が逆行列である限り有効である。本稿の冒頭から、この行列はフルランクであると仮定し、ランク条件が満たされない場合、βは識別不能となることを指摘した。しかし、制約 Aを加えることで βが 識別可能になる場合もあり、その場合の推定量の式を求める必要がある。推定量は[ 35 ]に等しい。
β ^ c = R ( R T X T X R ) − 1 R T X T y + ( I p − R ( R T X T X R ) − 1 R T X T X ) Q ( Q T Q ) − 1 c , {\displaystyle {\hat {\beta }}^{c}=R(R^{\operatorname {T} }X^{\operatorname {T} }XR)^{-1}R^{\operatorname {T} }X^{\operatorname {T} }y+{\Big (}I_{p}-R(R^{\operatorname {T} }X^{\operatorname {T} }XR)^{-1}R^{\operatorname {T} }X^{\operatorname {T} }X{\Big )}Q(Q^{\operatorname {T} }Q)^{-1}c,} ここで、R はp ×( p − q )行列であり、行列[ QR ] は非特異行列であり、R T Q = 0である。このような行列は常に存在するが、一般には一意ではない。2番目の式は、 X T Xが 逆行列である場合に最初の式と一致する。[ 35 ]
実際のデータを使った例 次のデータ セットは、30 ~ 39 歳のアメリカ人女性の平均身長と体重を示しています (出典: The World Almanac and Book of Facts、1975 年 )。
高さ(メートル) 1.47 1.50 1.52 1.55 1.57 データの散布図では、関係はわずかに曲線になっているが、直線に近い。 重量(kg) 52.21 53.12 54.48 55.84 57.20 高さ(メートル) 1.60 1.63 1.65 1.68 1.70 重量(kg) 58.57 59.93 61.29 63.11 64.47 高さ(メートル) 1.73 1.75 1.78 1.80 1.83 重量(kg) 66.28 68.10 69.92 72.19 74.46
従属変数が1つのみの場合、散布図は 従属変数と回帰変数の関係の形状と強さを示唆します。また、外れ値、不均一分散、そして適合された回帰モデルの解釈を複雑にする可能性のあるデータのその他の側面も明らかになることがあります。散布図は、関係が強く、二次関数として近似できることを示唆しています。OLS法は、回帰変数HEIGHT 2 を導入することで非線形関係を扱うことができます。これにより、回帰モデルは多重線形モデルになります。
w i = β 1 + β 2 h i + β 3 h i 2 + ε i . {\displaystyle w_{i}=\beta _{1}+\beta _{2}h_{i}+\beta _{3}h_{i}^{2}+\varepsilon _{i}.} 適合回帰 最も人気のある統計パッケージ からの出力は次のようになります。
方法 最小二乗法 従属変数 重さ 観察 15 パラメータ 価値 標準エラー t統計量 p値 β 1 {\displaystyle \beta _{1}} 128.8128 16.3083 7.8986 0.0000 β 2 {\displaystyle \beta _{2}} −143.1620 19.8332 −7.2183 0.0000 β 3 {\displaystyle \beta _{3}} 61.9603 6.0084 10.3122 0.0000 R2 0.9989 回帰の標準誤差 0.2516 調整済みR 2 0.9987 モデルの平方和 692.61 対数尤度 1.0890 残差平方和 0.7595 ダービン・ワトソン統計 2.1013 合計平方和 693.37 赤池基準 0.2548 F統計量 5471.2 シュワルツ基準 0.3964 p値(F統計量) 0.0000
この表では、
値列はパラメータβ j の最小二乗推定値を示す。 標準誤差 列には、各係数推定値の標準誤差が表示されます。 σ ^ j = ( σ ^ 2 [ Q x x − 1 ] j j ) 1 2 {\displaystyle {\hat {\sigma }}_{j}=\left({\hat {\sigma }}^{2}\left[Q_{xx}^{-1}\right]_{jj}\right)^{\frac {1}{2}}} t統計量 とp値の 列は、係数のいずれかがゼロになるかどうかを検定しています。t統計 量は、単純に として計算されます。誤差 ε が正規分布に従う場合、t はスチューデントt分布に従います。より弱い条件下では、t は漸近的に正規分布します。t の値が大きい場合、帰無仮説は棄却でき、対応する係数はゼロではないことを示します。2番目の列である p 値は 、仮説検定の結果を有意水準 として表します。慣例的に、 0.05未満のp 値は、母集団係数がゼロではないことを示す証拠とみなされます。t = β ^ j / σ ^ j {\displaystyle t={\hat {\beta }}_{j}/{\hat {\sigma }}_{j}} 決定係数(R-squared) は、回帰分析の適合度を示す決定係数 です。この統計量は、回帰変数Xが 完全な適合度を持つ場合1、説明力を持たない場合0となります。これは母集団の決定係数(R-squared) の偏りのある推定値であり、たとえ関連性のない回帰変数を追加しても、減少することはありません。調整決定係数は をわずかに修正したもので、回帰分析の説明力を高めない回帰変数の過剰数に対してペナルティを課すように設計されています。この統計量は常に よりも小さく、新しい回帰変数が追加されるにつれて減少する可能性があり、適合度の低いモデルでは負の値になることもあります。R 2 {\displaystyle R^{2}} R 2 {\displaystyle R^{2}} R ¯ 2 = 1 − n − 1 n − p ( 1 − R 2 ) {\displaystyle {\overline {R}}^{2}=1-{\frac {n-1}{n-p}}(1-R^{2})} 対数尤度は、 誤差が正規分布に従うという仮定の下で計算されます。この仮定は必ずしも合理的ではありませんが、この統計量はLR検定を行う際に有用となる場合があります。ダービン・ワトソン統計量は、 残差間の連続相関の証拠があるかどうかを検定します。経験則として、値が2より小さい場合は正の相関があると考えられます。赤池情報量基準 とシュワルツ基準は どちらもモデル選択に用いられる。一般的に、2つの代替モデルを比較する場合、これらの基準のいずれかの値が小さいほど、より優れたモデルとなる。 [ 36 ] 回帰の標準誤差 は、誤差項の標準誤差であるσ の推定値です。総二乗和 、モデル二乗和 、残差二乗和は 、サンプル内の初期変動のうち回帰によってどの程度説明されたかを示します。F統計量は、 すべての係数(切片を除く)がゼロであるという仮説を検定しようとします。この統計量は、帰無仮説と正規性仮定の下でF ( p-1 , n-p )分布に従い、p値 は仮説が真である確率を示します。誤差が正規分布でない場合、この統計量は無効となり、ワルド検定 やLR検定 などの他の検定法を用いる必要があることに注意してください。残差プロット 通常の最小二乗分析では、モデルの想定された形からのデータの逸脱を検出するために設計された診断プロットがしばしば使用されます。以下に、一般的な診断プロットをいくつか示します。
モデル内の説明変数に対する残差。これらの変数間の非線形関係は、条件付き平均関数の線形性が成り立たない可能性を示唆しています。説明変数の異なるレベルにおける残差の変動レベルが異なることは、異分散性の可能性を示唆しています。 モデルに含まれていない説明変数に対する残差。残差とこれらの変数の関係が示唆される場合、これらの変数をモデルに含めることを検討する必要があると考えられます。 適合値に対する残差。y ^ {\displaystyle {\hat {y}}} 残差と先行残差の比較。このプロットにより、残差の連続相関が特定される可能性があります。 回帰モデルを用いて統計的推論を行う際に重要な考慮事項となるのは、データのサンプリング方法です。この例では、データは個々の女性の測定値ではなく平均値です。モデルの適合度は非常に良好ですが、これは個々の女性の体重を身長のみに基づいて高い精度で予測できることを意味するものではありません。
丸めに対する感度 この例は、これらの計算によって決定される係数がデータの準備方法に左右されることを示しています。身長は元々最も近いインチに丸められて提供されていましたが、これを変換して最も近いセンチメートルに丸めています。変換係数は1インチ=2.54センチメートルであるため、これは正確な変換ではありません 。元のインチはRound(x/0.0254)で復元し、丸めなしでメートル法に再変換できます。これを行うと、結果は次のようになります。
定数 身長 高さ2 四捨五入してメートル法に変換されます。 128.8128 −143.162 61.96033 四捨五入せずにメートル法に変換されます。 119.0205 −131.5076 58.5046
正しく変換されたデータと誤って変換されたデータの二次近似の残差。 どちらの式を使っても、身長5フィート6インチ(1.6764 m)の女性の体重を予測すると、四捨五入すると62.94 kg、四捨五入しない場合は62.98 kgと、ほぼ同じ値が得られます。したがって、データの一見小さな変動は係数には実際に影響を与えますが、式の結果にはわずかな影響しか与えません。
これはデータ範囲の中央では無害に見えるかもしれませんが、両端や、適合モデルを使用してデータ範囲外に投影する場合 (外挿 ) には重要になる可能性があります。
これはよくある誤りを浮き彫りにしています。この例はOLS法の乱用であり、OLS法では本質的に独立変数(この場合は身長)の誤差がゼロ、あるいは少なくとも無視できる程度であることが求められます。最初の最も近いインチへの丸め処理と実際の測定誤差は、有限かつ無視できない誤差を構成します。その結果、フィッティングされたパラメータは、想定されている最良の推定値とは異なります。推定値の誤差は完全に偽値ではありませんが、x軸 とy軸 の誤差の相対的な大きさに依存します。
実データが少ない別の例
問題の説明 最小二乗法を用いて、極座標系における二体軌道の方程式を求めることができます。一般的に用いられる方程式は です。ここで は、物体が一方の天体からどれだけ離れているかを表す半径です。この方程式では、パラメータと が軌道の経路を決定するために使用されます。以下のデータを測定しました。 r ( θ ) = p 1 − e cos ( θ ) {\displaystyle r(\theta )={\frac {p}{1-e\cos(\theta )}}} r ( θ ) {\displaystyle r(\theta )} p {\displaystyle p} e {\displaystyle e}
θ {\displaystyle \theta } (度) 43 45 52 93 108 116 r ( θ ) {\displaystyle r(\theta )} 4.7126 4.5542 4.0419 2.2187 1.8910 1.7599
与えられたデータに対して 、との最小二乗近似値を見つける必要があります。e {\displaystyle e} p {\displaystyle p}
解決 まず、eとpを線形形式で表す必要があります。そこで、方程式を と書き直します。 r ( θ ) {\displaystyle r(\theta )} 1 r ( θ ) = 1 p − e p cos ( θ ) {\displaystyle {\frac {1}{r(\theta )}}={\frac {1}{p}}-{\frac {e}{p}}\cos(\theta )}
さらに、を として追加パラメータで展開することで、 を末尾側 に適合させることができます。これは、追加基底関数 との両方で線形です。 cos ( θ ) {\displaystyle \cos(\theta )} cos ( θ − θ 0 ) = cos ( θ ) cos ( θ 0 ) + sin ( θ ) sin ( θ 0 ) {\displaystyle \cos(\theta -\theta _{0})=\cos(\theta )\cos(\theta _{0})+\sin(\theta )\sin(\theta _{0})} cos ( θ ) {\displaystyle \cos(\theta )} sin ( θ ) {\displaystyle \sin(\theta )}
観測データを次のように表すために、元の 2 つのパラメータ形式を使用します。
A T A ( x y ) = A T b , {\displaystyle A^{T}A{\binom {x}{y}}=A^{T}b,}
どこ:
x = 1 / p {\displaystyle x=1/p\,} ; ;には、最初の列にの係数(すべて 1)が含まれ、 2 番目の列には および で与えられるの係数が含まれます。 y = e / p {\displaystyle y=e/p\,} A {\displaystyle A} 1 / p {\displaystyle 1/p} e / p {\displaystyle e/p} cos ( θ ) {\displaystyle \cos(\theta )\,} b = 1 / r ( θ ) {\displaystyle b=1/r(\theta )}
A = [ 1 − 0.731354 1 − 0.707107 1 − 0.615661 1 0.052336 1 0.309017 1 0.438371 ] , b = [ 0.21220 0.21958 0.24741 0.45071 0.52883 0.56820 ] . {\displaystyle A={\begin{bmatrix}1&-0.731354\\1&-0.707107\\1&-0.615661\\1&\ 0.052336\\1&0.309017\\1&0.438371\end{bmatrix}},\quad b={\begin{bmatrix}0.21220\\0.21958\\0.24741\\0.45071\\0.52883\\0.56820\end{bmatrix}}.}
を解くと、 ( x y ) = ( 0.43478 0.30435 ) {\displaystyle {\binom {x}{y}}={\binom {0.43478}{0.30435}}\,}
だからそしてp = 1 x = 2.3000 {\displaystyle p={\frac {1}{x}}=2.3000} e = p ⋅ y = 0.70001 {\displaystyle e=p\cdot y=0.70001}
参照
参考文献 ^ 「通常の最小二乗法の仮定の起源」 特集コラム 2022年3月1日 2024年5月16日 閲覧 。^ 「線形回帰における通常の仮定の完全なリストは何ですか?」 Cross Validated . 2022年9月28日 閲覧 。 ^ ゴールドバーガー、アーサー・S. (1964). 「古典的線形回帰」 . 計量経済理論 . ニューヨーク: ジョン・ワイリー・アンド・サンズ. pp . 158. ISBN 0-471-31101-4 。^ 林文夫 (2000). 計量経済学 . プリンストン大学出版局. p. 15. ISBN 9780691010182 。^ 林(2000年 、18ページ)。^ Ghilani, Charles D.; Wolf, Paul R. (2006年6月12日). 『調整計算:空間データ分析 』 John Wiley & Sons. ISBN 9780471697282 。^ ホフマン=ヴェレンホフ、ベルンハルト;リヒテネガー、ハーバート。エルマー、ワスル(2007 年 11 月 20 日)。 GNSS – 全地球航法衛星システム: GPS、GLONASS、Galileo など 。スプリンガー。 ISBN 9783211730171 。^ Xu, Guochang (2007年10月5日). GPS: 理論、アルゴリズム、アプリケーション . Springer. ISBN 9783540727156 。^ a b 林(2000年 、19ページ)^ Hoaglin, David C.; Welsch, Roy E. (1978). 「回帰分析と分散分析におけるハット行列」 . The American Statistician . 32 (1): 17– 22. doi : 10.1080/00031305.1978.10479237 . hdl : 1721.1/1920 . ISSN 0003-1305 . ^ Julian Faraway (2000)、Rを用いた実践的な回帰分析と分散分析 ^ Kenney, J.; Keeping, ES (1963). 統計数学 . van Nostrand. p. 187. ^ ズウィリンガー、ダニエル (1995). 標準数学表と公式 . チャップマン&ホール/CRC. p. 626. ISBN 0-8493-2479-3 。^ 林(2000年 、20ページ)^ ヴァハブ、アクバルザデ (2014 年 5 月 7 日)。 「ライン推定」 。 ^ 林(2000年 、49ページ)^ a b 林(2000年 、52ページ)^ 林(2000年 、10ページ)^ Tibshirani, Robert (1996). 「Lassoによる回帰シュリンクと選択」. Journal of the Royal Statistical Society, Series B. 58 ( 1): 267– 288. doi : 10.1111/j.2517-6161.1996.tb02080.x . JSTOR 2346178 . ^ エフロン, ブラッドリー; ハスティー, トレバー; ジョンストン, イアン; ティブシラニ, ロバート (2004). 「最小角回帰」. 『統計年報』 . 32 ( 2): 407– 451. arXiv : math/0406456 . doi : 10.1214/009053604000000067 . JSTOR 3448465. S2CID 204004121 . ^ ホーキンス、ダグラス・M. (1973). 「主成分分析による代替回帰分析の検討について」. 王立統計学会誌、シリーズC. 22 ( 3): 275– 286. doi : 10.2307/2346776 . JSTOR 2346776 . ^ Jolliffe, Ian T. (1982). 「回帰分析における主成分分析の利用に関する注記」. Journal of the Royal Statistical Society, Series C. 31 ( 3): 300– 303. doi : 10.2307/2348005 . JSTOR 2348005 . ^ 林(2000年 、27、30ページ)^ a b c 林(2000年 、27ページ)^ 雨宮毅 ( 1985). 『先進計量経済学 』 ハーバード大学出版局. p. 13. ISBN 9780674005600 。^ 雨宮(1985年 、14ページ)^ ラオ, CR (1973). 線形統計推論とその応用 (第2版). ニューヨーク: J. Wiley & Sons. p. 319. ISBN 0-471-70823-2 。^ 雨宮(1985年 、20ページ)^ 雨宮(1985年 、27ページ)^ a b デイビッドソン、ラッセル、 マッキノン、ジェームズ・G. (1993). 計量経済学における推定と推論 . ニューヨーク: オックスフォード大学出版局. p. 33. ISBN 0-19-506011-3 。^ Davidson & MacKinnon (1993、36 ページ)^ Davidson & MacKinnon (1993、20 ページ)^ 「EViews出力に関するメモ」 (PDF) . 2020年 12月28日 閲覧 。 ^ 雨宮(1985年 、21ページ)^ a b 雨宮(1985年 、22ページ)^ バーナム、ケネス・P.、アンダーソン、デイビッド・R. (2002). モデル選択とマルチモデル推論 (第2版). シュプリンガー. ISBN 0-387-95364-7 。
さらに読む