通常の最小二乗法

統計学において、通常最小二乗法（OLS ）は、線形回帰モデル（説明変数の線形関数のレベル1効果が固定）における未知のパラメータを最小二乗原理によって選択する線形最小二乗法の一種である。最小二乗原理とは、入力データセットにおける観測された従属変数（観測される変数の値）と独立変数の（線形）関数の出力との差の二乗和を最小化することである。OLSは線形回帰であると考える情報源もある。^[¹^]

幾何学的には、これは従属変数の軸に平行な、セット内の各データ点と回帰面上の対応する点との間の距離の二乗和として捉えられます。差が小さいほど、モデルはデータに適合していると言えます。得られた推定値は、特に回帰式の右辺に単一の回帰変数が存在する単回帰の場合、簡単な式で表すことができます。

OLS推定量は、回帰変数が外生的である場合にレベル1の固定効果と整合しており、完全な共線性（順位条件）を形成し、回帰変数が有限の4次モーメントを持つ場合^[²^]残差の分散推定と整合しており、ガウス・マルコフの定理により、誤差が等分散かつ連続的に無相関である場合に線型不偏推定量のクラスで最適である。これらの条件下では、誤差が有限分散を持つ場合、 OLS法は最小分散平均不偏推定値を提供する。誤差が平均ゼロで正規分布するという追加の仮定の下では、OLSはあらゆる非線型不偏推定量よりも優れた最大尤度推定量である。

線形モデル

データが観測値で構成されていると仮定します。各観測値には、スカラー応答変数とパラメータ（回帰変数）の列ベクトル（つまり）が含まれます。線形回帰モデルにおいて、応答変数は回帰変数の線形関数です。 $n$ $\left\{\mathbf {x} _{i},y_{i}\right\}_{i=1}^{n}$ $i$ $y_{i}$ $\mathbf {x} _{i}$ $p$ $\mathbf {x} _{i}=\left[x_{i1},x_{i2},\dots ,x_{ip}\right]^{\operatorname {T} }$ $y_{i}$

y_{i}=\beta _{1}\ x_{i1}+\beta _{2}\ x_{i2}+\cdots +\beta _{p}\ x_{ip}+\varepsilon _{i},

またはベクトル形式では、

y_{i}=\mathbf {x} _{i}^{\operatorname {T} }{\boldsymbol {\beta }}+\varepsilon _{i},\,

ここで、前述のように、はすべての説明変数の - 番目の観測値の列ベクトルであり、は未知のパラメータのベクトルであり、スカラーは- 番目の観測値の観測されていない確率変数（誤差）を表します。は、説明変数以外の情報源からの応答への影響を考慮します。このモデルは、行列表記で次のように表すこともできます。 $\mathbf {x} _{i}$ $i$ ${\boldsymbol {\beta }}$ $p\times 1$ $\varepsilon _{i}$ $i$ $\varepsilon _{i}$ $y_{i}$ $\mathbf {x} _{i}$

\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},\,

ここで、とは応答変数と観測値の誤差のベクトルであり、は回帰変数の行列（設計行列とも呼ばれる）で、その行はであり、すべての説明変数の番目の観測値が含まれます。 $\mathbf {y}$ ${\boldsymbol {\バレプシロン }}$ $n\times 1$ $n$ $\mathbf {X}$ $n\times p$ $i$ $\mathbf {x} _{i}^{\operatorname {T} }$ $i$

典型的には、例えばすべてのに対してをとることによって、回帰変数の集合に定数項が含まれる。この回帰変数に対応する係数は切片と呼ばれる。切片がないと、近似直線はのときに原点と交差する。 $\mathbf {X}$ $x_{i1}=1$ $i=1,\dots ,n$ $\beta _{1}$ $x_{i}={\vec {0}}$

推定値の一貫性を保つために、回帰変数は独立している必要はありません。例えば、非線形従属関係にある場合もあります。完全な多重共線性がない場合でも、パラメータ推定値は一貫性を保つ可能性があります。しかし、多重共線性が高まるにつれて、そのような推定値の標準誤差が増加し、推定値の精度が低下します。完全な多重共線性がある場合、関連する回帰変数の係数について一意の推定値を得ることはもはや不可能であり、これらのパラメータの推定値は収束しません（したがって、一貫性を保つことはできません）。

回帰変数が非線形従属的であるにもかかわらず、推定値が整合している可能性がある具体的な例として、応答変数が値とその二乗の両方に線形従属すると疑われる場合が挙げられます。この場合、値が別の回帰変数の二乗に等しい回帰変数を1つ追加します。この場合、モデルは2番目の回帰変数では2次式になりますが、パラメータ（）に関しては依然として線形であるため、線形モデルとみなされます。 ${\boldsymbol {\beta }}$

行列/ベクトル定式化

過剰決定系を考える

\sum _{j=1}^{p}x_{ij}\beta _{j}=y_{i},\ (i=1,2,\dots ,n),

係数が未知で、、である線形方程式の式。これは行列形式で次のように表すことができる。 $n$ $p$ $\beta _{1},\beta _{2},\dots ,\beta _{p}$ $n>p$

\mathbf {X} {\boldsymbol {\beta }}=\mathbf {y} ,

どこ

\mathbf {X} ={\begin{bmatrix}X_{11}&X_{12}&\cdots &X_{1p}\\X_{21}&X_{22}&\cdots &X_{2p}\\\vdots &\vdots &\ddots &\vdots \\X_{n1}&X_{n2}&\cdots &X_{np}\end{bmatrix}},\qquad {\boldsymbol {\beta }}={\begin{bmatrix}\beta _{1}\\\beta _{2}\\\vdots \\\beta _{p}\end{bmatrix}},\qquad \mathbf {y} ={\begin{bmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{bmatrix}}.

(注: 上記のような線形モデルでは、のすべての要素にデータポイントの情報が含まれているわけではありません。最初の列には 1 が入力されます。他の列にのみ実際のデータが含まれています。したがって、ここではは回帰変数の数に 1 を加えた数に等しくなります)。 $\mathbf {X}$ $X_{i1}=1$ $p$

このようなシステムは通常、正確な解を持たないため、代わりに、二次最小化問題を解くという意味で、方程式に「最もよく適合する」係数を見つけることが目標となる。 ${\boldsymbol {\beta }}$

{\hat {\boldsymbol {\beta }}}={\underset {\boldsymbol {\beta }}{\operatorname {arg\,min} }}\,S({\boldsymbol {\beta }}),

ここで目的関数は次のように与えられる。 $S$

S({\boldsymbol {\beta }})=\sum _{i=1}^{n}\left|y_{i}-\sum _{j=1}^{p}X_{ij}\beta _{j}\right|^{2}=\left\|\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right\|^{2}.

この基準を選択した根拠は、以下の「特性」で示されています。この最小化問題は、行列の列が線形独立である場合、いわゆる正規方程式を解くことで得られる唯一の解を持ちます。 $p$ $\mathbf {X}$

\left(\mathbf {X} ^{\operatorname {T} }\mathbf {X} \right){\hat {\boldsymbol {\beta }}}=\mathbf {X} ^{\operatorname {T} }\mathbf {y} \ .

行列は正規行列またはグラム行列として知られ、行列は回帰のモーメント行列として知られ、回帰変数によって表される。^[³^]最後に、最小二乗超平面の係数ベクトルは次のように表される。 $\mathbf {X} ^{\operatorname {T} }\mathbf {X}$ $\mathbf {X} ^{\operatorname {T} }\mathbf {y}$ ${\hat {\boldsymbol {\beta }}}$

{\hat {\boldsymbol {\beta }}}=\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y} .

または

{\hat {\boldsymbol {\beta }}}={\boldsymbol {\beta }}+\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }}.

推定

bがパラメータベクトルβの「候補」値であるとする。i番目の観測値の残差と呼ばれる量y i − x i T b は、 $データ点 (x i, y$ i ) と超平面 y = x T b 間の垂直距離を測定し $、$ $実際$ $の$ $データ$ $と$ $モデル$ $の$ 適合 $度$ $を$ $評価$ $する$ $。$ 残差二乗和( SSR ) (誤差二乗和( ESS ) または残差二乗和( RSS ) とも呼ばれる) ^[⁴^]は、全体的なモデル適合度の尺度である。

S(b)=\sum _{i=1}^{n}(y_{i}-x_{i}^{\operatorname {T} }b)^{2}=(y-Xb)^{\operatorname {T} }(y-Xb),

ここで、Tは行列転置を表し、 Xの行は従属変数の特定の値に関連付けられたすべての独立変数の値を表し、X _i = x _i^{Tである。この合計を最小化する}bの値は、 βの OLS 推定値と呼ばれる。関数S ( b ) はbの2次関数で、正定値ヘッセ行列を持つため、この関数はで唯一の大域的最小値を持ち、これは明示的な式^[⁵^]^[証明]で与えられる。 $b={\hat {\beta }}$

{\hat {\beta }}=\operatorname {argmin} _{b\in \mathbb {R} ^{p}}S(b)=(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y\ .

積N = X ^TXはグラム行列であり、その逆行列Q = N ⁻¹はβの補因子行列であり、^[⁶^]^[⁷^]^[⁸^]その共分散行列C _βと密接に関連している。行列 ( X ^TX ) ⁻¹X ^T = Q X ^Tは、Xのムーア・ペンローズ擬似逆行列と呼ばれる。この定式化は、説明変数間に完全な多重共線性がない場合にのみ推定を実行できるという点を強調している（この場合、グラム行列の逆行列は存在しない）。

予測

βを推定した後、回帰分析から得られる 適合値（または予測値）は次のようになる。

{\hat {y}}=X{\hat {\beta }}=Py,

ここでP = X ( X ^TX ) ⁻¹X ^Tは、Xの列によって張られる空間Vへの射影行列です。この行列Pは、変数yに「帽子をかぶせる」ため、ハット行列と呼ばれることもあります。Pに密接に関連するもう1つの行列は、消滅行列 $M$ $=$ $I$ $n$ $-$ $P$ です。これは、 Vに直交する空間への射影行列です。行列PとMはどちらも対称かつべき等であり（つまり、 $P$ $2$ $=$ $P$ および $M$ $2$ $=$ $M ）、恒等式$ $PX$ $=$ $X$ および $MX$ $= 0$ を介してデータ行列Xに関連付けられます。^[⁹^]行列M は回帰からの残差を作成します。

{\hat {\varepsilon }}=y-{\hat {y}}=y-X{\hat {\beta }}=My=M(X\beta +\varepsilon )=(MX)\beta +M\varepsilon =M\varepsilon .

予測値の分散は、予測値の分散共分散行列の主対角線に現れます。 $s_{{\hat {y}}_{i}}^{2}$

C_{\hat {y}}=s^{2}P,

ここでPは射影行列、s2^は標本分散である。^{[ 10 ]} 完全な行列は非常に大きいため、その対角要素は次のように個別に計算することができる。

s_{{\hat {y}}_{i}}^{2}=s^{2}X_{i}(X^{T}X)^{-1}X_{i}^{T},

ここで、X _iは行列Xのi番目の行です。

サンプル統計

これらの残差を使用して、縮小カイ二乗統計量を使用して標本分散s ²を推定することができます。

s^{2}={\frac {{\hat {\varepsilon }}^{\mathrm {T} }{\hat {\varepsilon }}}{n-p}}={\frac {(My)^{\mathrm {T} }My}{n-p}}={\frac {y^{\mathrm {T} }M^{\mathrm {T} }My}{n-p}}={\frac {y^{\mathrm {T} }My}{n-p}}={\frac {S({\hat {\beta }})}{n-p}},\qquad {\hat {\sigma }}^{2}={\frac {n-p}{n}}\;s^{2}

分母n − pは統計的自由度である。最初の量s ^2はσ ²の OLS 推定値であり、2 番目の量はσ ²の MLE 推定値である。2 つの推定値は大規模なサンプルでは非常に類似している。つまり、最初の推定値は常に不偏であるのに対し、2 番目の推定値は偏りがあるものの、平均二乗誤差はより小さくなる。実際には、仮説検定にはs ^{2の方が便利なので、より頻繁に使用される。}s ²の平方根は回帰標準誤差^[¹¹^]、回帰の標準誤差^[¹²^]、^[¹³^]、または式の標準誤差^[⁹^]と呼ばれる。 $\scriptstyle {\hat {\sigma }}^{2}$

OLS回帰の適合度を評価する際、標本の初期変動がXに回帰することでどれだけ減少するかを比較するのが一般的です。決定係数R ²は、回帰の平方和が残差の平方和と等しい場合における、従属変数yの「説明された」分散と「全体の」分散の比として定義されます。 ^{[ 14 ]}

R^{2}={\frac {\sum ({\hat {y}}_{i}-{\overline {y}})^{2}}{\sum (y_{i}-{\overline {y}})^{2}}}={\frac {y^{\mathrm {T} }P^{\mathrm {T} }LPy}{y^{\mathrm {T} }Ly}}=1-{\frac {y^{\mathrm {T} }My}{y^{\mathrm {T} }Ly}}=1-{\frac {\rm {RSS}}{\rm {TSS}}}

ここで、TSSは従属変数の平方和の総和であり、n × nの1の行列です。（は中心化行列であり、定数回帰と同等です。つまり、変数から平均値を単純に減算するだけです。） R ^{2 が}意味を持つためには、回帰変数のデータの行列Xに、回帰切片を係数とする定数を表す1の列ベクトルが含まれている必要があります。この場合、R ²は常に0から1の間の数値となり、1に近い値は適合度が高いことを示します。 ${\textstyle L=I_{n}-{\frac {1}{n}}J_{n}}$ ${\textstyle J_{n}}$ $L$

単純線形回帰モデル

データ行列X が定数とスカラー回帰変数x _iの2つの変数のみを含む場合、これは「単回帰モデル」と呼ばれます。このケースは、手計算にも適した非常に単純な式を提供するため、統計学の入門クラスでよく取り上げられます。パラメータは一般的に $(α, β)$ と表記されます。

y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}.

この場合の最小二乗推定値は簡単な式で与えられる。

{\begin{aligned}{\widehat {\beta }}&={\frac {\sum _{i=1}^{n}{(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}}{\sum _{i=1}^{n}{(x_{i}-{\bar {x}})^{2}}}}\\[2pt]{\widehat {\alpha }}&={\bar {y}}-{\widehat {\beta }}\,{\bar {x}}\ ,\end{aligned}}

代替導出

前のセクションでは、最小二乗推定値はモデルの残差二乗和を最小化する値として得られました。しかし、他のアプローチからも同じ推定値を導出することが可能です。いずれの場合も、OLS推定値の式は同じです： $^$ $β$ $= ($ $X$ $T$ $X$ $)$ $-1$ $X$ $T$ $y$ 。唯一の違いは、この結果の解釈方法です。 ${\hat {\beta }}$

投影

{\displaystyle X_{1}} — OLS推定は、回帰変数が張る線形空間への投影として考えることができます。（ここで、とはそれぞれデータ行列の列を指します。） $X_{1}$ $X_{2}$

数学者にとって、OLS法は過剰決定線形方程式 $Xβ\approxy （$ βは $未知数$ ）の近似解です。この方程式系を正確に解くことはできないと仮定すると（方程式の数nが未知数pよりもはるかに大きい場合）、右辺と左辺の差が最小となるような解を求めます。言い換えれば、

{\hat {\beta }}={\rm {arg}}\min _{\beta }\,\lVert \mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\rVert ^{2},

ここで $、 ‖ \cdot ‖は$ n次元ユークリッド空間R ⁿにおける標準L ² ノルムである。予測値Xβは、回帰変数のベクトルの特定の線形結合にすぎない。したがって、残差ベクトル $y$ $-$ $Xβ$ は、 y をXの列によって張られる線形部分空間に直交投影したときに最小の長さになる。この場合の OLS 推定値は、Xの基底に沿った $^$ $y$ $=$ $Py$ のベクトル分解の係数として解釈できる。 ${\hat {\beta }}$

言い換えれば、最小値における勾配方程式は次のように表すことができます。

(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\top }\mathbf {X} =0.

これらの方程式の幾何学的解釈は、任意の共形ベクトル v に対してドット積がゼロとなるため、残差ベクトルは X の列空間に直交するというものです。これは、がすべての可能なベクトルの中で最短であること、つまり残差の分散が最小であることを意味します。これは右に示されています。 $\mathbf {y} -X{\hat {\boldsymbol {\beta }}}$ $(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\cdot \mathbf {X} \mathbf {v}$ $\mathbf {y} -\mathbf {X} {\boldsymbol {\hat {\beta }}}$ $\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}$

行列が非特異であり、K ^TX = 0（直交射影を参照）という仮定の下で行列Kを導入すると、残差ベクトルは次の式を満たす必要があります。 ${\hat {\boldsymbol {\gamma }}}$ $[\mathbf {X} \ \mathbf {K} ]$

{\hat {\mathbf {r} }}:=\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}=\mathbf {K} {\hat {\boldsymbol {\gamma }}}.

したがって、線形最小二乗法の方程式と解は次のように記述されます。

{\begin{aligned}\mathbf {y} &={\begin{bmatrix}\mathbf {X} &\mathbf {K} \end{bmatrix}}{\begin{bmatrix}{\hat {\boldsymbol {\beta }}}\\{\hat {\boldsymbol {\gamma }}}\end{bmatrix}},\\{}\Rightarrow {\begin{bmatrix}{\hat {\boldsymbol {\beta }}}\\{\hat {\boldsymbol {\gamma }}}\end{bmatrix}}&={\begin{bmatrix}\mathbf {X} &\mathbf {K} \end{bmatrix}}^{-1}\mathbf {y} ={\begin{bmatrix}\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\\\left(\mathbf {K} ^{\top }\mathbf {K} \right)^{-1}\mathbf {K} ^{\top }\end{bmatrix}}\mathbf {y} .\end{aligned}}

別の見方としては、回帰直線をデータセット内の任意の2点を通る直線の加重平均とみなすことである。^{[ 15 ]}この計算方法は計算コストは高くなりますが、OLSに対するより直観的な理解が得られます。

最大尤度

OLS推定量は、誤差項の正規性仮定の下では最大尤度推定量（MLE）と同一である。 ^{[ 16 ]}^[証明]この正規性仮定は、ユールとピアソンによる線型回帰分析の初期の研究の基礎となったため、歴史的に重要である。MLEの特性から、正規性仮定が満たされる場合、OLS推定量は漸近的に効率的である（分散のクラメール・ラオ境界を達成するという意味で）と推論できる。^{[ 17 ]}

一般化モーメント法

iidの場合、OLS推定量はモーメント条件から生じる GMM推定量として見ることもできる。

\mathrm {E} {\big [}\,x_{i}\left(y_{i}-x_{i}^{\operatorname {T} }\beta \right)\,{\big ]}=0.

これらのモーメント条件は、回帰変数が誤差と無相関でなければならないことを規定しています。x _iはpベクトルであるため、モーメント条件の数はパラメータベクトルβの次元に等しく、したがってシステムは正確に同定されます。これは、推定量が重み行列の選択に依存しない、いわゆる古典的GMMの場合です。

元々の厳密な外生性仮定 $E[ε i | x i] = 0$ は、上記よりもはるかに豊富なモーメント条件を示唆していることに注意してください。特に、この仮定は、任意のベクトル関数 $ƒ$ に対して、モーメント条件 $E[ƒ (x i)\cdot ε i] = 0が成立することを意味します。しかし、$ ガウス・マルコフ定理を用いると、関数 $ƒ$ の最適な選択は $ƒ (x) = x$ とすることであり、その結果、上記に示したモーメント方程式が得られることが示されます。

仮定

OLS法を適用するために、線形回帰モデルを様々なフレームワークに組み込むことができます。これらの設定はどれも同じ式と結果を生成します。唯一の違いは、この手法が意味のある結果をもたらすために課すべき解釈と仮定です。適用可能なフレームワークの選択は、主に手持ちのデータの性質と、実行すべき推論タスクに依存します。

解釈における相違点の 1 つは、回帰変数をランダム変数として扱うか、定義済み定数として扱うかです。前者の場合 (ランダム設計)、回帰変数x _iはランダムであり、観察研究の場合と同様に、ある母集団からy _iとともにサンプリングされます。このアプローチにより、推定値の漸近特性をより自然に研究できます。もう一方の解釈 (固定設計) では、回帰変数Xは設計によって設定される既知の定数として扱われ、y は実験の場合と同様に、 Xの値に基づいて条件付きでサンプリングされます。実用上は、推定と推論はXを条件として実行されるため、この区別は重要ではないことがよくあります。この記事で述べられている結果はすべて、ランダム設計のフレームワーク内にあります。

古典的モデルは「有限標本」推定と推論に焦点を当てており、これは観測値の数nが固定されていることを意味します。これは、OLSの漸近的挙動を研究し、多数の標本における挙動を研究する他のアプローチとは対照的です。OLS推定量の有限標本不偏性を証明するには、以下の仮定が必要です。

{\displaystyle \mathbb {E} [y|x]} — 線型回帰の一種である三次多項式回帰の例。*多項式回帰は*データに曲線モデルを当てはめますが、統計的推定問題としては線型です。つまり、条件付き期待値関数がデータから推定される未知のパラメータに対して線型であるということです。このため、多項式回帰は多重線型回帰の特殊なケースと考えられています。 $\mathbb {E} [y|x]$

外生性。回帰変数は誤差項と共変しない。これは、例えば、観測変数と共変して応答変数に影響を及ぼす省略変数が存在しないということを必要とする。数理統計学において線型回帰を説明するときにしばしば求められる代替（ただしより強い）ステートメントは、予測変数x はランダム変数ではなく固定値として扱えるというものである。このより強い形式は、例えば、予測変数は誤差がない、つまり測定誤差の影響を受けないと仮定されることを意味する。この仮定は多くの状況では現実的ではないが、この仮定を外すと、より複雑な変数内誤差モデルや操作変数モデルなどが生まれる。 $\mathbb {E} [\varepsilon _{i}x_{i}]=0.$
線形性、あるいは正しい指定。これは、応答変数の平均が、パラメータ（回帰係数）と予測変数の線形結合であることを意味します。この仮定は、一見したほど制約的ではないことに注意してください。予測変数は固定値として扱われるため（上記参照）、線形性は実際にはパラメータに対する制約にすぎません。予測変数自体は任意に変換可能であり、実際には同じ基礎予測変数を複数コピーして、それぞれ異なる変換を施すことも可能です。この手法は、例えば多項式回帰で用いられます。多項式回帰では、線形回帰を用いて、応答変数を予測変数の任意の多項式関数（所定の次数まで）として近似させます。これほど柔軟性が高いため、多項式回帰などのモデルは、データに過剰適合する傾向があるという点で、「検出力が強すぎる」場合が多くあります。その結果、推定プロセスから不合理な解が得られるのを防ぐために、通常は何らかの正則化を行う必要があります。一般的な例としては、リッジ回帰やLasso回帰が挙げられます。ベイズ線形回帰も使用できます。ベイズ線形回帰は、その性質上、過剰適合の問題の影響をほぼ受けません。（実際、リッジ回帰とLasso回帰はどちらも、回帰係数に特定の種類の事前分布が適用されるベイズ線形回帰の特殊なケースと見なすことができます。）
Matlab を使用した 100 個のランダムな近似値に対する散布図の異分散性の可視化
定分散または 等分散。これは、誤差の分散が予測変数の値に依存しないことを意味します。したがって、予測変数の特定の固定値に対する応答の変動性は、応答の大きさに関係なく同じです。ただし、多くの場合は当てはまりません。平均が大きい変数は通常、平均が小さい変数よりも分散が大きくなるためです。たとえば、収入が 10 万ドルと予測されている人の実際の収入は 8 万ドルや 12 万ドル (つまり、標準偏差が約 2 万ドル) になる可能性は十分にあります。一方、収入が 1 万ドルと予測されている人の標準偏差が同じ 2 万ドルになる可能性は低いです。なぜなら、その場合の実際の収入は -1 万ドルから 3 万ドルの間で変動する可能性があるからです。（実際、これが示すように、多くの場合（多くの場合、正規分布の誤差という仮定が成り立たないのと同じ場合）、分散または標準偏差は一定ではなく平均に比例すると予測されるはずです。）等分散性の欠如は異分散性と呼ばれます。この仮定を検証するために、残差と予測値（または各予測変数の値）をプロットし、「扇状効果」（プロット上で左から右に移動するにつれて垂直方向の広がりが増加または減少する）を調べることができます。また、絶対残差または二乗残差と予測値（または各予測変数）をプロットし、傾向または曲率を調べることもできます。正式な検定も使用できます。異分散性を参照してください。異分散性が存在すると、真の分散構造を考慮した推定値ではなく、全体的な「平均」分散推定値が使用されることになります。これにより、精度の低い（ただし、通常の最小二乗法の場合はバイアスはありません）パラメータ推定値とバイアスのある標準誤差が生じ、誤った検定と区間推定値が得られます。モデルの平均二乗誤差も誤りとなります。加重最小二乗法や異分散性整合標準誤差の使用など、様々な推定手法を用いることで、異分散性を非常に一般的な方法で扱うことができます。分散が平均の関数であると仮定した場合には、ベイズ線形回帰法も使用できます。また、場合によっては、応答変数に変換を適用することで問題を解決することも可能です（例えば、線形回帰モデルを用いて応答変数の対数を近似するなど。これは、応答変数自体が正規分布ではなく対数正規分布に従うことを意味します）。 $\mathbb {E} [\varepsilon _{i}^{2}|x_{i}]=\sigma ^{2}.$

誤差の無相関性。これは、応答変数の誤差が互いに無相関であることを前提としています。一般化最小二乗法などの一部の手法は相関誤差を扱うことができますが、何らかの正則化を用いてモデルを無相関誤差と仮定するようにバイアスをかけない限り、通常ははるかに多くのデータが必要になります。ベイズ線形回帰は、この問題に対処する一般的な方法です。完全な統計的独立性は、単なる相関の欠如よりも強い条件であり、平均独立性を意味するものの、多くの場合必要ありません。 $\mathbb {E} [\varepsilon _{i}\varepsilon _{j}|x_{i},x_{j}]=0.$
予測変数における完全な多重共線性の欠如。標準的な最小二乗推定法では、計画行列Xは完全な列ランクp : ^{[ 18 ]}を持たなければなりません。この仮定が満たされない場合、予測変数に完全な多重共線性が存在し、2つ以上の予測変数の間に線形関係が存在することを意味します。多重共線性は、データ内で誤って変数を重複させたり、元の変数と共に変数の線形変換を使用したり (例: 華氏と摂氏で同じ温度測定値を表示)、モデルに複数の変数の線形結合 (平均値など) を含めたりすることで発生することがあります。また、推定するパラメータの数に比べて利用可能なデータが少ない場合にも発生する可能性があります (例: 回帰係数よりもデータポイントが少ない)。予測変数の相関は高いが完全には一致していないという、この仮定にほぼ違反している場合、パラメータ推定値の精度が低下する可能性があります (「分散膨張係数」を参照)。完全な多重共線性がある場合、パラメータベクトルβ は識別不能、つまり一意の解が存在しません。このような場合、パラメータの一部しか特定できません（つまり、その値は、パラメータ空間R ^p全体の一部の線形部分空間内でのみ推定できます）。部分最小二乗回帰を参照してください。多重共線性を持つ線形モデルを近似する手法が開発されており、^[¹⁹^]^[²⁰^]^[²¹^]^[²²^{] 、}その一部では、「効果スパース性」（効果の大部分が正確にゼロである）などの追加の仮定が必要です。一般化線形モデルで使用されるような、パラメータ推定のためのより計算コストの高い反復アルゴリズムは、この問題の影響を受けないことに留意してください。 $\Pr \!{\big [}\,\operatorname {rank} (X)=p\,{\big ]}=1.$

これらの仮定に違反すると、 βの推定値に偏りが生じ、標準誤差の偏りが生じ、信頼できない信頼区間や有意性検定が生じる可能性があります。これらの仮定以外にも、データの他の統計的特性が、様々な推定手法の性能に強く影響を及ぼします。

誤差項と回帰変数間の統計的関係は、推定手順が偏りがなく一貫性があるなどの望ましいサンプリング特性を備えているかどうかを判断する上で重要な役割を果たします。
予測変数xの配置、すなわち確率分布は、 βの推定値の精度に大きな影響を与えます。サンプリングと実験計画法は、統計学の高度に発達した分野であり、βの正確な推定値を得るためにデータ収集を行うための指針を提供します。

プロパティ

有限サンプル特性

まず、厳密な外生性仮定の下では、OLS推定値とs ^2は不偏であり、その期待値はパラメータの真の値と一致する：^[²³^]^[証明] $\scriptstyle {\hat {\beta }}$

\operatorname {E} [\,{\hat {\beta }}\mid X\,]=\beta ,\quad \operatorname {E} [\,s^{2}\mid X\,]=\sigma ^{2}.

厳密な外生性が成り立たない場合（外生性が過去のショックに関してのみ想定され、将来のショックに関しては想定されない多くの時系列モデルの場合のように）、これらの推定値は有限サンプルで偏りが生じます。

の分散共分散行列（または単に共分散行列）は^[²⁴^]に等しい。 $\scriptstyle {\hat {\beta }}$

\operatorname {Var} [\,{\hat {\beta }}\mid X\,]=\sigma ^{2}\left(X^{\operatorname {T} }X\right)^{-1}=\sigma ^{2}Q.

特に、各係数の標準誤差は、この行列のj番目の対角要素の平方根に等しい。この標準誤差の推定値は、未知の量σ ²をその推定値s ²に置き換えることによって得られる。したがって、 $\scriptstyle {\hat {\beta }}_{j}$

{\widehat {\operatorname {s.\!e.} }}({\hat {\beta }}_{j})={\sqrt {s^{2}\left(X^{\operatorname {T} }X\right)_{jj}^{-1}}}

推定値はモデルの残差と無相関であることも簡単に示せる： ^[²⁴^] $\scriptstyle {\hat {\beta }}$

\operatorname {Cov} [\,{\hat {\beta }},{\hat {\varepsilon }}\mid X\,]=0.

ガウス・マルコフ定理は、球面誤差仮定（つまり、誤差は無相関かつ等分散であるべき）の下で、推定量は線形不偏推定量のクラスにおいて効率的であることを述べている。これは最良線形不偏推定量（BLUE）と呼ばれる。効率性は、 yに関して線形かつ不偏となる別の推定量を求める場合と同様に理解されるべきであり、^[²⁴^] $\scriptstyle {\hat {\beta }}$ $\scriptstyle {\tilde {\beta }}$

\operatorname {Var} [\,{\tilde {\beta }}\mid X\,]-\operatorname {Var} [\,{\hat {\beta }}\mid X\,]\geq 0

これは非負定常行列であるという意味で最適性を確立する。この定理は線形不偏推定量のクラスにおいてのみ最適性を確立するが、これは非常に限定的である。誤差項εの分布によっては、他の非線形推定量の方がOLSよりも良い結果をもたらす可能性がある。

正規性を仮定する

これまでに挙げた特性は、誤差項の分布に関わらず、すべて有効です。しかし、正規性仮定（つまり、 $ε ~ N (0, σ 2 I n)$ ）が成り立つと仮定すれば、OLS推定量の追加の特性を述べることができます。

推定値は正規分布し、平均と分散は前述の通りである：^[²⁵^] $\scriptstyle {\hat {\beta }}$

{\hat {\beta }}\ \sim \ {\mathcal {N}}{\big (}\beta ,\ \sigma ^{2}(X^{\mathrm {T} }X)^{-1}{\big )}.

この推定量はモデルのクラメール・ラオ境界に達し、したがってすべての不偏推定量のクラスの中で最適である。 ^{[ 17 ]}ガウス・マルコフ定理とは異なり、この結果は線形推定量と非線形推定量の両方の中で最適性を確立するが、正規分布する誤差項の場合のみであることに注意する。

推定値s ^2はカイ2乗分布に比例する：^{[ 26 ]}

s^{2}\ \sim \ {\frac {\sigma ^{2}}{n-p}}\cdot \chi _{n-p}^{2}

この推定値の分散は $2 σ 4 /(n - p)に等しく、これは$ クラメール・ラオの限界である $2 σ 4 / n$ には達しません。しかし、推定値s ²の分散よりも小さいσ ²の不偏推定値は存在しないことが示されています。^[²⁷^]偏りのある推定値を許容し、モデルの残差二乗和（SSR）に比例する推定値のクラスを考慮すると、このクラスで（平均二乗誤差の意味で）最良の推定値は $~$ $σ$ $2$ $= SSR$ $/$ $($ $n$ $-$ $p$ $+ 2)$ となり、回帰変数が1つしかない場合（p = 1）のクラメール・ラオの限界よりも優れています。^[²⁸^]

さらに、推定値とs2^は独立しており、^[²⁹^]この事実は回帰のt検定とF検定を構築する際に役立ちます。 $\scriptstyle {\hat {\beta }}$

影響力のある観察

前述の通り、推定値はyに関して線形であり、従属変数y _iの線形結合を表します。この線形結合における重みは回帰変数Xの関数であり、通常は不等です。重みの高い観測値は推定値に顕著な影響を与えるため、 影響力があると呼ばれます。 ${\hat {\beta }}$

どの観測値が影響力を持つかを分析するために、特定のj番目の観測値を除外し、推定値がどの程度変化するかを検討する（ジャックナイフ法と同様）。OLS推定値βの変化は^[³⁰^]に等しいことが示される。

{\hat {\beta }}^{(j)}-{\hat {\beta }}=-{\frac {1}{1-h_{j}}}(X^{\mathrm {T} }X)^{-1}x_{j}^{\mathrm {T} }{\hat {\varepsilon }}_{j}\,,

ここで、 $h j = x j T (X T X) -1 x j$ はハット行列Pのj番目の対角要素であり、x _jはj番目の観測値に対応する回帰変数のベクトルである。同様に、データセットから j 番目の観測値を省略することによるj番目の観測値の予測値の変化は^[³⁰^]に等しい。

{\hat {y}}_{j}^{(j)}-{\hat {y}}_{j}=x_{j}^{\mathrm {T} }{\hat {\beta }}^{(j)}-x_{j}^{\operatorname {T} }{\hat {\beta }}=-{\frac {h_{j}}{1-h_{j}}}\,{\hat {\varepsilon }}_{j}

ハット行列の特性から、 $0 \leq h j \leq 1$ であり、それらの合計はpとなり、平均すると $h j \approx p/n$ となる。これらの量h _jはてこ比と呼ばれ、高いh _jを持つ観測値はてこ比ポイントと呼ばれる。^{[ 31 ]}通常、てこ比の高い観測値は、誤りであったり、外れ値であったり、あるいはデータセットの残りの部分と比べて何らかの点で非典型的であったりする可能性があるため、より注意深く精査する必要がある。

分割回帰

回帰分析における変数とそれに対応するパラメータは、論理的に2つのグループに分割されることもあり、その場合、回帰分析は次のような形をとる。

y=X_{1}\beta _{1}+X_{2}\beta _{2}+\varepsilon ,

ここで、X ₁とX _{2 は}n × p ₁、n × p _{2 の}次元を持ち、β ₁、β ₂はp ₁ ×1 とp ₂ ×1 ベクトルで、 $p 1 + p 2 = p$ となります。

フリッシュ・ウォーフ・ラヴェル定理によれば、この回帰分析における残差とOLS推定値は、次の回帰分析におけるβ2_の残差とOLS推定値と数値的に同一となる。 ^[³²^] ${\hat {\varepsilon }}$ $\scriptstyle {\hat {\beta }}_{2}$

M_{1}y=M_{1}X_{2}\beta _{2}+\eta \,,

ここで、M _{1は回帰変数}X ₁の消滅行列です。

この定理は、多くの理論的結果を確立するために用いることができます。例えば、定数項と別の回帰変数を用いた回帰分析は、従属変数と回帰変数から平均値を減算し、その後、定数項を除いて、平均を除いた変数について回帰分析を実行することと等価です。

大規模サンプルの特性

最小二乗推定値は、線形回帰モデルのパラメータβの点推定値です。しかし、一般的には、これらの推定値がパラメータの真の値にどの程度近いかを知ることも重要です。言い換えれば、区間推定値を構築したいということです。

誤差項ε _iの分布についてはいかなる仮定も立てていないため、推定値との分布を推測することは不可能である。しかしながら、中心極限定理を適用することで、サンプルサイズnが無限大に近づくにつれて、それらの漸近特性を導くことができる。サンプルサイズは必然的に有限であるが、OLS推定値の真の分布がその漸近極限に近づくように、 nは「十分に大きい」と仮定するのが慣例である。 ${\hat {\beta }}$ ${\hat {\sigma }}^{2}$

モデルの仮定の下では、 βの最小二乗推定値は整合しており（つまり、確率的にβに収束する）、漸近的に正規分布に従うことが示される。^[証明] ${\hat {\beta }}$

({\hat {\beta }}-\beta )\ {\xrightarrow {d}}\ {\mathcal {N}}{\big (}0,\;\sigma ^{2}Q_{xx}^{-1}{\big )},

どこ $Q_{xx}=X^{\operatorname {T} }X.$

推論

この漸近分布を用いると、ベクトルのj番目の成分の近似両側信頼区間は次のように構築できる。 ${\hat {\beta }}$

\beta _{j}\in {\bigg [}\ {\hat {\beta }}_{j}\pm q_{1-{\frac {\alpha }{2}}}^{{\mathcal {N}}(0,1)}\!{\sqrt {{\hat {\sigma }}^{2}\left[Q_{xx}^{-1}\right]_{jj}}}\ {\bigg ]}

1 - α

信頼水準において、

ここでqは標準正規分布の分位関数を表し、[·] _jjは行列の j番目の対角要素です。

同様に、 σ ²の最小二乗推定値も、 ε _iの4次モーメントが存在する限り、限界分布と整合し、漸近的に正規分布となる。

({\hat {\sigma }}^{2}-\sigma ^{2})\ {\xrightarrow {d}}\ {\mathcal {N}}\left(0,\;\operatorname {E} \left[\varepsilon _{i}^{4}\right]-\sigma ^{4}\right).

これらの漸近分布は、予測、仮説検定、他の推定値の構築などに使用できます。例として、予測の問題を考えてみましょう。回帰変数の分布領域内のある点をと仮定し、その点における応答変数がどのような値であったかを知りたいとします。平均応答はであり、予測応答はです。明らかに、予測応答は確率変数であり、その分布はの分布から導き出すことができます。 $x_{0}$ $y_{0}=x_{0}^{\mathrm {T} }\beta$ ${\hat {y}}_{0}=x_{0}^{\mathrm {T} }{\hat {\beta }}$ ${\hat {\beta }}$

\left({\hat {y}}_{0}-y_{0}\right)\ {\xrightarrow {d}}\ {\mathcal {N}}\left(0,\;\sigma ^{2}x_{0}^{\mathrm {T} }Q_{xx}^{-1}x_{0}\right),

これにより、平均応答の信頼区間を構築することができます。 $y_{0}$

y_{0}\in \left[\ x_{0}^{\mathrm {T} }{\hat {\beta }}\pm q_{1-{\frac {\alpha }{2}}}^{{\mathcal {N}}(0,1)}\!{\sqrt {{\hat {\sigma }}^{2}x_{0}^{\mathrm {T} }Q_{xx}^{-1}x_{0}}}\ \right]

1 - α

信頼水準で。

仮説検定

特に広く使用されている仮説検定は2つあります。まず、推定された回帰式が、応答変数のすべての値がその標本平均値に等しいと単純に予測するよりも優れているかどうかを知りたいと考えます（そうでない場合、説明力がないと言われます）。推定された回帰式に説明力がないという帰無仮説は、 F検定を用いて検定されます。計算されたF値が、事前に選択された有意水準の臨界値を超えるほど大きいことが判明した場合、帰無仮説は棄却され、回帰式には説明力があるという対立仮説が受け入れられます。そうでない場合、説明力がないという帰無仮説が受け入れられます。

次に、対象となる各説明変数について、その推定係数がゼロと有意に異なるかどうか、つまり、この特定の説明変数が応答変数を予測する説明力を持っているかどうかを知りたいと考えます。ここでの帰無仮説は、真の係数がゼロであるというものです。この仮説は、係数のt統計量（係数推定値とその標準誤差の比）を計算することで検定されます。t統計量が事前に設定された値よりも大きい場合、帰無仮説は棄却され、変数は説明力を持ち、係数がゼロと有意に異なることがわかります。それ以外の場合、真の係数がゼロであるという帰無仮説が受け入れられます。

さらに、チャウ検定は、2つのサブサンプルが両方とも同じ真の係数値を持つかどうかを検定するために使用されます。各サブセットと結合データセットにおける回帰分析の残差の二乗和をF統計量で比較します。この値が臨界値を超える場合、2つのサブセット間に差がないという帰無仮説は棄却され、そうでない場合は受け入れられます。

仮定違反

時系列モデル

時系列モデルでは、確率過程{ xi _, yi _}_が定常かつエルゴード的であることが求められる。{ xi , yi _}が非定常の場合、{ xi , yi _}_が共和分でない限り、OLSの結果はバイアスを持つことが多い。^{[ 33 ]}

回帰変数は厳密に外生的である必要があります：E[ x _i ε _i ] = 0（すべてのi = 1, ..., nに対して）。回帰変数が事前に決定されているだけの場合、OLSは有限サンプルにおいてバイアスが生じます。

最後に、分散に関する仮定は、{ x _i ε _i }がマルチンゲール差分列であり、有限の2次モーメント行列 $Q xxε ² = E[ε i 2 x i x i T]$ を持つことを要求する形を取ります。

制約付き推定

回帰の係数が線形方程式の連立方程式を満たすことが分かっていると仮定する。

A\colon \quad Q^{\operatorname {T} }\beta =c,\,

ここで、Qはp × q行列、cはq ×1ベクトルで既知の定数であり、q<pである。この場合、最小二乗推定は、制約Aを課したモデルの残差二乗和を最小化することと等価である。制約付き最小二乗（CLS）推定量は、明示的な式で与えられる：^{[ 34 ]}

{\hat {\beta }}^{c}={\hat {\beta }}-(X^{\operatorname {T} }X)^{-1}Q{\Big (}Q^{\operatorname {T} }(X^{\operatorname {T} }X)^{-1}Q{\Big )}^{-1}(Q^{\operatorname {T} }{\hat {\beta }}-c).

この制約付き推定量の式は、行列X ^T Xが逆行列である限り有効である。本稿の冒頭から、この行列はフルランクであると仮定し、ランク条件が満たされない場合、βは識別不能となることを指摘した。しかし、制約Aを加えることでβが識別可能になる場合もあり、その場合の推定量の式を求める必要がある。推定量は^{[ 35 ]に等しい。}

{\hat {\beta }}^{c}=R(R^{\operatorname {T} }X^{\operatorname {T} }XR)^{-1}R^{\operatorname {T} }X^{\operatorname {T} }y+{\Big (}I_{p}-R(R^{\operatorname {T} }X^{\operatorname {T} }XR)^{-1}R^{\operatorname {T} }X^{\operatorname {T} }X{\Big )}Q(Q^{\operatorname {T} }Q)^{-1}c,

ここで、Rはp ×( p − q )行列であり、行列[ QR ]は非特異行列であり、R ^T Q = 0である。このような行列は常に存在するが、一般には一意ではない。2番目の式は、 X ^T Xが逆行列である場合に最初の式と一致する。^{[ 35 ]}

実際のデータを使った例

次のデータセットは、30 ～ 39 歳のアメリカ人女性の平均身長と体重を示しています (出典: The World Almanac and Book of Facts、1975 年)。

高さ（メートル）	1.47	1.50	1.52	1.55	1.57	データの散布図では、関係はわずかに曲線になっているが、直線に近い。
重量（kg）	52.21	53.12	54.48	55.84	57.20
高さ（メートル）	1.60	1.63	1.65	1.68	1.70
重量（kg）	58.57	59.93	61.29	63.11	64.47
高さ（メートル）	1.73	1.75	1.78	1.80	1.83
重量（kg）	66.28	68.10	69.92	72.19	74.46

従属変数が1つのみの場合、散布図は従属変数と回帰変数の関係の形状と強さを示唆します。また、外れ値、不均一分散、そして適合された回帰モデルの解釈を複雑にする可能性のあるデータのその他の側面も明らかになることがあります。散布図は、関係が強く、二次関数として近似できることを示唆しています。OLS法は、回帰変数HEIGHT ²を導入することで非線形関係を扱うことができます。これにより、回帰モデルは多重線形モデルになります。

w_{i}=\beta _{1}+\beta _{2}h_{i}+\beta _{3}h_{i}^{2}+\varepsilon _{i}.

最も人気のある統計パッケージからの出力は次のようになります。

パラメータ	価値	標準エラー	t統計量	p値
方法	最小二乗法
従属変数	重さ
観察	15


$\beta _{1}$	128.8128	16.3083	7.8986	0.0000
$\beta _{2}$	−143.1620	19.8332	−7.2183	0.0000
$\beta _{3}$	61.9603	6.0084	10.3122	0.0000

R2	0.9989	回帰の標準誤差		0.2516
調整済みR ²	0.9987	モデルの平方和		692.61
対数尤度	1.0890	残差平方和		0.7595
ダービン・ワトソン統計	2.1013	合計平方和		693.37
赤池基準	0.2548	F統計量		5471.2
シュワルツ基準	0.3964	p値（F統計量）		0.0000

この表では、

値列はパラメータβ _jの最小二乗推定値を示す。
標準誤差列には、各係数推定値の標準誤差が表示されます。 ${\hat {\sigma }}_{j}=\left({\hat {\sigma }}^{2}\left[Q_{xx}^{-1}\right]_{jj}\right)^{\frac {1}{2}}$
t統計量とp値の列は、係数のいずれかがゼロになるかどうかを検定しています。t統計量は、単純にとして計算されます。誤差 ε が正規分布に従う場合、tはスチューデントt分布に従います。より弱い条件下では、tは漸近的に正規分布します。t の値が大きい場合、帰無仮説は棄却でき、対応する係数はゼロではないことを示します。2番目の列であるp 値は、仮説検定の結果を有意水準として表します。慣例的に、 0.05未満のp値は、母集団係数がゼロではないことを示す証拠とみなされます。 $t={\hat {\beta }}_{j}/{\hat {\sigma }}_{j}$
決定係数（R-squared）は、回帰分析の適合度を示す決定係数です。この統計量は、回帰変数Xが完全な適合度を持つ場合1、説明力を持たない場合0となります。これは母集団の決定係数（R-squared）の偏りのある推定値であり、たとえ関連性のない回帰変数を追加しても、減少することはありません。
調整決定係数はをわずかに修正したもので、回帰分析の説明力を高めない回帰変数の過剰数に対してペナルティを課すように設計されています。この統計量は常によりも小さく、新しい回帰変数が追加されるにつれて減少する可能性があり、適合度の低いモデルでは負の値になることもあります。 $R^{2}$ $R^{2}$

{\overline {R}}^{2}=1-{\frac {n-1}{n-p}}(1-R^{2})

対数尤度は、誤差が正規分布に従うという仮定の下で計算されます。この仮定は必ずしも合理的ではありませんが、この統計量はLR検定を行う際に有用となる場合があります。
ダービン・ワトソン統計量は、残差間の連続相関の証拠があるかどうかを検定します。経験則として、値が2より小さい場合は正の相関があると考えられます。
赤池情報量基準とシュワルツ基準はどちらもモデル選択に用いられる。一般的に、2つの代替モデルを比較する場合、これらの基準のいずれかの値が小さいほど、より優れたモデルとなる。^{[ 36 ]}
回帰の標準誤差は、誤差項の標準誤差であるσの推定値です。
総二乗和、モデル二乗和、残差二乗和は、サンプル内の初期変動のうち回帰によってどの程度説明されたかを示します。
F統計量は、すべての係数（切片を除く）がゼロであるという仮説を検定しようとします。この統計量は、帰無仮説と正規性仮定の下でF ( p-1 , n-p )分布に従い、p値は仮説が真である確率を示します。誤差が正規分布でない場合、この統計量は無効となり、ワルド検定やLR検定などの他の検定法を用いる必要があることに注意してください。

通常の最小二乗分析では、モデルの想定された形からのデータの逸脱を検出するために設計された診断プロットがしばしば使用されます。以下に、一般的な診断プロットをいくつか示します。

モデル内の説明変数に対する残差。これらの変数間の非線形関係は、条件付き平均関数の線形性が成り立たない可能性を示唆しています。説明変数の異なるレベルにおける残差の変動レベルが異なることは、異分散性の可能性を示唆しています。
モデルに含まれていない説明変数に対する残差。残差とこれらの変数の関係が示唆される場合、これらの変数をモデルに含めることを検討する必要があると考えられます。
適合値に対する残差。 ${\hat {y}}$
残差と先行残差の比較。このプロットにより、残差の連続相関が特定される可能性があります。

回帰モデルを用いて統計的推論を行う際に重要な考慮事項となるのは、データのサンプリング方法です。この例では、データは個々の女性の測定値ではなく平均値です。モデルの適合度は非常に良好ですが、これは個々の女性の体重を身長のみに基づいて高い精度で予測できることを意味するものではありません。

丸めに対する感度

この例は、これらの計算によって決定される係数がデータの準備方法に左右されることを示しています。身長は元々最も近いインチに丸められて提供されていましたが、これを変換して最も近いセンチメートルに丸めています。変換係数は1インチ=2.54センチメートルであるため、これは正確な変換ではありません。元のインチはRound(x/0.0254)で復元し、丸めなしでメートル法に再変換できます。これを行うと、結果は次のようになります。

	定数	身長	高さ²
四捨五入してメートル法に変換されます。	128.8128	−143.162	61.96033
四捨五入せずにメートル法に変換されます。	119.0205	−131.5076	58.5046

どちらの式を使っても、身長5フィート6インチ（1.6764 m）の女性の体重を予測すると、四捨五入すると62.94 kg、四捨五入しない場合は62.98 kgと、ほぼ同じ値が得られます。したがって、データの一見小さな変動は係数には実際に影響を与えますが、式の結果にはわずかな影響しか与えません。

これはデータ範囲の中央では無害に見えるかもしれませんが、両端や、適合モデルを使用してデータ範囲外に投影する場合 (外挿) には重要になる可能性があります。

これはよくある誤りを浮き彫りにしています。この例はOLS法の乱用であり、OLS法では本質的に独立変数（この場合は身長）の誤差がゼロ、あるいは少なくとも無視できる程度であることが求められます。最初の最も近いインチへの丸め処理と実際の測定誤差は、有限かつ無視できない誤差を構成します。その結果、フィッティングされたパラメータは、想定されている最良の推定値とは異なります。推定値の誤差は完全に偽値ではありませんが、x軸とy軸の誤差の相対的な大きさに依存します。

実データが少ない別の例

問題の説明

最小二乗法を用いて、極座標系における二体軌道の方程式を求めることができます。一般的に用いられる方程式はです。ここでは、物体が一方の天体からどれだけ離れているかを表す半径です。この方程式では、パラメータとが軌道の経路を決定するために使用されます。以下のデータを測定しました。 $r(\theta )={\frac {p}{1-e\cos(\theta )}}$ $r(\theta )$ $p$ $e$

$\theta$ （度）	43	45	52	93	108	116
$r(\theta )$	4.7126	4.5542	4.0419	2.2187	1.8910	1.7599

与えられたデータに対して、との最小二乗近似値を見つける必要があります。 $e$ $p$

解決

まず、eとpを線形形式で表す必要があります。そこで、方程式をと書き直します。 $r(\theta )$ ${\frac {1}{r(\theta )}}={\frac {1}{p}}-{\frac {e}{p}}\cos(\theta )$

さらに、をとして追加パラメータで展開することで、を末尾側に適合させることができます。これは、追加基底関数との両方で線形です。 $\cos(\theta )$ $\cos(\theta -\theta _{0})=\cos(\theta )\cos(\theta _{0})+\sin(\theta )\sin(\theta _{0})$ $\cos(\theta )$ $\sin(\theta )$

観測データを次のように表すために、元の 2 つのパラメータ形式を使用します。

$A^{T}A{\binom {x}{y}}=A^{T}b,$

どこ：

$x=1/p\,$ ; ;には、最初の列にの係数（すべて 1）が含まれ、 2 番目の列にはおよびで与えられるの係数が含まれます。 $y=e/p\,$ $A$ $1/p$ $e/p$ $\cos(\theta )\,$ $b=1/r(\theta )$

$A={\begin{bmatrix}1&-0.731354\\1&-0.707107\\1&-0.615661\\1&\ 0.052336\\1&0.309017\\1&0.438371\end{bmatrix}},\quad b={\begin{bmatrix}0.21220\\0.21958\\0.24741\\0.45071\\0.52883\\0.56820\end{bmatrix}}.$

を解くと、 ${\binom {x}{y}}={\binom {0.43478}{0.30435}}\,$

だからそして $p={\frac {1}{x}}=2.3000$ $e=p\cdot y=0.70001$

参照

参考文献

^ 「通常の最小二乗法の仮定の起源」特集コラム2022年3月1日 2024年5月16日閲覧。
^ 「線形回帰における通常の仮定の完全なリストは何ですか？」 Cross Validated . 2022年9月28日閲覧。
^ゴールドバーガー、アーサー・S. (1964). 「古典的線形回帰」 .計量経済理論. ニューヨーク: ジョン・ワイリー・アンド・サンズ. pp . 158. ISBN 0-471-31101-4。{{cite book}}: ISBN / Date incompatibility (help)
^林文夫(2000).計量経済学. プリンストン大学出版局. p. 15. ISBN 9780691010182。
^林（2000年、18ページ）。
^ Ghilani, Charles D.; Wolf, Paul R. (2006年6月12日). 『調整計算：空間データ分析』 John Wiley & Sons. ISBN 9780471697282。
^ホフマン＝ヴェレンホフ、ベルンハルト;リヒテネガー、ハーバート。エルマー、ワスル（2007 年 11 月 20 日）。GNSS – 全地球航法衛星システム: GPS、GLONASS、Galileo など。スプリンガー。ISBN 9783211730171。
^ Xu, Guochang (2007年10月5日). GPS: 理論、アルゴリズム、アプリケーション. Springer. ISBN 9783540727156。
^ ^a ^b林（2000年、19ページ）
^ Hoaglin, David C.; Welsch, Roy E. (1978). 「回帰分析と分散分析におけるハット行列」 . The American Statistician . 32 (1): 17– 22. doi : 10.1080/00031305.1978.10479237 . hdl : 1721.1/1920 . ISSN 0003-1305 .
^ Julian Faraway (2000)、Rを用いた実践的な回帰分析と分散分析
^ Kenney, J.; Keeping, ES (1963).統計数学. van Nostrand. p. 187.
^ズウィリンガー、ダニエル (1995).標準数学表と公式. チャップマン＆ホール/CRC. p. 626. ISBN 0-8493-2479-3。
^林（2000年、20ページ）
^ヴァハブ、アクバルザデ (2014 年 5 月 7 日)。「ライン推定」。
^林（2000年、49ページ）
^ ^a ^b林（2000年、52ページ）
^林（2000年、10ページ）
^ Tibshirani, Robert (1996). 「Lassoによる回帰シュリンクと選択」. Journal of the Royal Statistical Society, Series B. 58 ( 1): 267– 288. doi : 10.1111/j.2517-6161.1996.tb02080.x . JSTOR 2346178 .
^エフロン, ブラッドリー; ハスティー, トレバー; ジョンストン, イアン; ティブシラニ, ロバート (2004). 「最小角回帰」. 『統計年報』 . 32 ( 2): 407– 451. arXiv : math/0406456 . doi : 10.1214/009053604000000067 . JSTOR 3448465. S2CID 204004121 .
^ホーキンス、ダグラス・M. (1973). 「主成分分析による代替回帰分析の検討について」.王立統計学会誌、シリーズC. 22 ( 3): 275– 286. doi : 10.2307/2346776 . JSTOR 2346776 .
^ Jolliffe, Ian T. (1982). 「回帰分析における主成分分析の利用に関する注記」. Journal of the Royal Statistical Society, Series C. 31 ( 3): 300– 303. doi : 10.2307/2348005 . JSTOR 2348005 .
^林（2000年、27、30ページ）
^ ^a ^b ^c林（2000年、27ページ）
^雨宮毅( 1985). 『先進計量経済学』ハーバード大学出版局. p. 13. ISBN 9780674005600。
^雨宮（1985年、14ページ）
^ラオ, CR (1973).線形統計推論とその応用（第2版）. ニューヨーク: J. Wiley & Sons. p. 319. ISBN 0-471-70823-2。
^雨宮（1985年、20ページ）
^雨宮（1985年、27ページ）
^ ^a ^bデイビッドソン、ラッセル、マッキノン、ジェームズ・G. (1993).計量経済学における推定と推論. ニューヨーク: オックスフォード大学出版局. p. 33. ISBN 0-19-506011-3。
^ Davidson & MacKinnon (1993、36ページ)
^ Davidson & MacKinnon (1993、20ページ)
^ 「EViews出力に関するメモ」(PDF) . 2020年12月28日閲覧。
^雨宮（1985年、21ページ）
^ ^a ^b雨宮（1985年、22ページ）
^バーナム、ケネス・P.、アンダーソン、デイビッド・R. (2002).モデル選択とマルチモデル推論（第2版）. シュプリンガー. ISBN 0-387-95364-7。

さらに読む

ドハティ、クリストファー（2002年）『計量経済学入門』（第2版）ニューヨーク：オックスフォード大学出版局、pp. 48– 113、ISBN 0-19-877643-8。
グジャラーティ、ダモダール・N. ;ポーター、ドーン・C. (2009). 『基礎経済学』（第5版）. ボストン：マグロウヒル・アーウィン. pp. 55– 96. ISBN 978-0-07-337577-9。
Heij, クリスチャン;ボーア、ポール。フランシス、フィリップ・Ｈ．Kloek, テウン;ファン・ダイク、ハーマン K. (2004)。ビジネスと経済学に応用できる計量経済的手法(第 1 版)。オックスフォード: オックスフォード大学出版局。ページ 76–115。ISBN 978-0-19-926801-6。
ヒル, R. カーター; グリフィス, ウィリアム E.; リム, グアイ C. (2008). 『計量経済学の原理』（第3版）. ホーボーケン, ニュージャージー: ジョン・ワイリー・アンド・サンズ. pp. 8– 47. ISBN 978-0-471-72360-8。
ウッドリッジ、ジェフリー(2008). 「単回帰モデル」 .入門計量経済学：現代的アプローチ（第4版）. オハイオ州メイソン: Cengage Learning. pp. 22– 67. ISBN 978-0-324-58162-1。

[1] 「通常の最小二乗法の仮定の起源」特集コラム2022年3月1日 2024年5月16日閲覧。

[2] 「線形回帰における通常の仮定の完全なリストは何ですか？」 Cross Validated . 2022年9月28日閲覧。

[3] ゴールドバーガー、アーサー・S. (1964). 「古典的線形回帰」 .計量経済理論. ニューヨーク: ジョン・ワイリー・アンド・サンズ. pp . 158. ISBN 0-471-31101-4。{{cite book}}: ISBN / Date incompatibility (help)

[4] 林文夫(2000).計量経済学. プリンストン大学出版局. p. 15. ISBN 9780691010182。

[5] 林（2000年、18ページ）。

[6] Ghilani, Charles D.; Wolf, Paul R. (2006年6月12日). 『調整計算：空間データ分析』 John Wiley & Sons. ISBN 9780471697282。

[7] ホフマン＝ヴェレンホフ、ベルンハルト;リヒテネガー、ハーバート。エルマー、ワスル（2007 年 11 月 20 日）。GNSS – 全地球航法衛星システム: GPS、GLONASS、Galileo など。スプリンガー。ISBN 9783211730171。

[8] Xu, Guochang (2007年10月5日). GPS: 理論、アルゴリズム、アプリケーション. Springer. ISBN 9783540727156。

[Hayashi_2000_loc=page_19-9] 林（2000年、19ページ）

[q011-10] Hoaglin, David C.; Welsch, Roy E. (1978). 「回帰分析と分散分析におけるハット行列」 . The American Statistician . 32 (1): 17– 22. doi : 10.1080/00031305.1978.10479237 . hdl : 1721.1/1920 . ISSN 0003-1305 .

[11] Julian Faraway (2000)、Rを用いた実践的な回帰分析と分散分析

[12] Kenney, J.; Keeping, ES (1963).統計数学. van Nostrand. p. 187.

[13] ズウィリンガー、ダニエル (1995).標準数学表と公式. チャップマン＆ホール/CRC. p. 626. ISBN 0-8493-2479-3。

[14] 林（2000年、20ページ）

[15] ヴァハブ、アクバルザデ (2014 年 5 月 7 日)。「ライン推定」。

[16] 林（2000年、49ページ）

[Hayashi_2000_loc=page_52-17] 林（2000年、52ページ）

[Hayashi_2000_loc=page_10-18] 林（2000年、10ページ）

[Tibshirani-1996-19] Tibshirani, Robert (1996). 「Lassoによる回帰シュリンクと選択」. Journal of the Royal Statistical Society, Series B. 58 ( 1): 267– 288. doi : 10.1111/j.2517-6161.1996.tb02080.x . JSTOR 2346178 .

[Efron-2004-20] エフロン, ブラッドリー; ハスティー, トレバー; ジョンストン, イアン; ティブシラニ, ロバート (2004). 「最小角回帰」. 『統計年報』 . 32 ( 2): 407– 451. arXiv : math/0406456 . doi : 10.1214/009053604000000067 . JSTOR 3448465. S2CID 204004121 .

[Hawkins-1973-21] ホーキンス、ダグラス・M. (1973). 「主成分分析による代替回帰分析の検討について」.王立統計学会誌、シリーズC. 22 ( 3): 275– 286. doi : 10.2307/2346776 . JSTOR 2346776 .

[Jolliffe-1982-22] Jolliffe, Ian T. (1982). 「回帰分析における主成分分析の利用に関する注記」. Journal of the Royal Statistical Society, Series C. 31 ( 3): 300– 303. doi : 10.2307/2348005 . JSTOR 2348005 .

[23] 林（2000年、27、30ページ）

[HayashiFSP-24] 林（2000年、27ページ）

[25] 雨宮毅( 1985). 『先進計量経済学』ハーバード大学出版局. p. 13. ISBN 9780674005600。

[26] 雨宮（1985年、14ページ）

[27] ラオ, CR (1973).線形統計推論とその応用（第2版）. ニューヨーク: J. Wiley & Sons. p. 319. ISBN 0-471-70823-2。

[28] 雨宮（1985年、20ページ）

[29] 雨宮（1985年、27ページ）

[DvdMck33-30] デイビッドソン、ラッセル、マッキノン、ジェームズ・G. (1993).計量経済学における推定と推論. ニューヨーク: オックスフォード大学出版局. p. 33. ISBN 0-19-506011-3。

[31] Davidson & MacKinnon (1993、36ページ)

[32] Davidson & MacKinnon (1993、20ページ)

[33] 「EViews出力に関するメモ」(PDF) . 2020年12月28日閲覧。

[34] 雨宮（1985年、21ページ）

[Amemiya22-35] 雨宮（1985年、22ページ）

[36] バーナム、ケネス・P.、アンダーソン、デイビッド・R. (2002).モデル選択とマルチモデル推論（第2版）. シュプリンガー. ISBN 0-387-95364-7。

[

[

[

[

[

[

[

[

[

[ 10 ]

[

[

[

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[

[

[

[

[

[

[

[ 26 ]

[

[

[

[

[ 31 ]

[

[ 33 ]

[ 34 ]

[ 35 ]に等しい。

[ 36 ]