Theil–Sen推定量

線を当てはめる統計的手法

外れ値を含むサンプル点集合のTheil–Sen推定値(黒線)と、同じ集合に対する非ロバストな通常最小二乗法の直線(青線)を比較した図。緑の破線は、サンプル生成の元となった真の値を表す。

ノンパラメトリック統計においてTheil–Sen推定量は、平面上のサンプル点に直線をロバストに 当てはめる方法(単線型回帰の一種)であり、2点間の直線の傾き中央値を選択することで、直線を安定して当てはめる。この方法は、Senの傾き推定量[ 1] [2]傾き選択[3] [4] 、単一中央値法[5]Kendallロバスト直線当てはめ法[6]Kendall–Theilロバスト直線[7 ]とも呼ばれる。この方法は、1950年にこの方法に関する論文をそれぞれ発表したHenri Theil1968年にPranab K. Senにちなんで名付けられ、 [8]また、Kendallのタウ順位相関係数[ 9 ]との関連からMaurice Kendallにちなんで名付けられた。

Theil–Sen回帰は、通常の最小二乗回帰に比べていくつかの利点があります。外れ値の影響を受けにくいという特徴があります。残差が正規分布していない場合でも、有意性検定に使用できます。[10]歪んだデータや分散の異なるデータに対しては、ロバストでない単純線形回帰(最小二乗法)よりも大幅に精度が高く、統計的検出力の点では正規分布データに対しても最小二乗法に匹敵します[11] Theil–Sen回帰は、「線形傾向を推定するための最も一般的なノンパラメトリック手法」と呼ばれています。[2]パラメータを効率的に計算するための高速アルゴリズムも存在します。

意味

Theil (1950) の定義によれば、2次元点集合( x i , y i )の Theil–Sen 推定量は、すべての標本点のペアによって決定される傾き( y jy i )/( x jx i )の中央値mである。Sen (1968) はこの定義を拡張し、2つのデータ点が同じx座標を持つ場合も扱えるようにした。Sen の定義では、異なるx座標を持つ点のペアのみから定義される傾きの中央値をとる[8]

傾きmが決定したら、y切片 bを値y imx iの中央値に設定することで、標本点から直線を決定できます。適合直線は、係数mb を傾きと切片の形式で持つ直線y = mx + bになります。[12] Sen が指摘したように、この傾きの選択により、値x iとその関連残差y imx ibを比較する際にケンドールのタウ順位相関係数がほぼゼロになります。直感的には、適合直線がデータ点の上または下にどれだけ通るかは、その点がデータセットの左側にあるか右側にあるかとは相関していないことがわかります。b の選択はケンドール係数には影響しませんが、残差の中央値はほぼゼロになります。つまり、適合直線は上と下に同数の点を通過します。[9]

傾き推定値の信頼区間は、点のペアによって決定される直線の傾きの中央95%を含む区間として決定することができ[13]、点のペアをサンプリングし、サンプリングした傾きの95%区間を決定することで迅速に推定することができる。シミュレーションによると、正確な信頼区間を決定するには約600のサンプルペアで十分である。[11]

バリエーション

Theil–Sen推定量の変種であるSiegel (1982)の反復中央値回帰は、各標本点( x i , y i )について、その点を通る直線の傾き( y jy i )/( x jx i )の中央値m i を求め、これらの中央値の中央値として全体の推定値を求める。Theil–Sen推定量よりも多くの外れ値を許容できるが、効率的に計算するための既存のアルゴリズムはより複雑で実用的ではない。[14]

別の変種では、サンプル点をx座標の順位でペアリングする。つまり、最も小さい座標を持つ点は中央値座標より上に位置する最初の点とペアリングし、2番目に小さい点は中央値より上に位置する次の点とペアリングする、というようにペアリングする。そして、これらの点のペアによって決定される直線の傾きの中央値を計算する。この方法は、Theil–Sen推定量よりも大幅に少ないペア数を調べることで高速化を図る。[15]

加重中央値に基づくTheil-Sen推定値のバリエーションも研究されており、 x座標の差が大きいサンプルペアは傾きが正確である可能性が高く、したがってより高い重み付けを受けるべきであるという原則に基づいています。[16]

季節データの場合、同じ月または同じ季節に属するサンプルポイントのペアのみを考慮し、このより制限されたペアのセットによって決定される線の傾きの中央値を見つけることで、データの季節変動を平滑化することが適切である可能性があります。[17]

統計的特性

Theil–Sen推定量は、単回帰における真の傾きの不偏推定量である。[18]応答誤差の多くの分布に対して、この推定量は最小二乗推定量に比べて高い漸近効率を示す。[19]効率の低い推定量では、効率的な不偏推定量と同じ標本分散を得るために、より多くの独立した観測値が必要となる。

Theil-Sen推定量は、外れ値に対する感度がはるかに低いため、最小二乗推定量よりもロバストである。そのブレークダウンポイント

1 1 2 29.3 % {\displaystyle 1-{\frac {1}{\sqrt {2}}}\approx 29.3\%,}

つまり、入力データポイントの最大29.3%までの任意の破損を許容し、精度を低下させることはありません。[12]しかし、この手法を高次元に一般化すると、このブレークダウンポイントは低下します。[20]より高いブレークダウンポイントである50%は、別のロバストな直線近似アルゴリズムであるシーゲルの繰り返し中央値推定値で当てはまります[12]

Theil-Sen推定量は、応答変数のすべての線形変換に対して等変であり、つまり、最初にデータを変換してから直線を当てはめても、最初に直線を当てはめてから同じ方法で変換しても、どちらも同じ結果をもたらす。[21]しかし、予測変数と応答変数の両方のアフィン変換に対しては等変ではない[20]

アルゴリズム

n個のサンプル点の集合における中央傾きは、点のペアを通るO ( n^ 2 )本の直線をすべて計算し、線形時間中央値探索アルゴリズムを適用することで正確に計算できる。あるいは、点のペアをサンプリングすることで推定することもできる。この問題は、射影双対性の下では、すべての交点の中で中央のx座標を持つ直線の配置において交点を見つける問題と等価である。 [22]

計算幾何学では、力ずくの二次時間アルゴリズムよりも正確に、かつ効率的に傾き選択を行う問題が広く研究されてきた。Theil–Sen推定値をO ( nlogn )時間で正確に計算するいくつかの異なる手法が知られており、決定論的に[ 3 ]、またはランダム化アルゴリズムを用いて[4]構築することができる。Siegelの繰り返し中央値推定値も同じ時間制限内で構築することができる。[23]入力座標が整数であり、整数に対するビット演算に定数時間を要する計算モデルでは、Theil–Sen推定値はランダム化期待時間でさらに迅速に構築することができる[24] n ログ n {\displaystyle O(n{\sqrt {\log n}})}

ほぼ中央順位の傾きの推定値は、Theil-Sen推定値と同じブレークダウンポイントを持ち、εネットに基づくアルゴリズムを使用してデータストリームモデル(データセット全体を表すのに十分な永続ストレージを持たないアルゴリズムによってサンプルポイントが1つずつ処理されるモデル)維持される可能性がある。[25]

実装

R統計パッケージでは、Theil–Sen推定量とSiegelの繰り返し中央値推定量の両方がmblmライブラリを通じて利用可能です。[26] Theil–Sen推定量のための 無料のスタンドアロンVisual Basicアプリケーションは、米国地質調査所KTRLineによって提供されています[27] Theil–Sen推定量は、SciPyおよびscikit-learnライブラリの一部としてPythonでも実装されています。[28]

アプリケーション

Theil–Sen推定法は、打ち切り回帰モデルを扱う能力があるため、天文学に応用されてきました。[29]生物物理学において、Fernandes & Leblanc (2005) は、その「計算の簡便さ、信頼区間の解析的推定、外れ値に対する堅牢性、残差に関する検証可能な仮定、そして測定誤差に関する事前情報の限定性」を理由に、反射率データからの葉面積推定などのリモートセンシング用途へのTheil –Sen推定法の適用を提案しています。 [30]水質などの季節的な環境データの測定においては、偏ったデータが存在する場合でも高い精度が得られるため、Theil–Sen推定値の季節調整版が最小二乗推定法よりも優れていると提案されています。[17]コンピュータサイエンスにおいて、Theil–Sen法はソフトウェアの経年劣化の傾向を推定するために使用されています。[31]気象学および気候学において、Theil–Sen法は風の発生と風速の長期的傾向を推定するために使用されています。[32]

参照

  • 中央値-中央値法 [fr]
  • 回帰希釈、推定トレンドの傾きに影響を与える別の問題

注記

  1. ^ ギルバート(1987年)。
  2. ^ ab El-Shaarawi & Piegorsch (2001).
  3. ^ ab コールら。 (1989);カッツとシャリール (1993);ブロンニマンとチャゼル (1998)。
  4. ^ ab ディレンコート、マウント、ネタニヤフ (1992);マトウシェク (1991);ブランクとファーレンホールド (2006)。
  5. ^ マサートら(1997)
  6. ^ ソーカルとロルフ (1995);ダイサム (2011)。
  7. ^ グラナート(2006)
  8. ^ ab Theil (1950); Sen (1968)
  9. ^ ab Sen (1968); Osborne (2008).
  10. ^ ヘルセルら(2020年)。
  11. ^ ab Wilcox (2001).
  12. ^ abc Rousseeuw & Leroy (2003)、67、164ページ。
  13. ^ 信頼区間を求めるには、点のペアを復元抽出する必要があります。つまり、この計算で使用されるペアの集合には、両方の点が互いに同じであるペアが含まれます。これらのペアは、明確な傾き値を決定しないため、常に信頼区間の外側にありますが、計算にこれらのペアを使用すると、信頼区間はそれらを使用しない場合よりも広くなります。
  14. ^ Logan (2010)、セクション 8.2.7 ロバスト回帰。マトウシェク、山、ネタニヤフ (1998)
  15. ^ デ・ムス(2006年)。
  16. ^ Jaeckel (1972); Scholz (1978); Sievers (1978); Birkes & Dodge (1993).
  17. ^ ab Hirsch、Slack、Smith (1982)。
  18. ^ Sen (1968)、定理5.1、p.1384; Wang & Yu (2005)。
  19. ^ Sen(1968)、第6節;Wilcox(1998)。
  20. ^ ab Wilcox (2005).
  21. ^ セン(1968年)、1383ページ。
  22. ^ コールら(1989)。
  23. ^ マトウシェク、マウント、ネタニヤフ (1998)。
  24. ^ Chan & Pătraşcu (2010).
  25. ^ Bagchiら(2007年)。
  26. ^ ローガン (2010)、p. 237;ヴァネスト、デイビス、パーカー (2013)
  27. ^ ヴァネスト、デイビス、パーカー (2013);グラナート (2006)
  28. ^ SciPyコミュニティ(2015); Persson&Martins(2016)
  29. ^ Akritas、Murphy、LaValley(1995年)。
  30. ^ フェルナンデス&ルブラン(2005年)。
  31. ^ Vaidyanathan & Trivedi (2005).
  32. ^ ロマニッチら(2014年)。

参考文献

  • アクリタス, マイケル G.;マーフィー, スーザン A .; ラヴァリー, マイケル P. (1995)「二重検閲データを用いたThe Theil-Sen推定量と天文学への応用」アメリカ統計学会誌90 (429): 170– 177, doi :10.1080/01621459.1995.10476499, JSTOR  2291140, MR  1325124
  • Bagchi, Amitabha; Chaudhary, Amitabh; Eppstein, David ; Goodrich, Michael T. (2007)、「幾何学的データストリームにおける決定論的サンプリングと範囲カウント」、ACM Transactions on Algorithms3 (2): Art. No. 16、arXiv : cs/0307027doi :10.1145/1240233.1240239、MR  2335299、S2CID  123315817
  • バークス、デイビッド、ドッジ、ヤドラー(1993)「6.3 回帰直線の推定」、回帰分析の代替法、ワイリー・インターサイエンス社、確率統計シリーズ、第282巻、  113~ 118頁、ISBN 978-0-471-56881-0
  • Blunck, Henrik; Vahrenhold, Jan (2006)、「インプレースランダム化傾斜選択」、International Symposium on Algorithms and Complexity、Lecture Notes in Computer Science、vol. 3998、ベルリン:Springer-Verlag、pp.  30– 41、doi :10.1007/11758471_6、ISBN 978-3-540-34375-2MR  2263136
  • ブロニマン、エルヴェ;シャゼル、バーナード(1998)「切土による最適斜面選択」、計算幾何学理論と応用10(1):23-29doi:10.1016/S0925-7721(97)00025-4、MR  1614381
  • Chan, Timothy M. ; Pătraşcu, Mihai (2010)、「Counting inversions, offline orthogonal range counting, and related problems」、第21回ACM-SIAM離散アルゴリズムシンポジウム(SODA '10)の議事録、pp.  161– 173、doi :10.1137/1.9781611973075.15、ISBN 978-0-89871-701-3
  • コール、リチャード; サロウ、ジェフリー・S.; シュタイガー、WL;セメレディ、エンドレ(1989)、「傾斜選択のための最適時間アルゴリズム」、SIAM Journal on Computing18 (4): 792– 810、doi :10.1137/0218055、MR  1004799
  • De Muth, E. James (2006)、「Basic Statistics and Pharmaceutical Statistical Applications, Biostatistics」第16巻(第2版)、CRC Press、p. 577、ISBN 978-0-8493-3799-4
  • ディレンコート、マイケル・B.;マウント、デビッド・M.;ネタニヤフ、ネイサン・S.(1992)「傾斜選択のためのランダム化アルゴリズム」、国際計算幾何学&応用誌2(1):1– 27、doi:10.1142/S0218195992000020、MR  1159839
  • ダイサム、カルビン(2011年)、統計の選択と使用:生物学者のためのガイド(第3版)、ジョン・ワイリー・アンド・サンズ、p.230、ISBN 978-1-4051-9839-4
  • El-Shaarawi, Abdel H.; Piegorsch, Walter W. (2001), Encyclopedia of Environmetrics, Volume 1, John Wiley and Sons, p. 19, ISBN 978-0-471-89997-6
  • フェルナンデス、リチャード;ルブラン、シルヴァン G. (2005)、「測定誤差が存在する場合の生物物理学的パラメータ予測のためのパラメトリック(修正最小二乗法)およびノンパラメトリック(Theil–Sen)線形回帰」、Remote Sensing of Environment95 (3): 303– 316、Bibcode :2005RSEnv..95..303F、doi :10.1016/j.rse.2005.01.005
  • ギルバート、リチャード・O.(1987)、「6.5 Senの非パラメトリック傾斜推定量」、環境汚染モニタリングのための統計的手法、ジョン・ワイリー・アンド・サンズ、pp.  217-219ISBN 978-0-471-28878-7
  • グラナート、グレゴリー・E.(2006)、「第A7章:ケンドール・タイル・ロバスト・ライン(KTRLine—バージョン1.0)—2つの連続変数間の線形回帰係数のロバストなノンパラメトリック推定値を計算およびグラフ化するためのVisual Basicプログラム」、水文学的分析と解釈、米国地質調査所技術と方法、第4巻、米国地質調査所
  • ヘルセル、デニス R.; ハーシュ、ロバート M.;ライバーグ、カレン R.;アーチフィールド、ステイシー A.; ギルロイ、エドワード J. (2020)「水資源における統計的手法、テクニックと方法」、レストン、バージニア州:米国地質調査所、p. 484 、 2020年5月22日取得
  • ヒルシュ, ロバート・M. ; スラック, ジェームズ・R. ; スミス, リチャード・A. (1982)「月次水質データの傾向分析技術」、水資源研究18 (1): 107– 121、Bibcode :1982WRR....18..107H、doi :10.1029/WR018i001p00107
  • Jaeckel, Louis A. (1972)、「残差の分散を最小化することによる回帰係数の推定」、Annals of Mathematical Statistics43 (5): 1449– 1458、doi : 10.1214/aoms/1177692377MR  0348930
  • Katz, Matthew J.; Sharir, Micha (1993)、「エクスパンダーによる最適傾斜選択」、Information Processing Letters47 (3): 115– 122、doi : 10.1016/0020-0190(93)90234-ZMR  1237287
  • Logan, Murray (2010)、Rを用いた生物統計学的デザインと分析:実践ガイド、John Wiley & Sons、ISBN 9781444362473
  • Massart, DL; Vandeginste, BGM; Buydens, LMC; De Jong, S.; Lewi, PJ; Smeyers-Verbeke, J. (1997)「12.1.5.1 単一中央値法」、Handbook of Chemometrics and Qualimetrics: Part A、Data Handling in Science and Technology、vol. 20A、Elsevier、pp.  355– 356、ISBN 978-0-444-89724-4
  • Matoušek、Jiří (1991)、「傾斜選択のためのランダム化された最適アルゴリズム」、Information Processing Letters39 (4): 183–187doi :10.1016/0020-0190(91)90177-J、MR  1130747
  • Matoušek, Jiří ; Mount, David M. ; Netanyahu, Nathan S. (1998)、「反復中央線推定のための効率的なランダム化アルゴリズム」、Algorithmica20 (2): 136– 150、doi :10.1007/PL00009190、MR  1484533、S2CID  17362967
  • オズボーン、ジェイソン・W.(2008)、定量的手法におけるベストプラクティス、セージ出版、p.273、ISBN 9781412940658
  • パーソン、マグナス・ヴィルヘルム。 Martins、Luiz Felipe (2016)、Mastering Python Data Analysis、Packt Publishing、p. 177、ISBN 9781783553303
  • ロマニッチ、ジョルジェ。チュリッチ、ムラジェン。ヨヴィチッチ、イリヤ。 Lompar、Miloš (2014)、「1949 ~ 2010 年の期間における 'Koshava' 風の長期傾向」、International Journal of Climatology35 (2): 288–302Bibcode :2015IJCli..35..288R、doi :10.1002/joc.3981、S2CID  129402302
  • Rousseeuw, Peter J. ; Leroy, Annick M. (2003)、「ロバスト回帰と外れ値検出」、Wiley Series in Probability and Mathematical Statistics、vol. 516、Wiley、p. 67、ISBN 978-0-471-48855-2
  • ショルツ、フリードリヒ=ウィルヘルム(1978)、「加重中央値回帰推定値」、統計年報6(3):603-609doi10.1214/aos/1176344204JSTOR  2958563、MR  0468054
  • SciPyコミュニティ(2015)、「scipy.stats.mstats.theilslopes」、SciPy v0.15.1リファレンスガイド
  • Sen, Pranab Kumar (1968)、「ケンドールのタウに基づく回帰係数の推定」、アメリカ統計学会誌63 (324): 1379– 1389、doi :10.2307/2285891、JSTOR  2285891、MR  0258201
  • シーゲル、アンドリュー F. (1982)、「繰り返し中央値を用いたロバスト回帰」、バイオメトリカ69 (1): 242– 244、doi : 10.1093/biomet/69.1.242
  • シーヴァース、ジェラルド・L.(1978)「単回帰分析における加重順位統計量」アメリカ統計学会誌73(363):628-631doi:10.1080/01621459.1978.10480067、JSTOR  2286613
  • ソーカル、ロバート・R. ; ロルフ、F. ジェームズ (1995)、『バイオメトリクス:生物学研究における統計の原理と実践』(第3版)、マクミラン、p. 539、ISBN 978-0-7167-2411-7
  • Theil, H. (1950)、「線形および多項式回帰分析のランク不変法 I, II, III」、Nederl. Akad. Wetensch., Proc. , 53 : 386–392, 521–525, 1397–1412, MR  0036489
  • Vaidyanathan, Kalyanaraman; Trivedi, Kishor S. (2005)、「ソフトウェア若返りのための包括的モデル」、IEEE Transactions on Dependable and Secure Computing2 (2): 124– 137、doi :10.1109/TDSC.2005.15、S2CID  15105513
  • ヴァネスト、キンバリー・J.、デイビス、ジョン・L.、パーカー、リチャード・I.(2013)『学校における単一事例研究:学校現場の専門家のための実践ガイドライン』ラウトレッジ、55ページ、ISBN 9781136173622
  • 王 雪琴; 于 奇卿 (2005)、「Theil–Sen推定量の不偏性」、Journal of Nonparametric Statistics17 (6): 685– 695、doi :10.1080/10485250500039452、MR  2165096、S2CID  121061001
  • ウィルコックス、ランド・R.(1998)「回帰変数がランダムで誤差項が異分散の場合のTheil–Sen回帰推定量に関する注記」バイオメトリカルジャーナル40(3):261– 268、doi:10.1002 /(SICI)1521-4036(199807)40:3<261::AID-BIMJ261>3.0.CO;2-V
  • ウィルコックス、ランド・R.(2001)「Theil–Sen推定量」、現代統計手法の基礎:検出力と精度の大幅な向上、シュプリンガー・フェアラーク、pp.  207– 210、ISBN 978-0-387-95157-7
  • ウィルコックス、ランド・R.(2005)、「10.2 Theil–Sen推定量」、ロバスト推定と仮説検定入門、アカデミック・プレス、pp.  423– 427、ISBN 978-0-12-751542-7
「https://en.wikipedia.org/w/index.php?title=Theil–Sen_estimator&oldid=1298747207」より取得