ウィンザーライジング

極値の制限による統計の変換

ウィンザライジング（Winsorizing）またはウィンザライゼーションとは、統計データ内の極端な値を制限することで、潜在的に偽の外れ値の影響を低減する統計変換である。これは、エンジニアから生物統計学者に転身したチャールズ・P・ウィンザー（1895-1951）にちなんで名付けられた。その効果は、信号処理におけるクリッピングと同じである。

多くの統計量の分布は、データの大部分から「大きく外れた」外れ値によって大きく左右される可能性があります。これらの外れ値を完全に排除することなく考慮する一般的な戦略は、外れ値をデータの特定のパーセンタイル（または上限と下限のパーセンタイル）に「リセット」することです。例えば、90%のウィンザー化では、5パーセンタイル未満のすべてのデータは5パーセンタイルに設定され、95パーセンタイルを超えるすべてのデータは95パーセンタイルに設定されます。ウィンザー化推定値は通常、より標準的な形式よりも外れ値に対して堅牢ですが、トリミング（後述）など、同様の効果を実現する代替手段もあります。

例

次の内容を含む単純なデータセットを考えてみましょう。

{ 92、19、101、58、1053、91、26、78、10、13 、−40、101、86、85、15、89、89、28 、 −5、41 }

（N = 20、平均 = 101.5）

5パーセンタイル未満のデータは-40から-5までの範囲にあり、95パーセンタイルを超えるデータは101から1053までの範囲にあります（該当する値は太字で示されています）。ウィンザライゼーションは、外れ値を5パーセンタイルと95パーセンタイルのデータの値にリセットします。したがって、90%のウィンザライゼーションを行うと、次のデータセットが生成されます。

{ 92、19、101、58、101、91、26、78、10、13 、 −5、101、86、85、15、89、89、28 、−5、41 }

（N = 20、平均 = 55.65）

ウィンザー化後、平均値は以前の値のほぼ半分に低下し、その結果、計算元のデータセットとより一致または整合するようになります。

説明とトリミング/切り捨てとの違い

ウィンザライジングは、単にデータを除外することと同じではありません。これは、トリミングまたは切り捨てと呼ばれるより簡単な手順ですが、データを打ち切る方法です。

トリム推定値では、極端な値は破棄されます。ウィンザー化推定値では、極端な値は特定のパーセンタイル (トリムされた最小値と最大値) に 置き換えられます。

したがって、ウィンザライズ平均は、切り捨て平均やトリム平均とは異なります。例えば、10%トリム平均はデータの5パーセンタイルから95パーセンタイルまでの平均ですが、90%ウィンザライズ平均は下位5%を5パーセンタイル、上位5%を95パーセンタイルに設定し、データを平均化します。したがって、ウィンザライズによってデータセット内の値の総数Nは変化しません。上記の例では、トリム平均はより小さい（切り捨てられた）データセットから得られます。

{ 92、19、101、58、91、26、78、10、13、101、86、85、15、89、89、28 、−5、41 }

（N = 18、トリム平均 = 56.5）

この場合、ウィンザー化平均は、 5パーセンタイル、切り捨て平均、および95パーセンタイルの加重平均として等価的に表現できます（この10%ウィンザー化平均の場合：5パーセンタイルの0.05倍、10%トリム平均の0.9倍、および95パーセンタイルの0.05倍）。ただし、一般的に、ウィンザー化統計量は、対応するトリム統計量で表現できる必要はありません。

より正式には、順序統計量が独立していないため、これらは異なります。

用途

ウィンザー化は、調査方法論の文脈において、極端な調査非回答ウェイトを「トリミング」するために使用されます。^[1]また、特定の株式における特定の要因（例えば、成長率とバリュー株）の範囲を調べる際に、一部の株価指数の構築にも使用されます。 ^[2]

コーディング方法

Python は SciPyライブラリを使用してデータをウィンザー化できます。

import numpy as np from scipy.stats.mstats import winsorize winsorize ( np . array ([ 92 , 19 , 101 , 58 , 1053 , 91 , 26 , 78 , 10 , 13 , - 40 , 101 , 86 , 85 , 15 , 89 , 89 , 28 , - 5 , 41 ]), limits = [ 0.05 , 0.05 ])

RはDescToolsパッケージを使ってデータをウィンザー化することができる: ^[3]

ライブラリ( DescTools ) 
a <- c ( 92 , 19 , 101 , 58 , 1053 , 91 , 26 , 78 , 10 , 13 , -40 , 101 , 86 , 85 , 15 , 89 , 89 , 28 , -5 , 41 ) DescTools :: Winsorize ( a , probs = c ( 0.05 , 0.95 ))

参照

参考文献

^ Lee, Brian K.; Lessler, Justin; Stuart, Elizabeth A. (2011). 「重み付けトリミングと傾向スコア重み付け」. PLOS ONE . 6 (3) e18174. Bibcode :2011PLoSO...618174L. doi : 10.1371/journal.pone.0018174 . ISSN 1932-6203. PMC 3069059. PMID 21483818 .
^ 「2.2.1. 変数のウィンザー化」MSCIグローバル投資可能市場価値・成長指数の手法（PDF）（レポート）MSCI 2021年2月。
^ Andri Signorell et al. (2021). DescTools: 記述統計ツール. Rパッケージバージョン0.99.41.

ヘイスティングス・ジュニア、セシル・モステラー、フレデリック・モステラー、ジョン・W・テューキー、チャールズ・P・ウィンザー (1947). 「小規模サンプルの低モーメント：順序統計量の比較研究」Annals of Mathematical Statistics . 18 (3): 413– 426. doi : 10.1214/aoms/1177730388 .
ディクソン, WJ (1960). 「打ち切り正規標本からの簡略化された推定」.数理統計年報. 31 (2): 385– 391. doi : 10.1214/aoms/1177705900 .
Tukey, JW (1962). 「データ分析の未来」. Annals of Mathematical Statistics . 33 (1): 1–67 [p. 18]. doi : 10.1214/aoms/1177704711 . JSTOR 2237638.

外部リンク

「ウィンザー化」R-bloggers 2011年6月30日

[1] Lee, Brian K.; Lessler, Justin; Stuart, Elizabeth A. (2011). 「重み付けトリミングと傾向スコア重み付け」. PLOS ONE . 6 (3) e18174. Bibcode :2011PLoSO...618174L. doi : 10.1371/journal.pone.0018174 . ISSN 1932-6203. PMC 3069059. PMID 21483818 .

[2] 「2.2.1. 変数のウィンザー化」MSCIグローバル投資可能市場価値・成長指数の手法（PDF）（レポート）MSCI 2021年2月。

[3] Andri Signorell et al. (2021). DescTools: 記述統計ツール. Rパッケージバージョン0.99.41.