バグプロット

Rで作成されたバグプロットの例。

バグプロット(またはスターバーストプロット) [ 1 ] [ 2 ]、ロバスト統計学において2次元または3次元の統計データを視覚化する手法であり、1次元のボックスプロットに類似しています。1999年にRousseuwらによって導入されたバグプロットは、データセットの位置、広がり、歪度外れ値を視覚化することを可能にします。 [ 3 ]

工事

バッグプロットは、「バッグ」、「フェンス」、「ループ」と呼ばれる 3 つのネストされたポリゴンで構成されます。

  • バッグと呼ばれる内側の多角形は、 Tukeyの深さ、つまり与えられた点も含む半平面に含まれることができる最小の観測数に基づいて構築されます。 [ 4 ]最大でデータポイントの50%が含まれます。
  • 3つの多角形のうち最も外側にあるフェンスと呼ばれるものは、バッグプロットの一部として描かれるのではなく、バッグプロットを構築するために用いられる。フェンスは、バッグを一定の係数(通常は3)で膨らませることによって形成される。フェンスの外側にある観測値は外れ値としてフラグ付けされる。[ 5 ]
  • 外れ値としてマークされていない観測値はループで囲まれ、そのループはフェンス内の観測値の凸包である。 [ 6 ]

グラフの中央付近にあるアスタリスク記号(*)は、Tukey深度が最大となる点、つまり深度中央値を示すために使用されます。バッグとフェンスの間の観測値は、深度中央値に向かう線上に線分で示され、バッグと結ばれています。3 次元バージョンは、内袋と外袋で構成されています。[ 7 ]内袋が見えるように、外袋は透明色で描画する必要があります。

プロパティ

バグプロットは平面のアフィン変換に対して不変であり、外れ値に対してもロバストである。 [ 8 ]

参考文献

  1. ^ Rousseeuw, Peter J.; Ruts I.; Tukey JW (1999). 「バグプロット:二変量ボックスプロット」.アメリカ統計学者. 53 (4): 382– 387. doi : 10.1080/00031305.1999.10474494 .
  2. ^ロナルド・K・ピアソン(2005年4月1日)『不完全なデータのマイニング:汚染と不完全な記録への対処』SIAM、204頁~。ISBN 978-0-89871-582-8
  3. ^ドミニク・ホートン、ジョナサン・ホートン(2011年9月18日)『生活水準分析:世帯調査データを通して見る開発』シュプリンガー、14~16頁。ISBN 978-1-4614-0385-2
  4. ^ Sophie Dabo-Niang; Frédéric Ferraty (2008年5月21日).機能統計と演算統計. Springer. pp. 204–. ISBN 978-3-7908-2062-1
  5. ^ John C. Gower、Sugnet Gardner Lubbe、Niel J. Le Roux (2011年2月23日). 『バイプロットを理解する』John Wiley & Sons. pp. 59–. ISBN 978-1-119-97290-7
  6. ^ Prabhanjan Narayanachar Tattar (2013年7月24日). R統計アプリケーション開発入門ガイド(例題付き) . Packt Publishing Ltd. pp. 203–. ISBN 978-1-84951-945-8
  7. ^ Kruppa, Jochen J.; Jung K. (2017). バグプロットとジェムプロットを用いた分子ハイスループットデータにおけるマルチグループ外れ値の自動識別」 . BMC Bioinformatics . 18 : 232. doi : 10.1186/s12859-017-1645-5 . PMC 5414140. PMID 28464790 .  
  8. ^ラジーヴ・ラマン、ロバート・セジウィック、マティアス・F・ストールマン(2006年1月1日)。第8回アルゴリズム工学と実験ワークショップおよび第3回解析アルゴリズムと組合せ論ワークショップの議事録。SIAM。62頁~。ISBN 978-0-89871-610-8