散布図

散布図
品質の7つの基本ツールの1つ
最初に記述されたジョン・ハーシェル
目的2つの定量的変数間の関係の種類(もしあれば)を特定する
アメリカ合衆国ワイオミングイエローストーン国立公園にあるオールド・フェイスフル・ガイザーの噴火間隔と噴火継続時間。この図から、噴火には一般的に「短時間待機・短時間噴火」と「長時間待機・長時間噴火」の2種類があることがわかります。
3D散布図は、多変量データを視覚化します。この散布図は、複数のスカラー変数を位相空間の異なる軸に使用します。異なる変数は位相空間上の座標を形成するために結合され、グリフで表示され、別のスカラー変数によって色分けされます。[ 1 ]

散布図(キャッタープロット、スキャッターグラフスキャッターチャート、スキャッターグラムスキャッターダイアグラムとも呼ばれる) [ 2 ]は、直交座標系を用いてデータセットの2つの変数の値を表示するグラフまたは数学図の一種です。点がコード化(色、形状、サイズ)されている場合は、もう1つの変数を表示できます。データは点の集合として表示され、各点の値は水平軸上の位置を決定し、もう1つの変数の値は垂直軸上の位置を決定します。[ 3 ]

歴史

マイケル・フレンドリーとダニエル・デニスによると、散布図と折れ線グラフを区別する決定的な特徴は、二変量データの特定の観測値を、一方の変数を横軸に、もう一方の変数を縦軸にプロットして表す点にあります。この二つの変数は、標的上の弾丸の広がりや、地理投影、天体投影といった物理的な表現から抽象化されることが多いです。[ 4 ] [ 5 ]

エドモンド・ハレーは1686年に温度と圧力の二変量プロットを作成しましたが、関係性を示すために使用された特定のデータポイントを省略しました。フレンドリーとデニスは、彼の視覚化は実際の散布図とは異なっていたと主張しています。フレンドリーとデニスは、最初の散布図はジョン・ハーシェルによるものだと考えています。1833年、ハーシェルはおとめ座の中心星とガンマ星の間の角度を時間の経過とともにプロットし、角度が時間とともにどのように変化するかを調べました。これは計算ではなく、手描きと人間の判断によるものでした。[ 4 ]

フランシス・ゴルトン卿は、優生学の科学的根拠を追求するために、散布図やその他の多くの統計ツールを拡張し、普及させました。[ 6 ] 1886年にゴルトンが親と子の身長の散布図と相関楕円を発表したとき、彼はハーシェルの単なるデータポイントのプロットを拡張し、隣接するセルをビンに分割して平均化し、より滑らかな視覚化を作成しました。[ 4 ]カール・ピアソン、R・A・フィッシャー、その他の統計学者や優生学者は、ゴルトンの研究を基にして、相関と有意性検定を形式化しました。[ 6 ]

概要

散布図は、一方の連続変数が実験者の制御下にあり、もう一方の変数がその変数に依存する場合、または両方の連続変数が独立している場合に使用できます。他方の変数によって系統的に増加または減少するパラメータが存在する場合、それは制御パラメータまたは独立変数と呼ばれ、通常は横軸に沿ってプロットされます。測定変数または従属変数は、通常は縦軸に沿ってプロットされます。従属変数が存在しない場合は、どちらのタイプの変数もどちらの軸にもプロットすることができ、散布図は2つの変数間の相関度(因果関係ではない)のみを示します。

散布図は、一定の信頼区間を持つ変数間の様々な種類の相関関係を示唆します。例えば、体重と身長はy軸に、身長はx軸に示されます。相関関係は、正(上昇)、負(下降)、または無相関(無相関)のいずれかです。点のパターンが左下から右上に傾斜している場合、調査対象の変数間に正の相関があることを示します。点のパターンが左上から右下に傾斜している場合は、負の相関があることを示します。変数間の関係を調べるために、ベストフィットライン(または「トレンドライン」と呼ばれる)を描くことができます。変数間の相関関係の式は、確立されたベストフィット手順によって決定できます。線形相関の場合、ベストフィット手順は線形回帰と呼ばれ、有限時間内に正しい解を生成することが保証されています。任意の関係に対して正しい解を生成することが保証されている普遍的なベストフィット手順はありません。散布図は、2つの比較可能なデータセットが変数間の非線形関係を示すことにどのように一致しているかを確認したい場合にも非常に役立ちます。LOESSのような滑らかな線を追加することで、これを実現する能力を高めることができます。[ 7 ]さらに、データが単純な関係の混合モデルで表現されている場合、これらの関係は重ね合わせたパターンとして視覚的に明らかになります。

散布図は品質管理7つの基本ツールの1つです。[ 8 ]

散布図はバブルチャート、マーカーチャート、折れ線グラフなどの形で作成できます。[ 9 ]

さまざまな速度で走行する車の停止距離の関係を示す散布図 (n = 50)。

例えば、ある人の肺活量と、その人の息を止めることができる時間との関係を示すには、研究者は研究対象となる人々のグループを選び、それぞれの人の肺活量(第一変数)と、その人の息を止めることができる時間(第二変数)を測定します。そして、研究者はデータを散布図にプロットし、「肺活量」を横軸、「息を止める時間」を縦軸に取ります。

肺活量が400  cl息を止めて21.7は、散布図上では直交座標の点(400, 21.7)に1つの点で表されます。研究対象者全員の散布図を作成することで、研究者はデータセット内の2つの変数を視覚的に比較することができ、2つの変数間にどのような関係性があるかを判断するのに役立ちます。

散布図マトリックス

データ変数(次元) X 1X 2、...、X kのセットについて、散布図マトリックスは、複数の散布図をマトリックス形式で単一のビューに表示します。k個の変数の場合、散布図マトリックスにはk行とk列が含まれます。行とj列の交点にあるプロットは、変数X iX jのプロットです。[ 10 ]これは、各行と各列が1つの次元であり、各セルが2次元の散布図をプロットすることを意味します。

一般化散布図マトリックス[ 11 ]は、カテゴリ変数と量的変数のペアの組み合わせを様々な方法で表示します。モザイクプロット変動図、またはファセット棒グラフは、2つのカテゴリ変数を表示する場合に使用できます。その他のプロットは、カテゴリ変数と量的変数をそれぞれ1つずつ表示する場合に使用されます。

対応する散布図マトリックスとともに 3D データを視覚化します

参照

参考文献

  1. ^ wci.llnl.gov でVisIt を使用して作成された視覚化画像。最終更新日: 2007年11月8日。
  2. ^ Jarrell, Stephen B. (1994). Basic Statistics (Special pre-publishation ed.). Dubuque, Iowa: Wm. C. Brown Pub. p. 492. ISBN 978-0-697-21595-62つの量的変数の関係性を調べる場合、散布図と呼ばれる利用可能なデータペア(X,Y)の標準グラフが役立つことがよくあります
  3. ^ Utts, Jessica M. Seeing Through Statistics 3rd Edition, Thomson Brooks/Cole, 2005, pp 166-167. ISBN 0-534-39402-7
  4. ^ a b cフレンドリー, マイケル; デニス, ダン (2005). 「散布図の起源と発展」.行動科学史ジャーナル. 41 (2): 103– 130. doi : 10.1002/jhbs.20078 . PMID 15812820 . 
  5. ^ 「散布図の起源と発展」(PDF)2010年6月13日時点のオリジナルよりアーカイブ(PDF) 。 2024年6月12日閲覧
  6. ^ a b Louçã, Francisco (2009). 「相互作用による解放 ― 優生学と統計学はどのように収束し、分岐したか」 . Journal of the History of Biology . 42 (4): 649– 684. doi : 10.1007 /s10739-008-9167-7 . hdl : 10400.5/25980 . ISSN 0022-5010 . JSTOR 25650625. PMID 20481126 .   
  7. ^クリーブランド、ウィリアム (1993). Visualizing data . Murray Hill, NJ Summit, NJ: AT&T Bell Laboratories Published by Hobart Press. ISBN 978-0963488404
  8. ^ Nancy R. Tague (2004). 「7つの基本的な品質ツール」 . 『品質ツールボックス』.ミルウォーキー、ウィスコンシン州アメリカ品質協会. p. 15. 2010年2月5日閲覧
  9. ^ 「散布図 – AnyChart JavaScriptチャートドキュメント」 AnyChart。2016年2月1日時点のオリジナルよりアーカイブ2016年2月3日閲覧。
  10. ^ itl.nist.gov の散布図マトリックス。
  11. ^エマーソン, ジョン・W.; グリーン, ウォルトン・A.; ショルケ, バレット; クロウリー, ジェイソン (2013). 「一般化ペアプロット」.計算およびグラフィカル統計ジャーナル. 22 (1): 79– 91. doi : 10.1080/10618600.2012.694762 . S2CID 28344569 . 

さらに読む