頻度(統計)

統計学において、ある事象頻度または絶対頻度とは、実験または研究において観察が起こった/記録された回数のことである。 [ 1 ] : 12–19 相対頻度とは、絶対頻度と標本数の比である。これらの頻度は、多くの場合、グラフや表の形式で示される。 {\displaystyle i}n{\displaystyle n_{i}}

種類

累積頻度とは、順序付けられたイベントリスト内の特定のポイント以下のすべてのイベントの絶対頻度の合計です。[ 1 ]:17–19

イベントの相対頻度(または経験的確率)は、イベント総数正規 化された絶対頻度です。

fnnjnj{\displaystyle f_{i}={\frac {n_{i}}{N}}={\frac {n_{i}}{\sum _{j}n_{j}}}.}}

すべてのイベントの値をプロットして、頻度分布を作成できます。 f{\displaystyle f_{i}}{\displaystyle i}

ある特定の に対しての場合、擬似カウントを追加できます。 n0{\displaystyle n_{i}=0}{\displaystyle i}

頻度分布の描写

ヒストグラム
通勤時間のヒストグラム(米国2000年国勢調査)
棒グラフ
棒グラフ、離散データセットのカテゴリ変数として「国」を使用
3D棒グラフ
水平3D棒グラフ
円グラフ
国別の世界人口の円グラフ
頻度分布を表すさまざまな方法

頻度分布は、相互に排他的なクラスに分類されたデータの要約されたグループと、各クラス内の発生回数を示します。これは、整理されていないデータを示す方法であり、特に選挙結果、特定地域の人々の収入、特定期間における製品の売上、卒業生の学生ローン額などを示すのに用いられます。頻度分布で使用できるグラフには、ヒストグラム折れ線グラフ棒グラフ円グラフなどがあります。頻度分布は、定性データと定量データの両方に使用されます。

工事

  1. クラス数を決定します。クラス数が多すぎても少なすぎても、データセットの基本的な形状が明らかにならない場合があり、また、そのような頻度分布の解釈が困難になります。理想的なクラス数は、(底10の対数)という式、または平方根選択式( nはデータ内の観測値の総数)によって決定または推定できます。(後者は、人口統計などの大規模なデータセットでは大きすぎる値になります。)ただし、これらの式は厳密な規則ではなく、式によって決定されたクラス数が、必ずしも処理対象のデータにぴったり合うとは限りません。クラス数C1+3.3ログn{\displaystyle {\text{クラス数}}=C=1+3.3\log n}Cn{\displaystyle C={\sqrt {n}}}
  2. データの最小値と最大値を求めることで、データの範囲(範囲 = 最大値 - 最小値)を計算します。範囲は、クラス間隔またはクラス幅を決定するために使用されます。
  3. クラスの幅を決定します。これはhで表され、次のように得られます(クラス間隔がすべてのクラスで同じであると仮定)。h範囲クラス数{\displaystyle h={\frac {\text{範囲}}{\text{クラス数}}}}

一般的に、クラス間隔またはクラス幅はすべてのクラスで同じです。すべてのクラスを合わせると、少なくともデータ内の最小値(最小値)から最大値(最大値)までの距離をカバーする必要があります。度数分布では等間隔のクラス間隔が推奨されますが、クラス間の観測値の分散を良好にし、多数の空クラス、あるいはほぼ空クラスを回避するために、不等間隔のクラス間隔(例えば対数間隔)が必要になる場合もあります。[ 2 ]

  1. 各クラスの限界値を決定し、最初のクラスの適切な開始点を選択します。開始点は任意で、最小値以下でも最小値と等しくても構いません。通常は、中間点(最初のクラスの下限値と上限値の平均)が適切に配置されるように、最小値より前に開始します。
  2. 観察を行い、それが属するクラスに縦棒(|)を付けます。最後の観察まで、連続した集計が行われます。
  3. 必要に応じて頻度、相対頻度、累積頻度などを調べます。

頻度を表す一般的な方法には次のようなものがある: [ 3 ]

ヒストグラム

ヒストグラムは、表形式の頻度表現であり、隣接する長方形または正方形(状況によっては)として表示され、離散的な間隔(ビン)上に構築され、面積は間隔内の観測値の頻度に比例します。長方形の高さは、間隔の頻度密度、つまり頻度を間隔の幅で割った値にも等しくなります。ヒストグラムの合計面積はデータ数に等しくなります。ヒストグラムは、相対頻度を表示するために正規化することもできます。その場合、合計面積が1に等しい、複数のカテゴリのそれぞれに該当するケースの割合が表示されます。カテゴリは通常、変数の連続した重複しない間隔として指定されます。カテゴリ(間隔)は隣接している必要があり、多くの場合、同じサイズになるように選択されます。[ 4 ]ヒストグラムの長方形は、元の変数が連続していることを示すために、互いに接するように描画されます。[ 5 ]

棒グラフ

棒グラフ長方形の棒グラフで長さはそれぞれの値に比例します。棒は縦または横にプロットできます。縦棒グラフは、縦棒グラフと呼ばれることもあります。

頻度分布表

頻度分布表は、標本における1つ以上の変数の値を並べたものです。表の各項目には、特定のグループまたは間隔内での値の出現頻度または出現回数が含まれており、このようにして、表は標本における値の 分布を要約します。

これは単変量(単一変数)頻度表の例です。アンケートの質問に対する各回答の頻度が示されています。

ランク同意度 番号
1 強く同意する 22
2 やや同意 30
3 わからない 20
4 あまり同意できない 15
5 強く反対 15

別の集計方法では、値をビンに集約し、各ビンに一定範囲の値が含まれるようにします。例えば、あるクラスの生徒の身長は、次のような頻度表にまとめることができます。

高さの範囲 生徒数 累計数
5.0フィート未満 25 25
5.0~5.5フィート 35 60
5.5~6.0フィート 20 80
6.0~6.5フィート 20 100

結合頻度分布

二変量結合頻度分布は、多くの場合、(二元)分割表として表されます。

周辺頻度を含む2元分割表
ダンス スポーツ テレビ 合計
男性 2 10 8 20
女性 16 6 8 30
合計 18 16 16 50

合計行と合計列には周辺度数または周辺分布が報告され、表本体には結合度数が報告されます。[ 6 ]

解釈

確率頻度解釈では、その発生源がエルゴード的であると仮定される。つまり、一連の試行の長さが際限なく増加すると、特定のイベントが発生する実験の割合は、限界相対頻度と呼ばれる固定値に近づく。[ 7 ] [ 8 ]

この解釈はしばしばベイズ確率と対比されます。

頻度主義者という用語を初めて使ったのは1949年、MGケンドールで、ベイズ主義者を「非頻度主義者」と対比するために使われた。[ 9 ] [ 10 ]彼は次のように述べている 。

3....私たちは大きく分けて二つの態度を区別することができます。一つは、確率を「ある程度の合理的信念」あるいはそれに類する概念と捉えます。もう一つは、確率を事象の発生頻度、あるいは「集団」や「集団」における相対的な割合で定義します。(p. 101)
...
12. 頻度主義者と非頻度主義者(そう呼んでもよいのであれば)の違いは、主に彼らが扱う領域の違いによるものと考えられる。(p. 104)
...
私はそうではないと主張する…頻度主義者と非頻度主義者の本質的な違いは、前者は意見の対立を避けるため、現実の集団か仮想の集団かを問わず、その客観的な特性に基づいて確率を定義しようとするのに対し、後者はそうではないということだと思う。[強調は原文のまま]

アプリケーション

頻度表データの管理と操作は、生データを扱うよりもはるかに簡単です。これらの表から中央値、平均値、標準偏差などを計算するシンプルなアルゴリズムがあります。

統計的仮説検定は、頻度分布間の相違点と類似点の評価に基づいています。この評価には、平均値中央値などの中心傾向または平均値の尺度と、標準偏差分散などの変動性または統計的分散の尺度が含まれます。

頻度分布は、平均値と中央値が大きく異なる場合、あるいはより一般的には非対称である場合に歪んでいると言われます。頻度分布の尖度は、ヒストグラムの両端に現れる極端な値(外れ値)の割合を示す尺度です。分布が正規分布よりも外れ値が発生しやすい場合は尖鋭的、外れ値が発生しにくい場合は扁平的と言われます。

文字頻度分布は、暗号を解読するための頻度分析にも使用され、さまざまな言語の文字の相対的な頻度を比較するために使用され、ギリシャ語、ラテン語などの他の言語でもよく使用されます。

参照

参考文献

  1. ^ a b Kenney, JF; Keeping, ES (1962). 『統計数学 第1部(第3版)』 プリンストン、ニュージャージー: Van Nostrand Reinhold .
  2. ^ Manikandan, S (2011年1月1日). 「頻度分布」 . Journal of Pharmacology & Pharmacotherapeutics . 2 (1): 54– 55. doi : 10.4103/0976-500X.77120 . ISSN 0976-500X . PMC 3117575. PMID 21701652 .   
  3. ^ Carlson, K. and Winquist, J. (2014)統計入門. SAGE Publications, Inc. 第1章 統計と頻度分布入門
  4. ^ Howitt, D. および Cramer, D. (2008)心理学の統計学プレンティス・ホール
  5. ^チャールズ・スタンガー (2011)「行動科学のための研究方法」ワズワース、センゲージ・ラーニング。ISBN 9780840031976
  6. ^ Stat Trek、統計と確率の用語集、 svジョイント頻度
  7. ^フォン・ミーゼス、リチャード(1939)確率、統計、そして真実(ドイツ語)(英語訳、1981年:ドーバー出版、改訂第2版。ISBN 0486242145)(p.14)
  8. ^頻度理論 第5章;ドナルド・ジル著『確率の哲学的理論』 2000年)、Psychology Press。ISBN 9780415182751、88ページ。
  9. ^確率と統計に関する用語の最も古い使用例
  10. ^ケンドール、モーリス・ジョージ(1949). 「確率理論の調和について」. Biometrika . 36 (1/2). Biometrika Trust: 101–116 . doi : 10.1093/biomet/36.1-2.101 . JSTOR 2332534 .