数学と統計学において、算術平均(/ ˌ æ r ɪ θ ˈ m ɛ t ɪ k / ⓘ arr-ith- MET -ik)、算術平均または単に平均値は、一連の数値の合計をその集合に含まれる数値の数で割ったものです。[1]集合とは、多くの場合実験、観察研究、または調査平均や調和平均などの他の種類の平均と区別するのに役立つためです。
算術平均は、経済学、人類学、歴史学、そしてほぼすべての学術分野で、ある程度は頻繁に用いられます。例えば、一人当たり所得は、ある国の人口の所得の算術平均です。
算術平均は中心傾向を示すためによく用いられますが、ロバストな統計量ではありません。外れ値(他のほとんどの値よりも大きくまたは小さい値)の影響を大きく受けるからです。例えば、一部の人の所得が大多数の人の所得よりも大幅に高い所得分布のような、歪んだ分布の場合、算術平均は「中央」の概念と一致しない可能性があります。そのような場合、中央値などのロバストな統計量の方が中心傾向をより適切に説明できる場合があります。
定義
観測データ集合の算術平均は、各観測値の数値の合計を観測値の総数で割った値に等しい。記号的に言えば、値からなるデータセットの場合、算術平均は次の式で定義される。[2]
簡単に言えば、算術平均の式は次のようになります。
たとえば、従業員の月給が の場合、算術平均は次のようになります。
| 人 | 給与 |
|---|---|
| A | 2500 |
| B | 2700 |
| C | 2300 |
| D | 2650 |
| E | 2450 |
| 平均 | 2520 |
データセットが統計的な母集団(つまり、あらゆる観測値から構成され、そのサブセットだけではない)である場合、その母集団の平均は母平均と呼ばれ、ギリシャ文字 で表されます。データセットが統計的な標本(母集団のサブセット)である場合、標本平均と呼ばれます(データセットの場合はと表されます)。
算術平均は、スカラー値だけでなく、多次元ベクトルに対しても同様に定義できます。これはしばしば重心と呼ばれます。より一般的には、算術平均は凸結合(つまり、係数の和が になる)であるため、ベクトル空間だけでなく凸空間上でも定義できます。
歴史
米国国立標準技術局の上級研究員である統計学者チャーチル・アイゼンハートは、算術平均の歴史を詳細に追跡しました。近代では、磁北の方向の推定など、同一であるはずなのに同一ではない様々な観測値を組み合わせる方法として算術平均が使われるようになりました。1635年、数学者ヘンリー・ゲリブランドは、算術平均そのものではなく、最小値と最大値の中間点を「平均」と表現しました。1668年、「DB」として知られる人物が、王立協会紀要の中で、5つの値の「平均を取る」ことについて述べていると引用されています。 [3]
この表では、スターミー大尉は、最大の差が 14 分であると記しており、実際の変化の平均をとると、その場で 1 度 27 分であると結論付けています。
— DB、726ページ
動機づけとなる性質
算術平均には、特に中心傾向の尺度として興味深いいくつかの性質があります。これらには以下が含まれます
- 数値の平均がならば、 となります。は与えられた数値から平均までの距離なので、この性質を解釈する一つの方法は、平均の左側の数値と右側の数値が釣り合っていると言うことです。平均は、残差(推定値からの偏差)の合計がゼロになる唯一の数値です。これは、任意の実数 に対して となるという意味で、平均が並進不変であるという意味にも解釈できます。
- 既知の数値の集合に対して、単一の数値を「典型的な」値として使用する必要がある場合、数値の算術平均が最も適しています。これは、典型的な値からの偏差の二乗和、つまり の合計を最小化するためです。標本平均は、二乗平均平方根誤差が最も低いため、単一の予測値としても最適です。[4]数値の母集団の算術平均が必要な場合、その不偏推定値は、母集団から抽出された標本の算術平均です。
- 算術平均は測定単位のスケールに依存しません。つまり、例えばリットルの平均を計算してからガロンに変換することは、まずガロンに変換してから平均を計算することと同じです。これは一次同次性 とも呼ばれます。
追加の特性
- 標本の算術平均は、常にその標本内の最大値と最小値の間になります
- 任意の数の同じ大きさの数値グループの算術平均は、各グループの算術平均の算術平均です。
中央値との対比
算術平均は、データセットの上位半分と下位半分を分ける値である中央値とは異なります。データセット内の値が等差数列を形成する場合、中央値と算術平均は等しくなります。 たとえば、データセットでは、平均値と中央値はどちらもです
場合によっては、平均値と中央値が大きく異なることがあります。例えば、データセット では、算術平均は ですが、中央値は です。これは、平均値が極端な値の影響を受けやすく、ほとんどのデータポイントの中心傾向を正確に反映しない可能性があるためです。
この区別は、様々な分野において実際的な意味合いを持っています。例えば、1980年代以降、アメリカ合衆国の中央値所得は算術平均所得よりも緩やかな増加率を示しています。[5]
同様に、気候研究では、日平均気温の分布は正規分布に近づく傾向がありますが、年間または月間の降水量はしばしば歪んだ分布を示し、一部の期間では降水量が異常に高い一方で、ほとんどの期間では比較的低い値を示すことがあります。このような場合、中央値はより代表的な中心傾向の指標となります。[6]
一般化
加重平均
加重平均、または加重平均値とは、計算において一部のデータポイントが他のデータポイントよりも重視される平均です。[7]例えば、との算術平均は、または同等のです。対照的に、例えば最初の数値が2番目の数値の2倍の重みを持つ加重平均(おそらく、これらの数値がサンプリングされた一般集団では2倍の頻度で出現すると想定されているため)は と計算されます。ここで、重みの合計は必然的に1になり、 と であり、前者は後者の2倍です。算術平均(「加重なし平均」または「均等加重平均」と呼ばれることもあります)は、すべての重みが同じ数値(上記の例および数値が平均化される状況) に等しい加重平均の特殊なケースとして解釈できます
関数
連続確率分布

数値特性やそのデータの任意のサンプルが、たとえば整数だけではなく、連続した範囲の任意の値をとることができる場合、サンプル数が無限から特定の 1 つの値をとる単純な確率が 0 であっても、数値が何らかの値の範囲に入る確率は、この範囲にわたる連続確率分布を積分することによって記述できます。この文脈では、各範囲の変数の正確な値に無限の可能性がある加重平均の類似物は、確率分布の平均と呼ばれます。最も広く使用されている確率分布は正規分布と呼ばれ、平均だけでなく、前述の中央値や最頻値 (3 つの M [8] ) など、中心傾向のすべての尺度が等しいという特性があります。この等式は、ここで対数正規分布で示されているように、他の確率分布には当てはまりません。
角度
位相や角度などの周期的なデータを使用する場合は特に注意が必要です。1 °と359°の算術平均は180°となりますが、これは以下の2つの理由から誤りです。
- 角度の測定は、加法定数360°(ラジアンの場合は)までしか定義されません。したがって、それぞれ異なる平均値を生成するため、1°と-1°、あるいは361°と719°のように表記することも容易です。
- この状況では、0° (または 360°) は幾何学的に平均値としてより適しています。そのあたりの分散は小さくなります(ポイントはそこから 1° 離れており、推定平均である 180° からは 179° 離れています)。
一般的な応用では、このような見落としは平均値が数値範囲の中央に向かって不自然に移動する原因となります。この問題の解決策は、最適化の定式化(つまり、平均値を中心点(分散が最も小さい点)として定義する)を用いて、差をモジュラー距離(つまり円周上の距離。つまり、1°と359°の間のモジュラー距離は358°ではなく2°)として再定義することです。

PRはOを中心とする円の直径であり、その半径AOはaとbの算術平均である。三角形PGRはタレスの定理より直角三角形であり、幾何平均定理を用いてその高さGQが幾何平均であることが示される。任意の比a : bに対して、AO ≥ GQである。
記号と符号化
算術平均は、多くの場合、棒グラフ(ビンクルムまたはマクロン)で表されます。[4]
参照

注釈
References
- ^ Jacobs, Harold R. (1994). Mathematics: A Human Endeavor (Third ed.). W. H. Freeman. p. 547. ISBN 0-7167-2426-X.
- ^ Weisstein, Eric W. "Arithmetic Mean". mathworld.wolfram.com. Retrieved 21 August 2020.
- ^ Eisenhart, Churchill (24 August 1971). "The Development of the Concept of the Best Mean of a Set of Measurements from Antiquity to the Present Day" (PDF). Presidential Address, 131st Annual Meeting of the American Statistical Association, Colorado State University. pp. 68–69.
- ^ a b Medhi, Jyotiprasad (1992). Statistical Methods: An Introductory Text. New Age International. pp. 53–58. ISBN 9788122404197.
- ^ Krugman, Paul (4 June 2014) [Fall 1992]. "The Rich, the Right, and the Facts: Deconstructing the Income Distribution Debate". The American Prospect.
- ^ バリー、ロジャー・グラハム、チョーリー、リチャード・ジョン (2005). 『大気・気象・気候』(第8版). ロンドン: ラウトレッジ. p. 407. ISBN 978-0-415-27170-7。
- ^ 「平均|数学」ブリタニカ百科事典。2020年8月21日閲覧
- ^ Thinkmap Visual Thesaurus (2010年6月30日). 「統計の3つのM:最頻値、中央値、平均値 2010年6月30日」www.visualthesaurus.com . 2018年12月3日閲覧。
さらに詳しい参考文献
- ハフ、ダレル(1993年)『統計で嘘をつく方法』WWノートン、ISBN 978-0-393-31072-6。