データセットにはいくつの異なるタイプがあるか
多様 性指数 とは、データセット(例えば、群集)内にいくつの異なるタイプ(例えば、 種 )が存在するかを測定する手法です。多様性指数は、生物多様性の様々な側面(例えば、 豊富さ 、 均一性 、 優占度 )を統計的に表現したものであり、異なる群集やサイトを比較する際に役立ちます。
生態学 で多様性指標が使用される場合 、対象となるタイプは通常は種ですが、 属 、 科 、 機能タイプ 、 ハプロタイプ などの他のカテゴリになることもあります。対象となる実体は通常、個々の生物(植物や動物など)であり、豊かさの尺度は、個体数、バイオマス、被覆率などです。人口 統計学 では、対象となる実体は人間であり、対象となるタイプはさまざまな人口統計グループです。 情報科学 では、実体は文字やアルファベットの異なる文字のタイプです。最も一般的に使用される多様性指標は、有効なタイプの数を単純に変換したものですが(「真の多様性」とも呼ばれます)、各多様性指標は、それ自体で何らかの実際の現象に対応する尺度(ただし、多様性指標ごとに異なるもの)として解釈することもできます。 [ 1 ] [ 2 ] [ 3 ] [ 4 ]
多くの指標は、対象者または主体間のカテゴリ的多様性のみを考慮しています。しかし、そのような指標は、カテゴリ的多様性と質的多様性の両方を計算した場合にのみ生じる、対象者または主体間の全体的な変動(多様性)を考慮していません。
この記事で説明する多様性指標には以下のものがあります。
豊富さ。データセット内のタイプの数を単純に数えます。
シャノン指数は、加重幾何平均に基づく各クラスの相対的存在量も考慮します。
Rényi エントロピー。これにより、使用される加重平均の種類を自由に変更できるようになります。
シンプソン指数は、加重算術平均の下で各クラスの相対的存在量を考慮に入れている。
最も豊富な種類の相対的存在量を示すバーガー・パーカー指数。
有効な種の数(真の多様性)は、使用される加重平均の種類を自由に変更することを可能にし、直感的な意味を持ちます。 [ 4 ]
より洗練された指標の中には、タイプ間の系統学的 近縁性を説明するものもあります 。これらは系統分岐指標と呼ばれ、本稿ではまだ説明していません。 [ 5 ]
真の多様性、あるいは有効な型の数とは、対象となるデータセットで観測される型の平均的な割合存在率が等しくなるために必要な、等しく存在する型の数を指します(すべての型が等しく豊富であるとは限りません)。データセットにおける真の多様性は、まず データセット内の型の割合存在率の加重 一般化平均 M q −1 をとり、次にその逆数 をとることで計算されます。式は以下のとおりです。 [ 3 ] [ 4 ]
q
D
=
1
M
q
−
1
=
1
∑
私
=
1
R
p
私
p
私
q
−
1
q
−
1
=
(
∑
私
=
1
R
p
私
q
)
1
/
(
1
−
q
)
{\displaystyle {}^{q}\!D={1 \over M_{q-1}}={1 \over {\sqrt[{q-1}]{\sum _{i=1}^{R}p_{i}p_{i}^{q-1}}}}=\left({\sum _{i=1}^{R}p_{i}^{q}}\right)^{1/(1-q)}}
分母 M q −1 は 、指数 q − 1 の加重 一般化平均 を用いて計算された、データセット内の各タイプの平均比例存在率に等しい。式において、 R は豊富さ(データセット内のタイプの総数)であり、 i 番目のタイプの比例存在率は p i である。比例存在率自体は名目上の重みとして用いられる。これらの数値は、 q オーダーのヒル数 、または 有効種数 と呼ばれる 。 [ 6 ]
q
D
{\displaystyle ^{q}D}
q = 1 の場合 、上記の式は定義されません。しかし、 q が 1 に近づくにつれて 数学的な限界は 明確に定義され、対応する多様性は次の式で計算されます。
1
D
=
1
∏
私
=
1
R
p
私
p
私
=
経験
(
−
∑
私
=
1
R
p
私
ln
(
p
私
)
)
{\displaystyle {}^{1}\!D={1 \over {\prod _{i=1}^{R}p_{i}^{p_{i}}}}=\exp \left(-\sum _{i=1}^{R}p_{i}\ln(p_{i})\right)}
これはシャノンエントロピー の指数関数であり 、自然対数で計算されます(上記参照)。他の分野では、この統計量は パープレキシティ とも呼ばれます。
多様性の一般的な方程式は、多くの場合、 [ 1 ] [ 2 ] の形式で表されます。
q
D
=
(
∑
私
=
1
R
p
私
q
)
1
/
(
1
−
q
)
{\displaystyle {}^{q}\!D=\left({\sum _{i=1}^{R}p_{i}^{q}}\right)^{1/(1-q)}}
括弧内の項は基本和と呼ばれます。いくつかの一般的な多様性指標は、 q の異なる値で計算された基本和に対応しています。 [ 2 ]
q の値は しばしば多様性の順序と呼ばれる。これは、種の相対的存在量の加重平均の計算方法を変化させることにより、希少種と豊富種に対する真の多様性の感度を定義する。パラメータ qの値によっては、一般化平均 M q −1 の値は、 よく知られた種類の加重平均を特殊なケースとして想定する。具体的には、
q = 0 は加重 算術平均 に対応し、
q = 1 を加重 幾何平均 とし、
q = 2 を加重 調和平均 とする。 [ 7 ]
q が 無限大 に近づく と、指数 q − 1 を持つ加重一般化平均は 最大 p i 値に近づきます。これは、データセット内で最も豊富な種の相対的存在量です。
一般的に、 q の値を増やすと、 最も豊富な種に与えられる実効的な重みが増加します。これにより、 qの増加に伴い M q −1値が大きくなり、真の多様性( q D )値は 小さくなります 。
q = 1 の場合、 p i 値の加重幾何平均 が使用され、各種はその割合存在度によって正確に加重されます(加重幾何平均では、重みは指数です)。 q > 1 の場合、豊富な種に与えられる重みは誇張されており、 q < 1 の場合、希少種に与えられる重みは誇張されています。 q = 0 では、種の重みが種の割合存在度を正確に打ち消し、 すべての種が等しく豊富でなくても、 p i 値の加重平均は 1 / Rに等しくなります。 q = 0 では、有効種数 0 D は、実際の種数 R に等しくなります。 多様性の観点から、 q は一般に非負の値に制限されます。これは、 q が負の値になると、希少種に豊富な種よりもはるかに大きな重みが与えられ、 q D が R を 超えてしまうためです 。 [ 3 ] [ 4 ]
豊富さ Rは 、対象となるデータセットに含まれる異なるタイプの数を単純に定量化するものです。例えば、種の豊富さ(通常 S と表記)は、特定の場所などにおける種の数です。豊富さは単純な指標であるため、個体数データが入手できないことが多い生態学において、多様性指標としてよく用いられてきました。 [ 8 ] 真の多様性をq = 0 として計算すると 、有効タイプの数( 0 D )は実際のタイプの数と等しくなり、豊富さ( R )と等しくなります 。 [ 2 ] [ 4 ]
シャノン 指数は 、生態学の文献では人気の多様性指数で、 シャノンの多様性指数 、 シャノン・ ウィーナー 指数 、(誤って) シャノン・ ウィーバー 指数 とも呼ばれています。 [ 9 ] この指標はもともと、 テキスト文字列の エントロピー (したがって、 シャノンエントロピーは シャノン情報量 に関連) を定量化するために、1948 年に クロード・シャノンによって提案されました。 [ 10 ] その考え方は、文字の数が多く、対象の文字列内での文字の比率が近いほど、文字列の次の文字がどれになるかを正しく予測することが難しくなるというものです。シャノンエントロピーは、この予測に関連する不確実性(エントロピーまたは驚きの度合い)を定量化します。最もよく計算されるのは、次のとおりです。
H
′
=
−
∑
私
=
1
R
p
私
ln
(
p
私
)
{\displaystyle H'=-\sum _{i=1}^{R}p_{i}\ln(p_{i})}
ここで、 p i は、対象となる文字列中の i 番目の文字種に属する文字の割合です。生態学では、 p i は、対象となるデータセット中のi 番目の種に属する個体の割合を指すことがよくあります 。シャノンエントロピーは、データセットからランダムに抽出された個体の種の同一性を予測する際の不確実性を定量化します。
ここでは自然対数で式が書かれているが、シャノンエントロピーを計算する際に用いる対数の底は自由に選ぶことができる。シャノン自身が対数の底として 2、10、 e について論じており、これらはそれ以来シャノンエントロピーを用いる応用において最も一般的な底となっている。各対数の底は異なる測定単位に対応しており、底 2、10、 e に対してそれぞれ 2 進数 (bits)、10 進数 (decits)、自然数 (nats) と呼ばれてきた。元々異なる対数の底で計算されたシャノンエントロピー値を比較するには、同じ対数の底に変換する必要がある。底 a から底 b への変更はlog b (a) を乗じることで得られる 。 [ 10 ]
シャノン指数( H' )は、各タイプの相対的存在量の 加重幾何平均と関連している。具体的には、 q = 1 として計算した真の多様性の対数に等しい 。 [ 3 ]
H
′
=
−
∑
私
=
1
R
p
私
ln
(
p
私
)
=
−
∑
私
=
1
R
ln
(
p
私
p
私
)
{\displaystyle H'=-\sum _{i=1}^{R}p_{i}\ln(p_{i})=-\sum _{i=1}^{R}\ln \left(p_{i}^{p_{i}}\right)}
これは次のようにも書ける。
H
′
=
−
[
ln
(
p
1
p
1
)
+
ln
(
p
2
p
2
)
+
ln
(
p
3
p
3
)
+
⋯
+
ln
(
p
R
p
R
)
]
{\displaystyle H'=-\left[\ln \left(p_{1}^{p_{1}}\right)+\ln \left(p_{2}^{p_{2}}\right)+\ln \left(p_{3}^{p_{3}}\right)+\cdots +\ln \left(p_{R}^{p_{R}}\right)\right]}
これは
H
′
=
−
ln
(
p
1
p
1
p
2
p
2
p
3
p
3
⋯
p
R
p
R
)
=
ln
(
1
p
1
p
1
p
2
p
2
p
3
p
3
⋯
p
R
p
R
)
=
ln
(
1
∏
私
=
1
R
p
私
p
私
)
{\displaystyle H'=-\ln \left(p_{1}^{p_{1}}p_{2}^{p_{2}}p_{3}^{p_{3}}\cdots p_{R}^{p_{R}}\right)=\ln \left({1 \over p_{1}^{p_{1}}p_{2}^{p_{2}}p_{3}^{p_{3}}\cdots p_{R}^{p_{R}}}\right)=\ln \left({1 \over {\prod _{i=1}^{R}p_{i}^{p_{i}}}}\right)}
定義により、 π 値 の合計は1であるため、 分母は π 値 の加重幾何平均に等しく 、 π 値 自体が重み(式中の指数)として用いられます。したがって、括弧内の項は真の多様性 1 D に等しく、 H'は ln( 1 D ) に等しくなります 。 [ 1 ] [ 3 ] [ 4 ]
対象となるデータセット内のすべてのタイプが均等に多い場合、すべての p i 値は 1 / R に等しくなり、シャノン指数はln( R ) の値になります。タイプの豊富さが不均等であるほど、 p i 値の加重幾何平均は大きくなり 、対応するシャノンエントロピーは小さくなります。実質的にすべての豊富さが1つのタイプに集中し、他のタイプが非常にまれである場合(たとえそれらが多数存在していても)、シャノンエントロピーはゼロに近づきます。データセット内にタイプが1つしかない場合、シャノンエントロピーは正確にゼロになります(次にランダムに選択されるエンティティのタイプを予測する際に不確実性はありません)。
機械学習では、シャノン指数は 情報ゲイン とも呼ばれます。
レーニ エントロピーは 、シャノンエントロピーを q が1以外の値に一般化したものです。次のように表すことができます。
q
H
=
1
1
−
q
ln
(
∑
私
=
1
R
p
私
q
)
{\displaystyle {}^{q}H={\frac {1}{1-q}}\;\ln \left(\sum _{i=1}^{R}p_{i}^{q}\right)}
これは
q
H
=
ln
(
1
∑
私
=
1
R
p
私
p
私
q
−
1
q
−
1
)
=
ln
(
q
D
)
{\displaystyle {}^{q}H=\ln \left({1 \over {\sqrt[{q-1}]{\sum _{i=1}^{R}p_{i}p_{i}^{q-1}}}}\right)=\ln({}^{q}\!D)}
これは、任意のq の値に基づいて真の多様性の対数を取ると、 同じ q の値に対応する Rényi エントロピーが得られることを意味します。
シンプソン指数は、 個体をタイプに分類したときの集中度を測定するために、 1949年に エドワード・H・シンプソンによって導入されました。 [ 11 ] 同じ指数は、 1950年に オリス・C・ハーフィンダールによって再発見されました。 [ 12 ] この指数の平方根は、1945年に経済学者 アルバート・O・ハーシュマン によってすでに導入されていました。 [ 13 ] その結果、同じ指標は通常、生態学ではシンプソン指数として、経済学では ハーフィンダール指数 またはハーフィンダール・ハーシュマン指数(HHI)として知られています。
この尺度は、関心のあるデータセットからランダムに抽出された2つのエンティティが同じタイプを表す確率に等しい。 [ 11 ] これは次の式に等しい。
λ
=
∑
私
=
1
R
p
私
2
、
{\displaystyle \lambda =\sum _{i=1}^{R}p_{i}^{2},}
ここで、 R は豊富さ(データセット内の種類の総数)です。この式は、 対象となる種類の割合存在率 p iの加重算術平均にも等しく、割合存在率自体が重みとして使用されます。 [ 1 ] 割合存在率は定義上0から1の間の値に制限されますが、これは加重算術平均であるため、 λ ≥ 1/ R となり、すべての種類が等しく豊富である場合に到達します。
λの計算式と真の多様性の計算式を比較すると、 1/λ は 2 D 、つまり q = 2 として計算された真の多様性に等しいことがわかります 。したがって、元のシンプソン指数は対応する基本和に等しくなります。 [ 2 ]
λを、対象データセットからランダムに抽出された2つの実体が同一の型を表す確率と解釈する場合、実体は復元抽出されていると仮定します。データセットが非常に大きい場合、非復元抽出でもほぼ同じ結果が得られますが、データセットが小さい場合は、結果に大きな差が生じる可能性があります。データセットが小さく、非復元抽出が仮定される場合、両方のランダム抽出で同一の型が得られる確率は以下のとおりです。
ℓ
=
∑
私
=
1
R
n
私
(
n
私
−
1
)
N
(
N
−
1
)
{\displaystyle \ell ={\frac {\sum _{i=1}^{R}n_{i}(n_{i}-1)}{N(N-1)}}}
ここで 、n i はi 番目のタイプ に属するエンティティの数であり、 N はデータセット内のエンティティの総数である。 [ 11 ] この形式のシンプソン指数は、微生物学ではハンター・ガストン指数としても知られている。 [ 14 ]
型の平均的な割合存在度は型の数が減少し、最も豊富な型の存在度が増加すると増加するため、λは多様性の高いデータセットでは小さな値を取り、多様性の低いデータセットでは大きな値を取ります。これは多様性指標としては直感に反する動作であるため、多くの場合、多様性の増加とともに増加するようなλの変換が代わりに使用されてきました。そのような指標の中で最も人気があるのは、逆シンプソン指数(1/λ)と ジニ シンプソン指数(1−λ)です。 [ 1 ] [ 2 ] これらは両方とも生態学の文献ではシンプソン指数とも呼ばれているため、異なる指標を誤って同じであるかのように比較しないように注意が必要です。
逆シンプソン指数は次の式に等しくなります。
1
λ
=
1
∑
i
=
1
R
p
i
2
=
2
D
{\displaystyle {\frac {1}{\lambda }}={1 \over \sum _{i=1}^{R}p_{i}^{2}}={}^{2}D}
これは単純に 2 次の真の多様性、つまり、加重算術平均を使用して対象のデータセット内のタイプの平均比例存在量を定量化するときに得られる有効なタイプの数に等しくなります。
この指数は、政党の有効数 を測る指標としても使われます 。
ジニ・シンプソン指数は、 機械学習 の分野では ジニ不純度 、あるいは ジニの多様性指数 [ 15 ] とも呼ばれます。元のシンプソン指数 λ は、対象のデータセットからランダムに(復元抽出して)抽出した2つの実体が同一のタイプを表す確率に等しくなります。したがって、その変換 1 − λ は、2つの実体が異なるタイプを表す確率に等しくなります。この指標は、生態学では種間遭遇確率( PIE ) [ 16 ] やジニ・シンプソン指数 [ 2 ] としても知られています。これは、真の多様性のオーダー2の変換として表すことができます。
1
−
λ
=
1
−
∑
i
=
1
R
p
i
2
=
1
−
1
2
D
{\displaystyle 1-\lambda =1-\sum _{i=1}^{R}p_{i}^{2}=1-{\frac {1}{{}^{2}D}}}
社会学、心理学、経営学のギブス・マーティン指数 [ 17 ] は、ブルー指数としても知られており、ジニ・シンプソン指数と同じ指標です。
この量は集団遺伝学では期待されるヘテロ接合性 としても知られています 。
ヴォルフガング・H・バーガー と フランシス・ローレンス・パーカー にちなんで名付けられたバーガー・パーカー指数 [ 18 ] は、データセットにおける 最大の p i 値、すなわち最も豊富な種類の相対的存在量に等しい。これは、 qが無限大に近づく場合の p i 値 の加重 一般化平均に対応し、したがって、真の無限大の多様性( 1/ ∞D ) の逆数に等しい 。
^ a b c d e Hill, MO (1973). 「多様性と均一性:統一的表記法とその帰結」. 生態学 . 54 (2): 427– 432. Bibcode : 1973Ecol...54..427H . doi : 10.2307/1934352 . JSTOR 1934352 .
^ a b c d e f g Jost, L (2006). 「エントロピーと多様性」. Oikos . 113 (2): 363– 375. Bibcode : 2006Oikos.113..363J . doi : 10.1111/j.2006.0030-1299.14714.x .
^ a b c d e Tuomisto, H (2010). 「ベータ多様性の多様性:誤った概念を正す。パート1.アルファ多様性とガンマ多様性の関数としてのベータ多様性の定義」. エコグラフィー . 33 (1): 2– 22. Bibcode : 2010Ecogr..33....2T . doi : 10.1111/j.1600-0587.2009.05880.x .
^ a b c d e f Tuomisto, H (2010). 「種の多様性を定量化するための一貫した用語法は?はい、存在します」. Oecologia . 164 (4): 853– 860. Bibcode : 2010Oecol.164..853T . doi : 10.1007/ s00442-010-1812-0 . PMID 20978798. S2CID 19902787 .
^ Tucker, Caroline M.; Cadotte, Marc W.; Carvalho, Silvia B.; Davies, T. Jonathan; Ferrier, Simon; Fritz, Susanne A.; Grenyer, Rich; Helmus, Matthew R.; Jin, Lanna S. (2017年5月). 「保全、群集生態学、マクロ生態学のための系統学的指標ガイド:生態学のための系統学的指標ガイド」 . Biological Reviews . 92 (2): 698– 715. doi : 10.1111/brv.12252 . PMC 5096690. PMID 26785932 .
^ Chao, Anne; Chiu, Chun-Huo; Jost, Lou (2016)、「系統学的多様性指標とその分解:ヒル番号に基づく枠組み」、 Biodiversity Conservation and Phylogenetic Systematics 、Topics in Biodiversity and Conservation、vol. 14、Springer International Publishing、pp. 141– 172、 doi : 10.1007/978-3-319-22461-9_8 、 ISBN 9783319224602
^ ロズウェル、マイケル(2021年3月) 「種の多様性を測定するための概念ガイド」 オイコス 誌 130 ( 3):321-338. doi : 10.1111/oik.07202 . 2025年7月28日 閲覧。
^ モリス、E. キャスリン;カルーソ、タンクレディ。バスコット、フランソワ。フィッシャー、マルクス。ハンコック、クリスティーン。マイヤー、タンジャ S.マイネルス、トルステン。ミュラー、キャロライン。オーバーマイヤー、エリザベス。プラティ、ダニエル。ソーチャー、ステファニー A.ゾンネマン、イリャ。ニコール・ヴェシュケ。ウーベット、テスファイ。ヴルスト、スザンヌ (2014 年 9 月)。 「多様性指標の選択と使用: ドイツ生物多様性探査団からの生態学的応用のための洞察」 。 エコロジーと進化 。 4 (18): 3514–3524 。 ビブコード : 2014EcoEv...4.3514M 。 土井 : 10.1002/ece3.1155 。 ISSN 2045-7758 . PMC 4224527 . PMID 25478144 .
^ Spellerberg, Ian F., Peter J. Fedor. (2003) クロード・シャノン(1916–2001)への賛辞と、種の豊富さ、種の多様性、そして「シャノン・ウィーナー」指数のより厳密な使用を求める嘆願. Global Ecology and Biogeography 12.3, 177-179.
^ a b シャノン、CE(1948) 通信の数学的理論 。ベルシステム技術ジャーナル、27、379–423および623–656。
^ a b c Simpson, EH (1949). 「多様性の測定」 . Nature . 163 (4148): 688. Bibcode : 1949Natur.163..688S . doi : 10.1038/163688a0 .
^ Herfindahl, OC (1950) 「米国鉄鋼産業における集中」コロンビア大学未発表博士論文。
^ ハーシュマン、AO(1945)「国家力と外国貿易の構造」バークレー。
^ Hunter, PR; Gaston, MA (1988). 「型別システムの識別能力の数値指標:シンプソンの多様 性 指標の応用」 . J Clin Microbiol . 26 (11): 2465– 2466. doi : 10.1128/JCM.26.11.2465-2466.1988 . PMC 266921. PMID 3069867 .
^ 「成長する 決定木」 。MathWorks 。
^ Hurlbert, SH (1971). 「種 の 多様性という非概念:批判と代替パラメータ」. 生態学 . 52 (4): 577– 586. Bibcode : 1971Ecol...52..577H . doi : 10.2307/ 1934145 . JSTOR 1934145. PMID 28973811. S2CID 25837001 .
^ ギブス、ジャック・P.、ウィリアム・T・マーティン (1962). 「都市化、技術、そして分業」. アメリカ社会学評論 . 27 (5): 667– 677. doi : 10.2307/2089624 . JSTOR 2089624 .
^ Berger, Wolfgang H.; Parker, Frances L. (1970年6月). 「深海堆積物中のプランクトン性有孔虫の多様性」. Science . 168 (3937): 1345– 1347. Bibcode : 1970Sci ... 168.1345B . doi : 10.1126/science.168.3937.1345 . PMID 17731043. S2CID 29553922 .