多様性指数とは、データセット(例えば、群集)内にいくつの異なるタイプ(例えば、種)が存在するかを測定する手法です。多様性指数は、生物多様性の様々な側面(例えば、豊富さ、均一性、優占度)を統計的に表現したものであり、異なる群集やサイトを比較する際に役立ちます。
生態学で多様性指標が使用される場合、対象となるタイプは通常は種ですが、属、科、機能タイプ、ハプロタイプなどの他のカテゴリになることもあります。対象となる実体は通常、個々の生物(植物や動物など)であり、豊かさの尺度は、個体数、バイオマス、被覆率などです。人口統計学では、対象となる実体は人間であり、対象となるタイプはさまざまな人口統計グループです。情報科学では、実体は文字やアルファベットの異なる文字のタイプです。最も一般的に使用される多様性指標は、有効なタイプの数を単純に変換したものですが(「真の多様性」とも呼ばれます)、各多様性指標は、それ自体で何らかの実際の現象に対応する尺度(ただし、多様性指標ごとに異なるもの)として解釈することもできます。[ 1 ] [ 2 ] [ 3 ] [ 4 ]
多くの指標は、対象者または主体間のカテゴリ的多様性のみを考慮しています。しかし、そのような指標は、カテゴリ的多様性と質的多様性の両方を計算した場合にのみ生じる、対象者または主体間の全体的な変動(多様性)を考慮していません。
この記事で説明する多様性指標には以下のものがあります。
より洗練された指標の中には、タイプ間の系統学的近縁性を説明するものもあります。これらは系統分岐指標と呼ばれ、本稿ではまだ説明していません。[ 5 ]
真の多様性、あるいは有効な型の数とは、対象となるデータセットで観測される型の平均的な割合存在率が等しくなるために必要な、等しく存在する型の数を指します(すべての型が等しく豊富であるとは限りません)。データセットにおける真の多様性は、まずデータセット内の型の割合存在率の加重一般化平均M q −1をとり、次にその逆数をとることで計算されます。式は以下のとおりです。[ 3 ] [ 4 ]
分母M q −1は 、指数q − 1の加重一般化平均を用いて計算された、データセット内の各タイプの平均比例存在率に等しい。式において、Rは豊富さ(データセット内のタイプの総数)であり、i番目のタイプの比例存在率はp iである。比例存在率自体は名目上の重みとして用いられる。これらの数値は、 qオーダーのヒル数、または有効種数と呼ばれる。[ 6 ]
q = 1の場合、上記の式は定義されません。しかし、q が1 に近づくにつれて数学的な限界は明確に定義され、対応する多様性は次の式で計算されます。
これはシャノンエントロピーの指数関数であり、自然対数で計算されます(上記参照)。他の分野では、この統計量はパープレキシティとも呼ばれます。
多様性の一般的な方程式は、多くの場合、 [ 1 ] [ 2 ]の形式で表されます。
括弧内の項は基本和と呼ばれます。いくつかの一般的な多様性指標は、qの異なる値で計算された基本和に対応しています。[ 2 ]
qの値はしばしば多様性の順序と呼ばれる。これは、種の相対的存在量の加重平均の計算方法を変化させることにより、希少種と豊富種に対する真の多様性の感度を定義する。パラメータqの値によっては、一般化平均M q −1の値は、よく知られた種類の加重平均を特殊なケースとして想定する。具体的には、
一般的に、 qの値を増やすと、最も豊富な種に与えられる実効的な重みが増加します。これにより、qの増加に伴いM q −1値が大きくなり、真の多様性( q D)値は小さくなります。
q = 1の場合、 p i値の加重幾何平均が使用され、各種はその割合存在度によって正確に加重されます(加重幾何平均では、重みは指数です)。q > 1の場合、豊富な種に与えられる重みは誇張されており、q < 1の場合、希少種に与えられる重みは誇張されています。q = 0では、種の重みが種の割合存在度を正確に打ち消し、すべての種が等しく豊富でなくても、p i値の加重平均は1 / Rに等しくなります。 q = 0では、有効種数0 Dは、実際の種数Rに等しくなります。 多様性の観点から、qは一般に非負の値に制限されます。これは、qが負の値になると、希少種に豊富な種よりもはるかに大きな重みが与えられ、q D がR を超えてしまうためです。[ 3 ] [ 4 ]
豊富さRは、対象となるデータセットに含まれる異なるタイプの数を単純に定量化するものです。例えば、種の豊富さ(通常Sと表記)は、特定の場所などにおける種の数です。豊富さは単純な指標であるため、個体数データが入手できないことが多い生態学において、多様性指標としてよく用いられてきました。[ 8 ]真の多様性をq = 0として計算すると、有効タイプの数(0 D )は実際のタイプの数と等しくなり、豊富さ( R )と等しくなります。[ 2 ] [ 4 ]
シャノン指数は、生態学の文献では人気の多様性指数で、シャノンの多様性指数、シャノン・ウィーナー指数、(誤って)シャノン・ウィーバー指数とも呼ばれています。[ 9 ]この指標はもともと、テキスト文字列のエントロピー(したがって、シャノンエントロピーはシャノン情報量に関連)を定量化するために、1948 年にクロード・シャノンによって提案されました。 [ 10 ]その考え方は、文字の数が多く、対象の文字列内での文字の比率が近いほど、文字列の次の文字がどれになるかを正しく予測することが難しくなるというものです。シャノンエントロピーは、この予測に関連する不確実性(エントロピーまたは驚きの度合い)を定量化します。最もよく計算されるのは、次のとおりです。
ここで、p iは、対象となる文字列中のi番目の文字種に属する文字の割合です。生態学では、 p iは、対象となるデータセット中のi番目の種に属する個体の割合を指すことがよくあります。シャノンエントロピーは、データセットからランダムに抽出された個体の種の同一性を予測する際の不確実性を定量化します。
ここでは自然対数で式が書かれているが、シャノンエントロピーを計算する際に用いる対数の底は自由に選ぶことができる。シャノン自身が対数の底として 2、10、eについて論じており、これらはそれ以来シャノンエントロピーを用いる応用において最も一般的な底となっている。各対数の底は異なる測定単位に対応しており、底 2、10、eに対してそれぞれ 2 進数 (bits)、10 進数 (decits)、自然数 (nats) と呼ばれてきた。元々異なる対数の底で計算されたシャノンエントロピー値を比較するには、同じ対数の底に変換する必要がある。底aから底bへの変更はlog b (a)を乗じることで得られる。[ 10 ]
シャノン指数(H')は、各タイプの相対的存在量の加重幾何平均と関連している。具体的には、 q = 1として計算した真の多様性の対数に等しい。[ 3 ]
これは次のようにも書ける。
これは
定義により、π値の合計は1であるため、分母はπ値の加重幾何平均に等しく、π値自体が重み(式中の指数)として用いられます。したがって、括弧内の項は真の多様性1 Dに等しく、H'はln( 1 D )に等しくなります。[ 1 ] [ 3 ] [ 4 ]
対象となるデータセット内のすべてのタイプが均等に多い場合、すべてのp i値は1 / Rに等しくなり、シャノン指数はln( R )の値になります。タイプの豊富さが不均等であるほど、 p i値の加重幾何平均は大きくなり、対応するシャノンエントロピーは小さくなります。実質的にすべての豊富さが1つのタイプに集中し、他のタイプが非常にまれである場合(たとえそれらが多数存在していても)、シャノンエントロピーはゼロに近づきます。データセット内にタイプが1つしかない場合、シャノンエントロピーは正確にゼロになります(次にランダムに選択されるエンティティのタイプを予測する際に不確実性はありません)。
機械学習では、シャノン指数は情報ゲインとも呼ばれます。
レーニエントロピーは、シャノンエントロピーをqが1以外の値に一般化したものです。次のように表すことができます。
これは
これは、任意のqの値に基づいて真の多様性の対数を取ると、同じqの値に対応する Rényi エントロピーが得られることを意味します。
シンプソン指数は、個体をタイプに分類したときの集中度を測定するために、 1949年にエドワード・H・シンプソンによって導入されました。 [ 11 ]同じ指数は、1950年にオリス・C・ハーフィンダールによって再発見されました。 [ 12 ]この指数の平方根は、1945年に経済学者アルバート・O・ハーシュマンによってすでに導入されていました。[ 13 ]その結果、同じ指標は通常、生態学ではシンプソン指数として、経済学ではハーフィンダール指数またはハーフィンダール・ハーシュマン指数(HHI)として知られています。
この尺度は、関心のあるデータセットからランダムに抽出された2つのエンティティが同じタイプを表す確率に等しい。[ 11 ]これは次の式に等しい。
ここで、Rは豊富さ(データセット内の種類の総数)です。この式は、対象となる種類の割合存在率p iの加重算術平均にも等しく、割合存在率自体が重みとして使用されます。 [ 1 ]割合存在率は定義上0から1の間の値に制限されますが、これは加重算術平均であるため、λ ≥ 1/ Rとなり、すべての種類が等しく豊富である場合に到達します。
λの計算式と真の多様性の計算式を比較すると、 1/λは2 D、つまりq = 2として計算された真の多様性に等しいことがわかります。したがって、元のシンプソン指数は対応する基本和に等しくなります。[ 2 ]
λを、対象データセットからランダムに抽出された2つの実体が同一の型を表す確率と解釈する場合、実体は復元抽出されていると仮定します。データセットが非常に大きい場合、非復元抽出でもほぼ同じ結果が得られますが、データセットが小さい場合は、結果に大きな差が生じる可能性があります。データセットが小さく、非復元抽出が仮定される場合、両方のランダム抽出で同一の型が得られる確率は以下のとおりです。
ここで、n iはi番目のタイプに属するエンティティの数であり、 Nはデータセット内のエンティティの総数である。[ 11 ]この形式のシンプソン指数は、微生物学ではハンター・ガストン指数としても知られている。[ 14 ]
型の平均的な割合存在度は型の数が減少し、最も豊富な型の存在度が増加すると増加するため、λは多様性の高いデータセットでは小さな値を取り、多様性の低いデータセットでは大きな値を取ります。これは多様性指標としては直感に反する動作であるため、多くの場合、多様性の増加とともに増加するようなλの変換が代わりに使用されてきました。そのような指標の中で最も人気があるのは、逆シンプソン指数(1/λ)とジニシンプソン指数(1−λ)です。[ 1 ] [ 2 ]これらは両方とも生態学の文献ではシンプソン指数とも呼ばれているため、異なる指標を誤って同じであるかのように比較しないように注意が必要です。
逆シンプソン指数は次の式に等しくなります。
これは単純に 2 次の真の多様性、つまり、加重算術平均を使用して対象のデータセット内のタイプの平均比例存在量を定量化するときに得られる有効なタイプの数に等しくなります。
この指数は、政党の有効数を測る指標としても使われます。
ジニ・シンプソン指数は、機械学習の分野ではジニ不純度、あるいはジニの多様性指数[ 15 ]とも呼ばれます。元のシンプソン指数 λ は、対象のデータセットからランダムに(復元抽出して)抽出した2つの実体が同一のタイプを表す確率に等しくなります。したがって、その変換 1 − λ は、2つの実体が異なるタイプを表す確率に等しくなります。この指標は、生態学では種間遭遇確率(PIE)[ 16 ]やジニ・シンプソン指数[ 2 ]としても知られています。これは、真の多様性のオーダー2の変換として表すことができます。
社会学、心理学、経営学のギブス・マーティン指数[ 17 ]は、ブルー指数としても知られており、ジニ・シンプソン指数と同じ指標です。
この量は集団遺伝学では期待されるヘテロ接合性としても知られています。
ヴォルフガング・H・バーガーとフランシス・ローレンス・パーカーにちなんで名付けられたバーガー・パーカー指数[ 18 ]は、データセットにおける最大のp i値、すなわち最も豊富な種類の相対的存在量に等しい。これは、 qが無限大に近づく場合のp i値の加重一般化平均に対応し、したがって、真の無限大の多様性( 1/ ∞D )の逆数に等しい。
{{citation}}: CS1 maint: work parameter with ISBN (link)