Statistic used in signal detection theory
図1:2つの単変量ヒストグラムの重なり面積から計算されたベイズ最適分類誤り確率とベイズ識別能指数。図2:2つの二変量ヒストグラムの重なり体積から計算された同じ値。図3:不等分散を持つ2つの単変量正規分布の識別能指数。分類境界は黒で示されている。図4:不等共分散行列を持つ2つの二変量正規分布の識別能指数(楕円は1標準偏差の誤差楕円)。カラーバーは、各次元による識別能への相対的な寄与を示している
感度指数、識別指数、検出可能性指数は、信号検出理論において用いられる無次元統計量です。指数が高いほど、信号がより容易に検出されることを示します。
定義
識別能指数は、2つの分布(通常は信号分布とノイズ分布)の平均間の分離度であり、単位は標準偏差です
等分散/共分散
2つの単変量分布で標準偏差が同じ場合、(「ディープライム」)
で表されます


。
高次元、つまり同じ分散共分散行列を持つ2つの多変量分布(その対称平方根、標準偏差行列は)の場合、これは2つの分布間の
マハラノビス距離に一般化されます

、
ここで、平均を通る単位ベクトルに沿ったSDの1次元スライスです。つまり、平均を通る1次元スライスに沿ったSDはSDに
等しくなります



分散共分散が等しい2つの二変量分布の場合、これは次のように表されます。
、
ここでは相関係数であり、ここではおよび、つまり絶対値ではなく平均差の符号を含みます。



とも推定される。[1] : 8
不等分散/不等共分散
2つの分布が異なる標準偏差(または一般的な次元では異なる共分散行列)を持つ場合、いくつかの競合する指標が存在し、それらはすべて等分散/等共分散となるように
簡約されます
ベイズ識別能指数
これは、2つの分布の重なり具合、つまり理想的な観察者による分類の最適(ベイズ)誤差、またはその補数である最適精度に基づく、2つの分布の最大(ベイズ最適)識別能指数です


、
ここで、は標準正規分布の逆累積分布関数です。単変量または多変量正規分布間のベイズ識別可能性は数値的に計算可能(Matlabコード)であり、分布が正規分布に近い場合は近似値として使用することもできます。

は、カルバック・ライブラー距離 のような分布に関する仮定のない、正定値の統計的距離尺度です。は非対称ですが、は2つの分布に対して対称です。しかし、 は三角不等式 を満たさないため、完全な計量ではありません。




特に、平均と分散を持つ2つの単変量正規分布間の「はい/いいえ」タスクの場合、ベイズ最適分類精度は次のようになります。


、
ここで、は非心カイ二乗分布、、を表す。ベイズ識別可能性


単一のシフト基準を持つ2つの単変量正規分布間の「はい/いいえ」課題のROC曲線からも計算できます。また、シフト尤度比を持つ任意の2つの分布(任意の変数数)のROC曲線から、ROC曲線上で対角線から最も遠い点を見つけることで計算することもできます。
これらの分布間の2つの区間のタスクの場合、最適な精度は(一般化カイ2乗分布を表す)
です。ベイズ識別可能性は です。




RMS sd識別能力指数
閉形式を持つ一般的な近似(すなわち、最適ではない)識別能力指標は、分散の平均、すなわち2つの標準偏差のrmsをとることである:[2]( とも表記される)。これは、単一基準観察者の受信者動作特性曲線(AUC)の下の面積の -スコアを乗じたものである。この指標は、プールされた共分散を用いたマハラノビス距離として一般次元に拡張され、すなわち を共通sd行列とする。



![{\displaystyle \mathbf {S} _{\text{rms}}=\left[\left(\mathbf {\Sigma } _{a}+\mathbf {\Sigma } _{b}\right)/2\right]^{\frac {1}{2}}}]()
平均SD識別能力指数
もう 1 つのインデックスは で、共通の sd 行列を
使用して一般次元に拡張されます。

各次元による識別可能性への寄与
一般に、各次元または特徴による全体の識別能力への寄与は、その次元を削除した場合に識別能力がどれだけ低下するかで測定できます。全体のベイズ識別能力が で、次元を削除したベイズ識別能力が の場合、次元の寄与を と定義できます。これは、共分散行列が等しく対角行列である場合の次元の個々の識別能力と同じですが、それ以外の場合は、この指標は個々の識別能力よりも次元の寄与をより正確に反映します。






2つの分布の識別可能性のスケーリング
2つの分布の識別可能性を、一方の分布の平均ベクトルと標準偏差行列 (共分散行列の平方根)をもう一方の分布に線形補間することでスケーリングします。楕円は2つの分布の誤差楕円です。黒い曲線は2つの分布を分ける二次曲線の境界です。
2つのデータ分布を近づけたり遠ざけたりすることで、それらの識別可能性をスケールさせたい場合があります。例えば、検出タスクや分類タスクをモデル化する際に、モデルの性能が被験者や観測データの性能を上回る場合などが挙げられます。このような場合、モデル変数の分布を近づけることで観測された性能と一致するように調整すると同時に、どのデータポイントが重なり始め、誤分類されるかを予測することができます。
これを行うにはいくつかの方法があります。1つは、2つの分布の平均ベクトルと共分散行列を計算し、線形変換を行って、一方の分布の平均と標準偏差行列(共分散行列の平方根)をもう一方の分布に補間する方法です。
もう 1 つの方法は、多正規モデルでデータ ポイントの決定変数 (ポイントが 1 つの分布に属する対数尤度比と別の分布に属する対数尤度比) を計算し、これらの決定変数を近づけたり遠ざけたりすることです。
参照
参考文献
- ^ MacMillan, N.; Creelman, C. (2005). 検出理論:ユーザーズガイド. Lawrence Erlbaum Associates. ISBN 9781410611147。
- ^ シンプソン、AJ;フィッター、MJ (1973). 「検出可能性の最も良い指標とは何か?」心理学速報. 80 (6): 481–488 . doi :10.1037/h0035203
外部リンク
- d ′の計算を含む対話型信号検出理論チュートリアル