精度パラドックスとは、予測分析における分類において、精度は予測モデルの適切な指標ではないという逆説的な発見です。これは、単純なモデルは高い精度を持つかもしれませんが、粗すぎて役に立たない可能性があるためです。例えば、カテゴリAの発生率が支配的で、99%の症例で見られる場合、すべての症例がカテゴリAであると予測すると、精度は99%になります。 このような場合、適合率と再現率はより適切な指標です。 [1] [2] 根本的な問題は、陽性クラスと陰性クラスの間にクラスの不均衡があることです。これらのクラスの事前確率は、エラー分析で考慮する必要があります。適合率と再現率は役立ちますが、テストセット内のクラスの事前確率の不均衡によって適合率も偏る可能性があります。[要出典]
例
例えば、人口100万人の都市に10人のテロリストがいるとします。プロファイリングシステムの結果、次のような混同行列が生まれます。
予測 クラス 実際のクラス
|
不合格 | 合格 | 合計 |
|---|---|---|---|
| 不合格 | 10 | 0 | 10 |
| 合格 | 990 | 999000 | 999990 |
| 合計 | 1000 | 999000 | 1000000 |
精度は 10 + 999000/1000000≈ 99.9%ですが、1000個の正の予測のうち990個は誤りです。精度は 10/10 + 990 = 1%であり、パフォーマンスが低いことがわかります。クラスのバランスが非常に悪いため、より適切な指標はF1スコア= 2 × 0.01 × 1/0.01 + 1 ≈ 2%(再現率は 10 + 0/ 10 = 1)です。
文献
- Kubat, M. (2000). 不均衡な訓練セットの呪いへの対処:片側選択。第14回国際機械学習会議。
参照
参考文献
- ^ Abma, BJM (2009年9月10日), トレーサビリティベースの変更影響分析をサポートする要件管理ツールの評価(PDF)、トゥエンテ大学、 86~ 87ページ、 2018年11月25日にオリジナル(PDF)からアーカイブ、 2018年11月24日取得
- ^ Valverde-Albacete; Carillo-de-Albornoz; Peláez-Moreno (2013), 「感情分析タスクのための新しい評価指標と結果視覚化手法の提案」、情報アクセス評価、多言語性、マルチモダリティ、および視覚化、Springer、ISBN 9783642408021