リスクスコア

いくつかのリスク要因が存在する場合のリスクレベルを反映した計算数値

リスクスコアとは、統計学、生物統計学、計量経済学、および関連分野において、対象集団を層別化し、スクリーニングを行う際に用いられる指標です。リスク要因に基づいて個人にスコアを割り当て、スコアが高いほどリスクが高いことを示します。このスコアは、いくつかのリスク要因（例えば、症状や遺伝子プロファイルがある場合の死亡または疾患のリスク、信用情報や財務履歴を考慮した経済的損失のリスクなど）が存在する場合のリスクレベルを反映します。

リスクスコアは主に次の目的で設計されています。

計算が簡単: 単純なケースでは、手動計算を使用して基本スコアを計算できます (ただし、一部のスコアでは、コンピュータープログラムを必要とする、より高度で透明性の低い計算が使用されます)。
解釈が容易：計算結果は単一の数値であり、スコアが高いほど通常はリスクが高いことを意味します。さらに、多くのスコアリング手法では、測定されたリスク要因に何らかの単調性を強制することで、スコアの解釈を容易にしています（例：死亡リスクは年齢とともに増加する、支払い不履行リスクは顧客の負債総額とともに増加する、など）。
実行可能: スコアは、算出されたスコアの結果として実行すべき一連のアクションに基づいて設計されます。スコアの値にしきい値を設定し、それをエスカレーションアクションに関連付けることで、効果的なスコアベースのポリシーを設計・実行できます。

正式な定義

典型的なスコアリング方法は3つの要素から構成されます: ^[1]

基礎となるリスクの推定を反映し、各リスク要因に数値 (「ポイント」) を割り当てる、一貫したルール (または重み) のセット。
スコアを計算する数式 (通常はすべての累積ポイントの単純な合計)。
計算されたスコアをリスクのレベルに変換するのに役立つしきい値のセット、または計算されたスコアを確率に戻す同等の式またはルールのセット (重大度の名目上の評価は実行者に任せます)。

項目1と2は、何らかの回帰分析を用いることで実現できます。これにより、リスク推定とスコア計算式の両方が得られます。項目3では、任意の閾値を設定する必要があり、通常は専門家の意見が必要になります。

GLMによるリスクの推定

リスクスコアは、関連するリスク要因の測定値を含む説明変数のベクトルを与えられた場合に、有害事象の発生確率を表すように設計されています。リスク要因と確率の関係を確立するために、一般化線形モデルを用いて一連の重みが推定されます。 $\lbrace Y=1\rbrace$ $P$ $\mathbf {X}$ $\beta$

{\begin{aligned}\operatorname {E} (\mathbf {Y} |\mathbf {X} )=\mathbf {P} (\mathbf {Y} =1|\mathbf {X} )=g^{-1}(\mathbf {X} \beta )\end{aligned}}

ここで、は実数値の単調増加関数であり、線形予測変数の値を区間にマッピングします。GLM法では通常、リンク関数としてロジット関数またはプロビット関数が使用されます。 $g^{-1}:\mathbb {R} \rightarrow [0,1]$ $\mathbf {X} \beta$ $[0,1]$

他の方法によるリスクの推定

他の統計的手法や機械学習手法を使用して推定することも可能ですが、単純さと解釈の容易さ (およびリスク要因ごとの単調性) が求められるため、これらの手法のほとんどをこのコンテキストでのスコアリングに使用するのは困難です。 $\mathbf {P} (\mathbf {Y} =1|\mathbf {X} )$

より高度な手法を用いると、各リスク要因に単純な重み付けを付与し、スコア計算のための単純な式を提供することが困難になります。注目すべき例外として、CARTなどのツリーベースの手法があります。これらの手法は、単純な意思決定ルールと計算式を提供できますが、異なるリスク要因間での尺度の単調性を保証することはできません。
集団全体の潜在的リスクを推定することが目的であるため、個体を事前に順序尺度でタグ付けすることはできません。つまり、観察対象の個体が「高リスク」グループに属するかどうかは事前に分からないからです。したがって、分類手法は、個体を2つのグループ、または2つの可能な行動に分類する場合にのみ意味を持ちます。

スコアの構築

GLMを用いる場合、推定重みセットを用いて、リスク要因（指標として連続型または名目型）の異なる値に異なる値（または「ポイント」）を割り当てることができます。スコアは加重和として表すことができます。 $\beta$ $\mathbf {X}$

{\begin{aligned}{\text{スコア}}=\mathbf {X} \beta =\sum _{j=1}^{P}\mathbf {X} _{j}\beta _{j}\end{aligned}}

いくつかのスコアリング法では、スコアを確率に変換する方法として、例えばSAPS IIスコア^[2]（スコアから死亡率を計算するための明示的な関数^[3]）や参照テーブル（例えばABCD²スコア^[4]^[5]やISM7（NI）スコアカード^[6]）などを用いる。この方法は、スコアを求める計算プロセスを複雑にするが、任意の数値をより馴染みのある0から1の尺度に変換できるという利点がある。 $g^{-1}$
の列は、リスク要因自体だけでなく、リスク要因の複雑な変換 (複数の相互作用を含む) を表すことができます。 $\mathbf {X}$
の値は、非常に小さな分数ではなく整数で計算できるように（計算を簡素化するために）、スケーリングまたは四捨五入されることがあります。スケーリングはリスク推定スコアの能力に影響を与えませんが、四捨五入はGLM推定の「最適性」を損なう可能性があります。 $\beta$

スコアに基づく意思決定

を意思決定者が利用できる「エスカレーション」アクションの集合とします（例えば、信用リスクの決定の場合： =「自動承認」、=「追加書類を要求して手動で確認」、 =「自動拒否」）。決定ルールを定義するために、スコアの異なる値とにおける可能な決定との間のマップを定義します。をとなる連続した重複しない区間に分割したものとします。 $\mathbf {A} =\lbrace \mathbf {a} _{1},...,\mathbf {a} _{m}\rbrace$ $m\geq 2$ $\mathbf {a} _{1}$ $\mathbf {a} _{2}$ $\mathbf {a} _{3}$ $\mathbf {A}$ $\tau =\lbrace \tau _{1},...\tau _{m-1}\rbrace$ $\mathbb {R}$ $m$ $\tau_{1}、\tau_{2}、\ldots <\tau_{m-1}$

マップは次のように定義されます。

{\begin{aligned}{\text{スコアの場合}}\in [\tau _{j-1},\tau _{j})\rightarrow {\text{行動を起こす}}\mathbf {a} _{j}\end{aligned}}

の値は、専門家の意見、測定されたリスクの種類と蔓延、誤分類の結果などに基づいて設定されます。たとえば、10 のうち 9 のリスクは通常「高リスク」と見なされますが、10 のうち 7 のリスクは、状況に応じて「高リスク」または「中リスク」と見なされます。 $\tau$
間隔の定義は右オープンエンド間隔に基づいていますが、左オープンエンド間隔を使用して同様に定義することもできます。 $(\tau _{j-1},\tau _{j}]$
スコアがすでに確率に変換されているスコアリング方法では、区間上で直接パーティションを定義するか、決定基準をに変換します。の単調性により、1 対 1 の変換が保証されます。 $\tau$ $[0,1]$ $[g^{-1}(\tau _{j-1}),g^{-1}(\tau _{j}))$ $g$

例

生物統計学

（カテゴリページ「カテゴリ:医療スコアリングシステム」でさらに多くの例を参照してください）

金融業界

金融分野におけるスコアの主な用途は、クレジットスコアカード、またはクレジットスコアです。

多くの国（例えば米国）では、信用スコアは商業機関によって計算されているため、正確な計算方法は公表されていません（例えば、破産リスクスコア、FICOスコアなど）。オーストラリアと英国の信用スコアは、債務不履行確率を推定するためにロジスティック回帰を用いて計算されることが多く、したがって一種のリスクスコアです。
保険業界などの他の金融業界でもスコアリング手法が使用されていますが、その具体的な実施方法は、いくつかのまれなケースを除いて企業秘密のままです^[6]

社会科学

^{ProPublica [7]}がロジスティック回帰とCoxの比例ハザードモデルを用いてリバースエンジニアリングした再犯に関する COMPASスコア。

参考文献

Hastie, TJ; Tibshirani, RJ (1990).一般化加法モデル. Chapman & Hall/CRC. ISBN 978-0-412-34390-2。

^ Toren, Yizhar (2011). 「順序リスクグループ分類」. arXiv : 1012.5487 [stat.ML].
^ Le Gall, JR; Lemeshow, S; Saulnier, F (1993). 「欧州／北米多施設共同研究に基づく新たな簡易急性生理学スコア（SAPS II）」. JAMA . 270 (24): 2957–63 . doi :10.1001/jama.1993.03510240069035. PMID 8254858.
^ 「簡易急性生理学スコア（SAPS II）計算機 - ClinCalc.com」clincalc.com . 2018年8月20日閲覧。
^ Johnston SC; Rothwell PM; Nguyen-Huynh MN; Giles MF; Elkins JS; Bernstein AL; Sidney S.「一過性脳虚血発作後の超早期脳卒中リスクを予測するためのスコアの検証と改良」Lancet (2007): 369(9558):283-292
^ 「TIAのABCD²スコア」www.mdcalc.com . 2018年12月16日閲覧。
^ ab 「ISM7（NI）スコアカード、Allstate Property & Casualty Company」（PDF）。 2018年12月16日閲覧。
^ 「COMPAS再犯アルゴリズムの分析方法」。 2018年12月16日閲覧。

[ORGC-1] Toren, Yizhar (2011). 「順序リスクグループ分類」. arXiv : 1012.5487 [stat.ML].

[2] Le Gall, JR; Lemeshow, S; Saulnier, F (1993). 「欧州／北米多施設共同研究に基づく新たな簡易急性生理学スコア（SAPS II）」. JAMA . 270 (24): 2957–63 . doi :10.1001/jama.1993.03510240069035. PMID 8254858.

[3] 「簡易急性生理学スコア（SAPS II）計算機 - ClinCalc.com」clincalc.com . 2018年8月20日閲覧。

[4] Johnston SC; Rothwell PM; Nguyen-Huynh MN; Giles MF; Elkins JS; Bernstein AL; Sidney S.「一過性脳虚血発作後の超早期脳卒中リスクを予測するためのスコアの検証と改良」Lancet (2007): 369(9558):283-292

[5] 「TIAのABCD²スコア」www.mdcalc.com . 2018年12月16日閲覧。

[AllState2006-6] 「ISM7（NI）スコアカード、Allstate Property & Casualty Company」（PDF）。 2018年12月16日閲覧。

[7] 「COMPAS再犯アルゴリズムの分析方法」。 2018年12月16日閲覧。