ランダムフォレスト

ランダムフォレストまたはランダム決定フォレストは、分類回帰、その他のタスクのためのアンサンブル学習手法であり、トレーニング中に多数の決定木を作成することで機能します。分類タスクの場合、ランダムフォレストの出力は、最も多くの決定木によって選択されたクラスです。回帰タスクの場合、出力は複数の決定木の予測値の平均値です。[ 1 ] [ 2 ]ランダムフォレストは、決定木がトレーニングセット過剰適合する性質を修正します。[ 3 ] : 587–588

ランダム決定林の最初のアルゴリズムは、1995年にティン・カム・ホー[1]によってランダム部分空間法[ 2 ]使用作成れました。これは、ホーの定式化によれば、ユージン・クラインバーグによって提案された分類に対する「確率的識別」アプローチを実装する方法です。[ 4 ] [ 5 ] [ 6 ]

このアルゴリズムの拡張はレオ・ブレイマン[ 7 ]アデル・カトラー[ 8 ]によって開発され、[ 9 ] 2人は2006年に「ランダムフォレスト」を商標として登録しました(2019年現在、Minitab, Inc.が所有)。[ 10 ]この拡張はブレイマンの「バギング」のアイデアと特徴のランダム選択を組み合わせたもので、最初にホー[ 1 ]によって導入され、後にアミットとゲマン[ 11 ]によって独立して導入され、制御された分散を持つ決定木のコレクションを構築します。

歴史

ランダム決定フォレストの一般的な方法は、1993 年に Salzberg と Heath によって初めて提案されました[ 12 ]。この方法では、ランダム決定木アルゴリズムを使用して複数のツリーを作成し、多数決を使用してそれらを結合しました。このアイデアは、1995 年に Ho によってさらに発展させられました[ 1 ] 。Ho は、斜交超平面で分割するツリーのフォレストは、フォレストが選択された特徴 次元のみに敏感になるようにランダムに制限されている限り、過学習の影響を受けずに成長するにつれて精度が向上することを確立しました。同じ方向のその後の研究[ 2 ]では、他の分割方法は、いくつかの特徴次元に対してランダムに鈍感になるように強制される限り、同様に動作するという結論に達しました。より複雑な分類器 (より大きなフォレスト) がほぼ単調に精度が向上するというこの観察は、分類器の複雑さは、過学習の影響を受けずに特定の精度レベルまでしか成長できないという一般的な考えとは際立った対照をなしています。フォレスト法の過剰訓練に対する耐性の説明は、クラインバーグの確率的識別理論に見出すことができる。[ 4 ] [ 5 ] [ 6 ]

Breimanのランダムフォレストの概念の初期の発展は、AmitとGeman [ 11 ]の研究に影響を受けています。彼らは、単一のを成長させるという文脈で、ノードを分割する際に利用可能な決定のランダムなサブセットを探索するというアイデアを導入しました。Ho [ 2 ]のランダムサブスペース選択のアイデアも、ランダムフォレストの設計に影響を与えました。この方法は、木の森を成長させ、各木または各ノードを適合させる前に、トレーニングデータをランダムに選択されたサブスペースに投影することで、木間に変化を導入します。最後に、各ノードでの決定が決定論的な最適化ではなくランダムな手順によって選択されるランダムノード最適化のアイデアは、Thomas G. Dietterichによって初めて導入されました。[ 13 ]

ランダムフォレストの正式な導入は、レオ・ブレイマンの論文[ 7 ]で行われ、 これは世界で最も引用されている論文の一つとなっています[ 14 ] 。この論文では、 CARTのような手順とランダムノード最適化およびバギングを組み合わせた、 相関のない木のフォレストを構築する手法について説明しています。さらに、この論文では、ランダムフォレストの現代の実践の基礎を形成する、既知のものと新しいものを含むいくつかの要素を組み合わせています。

  1. 一般化誤差の推定値としてアウトオブバッグ誤差を使用します。
  2. 順列を通じて変数の重要性を測定します。

このレポートでは、フォレスト内のツリーの強度とそれらの相関関係に依存する一般化誤差の境界の形で、ランダムフォレストに関する初の理論的結果も提供しています。

アルゴリズム

準備:決定木学習

決定木は、様々な機械学習タスクで人気の手法です。Hastieらによると、決定木学習は「データマイニングのためのほぼ既成の手順」であり、「スケーリングやその他の特徴量の変換に対して不変であり、無関係な特徴量の包含に対して堅牢であり、検査可能なモデルを生成する」とのことです。しかし、正確であることはほとんどありません。[ 3 ]:352

特に、非常に深く成長した決定木は、非常に不規則なパターンを学習する傾向があります。つまり、訓練セットに過剰適合し、バイアスは低いものの、分散は非常に高くなります。ランダムフォレストは、同じ訓練セットの異なる部分で訓練された複数の深い決定木を平均化し、分散を減らすことを目指す手法です。[ 3 ] : 587–588 これにはバイアスのわずかな増加と解釈可能性の若干の損失という犠牲が伴いますが、一般的には最終モデルのパフォーマンスを大幅に向上させます。

バギング

ランダムフォレストモデルの学習の図。学習データセット(この場合は250行100列)は、復元抽出法を用いてn回ランダムにサンプリングされます。次に、各サンプルに対して決定木を学習します。最後に、予測のために、 n個のツリーすべての結果を集約して最終的な決定を生成します

ランダムフォレストの学習アルゴリズムは、ブートストラップ集約(バギング)という一般的な手法を木学習器に適用します。学習セットX = x 1 , ..., x nと応答Y = y 1 , ..., y nが与えられた場合、バギングを繰り返し(B回) 、学習セットを復元抽出したランダムサンプルを選択し、これらのサンプルに木を当てはめます。

b = 1, ..., Bの場合:
  1. XYからn 個のトレーニング例を復元抽出し、これらをX bY bと呼びます。
  2. X bY bで分類ツリーまたは回帰ツリーf bをトレーニングします。

トレーニング後、x'の個々の回帰ツリーからの予測値を平均化することで、未知のサンプルx'の予測を行うことができます。

f^1Bb1Bfbx{\displaystyle {\hat {f}}={\frac {1}{B}}\sum _{b=1}^{B}f_{b}(x')}

または、分類ツリーの場合は多数決をとることによって行われます。

このブートストラップ法は、モデルの分散を減少させる一方でバイアスを増加させないため、モデルのパフォーマンス向上につながります。つまり、単一の木の予測値はトレーニングセット内のノイズに非常に敏感ですが、多数の木の平均は、木間に相関がない限り、ノイズの影響を受けにくいということです。単一のトレーニングセットで多数の木を単純にトレーニングすると、強い相関を持つ木(あるいは、トレーニングアルゴリズムが決定論的であれば、同じ木が何度も生成される)が生成されます。ブートストラップサンプリングは、異なるトレーニングセットを木に提示することで、木の相関を無相関化する方法です。

さらに、予測の不確実性の推定は、x′上のすべての個々の回帰木からの予測の標準偏差として行うことができます。 σb1Bfbxf^2B1{\displaystyle \sigma ={\sqrt {\frac {\sum _{b=1}^{B}(f_{b}(x')-{\hat {f}})^{2}}{B-1}}}.}

サンプル数(つまり、木の数) Bは任意のパラメータである。通常、訓練セットのサイズと性質に応じて、数百から数千の木が用いられる。Bは、クロスバリデーション、またはアウトオブバッグ誤差(各訓練サンプルx iにおける平均予測誤差)を観察することによって最適化できる。アウトオブバッグ誤差とは、ブートストラップサンプルにx iが含まれていない木のみを用いて、各訓練サンプルx i における平均予測誤差のことである。[ 15 ]

一定数のツリーが適合された後、トレーニングおよびテストのエラーは安定する傾向があります。

バギングからランダムフォレストまで

上記の手順は、木に対するオリジナルのバギングアルゴリズムについて説明しています。ランダムフォレストには、別の種類のバギング手法も含まれています。これは、学習プロセスにおける候補分岐ごとに、特徴量のランダムなサブセットを選択する、修正された木学習アルゴリズムを使用します。このプロセスは「特徴バギング」と呼ばれることもあります。これを行う理由は、通常のブートストラップ標本における木間の相関です。1つまたは少数の特徴量が応答変数(目標出力)の非常に強力な予測因子である場合、これらの特徴量は多くのB木で選択され、相関が生まれます。バギングとランダムサブスペース投影が、異なる条件下でどのように精度向上に貢献するかについての分析は、Hoによって行われています。[ 16 ]

通常、特徴量を用いた分類問題では、各分割において(切り捨てられた)特徴量が使用されます。[ 3 ]:592 回帰問題の場合、発明者は、最小ノードサイズ5をデフォルトとして(切り捨てられた)を推奨しています。[ 3 ]:592 実際には、これらのパラメータの最適な値は、問題ごとにケースバイケースで調整する必要があります。[ 3 ]:592 p{\displaystyle p}p{\displaystyle {\sqrt {p}}}p/3{\displaystyle p/3}

エクストラツリー

ランダム化をさらに1ステップ追加すると、極めてランダム化されたツリー、つまりエクストラツリーが生成されます。通常のランダムフォレストと同様に、これらは個々のツリーのアンサンブルですが、主に2つの違いがあります。(1) 各ツリーは、ブートストラップサンプルではなく学習サンプル全体を使用してトレーニングされます。(2) トップダウン分割はランダム化されます。つまり、検討中の各特徴量に対して、局所的に最適なカットポイントを計算するのではなく(例えば、情報ゲインジニ不純度に基づいて)、いくつかのランダムカットポイントが選択されます。値は、特徴量の経験的範囲(ツリーのトレーニングセット内)内の一様分布から選択されます。次に、ランダムに選択されたすべての分割の中で、最も高いスコアをもたらす分割がノードの分割に選択されます

通常のランダムフォレストと同様に、各ノードで考慮されるランダムに選択された特徴量の数を指定できます。このパラメータのデフォルト値は、分類と回帰でそれぞれ です。ここではモデル内の特徴量の数です。[ 17 ]p{\displaystyle {\sqrt {p}}}p{\displaystyle p}p{\displaystyle p}

高次元データのためのランダムフォレスト

基本的なランダムフォレスト法は、特徴量が多数あるにもかかわらず、サンプル分類において有益な特徴量がごく一部に過ぎない状況では、うまく機能しない可能性があります。この問題は、有益な特徴量と木構造に重点を置くようにすることで解決できます。これを実現する方法には、以下のようなものがあります。

  • プレフィルタリング:主にノイズである特徴を除去する。[ 18 ] [ 19 ]
  • エンリッチドランダムフォレスト(ERF):各ツリーの各ノードで単純ランダムサンプリングではなく重み付きランダムサンプリングを使用し、より有益な情報を与える特徴に大きな重みを与えます。[ 20 ] [ 21 ] [ 22 ]
  • ツリー重み付けランダムフォレスト(TWRF):より正確なツリーに重みを多く与える。[ 23 ] [ 24 ]

特性

変数の重要度

ランダムフォレストは、回帰問題または分類問題における変数の重要度を自然な方法でランク付けするために使用できます。以下の手法は、Breimanの原著論文[7]で説明されており、Rパッケージ[ 8 ]実装れていますrandomForest

順列の重要度

データセットにおける特徴量の重要度を測定するには、まずランダムフォレストをデータで学習させます。学習中は、各データポイントのout-of-bagエラーが記録され、フォレスト全体で平均化されます。(学習中にバギングを使用しない場合は、代わりに独立したテストセットでエラーを計算できます。) Dn{XiYi}i1n{\displaystyle {\mathcal {D}}_{n}=\{(X_{i},Y_{i})\}_{i=1}^{n}}

学習後、特徴量の値はout-of-bagサンプル内で並べ替えられ、この並べ替えられたデータセットに対してout-of-bagエラーが再度計算されます。特徴量の重要度は、並べ替え前後のout-of-bagエラーの差をすべてのツリーにわたって平均化することで計算されます。スコアは、これらの差の標準偏差によって正規化されます。

このスコアに大きな値をもたらす特徴は、小さな値をもたらす特徴よりも重要度が高いと評価されます。変数重要度尺度の統計的定義は、Zhu et al. [ 25 ]によって示され、分析されています。

変数の重要性を決定するこの方法には、いくつかの欠点があります。

  • 特徴量が異なる値の数を持つ場合、ランダムフォレストはより多くの値を持つ特徴量を優先します。この問題の解決策としては、部分順列[ 26 ] [ 27 ] [ 28 ]や偏りのない木の成長[ 29 ] [ 30 ]などがあります。
  • データに同様の関連性を持つ相関した特徴のグループが含まれている場合、小さなグループが大きなグループよりも優先されます。[ 31 ]
  • 共線的な特徴がある場合、この手順では重要な特徴を特定できない可能性があります。解決策としては、相関のある特徴のグループを並べ替えることです。[ 32 ]

不純物特徴の重要度の平均減少

ランダムフォレストにおける特徴量重要度のこのアプローチは、分割中に不純度を大幅に低減する変数を重要視する。[ 33 ]これはレオ・ブレイマン著の分類と回帰木[ 34 ]で説明されており、 Rsci-kit learnではデフォルトの実装となっている。定義は以下の通りで ある。非正規化平均重要度x1nTi1nTノード jTi|分割変数jxpTijΔiTij{\displaystyle {\text{非正規化平均重要度}}(x)={\frac {1}{n_{T}}}\sum _{i=1}^{n_{T}}\sum _{{\text{node }}j\in T_{i}|{\text{分割変数}}(j)=x}p_{T_{i}}(j)\Delta i_{T_{i}}(j),}

  • x{\displaystyle x}特徴です
  • nT{\displaystyle n_{T}}森の木の数です
  • Ti{\displaystyle T_{i}}木ですi{\displaystyle i}
  • pTijnjn{\displaystyle p_{T_{i}}(j)={\frac {n_{j}}{n}}}ノードに到達したサンプルの割合j{\displaystyle j}
  • ΔiTij{\displaystyle \Delta i_{T_{i}}(j)}は、ノードにおけるツリーの不純度の変化です。i{\displaystyle i}j{\displaystyle j}

たとえば、ノードに含まれるサンプルの不純度の尺度として、次の統計を使用できます。

正規化された重要度は、すべての特徴量を正規化することで得られ、正規化された特徴量の重要度の合計は1になります

デフォルトsci-kit learnの実装では、誤解を招くような特徴量の重要性を報告する可能性がある: [ 32 ]

  • 高カーディナリティの特徴を優先する
  • 訓練統計を使用するため、テストセットでの予測における特徴の有用性を反映しない[ 35 ]

最も近い隣人との関係

ランダムフォレストとk近傍法k -NN)の関係は、2002年にLinとJeonによって指摘されました。[ 36 ]どちらもいわゆる重み付き近傍法として考えることができます。これらは、トレーニングセットから構築されたモデルであり、新しいポイントx'の予測を、ポイントの「近傍」を調べることで行います。近傍は重み関数Wで形式化されます。ここで、は、同じツリー内の新しいポイントx'に対するi番目のトレーニングポイントの非負の重みです。任意のx'について、ポイントの重みの合計は1でなければなりません。重み関数は次のとおりです。 {xiyi}i1n{\displaystyle \{(x_{i},y_{i})\}_{i=1}^{n}}y^{\displaystyle {\hat {y}}}y^i1nWxixyi{\displaystyle {\hat {y}}=\sum _{i=1}^{n}W(x_{i},x')\,y_{i}.}Wxix{\displaystyle W(x_{i},x')}xi{\displaystyle x_{i}}

  • k -NNでは、 x iがx'に最も近いk点の 1 つである場合に、それ以外の場合は 0 になります。Wxix1k{\displaystyle W(x_{i},x')={\frac {1}{k}}}
  • ツリーでは、x i がx'と同じリーフ内のk'ポイントの 1 つである場合、それ以外の場合は 0 になります。Wxix1k{\displaystyle W(x_{i},x')={\frac {1}{k'}}}

フォレストは、個々の重み関数を持つm本の木の集合の予測値を平均化するため、その予測値はWj{\displaystyle W_{j}}y^1mj1mi1nWjxixyii1n1mj1mWjxixyi{\displaystyle {\hat {y}}={\frac {1}{m}}\sum _{j=1}^{m}\sum _{i=1}^{n}W_{j}(x_{i},x')\,y_{i}=\sum _{i=1}^{n}\left({\frac {1}{m}}\sum _{j=1}^{m}W_{j}(x_{i},x')\right)\,y_{i}.}

これは、森全体が重み付き近傍スキームであり、重みは個々の木の重みの平均であることを示しています。この解釈におけるx'の近傍とは、任意の木において同じ葉を共有する点です。このように、x'の近傍は木の構造、ひいては訓練セットの構造に複雑に依存します。LinとJeonは、ランダムフォレストが使用する近傍の形状が、各特徴量の局所的な重要度に適応することを示しました。[ 36 ]xi{\displaystyle x_{i}}j{\displaystyle j}

教師なし学習

ランダムフォレスト予測器は、その構築の一環として、観測値間の非類似度尺度を自然に導きます。ラベルなしデータ間の非類似度は、元の「観測」データと参照分布から抽出された適切に生成された合成データを区別するようにフォレストを学習させることで、同様に定義できます。[ 7 ] [ 37 ]ランダムフォレスト非類似度は、混合変数タイプを非常にうまく処理し、入力変数の単調変換に対して不変であり、外れ値の観測に対して堅牢であるため、魅力的です。ランダムフォレスト非類似度は、固有の変数選択により、多数の半連続変数を容易に処理できます。たとえば、「Addcl 1」ランダムフォレスト非類似度は、各変数が他の変数にどの程度依存しているかに応じて、各変数の寄与に重み付けします。ランダムフォレスト非類似度は、組織マーカーデータに基づいて患者のクラスターを見つけるなど、さまざまなアプリケーションで使用されています。[ 38 ]

バリエーション

決定木の代わりに、線形モデル、特に多項ロジスティック回帰単純ベイズ分類器がランダムフォレストの基本推定量として提案され、評価されてきました。[ 39 ] [ 40 ] [ 41 ]予測変数と目的変数の関係が線形である場合、基本学習器はアンサンブル学習器と同等の高い精度を持つ可能性があります。[ 42 ] [ 39 ]

カーネルランダムフォレスト

機械学習において、カーネルランダムフォレスト(KeRF)はランダムフォレストとカーネル法を結び付けます。定義をわずかに変更することで、ランダムフォレストはカーネル法として書き換えることができ、より解釈しやすく分析が容易になります。[ 43 ]

歴史

Leo Breiman [ 44 ]はランダムフォレストとカーネル法の関連性に初めて気づいた人物である。彼は、ツリー構築でiidランダムベクトルを使用して学習されたランダムフォレストは、真のマージンに作用するカーネルと同等であると指摘した。Lin と Jeon [ 45 ] は、ランダムフォレストと適応的最近傍法の関係を確立し、ランダムフォレストを適応的カーネル推定値とみなせることを示唆した。Davies と Ghahramani [ 46 ]はカーネルランダムフォレスト (KeRF) を提案し、それが経験的に最先端のカーネル法よりも優れていることを示した。Scornet [ 43 ]は、初めて KeRF 推定値を定義し、KeRF 推定値とランダムフォレストの間に明確な関連性を示した。彼はまた、ランダムフォレストの2つの簡略化されたモデルである中心ランダムフォレスト[ 47 ]と均一ランダムフォレスト[ 48 ]に基づくカーネルの明示的な表現を示した。彼はこれら2つの KeRF を Centered KeRF と Uniform KeRF と名付け、それらの一貫性の率の上限を証明した。

表記法と定義

準備:中心化フォレスト

中心化フォレスト[ 47 ]は、Breimanのオリジナルのランダムフォレストを簡略化したモデルであり、すべての属性の中から1つの属性を均一に選択し、事前に選択された属性に沿ってセルの中心で分割を実行します。このアルゴリズムは、レベル の完全な二分木が構築されたときに停止します。ここではアルゴリズムのパラメータです k{\displaystyle k}kN{\displaystyle k\in \mathbb {N} }

ユニフォームフォレスト

ユニフォームフォレスト[ 48 ]は、ブレイマンのオリジナルのランダムフォレストを簡略化したモデルであり、すべての特徴量の中から1つの特徴量を均一に選択し、選択された特徴量に沿ってセルの側面に均一に描かれた点で分割を行います

ランダムフォレストからKeRFへ

値の独立ランダム変数のトレーニング サンプルが与えられ 、これは独立プロトタイプ ペアとして分布しています。ここで、回帰関数を推定することで、ランダム変数 に関連付けられた応答 を予測することを目標とします。ランダム回帰フォレストは、ランダム化回帰ツリーのアンサンブルです。ポイント での予測値を番目のツリーで表します。ここで、は独立ランダム変数であり、サンプル とは無関係な一般的なランダム変数 として分布しています。このランダム変数は、ノード分割によって生じるランダム性、およびツリー構築のサンプリング手順を表すために使用できます。ツリーを組み合わせて、有限フォレスト推定値 を形成します。回帰ツリーの場合、 が成り立ちます。ここ で、はランダム性、データセットで設計されたを含むセルです。Dn{XiYi}i1n{\displaystyle {\mathcal {D}}_{n}=\{(\mathbf {X} _{i},Y_{i})\}_{i=1}^{n}}[01]p×R{\displaystyle [0,1]^{p}\times \mathbb {R} }XY{\displaystyle (\mathbf {X} ,Y)}E[Y2]<{\displaystyle \operatorname {E} [Y^{2}]<\infty }Y{\displaystyle Y}X{\displaystyle \mathbf {X} }mxE[YXx]{\displaystyle m(\mathbf {x} )=\operatorname {E} [Y\mid \mathbf {X} =\mathbf {x} ]}M{\displaystyle M}mnxΘj{\displaystyle m_{n}(\mathbf {x},\mathbf {\Theta}_{j})}x{\displaystyle \mathbf {x}j{\displaystyle j}Θ1ΘM{\displaystyle \mathbf {\Theta } _{1},\ldots,\mathbf {\Theta } _{M}}Θ{\displaystyle \mathbf {\Theta } }Dn{\displaystyle {\mathcal {D}}_{n}}mMnxΘ1ΘM1Mj1MmnxΘj{\displaystyle m_{M,n}(\mathbf {x},\Theta _{1},\ldots,\Theta _{M})={\frac {1}{M}}\sum _{j=1}^{M}m_{n}(\mathbf {x},\Theta _{j})}mni1nYi1XiAnxΘjNnxΘj{\displaystyle m_{n}=\sum _{i=1}^{n}{\frac {Y_{i}\mathbf {1} _{\mathbf {X} _{i}\in A_{n}(\mathbf {x} ,\Theta _{j})}}{N_{n}(\mathbf {x} ,\Theta _{j})}}}AnxΘj{\displaystyle A_{n}(\mathbf {x} ,\Theta _{j})}x{\displaystyle \mathbf {x}Θj{\displaystyle \Theta_{j}}Dn{\displaystyle {\mathcal {D}}_{n}}NnxΘji1n1XiAnxΘj{\displaystyle N_{n}(\mathbf {x},\Theta_{j})=\sum_{i=1}^{n}\mathbf {1}_{\mathbf {X}_{i}\in A_{n}(\mathbf {x},\Theta_{j})}}

したがってランダムフォレストの推定値は、すべての に対して、 を満たします。ランダム回帰フォレストには、平均化のレベルが 2 つあり、最初はツリーのターゲットセルのサンプルに対して、次にすべてのツリーに対して行われます。したがって、データポイントの密度が高いセルにある観測値の寄与は、人口の少ないセルに属する観測値の寄与よりも小さくなります。ランダムフォレスト法を改良し、推定値の誤りを補正するために、Scornet [ 43 ]は、フォレスト内の を含むセルに含まれる の平均に等しいKeRF を定義しました 。有限フォレストの接続関数を 、つまり と の間で共有されるセルの割合と定義すると、ほぼ確実に となり、これが KeRF を定義します。 x[01]d{\displaystyle \mathbf {x} \in [0,1]^{d}}mMnxΘ1ΘM1Mj1Mi1nYi1XiAnxΘjNnxΘj{\displaystyle m_{M,n}(\mathbf {x} ,\Theta _{1},\ldots ,\Theta _{M})={\frac {1}{M}}\sum _{j=1}^{M}\left(\sum _{i=1}^{n}{\frac {Y_{i}\mathbf {1} _{\mathbf {X} _{i}\in A_{n}(\mathbf {x} ,\Theta _{j})}}{N_{n}(\mathbf {x} ,\Theta _{j})}}\right)}m~MnxΘ1ΘM1j1MNnxΘjj1Mi1nYi1XiAnxΘj{\displaystyle {\tilde {m}}_{M,n}(\mathbf {x} ,\Theta _{1},\ldots ,\Theta _{M})={\frac {1}{\sum _{j=1}^{M}N_{n}(\mathbf {x} ,\Theta _{j})}}\sum _{j=1}^{M}\sum _{i=1}^{n}Y_{i}\mathbf {1} _{\mathbf {X} _{i}\in A_{n}(\mathbf {x} ,\Theta _{j})},}Yi{\displaystyle Y_{i}}x{\displaystyle \mathbf {x}M{\displaystyle M}KMnxz1Mj1M1zAnxΘj{\displaystyle K_{M,n}(\mathbf {x} ,\mathbf {z} )={\frac {1}{M}}\sum _{j=1}^{M}\mathbf {1} _{\mathbf {z} \in A_{n}(\mathbf {x} ,\Theta _{j})}}x{\displaystyle \mathbf {x} }z{\displaystyle \mathbf {z} }m~M,n(x,Θ1,,ΘM)=i=1nYiKM,n(x,xi)=1nKM,n(x,x){\displaystyle {\tilde {m}}_{M,n}(\mathbf {x} ,\Theta _{1},\ldots ,\Theta _{M})={\frac {\sum _{i=1}^{n}Y_{i}K_{M,n}(\mathbf {x} ,\mathbf {x} _{i})}{\sum _{\ell =1}^{n}K_{M,n}(\mathbf {x} ,\mathbf {x} _{\ell })}}}

中心化KeRF

レベルの中心化KeRFの構築は、予測が対応するカーネル関数、または接続関数 によって行われることを除いて、中心化フォレストの場合と同じですk{\displaystyle k}m~M,n(x,Θ1,,ΘM){\displaystyle {\tilde {m}}_{M,n}(\mathbf {x} ,\Theta _{1},\ldots ,\Theta _{M})}Kkcc(x,z)=k1,,kd,j=1dkj=kk!k1!kd!(1d)kj=1d12kjxj=2kjzj, for all x,z[0,1]d.{\displaystyle K_{k}^{cc}(\mathbf {x} ,\mathbf {z} )=\sum _{k_{1},\ldots ,k_{d},\sum _{j=1}^{d}k_{j}=k}{\frac {k!}{k_{1}!\cdots k_{d}!}}\left({\frac {1}{d}}\right)^{k}\prod _{j=1}^{d}\mathbf {1} _{\lceil 2^{k_{j}}x_{j}\rceil =\lceil 2^{k_{j}}z_{j}\rceil },\qquad {\text{ for all }}\mathbf {x} ,\mathbf {z} \in [0,1]^{d}.}

ユニフォームKeRF

ユニフォームKeRFはユニフォームフォレストと同じ方法で構築されますが、予測は対応するカーネル関数、または接続関数によって行われます m~M,n(x,Θ1,,ΘM){\displaystyle {\tilde {m}}_{M,n}(\mathbf {x} ,\Theta _{1},\ldots ,\Theta _{M})}Kkuf(0,x)=k1,,kd,j=1dkj=kk!k1!kd!(1d)km=1d(1|xm|j=0km1(ln|xm|)jj!) for all x[0,1]d.{\displaystyle K_{k}^{uf}(\mathbf {0} ,\mathbf {x} )=\sum _{k_{1},\ldots ,k_{d},\sum _{j=1}^{d}k_{j}=k}{\frac {k!}{k_{1}!\ldots k_{d}!}}\left({\frac {1}{d}}\right)^{k}\prod _{m=1}^{d}\left(1-|x_{m}|\sum _{j=0}^{k_{m}-1}{\frac {\left(-\ln |x_{m}|\right)^{j}}{j!}}\right){\text{ for all }}\mathbf {x} \in [0,1]^{d}.}

特性

KeRFとランダムフォレストの関係

各セル内の点の数を制御すると、KeRFとランダムフォレストによる予測は近似します

ほぼ確実に、次のような シーケンスが存在すると仮定すると、 ほぼ確実に、 (an),(bn){\displaystyle (a_{n}),(b_{n})}anNn(x,Θ)bn and an1Mm=1MNnx,Θmbn.{\displaystyle a_{n}\leq N_{n}(\mathbf {x} ,\Theta )\leq b_{n}{\text{ and }}a_{n}\leq {\frac {1}{M}}\sum _{m=1}^{M}N_{n}{\mathbf {x} ,\Theta _{m}}\leq b_{n}.}|mM,n(x)m~M,n(x)|bnananm~M,n(x).{\displaystyle |m_{M,n}(\mathbf {x} )-{\tilde {m}}_{M,n}(\mathbf {x} )|\leq {\frac {b_{n}-a_{n}}{a_{n}}}{\tilde {m}}_{M,n}(\mathbf {x} ).}

無限KeRFと無限ランダムフォレストの関係

木の数が無限になると、ランダムフォレストとKeRFも無限になります。各セルの観測数が制限されている場合、これらの推定値は近似します。 M{\displaystyle M}

ほぼ確実に、次のような 数列が存在すると仮定する。(εn),(an),(bn){\displaystyle (\varepsilon _{n}),(a_{n}),(b_{n})}

  • E[Nn(x,Θ)]1,{\displaystyle \operatorname {E} [N_{n}(\mathbf {x} ,\Theta )]\geq 1,}
  • P[anNn(x,Θ)bnDn]1εn/2,{\displaystyle \operatorname {P} [a_{n}\leq N_{n}(\mathbf {x} ,\Theta )\leq b_{n}\mid {\mathcal {D}}_{n}]\geq 1-\varepsilon _{n}/2,}
  • P[anEΘ[Nn(x,Θ)]bnDn]1εn/2,{\displaystyle \operatorname {P} [a_{n}\leq \operatorname {E} _{\Theta }[N_{n}(\mathbf {x} ,\Theta )]\leq b_{n}\mid {\mathcal {D}}_{n}]\geq 1-\varepsilon _{n}/2,}

するとほぼ確実に |m,n(x)m~,n(x)|bnananm~,n(x)+nεn(max1inYi).{\displaystyle |m_{\infty ,n}(\mathbf {x} )-{\tilde {m}}_{\infty ,n}(\mathbf {x} )|\leq {\frac {b_{n}-a_{n}}{a_{n}}}{\tilde {m}}_{\infty ,n}(\mathbf {x} )+n\varepsilon _{n}\left(\max _{1\leq i\leq n}Y_{i}\right).}

一貫性のある結果が得られます

と仮定する。ここで は中心ガウス雑音であり、 に依存せず、有限分散 である。さらに、は 上で一様分布し、はリプシッツである。Scornet [ 43 ]は中心KeRFと一様KeRFの一致率の上限を証明した。 Y=m(X)+ε{\displaystyle Y=m(\mathbf {X} )+\varepsilon }ε{\displaystyle \varepsilon }X{\displaystyle \mathbf {X} }σ2<{\displaystyle \sigma ^{2}<\infty }X{\displaystyle \mathbf {X} }[0,1]d{\displaystyle [0,1]^{d}}m{\displaystyle m}

中心KeRFの一貫性

およびを 仮定すると、すべての に対して となる定数が存在します。 k{\displaystyle k\rightarrow \infty }n/2k{\displaystyle n/2^{k}\rightarrow \infty }C1>0{\displaystyle C_{1}>0}n{\displaystyle n}E[m~ncc(X)m(X)]2C1n1/(3+dlog2)(logn)2{\displaystyle \mathbb {E} [{\tilde {m}}_{n}^{cc}(\mathbf {X} )-m(\mathbf {X} )]^{2}\leq C_{1}n^{-1/(3+d\log 2)}(\log n)^{2}}

均一なKeRFの一貫性

および とすると、となる 定数が存在します。 k{\displaystyle k\rightarrow \infty }n/2k{\displaystyle n/2^{k}\rightarrow \infty }C>0{\displaystyle C>0}E[m~nuf(X)m(X)]2Cn2/(6+3dlog2)(logn)2{\displaystyle \mathbb {E} [{\tilde {m}}_{n}^{uf}(\mathbf {X} )-m(\mathbf {X} )]^{2}\leq Cn^{-2/(6+3d\log 2)}(\log n)^{2}}

デメリット

ランダムフォレストは単一の決定木よりも高い精度を達成することが多いですが、決定木本来の解釈可能性を犠牲にしています。決定木は、線形モデル、ルールベースモデル、アテンションベースモデルとともに、容易に解釈可能な機械学習モデルの比較的小規模なファミリーに属しています。この解釈可能性は、決定木の主な利点の1つです。開発者はモデルがデータから現実的な情報を学習したことを確認でき、エンドユーザーはモデルによる決定に信頼と確信を持つことができます。[ 39 ] [ 3 ]例えば、決定木が決定を下すためにたどる経路をたどることは非常に簡単ですが、数十または数百のツリーの経路をたどることははるかに困難です。パフォーマンスと解釈可能性の両方を実現するために、いくつかのモデル圧縮技術により、ランダムフォレストを、同じ決定関数を忠実に再現する最小限の「生まれ変わった」決定木に変換することができます。[ 39 ] [ 49 ] [ 50 ]

ランダムフォレストのもう一つの限界は、特徴量がターゲットと線形相関している場合、ランダムフォレストはベース学習器の精度を向上させない可能性があることである。[ 39 ] [ 42 ]複数のカテゴリ変数を持つ問題でも同様である。[ 51 ]

参照

参考文献

  1. ^ a b c d Ho, Tin Kam (1995).ランダム決定フォレスト(PDF) . Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp.  278– 282. 2016年4月17日時点のオリジナル(PDF)からアーカイブ。 2016年6月5日閲覧
  2. ^ a b c d Ho TK (1998). 「決定木構築のためのランダムサブスペース法」(PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 20 (8): 832– 844. Bibcode : 1998ITPAM..20..832T . doi : 10.1109/34.709601 . S2CID 206420153 . 
  3. ^ a b c d e f gヘイスティ、トレバー;ロバート・ティブシラニ;ジェローム・フリードマン(2008)。統計学習の要素(第 2 版)。スプリンガー。ISBN 0-387-95284-5
  4. ^ a b Kleinberg E (1990). 「確率的識別」(PDF) . Annals of Mathematics and Artificial Intelligence . 1 ( 1–4 ): 207– 239. Bibcode : 1990AnMAI...1..207K . CiteSeerX 10.1.1.25.6750 . doi : 10.1007/BF01531079 . S2CID 206795835. 2018年1月18日時点のオリジナル(PDF)からのアーカイブ  
  5. ^ a b Kleinberg E (1996). 「パターン認識のための過剰訓練耐性のある確率的モデリング手法」 Annals of Statistics 24 ( 6): 2319– 2349. doi : 10.1214/aos/1032181157 . MR 1425956 . 
  6. ^ a b Kleinberg E (2000). 「確率的識別のアルゴリズム的実装について」(PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 22 (5): 473– 490. Bibcode : 2000ITPAM..22..473K . CiteSeerX 10.1.1.33.4131 . doi : 10.1109/34.857004 . S2CID 3563126. 2018年1月18日時点のオリジナル(PDF)からのアーカイブ  
  7. ^ a b c d Breiman L (2001). 「ランダムフォレスト」 .機械学習. 45 (1): 5– 32. Bibcode : 2001MachL..45....5B . doi : 10.1023/A:1010933404324 .
  8. ^ a b Liaw A (2012年10月16日). 「RパッケージrandomForestのドキュメント」(PDF) . 2013年3月15日閲覧
  9. ^米国商標登録番号3185828、2006年12月19日登録。
  10. ^ 「RANDOM FORESTSはHealth Care Productivity, Inc.の商標です。 - 登録番号3185828 - シリアル番号78642027 :: Justiaの商標です」
  11. ^ a b Amit Y, Geman D (1997). 「Shape quantization and recognition with randomized trees」(PDF) . Neural Computation . 9 (7): 1545– 1588. CiteSeerX 10.1.1.57.6069 . doi : 10.1162/neco.1997.9.7.1545 . S2CID 12470146. 2018年2月5日時点のオリジナル(PDF)からのアーカイブ。 2008年4月1日閲覧  
  12. ^ Heath, D., Kasif, S. and Salzberg, S. (1993). k-DT: マルチツリー学習法.第2回国際マルチ戦略学習ワークショップ論文集,pp. 138-149.
  13. ^ Dietterich, Thomas (2000). 「決定木のアンサンブル構築における3つの手法:バギング、ブースティング、ランダム化の実験的比較」 .機械学習. 40 (2): 139– 157. doi : 10.1023/A:1007607513941 .
  14. ^ヘレン・ピアソン、ハイディ・レッドフォード、マシュー・ハットソン、リチャード・ヴァン・ノールデン(2025年4月15日)「Exclusive: the most-cited papers of the twenty-first century」Nature 640 ( 8059): 588– 592. doi : 10.1038/D41586-025-01125-9 . ISSN 1476-4687 . Wikidata Q135104889 .  
  15. ^ガレス・ジェームズ、ダニエラ・ウィッテン、トレバー・ハスティー、ロバート・ティブシラニ (2013). 『統計学習入門』 シュプリンガー. pp.  316– 321.
  16. ^ Ho, Tin Kam (2002). 「決定森コンストラクタの比較優位性に関するデータ複雑性分析」(PDF) .パターン分析と応用. 5 (2): 102– 112. doi : 10.1007/s100440200009 . S2CID 7415435.オリジナル(PDF)から2016年4月17日にアーカイブ. 2015年11月13日閲覧. 
  17. ^ゲルツ P、エルンスト D、ヴェーヘンケル L (2006)。「極端にランダム化されたツリー」(PDF)機械学習63 : 3–42 .土井: 10.1007/s10994-006-6226-1
  18. ^ Dessi, N. & Milia, G. & Pes, B. (2013). マイクロアレイデータ分類におけるランダムフォレストの性能向上. 会議論文, 99-103. 10.1007/978-3-642-38326-7_15.
  19. ^ Ye, Y., Li, H., Deng, X., Huang, J. (2008) 隠れたウェブ検索インターフェースの検出のための特徴重み付けランダムフォレスト.計算言語学および中国語言語処理ジャーナル,13,387–404.
  20. ^ Amaratunga, D., Cabrera, J., Lee, YS (2008) エンリッチドランダムフォレスト. バイオインフォマティクス, 24, 2010-2014.
  21. ^ Ghosh D, Cabrera J. (2022) 高次元ゲノムデータのための強化ランダムフォレスト. IEEE/ACM Trans Comput Biol Bioinform. 19(5):2817-2828. doi:10.1109/TCBB.2021.3089417.
  22. ^ Amaratunga, D., Cabrera, J., Shkedy, Z. (2014). DNAマイクロアレイおよびその他の高次元データの探索と分析. ニューヨーク: John Wiley. 第2版. 0.1002/9781118364505.
  23. ^ Winham, Stacey & Freimuth, Robert & Biernacka, Joanna (2013). 重み付きランダムフォレスト法による予測性能の向上. 統計分析とデータマイニング. 6. 10.1002/sam.11196.
  24. ^ Li, HB, Wang, W., Ding, HW, & Dong, J. (2010年11月10日~12日). 高次元ノイズデータの分類のためのツリー重み付けランダムフォレスト法. 2010 IEEE 第7回国際電子ビジネス工学会議にて発表された論文.
  25. ^ Zhu R, Zeng D, Kosorok MR (2015). 「強化学習木」 . Journal of the American Statistical Association . 110 ( 512): 1770– 1784. Bibcode : 2015JASA..110.1770Z . doi : 10.1080/01621459.2015.1036994 . PMC 4760114. PMID 26903687 .  
  26. ^ Deng, H.; Runger, G.; Tuv, E. (2011).多値属性と解に対する重要度指標のバイアス. 第21回国際人工ニューラルネットワーク会議 (ICANN) 議事録. pp.  293– 300.
  27. ^ Altmann A, Toloşi L, Sander O, Lengauer T (2010年5月). 「順列重要度:修正された特徴重要度測定」 .バイオインフォマティクス. 26 (10): 1340–7 . doi : 10.1093/bioinformatics/btq134 . PMID 20385727 . 
  28. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-06-01). 「インフラ資産管理におけるデータ分析の役割:データサイズと品質の問題の克服」. Journal of Transportation Engineering, Part B: Pavements . 146 (2): 04020022. doi : 10.1061/JPEODX.0000175 . S2CID 216485629 . 
  29. ^ Strobl C, Boulesteix AL, Augustin T (2007). 「ジニ係数に基づく分類木の偏りのない分割選択」(PDF) .計算統計とデータ分析. 52 : 483–501 . CiteSeerX 10.1.1.525.3178 . doi : 10.1016/j.csda.2006.12.030 . 
  30. ^ Painsky A, Rosset S (2017). 「ツリーベース手法におけるクロスバリデーション変数選択による予測性能の向上」. IEEE Transactions on Pattern Analysis and Machine Intelligence . 39 (11): 2142– 2153. arXiv : 1512.03444 . Bibcode : 2017ITPAM..39.2142P . doi : 10.1109/tpami.2016.2636831 . PMID 28114007. S2CID 5381516 .  
  31. ^ Tolosi L, Lengauer T (2011年7月). 「相関特徴量を用いた分類:特徴量ランキングと解の信頼性の低さ」 .バイオインフォマティクス. 27 (14): 1986–94 . doi : 10.1093/bioinformatics/btr300 . PMID 21576180 . 
  32. ^ a b「デフォルトのランダムフォレストの重要度に注意」explained.ai . 2023年10月25日閲覧
  33. ^ Ortiz-Posadas, Martha Refugio (2020-02-29).パターン認識技術の生物医学的問題への応用. Springer Nature. ISBN 978-3-030-38021-2
  34. ^レオ・ブレイマン (2017年10月25日).分類と回帰木. ニューヨーク: ラウトレッジ. doi : 10.1201/9781315139470 . ISBN 978-1-315-13947-0
  35. ^ https://scikit-learn.org/stable/auto_examples/inspection/plot_permutation_importance.html 2023年8月31日
  36. ^ a b Lin, Yi; Jeon, Yongho (2002).ランダムフォレストと適応型最近傍法(技術レポート). 技術レポート No. 1055. ウィスコンシン大学. CiteSeerX 10.1.1.153.9168 . 
  37. ^ Shi, T.; Horvath, S. (2006). 「ランダムフォレスト予測子を用いた教師なし学習」. Journal of Computational and Graphical Statistics . 15 (1): 118– 138. CiteSeerX 10.1.1.698.2365 . doi : 10.1198/106186006X94072 . JSTOR 27594168. S2CID 245216 .   
  38. ^ Shi T, Seligson D, Belldegrun AS, Palotie A, Horvath S (2005年4月). 「組織マイクロアレイプロファイリングによる腫瘍分類:腎細胞癌へのランダムフォレストクラスタリングの適用」 . Modern Pathology . 18 (4): 547–57 . doi : 10.1038/modpathol.3800322 . PMID 15529185 . 
  39. ^ a b c d e Piryonesi, S. Madeh; El-Diraby, Tamer E. (2021-02-01). 「機械学習を用いたフレキシブル舗装の劣化モデリングにおける性能指標の種類の影響の検証」 . Journal of Infrastructure Systems . 27 (2): 04021005. doi : 10.1061/(ASCE)IS.1943-555X.0000602 . ISSN 1076-0342 . S2CID 233550030 .  
  40. ^ Prinzie, A.; Van den Poel, D. (2008). 「多クラス分類のためのランダムフォレスト:ランダム多項式ロジット」.エキスパートシステムとその応用. 34 (3): 1721– 1732. doi : 10.1016/j.eswa.2007.01.029 .
  41. ^ Prinzie, Anita (2007). 「ランダム多クラス分類:ランダムフォレストのランダムMNLとランダムNBへの一般化」. Roland Wagner、Norman Revell、Günther Pernul (編).データベースとエキスパートシステムの応用:第18回国際会議、DEXA 2007、レーゲンスブルク、ドイツ、2007年9月3日~7日、議事録. コンピュータサイエンス講義ノート. 第4653巻. pp.  349– 358. doi : 10.1007/978-3-540-74469-6_35 . ISBN 978-3-540-74467-2
  42. ^ a b Smith, Paul F.; Ganesh, Siva; Liu, Ping (2013-10-01). 「神経科学における予測のためのランダムフォレスト回帰多重線形回帰の比較」 . Journal of Neuroscience Methods . 220 (1): 85–91 . doi : 10.1016/j.jneumeth.2013.08.024 . PMID 24012917. S2CID 13195700  
  43. ^ a b c d Scornet, Erwan (2015). 「ランダムフォレストとカーネル法」. arXiv : 1502.03836 [ math.ST ].
  44. ^ Breiman, Leo (2000). 「予測変数アンサンブルのための無限理論」テクニカルレポート579、UCB統計部。{{cite journal}}:ジャーナルを引用するには|journal=ヘルプ)が必要です
  45. ^ Lin, Yi; Jeon, Yongho (2006). 「ランダムフォレストと適応型最近傍法」. Journal of the American Statistical Association . 101 (474): 578– 590. Bibcode : 2006JASA..101..578L . CiteSeerX 10.1.1.153.9168 . doi : 10.1198/016214505000001230 . S2CID 2469856 .  
  46. ^ Davies, Alex; Ghahramani, Zoubin (2014). 「ランダムパーティションからのビッグデータのためのランダムフォレストカーネルとその他のカーネル」arXiv : 1402.4293 [ stat.ML ].
  47. ^ a b Breiman L, Ghahramani Z (2004). 「ランダムフォレストの単純なモデルの一貫性」.カリフォルニア大学バークレー校統計部. 技術報告書(670). CiteSeerX 10.1.1.618.90 . 
  48. ^ a b Arlot S, Genuer R (2014). 「純粋ランダムフォレストバイアスの分析」. arXiv : 1407.3939 [ math.ST ].
  49. ^ Sagi, Omer; Rokach, Lior (2020). 「説明可能な決定森:決定森を解釈可能な木に変換する」 . Information Fusion . 61 : 124–138 . Bibcode : 2020InfFu..61..124S . doi : 10.1016/j.inffus.2020.03.013 . S2CID 216444882 . 
  50. ^ Vidal, Thibaut; Schiffer, Maximilian (2020). 「Born-Again Tree Ensembles」 .国際機械学習会議. 119. PMLR: 9743–9753 . arXiv : 2003.11132 .
  51. ^ Piryonesi, Sayed Madeh (2019年11月).資産管理へのデータ分析の応用:オンタリオ州道路の劣化と気候変動への適応(博士論文)(論文)。

さらに詳しい情報