学習可能な関数クラス

統計学習理論において学習可能関数クラスとは、あらゆる確率分布において一様に期待リスクを漸近的に最小化するアルゴリズムを考案できる関数集合である。学習可能クラスの概念は機械学習における正則化と密接に関連しており、特定の学習アルゴリズムに大規模サンプルの正当性を与える。

意味

背景

を標本空間としはラベル、は共変量(予測変数)とします。は にリンクすることが検討されているマッピング(関数)の集合ですは事前に与えられた損失関数(通常は非負)です。上の確率分布が与えられた場合、期待リスクを次のように定義します。 Ω = X × Y = { ( x , y ) } {\displaystyle \Omega ={\mathcal {X}}\times {\mathcal {Y}}=\{(x,y)\}} y {\displaystyle y} x {\displaystyle x} F = { f : X Y } {\displaystyle {\mathcal {F}}=\{f:{\mathcal {X}}\mapsto {\mathcal {Y}}\}} x {\displaystyle x} y {\displaystyle y} L : Y × Y R {\displaystyle L:{\mathcal {Y}}\times {\mathcal {Y}}\mapsto \mathbb {R} } P ( x , y ) {\displaystyle P(x,y)} Ω {\displaystyle \Omega } I P ( f ) {\displaystyle I_{P}(f)}

I P ( f ) = L ( f ( x ) , y ) d P ( x , y ) {\displaystyle I_{P}(f)=\int L(f(x),y)dP(x,y)}

統計学習における一般的な目標は、期待リスクを最小化する関数を見つけることです。つまり、次の問題の解を見つけることです。[1] F {\displaystyle {\mathcal {F}}}

f ^ = arg min f F I P ( f ) {\displaystyle {\hat {f}}=\arg \min _{f\in {\mathcal {F}}}I_{P}(f)}

しかし実際には分布は未知であり、学習タスクは有限のサンプルに基づいてしか実行できない。そこで我々は、経験的リスクを漸近的に最小化するアルゴリズム、すなわち、次式を満たす 関数列を求める。 P {\displaystyle P} { f ^ n } n = 1 {\displaystyle \{{\hat {f}}_{n}\}_{n=1}^{\infty }}

lim n P ( I P ( f ^ n ) inf f F I P ( f ) > ϵ ) = 0 {\displaystyle \lim _{n\rightarrow \infty }\mathbb {P} (I_{P}({\hat {f}}_{n})-\inf _{f\in {\mathcal {F}}}I_{P}(f)>\epsilon )=0}

このようなシーケンスを見つけるための一般的なアルゴリズムの 1 つは、経験的リスク最小化です。

学習可能な関数クラス

収束がすべての確率分布に対して一様であることを条件とすることで、上記の式で与えられた条件をより強固なものにすることができます。つまり、

より厳格な要件の背後にある直感的な根拠は次のとおりです。シーケンスが期待リスクの最小値に収束する速度は、さまざまな によって大きく異なる可能性があります。現実世界では真の分布は常に未知であるため、あらゆるケースにおいて良好なパフォーマンスを発揮するシーケンスを選択する必要があります。 { f ^ n } {\displaystyle \{{\hat {f}}_{n}\}} P ( x , y ) {\displaystyle P(x,y)} P {\displaystyle P}

しかし、「ノーフリーランチ定理」によれば、( 1 )を満たすようなシーケンスは、が複雑すぎる場合には存在しません。つまり、( 1 )を意味のある要件としたいのであれば、関数を「多く」許容しないように注意する必要があります。具体的には、( 1 )を満たすシーケンスの存在を保証する関数クラスは、学習可能クラスとして知られています[1] F {\displaystyle {\mathcal {F}}} F {\displaystyle {\mathcal {F}}} { f ^ n } {\displaystyle \{{\hat {f}}_{n}\}}

注目すべきは、少なくとも教師あり分類問題と回帰問題においては、関数クラスが学習可能であれば、経験的リスク最小化は自動的に(1)を満たすということである。[2]このように、これらの設定では、( 1 )によって提起された問題が解けることが分かるだけでなく、その解を与えるアルゴリズムもすぐに得られる。

解釈

と の真の関係が である場合、適切な損失関数を選択することにより、 は常にすべての可能な関数における期待損失の最小値として表現できます。つまり、 y {\displaystyle y} x {\displaystyle x} y f ( x ) {\displaystyle y\sim f^{*}(x)} f {\displaystyle f^{*}}

f = arg min f F I P ( f ) {\displaystyle f^{*}=\arg \min _{f\in {\mathcal {F}}^{*}}I_{P}(f)}

ここで、を に写像するすべての可能な関数の集合としますは実際のデータ生成メカニズムとして解釈できます。しかし、フリーランチ定理によれば、実際には有限サンプルでは 上の期待リスク最小化関数を探索することは期待できません。そのため、 のサブセット、 について探索を行うことがよくあります。そうすることで、が の元ではない可能性があるというリスクが生じます。このトレードオフは数学的に次のように表現できます 。 F {\displaystyle {\mathcal {F}}^{*}} X {\displaystyle {\mathcal {X}}} Y {\displaystyle {\mathcal {Y}}} f {\displaystyle f^{*}} F {\displaystyle {\mathcal {F}}^{*}} F {\displaystyle {\mathcal {F}}^{*}} F {\displaystyle {\mathcal {F}}} f {\displaystyle f^{*}} F {\displaystyle {\mathcal {F}}}

上記の分解において、 はデータに依存せず、非確率的です。これは、仮定()が真実()からどれだけ離れているかを表します。仮定が強すぎる(小さすぎる)場合、 は0より確実に大きくなります。一方、 に十分な制約を課さないと、 は学習不可能になり、 は確率的に0に収束しません。これは、統計学や機械学習の文献でよく知られている過剰適合の問題です。 ( b ) {\displaystyle (b)} F {\displaystyle {\mathcal {F}}} F {\displaystyle {\mathcal {F}}^{*}} ( b ) {\displaystyle (b)} F {\displaystyle {\mathcal {F}}} F {\displaystyle {\mathcal {F}}} ( a ) {\displaystyle (a)}

例: ティホノフ正規化

学習可能なクラスが用いられる良い例として、再生核ヒルベルト空間(RKHS)におけるいわゆるティホノフ正則化が挙げられます。具体的には、 RKHSを とし、その内積によって与えられるのノルムを とします。 [3]では、任意の有限正の に対して が学習可能なクラスであることが示されています。この問題の 双対形式に対する経験的最小化アルゴリズムは、 F {\displaystyle {\mathcal {F^{*}}}} | | | | 2 {\displaystyle ||\cdot ||_{2}} F {\displaystyle {\mathcal {F^{*}}}} F = { f : | | f | | 2 γ } {\displaystyle {\mathcal {F}}=\{f:||f||_{2}\leq \gamma \}} γ {\displaystyle \gamma }

arg min f F { i = 1 n L ( f ( x i ) , y i ) + λ | | f | | 2 } {\displaystyle \arg \min _{f\in {\mathcal {F}}^{*}}\left\{\sum _{i=1}^{n}L(f(x_{i}),y_{i})+\lambda ||f||_{2}\right\}}

これは、ティホノフ[4]によって、不適切問題を解くために初めて導入されました。多くの統計学習アルゴリズムは、このような形で表現できます(例えば、よく知られているリッジ回帰)。

( 2 )におけるとの間のトレードオフは、RKHSにおけるティホノフ正則化を用いると幾何学的により直感的になります。 の列を考えることができます。これは基本的に 0 を中心とする 内の球体です。 が大きくなるにつれて、は空間全体に近づき、 は小さくなる可能性があります。しかし、 における収束率も低下します。有限サンプル設定において最適な を選択する方法は、通常、交差検証を用いることです ( a ) {\displaystyle (a)} ( b ) {\displaystyle (b)} { F γ } {\displaystyle \{{\mathcal {F}}_{\gamma }\}} F {\displaystyle {\mathcal {F^{*}}}} γ {\displaystyle \gamma } F γ {\displaystyle {\mathcal {F}}_{\gamma }} ( b ) {\displaystyle (b)} ( a ) {\displaystyle (a)} γ {\displaystyle \gamma }

経験的プロセス理論との関係

)の部分は統計学の経験的過程理論と密接に関連しており、経験的リスクは経験的過程として知られている。[5]この分野では、確率収束を満たす 関数クラスは ( a ) {\displaystyle (a)} { i = 1 n L ( y i , f ( x i ) ) , f F } {\displaystyle \{\sum _{i=1}^{n}L(y_{i},f(x_{i})),f\in {\mathcal {F}}\}} F {\displaystyle {\mathcal {F}}}

は一様グリヴェンコ・カンテリ類として知られています。特定の正則性条件下では、学習可能類と一様グリヴェンコ・カンテリ類は同値であることが示されています。[1]統計学の文献では、との間の相互作用はバイアスと分散のトレードオフとしてよく知られています ( a ) {\displaystyle (a)} ( b ) {\displaystyle (b)}

しかし、[2]では著者らが学習の一般設定に対する確率的凸最適化の例を示しており、学習可能性は一様収束と同等ではないことに注意する必要がある。

参考文献

  1. ^ abc Vladimir N. Vapnik (2013年4月17日). 統計学習理論の本質. Springer Science & Business Media. ISBN 978-1-4757-2440-0
  2. ^ ab 「学習可能性、安定性、一様収束」。機械学習研究ジャーナル
  3. ^ 「再生核を持つヒルベルト空間における学習可能性」。複雑性ジャーナル
  4. ^ アンドレイ・ニコラエヴィチ・ティホノフ;ヴァシリー・イ︠A︡コブレヴィチ・アルセニン(1977年)。不適切な問題の解決策。ウィンストン。ISBN 978-0-470-99124-4
  5. ^ AW van der vaart; Jon Wellner (2013年3月9日). 弱収束と経験的プロセス:統計への応用. Springer Science & Business Media. pp. 116–. ISBN 978-1-4757-2545-2
Retrieved from "https://en.wikipedia.org/w/index.php?title=Learnable_function_class&oldid=1324152423"