滑らかな最大値

Mathematical approximation

数学において指数付き族x 1 , ...,  x n滑らかな最大値は、最大関数への滑らかな近似であり、あらゆるに対して関数が滑らかで、族がとして最大関数⁠に収束するようなパラメトリック関数族を意味します。滑らかな最小値の概念も同様に定義されます。多くの場合、1つの族が両方を近似します。パラメーターが正の無限大に近づくにつれて最大値、パラメーターが負の無限大に近づくにつれて最小値です。記号では、⁠はとして⁠はとして近似します。この用語は、必ずしもパラメーター化された族の一部である必要はなく、最大値と同様に動作する特定の滑らかな関数に対して緩く使用されることもできます。 max ( x 1 , , x n ) , {\displaystyle \max(x_{1},\ldots ,x_{n}),} m α ( x 1 , , x n ) {\displaystyle m_{\alpha }(x_{1},\ldots ,x_{n})} α {\displaystyle \alpha } m α {\displaystyle m_{\alpha }} m α max {\displaystyle m_{\alpha }\to \max } α {\displaystyle \alpha \to \infty } m α max {\displaystyle m_{\alpha }\to \max } α {\displaystyle \alpha \to \infty } m α min {\displaystyle m_{\alpha }\to \min } α {\displaystyle \alpha \to -\infty }

ボルツマン演算子

様々なパラメータ値における(−x, x)対xのSmoothmax。=0.5では非常に滑らかで、=8ではよりシャープになる。 α {\displaystyle \alpha } α {\displaystyle \alpha }

パラメータ の大きな正の値に対して、次の定式は最大値関数の滑らかで微分可能な近似式となります。パラメータ の絶対値が大きい負の値に対しては、最小値を近似します。 α > 0 {\displaystyle \alpha >0}

S α ( x 1 , , x n ) = i = 1 n x i e α x i i = 1 n e α x i {\displaystyle {\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {\sum _{i=1}^{n}x_{i}e^{\alpha x_{i}}}{\sum _{i=1}^{n}e^{\alpha x_{i}}}}}

S α {\displaystyle {\mathcal {S}}_{\alpha }} 次のプロパティがあります。

  1. S α max {\displaystyle {\mathcal {S}}_{\alpha }\to \max } として α {\displaystyle \alpha \to \infty }
  2. S 0 {\displaystyle {\mathcal {S}}_{0}} 入力の算術平均である
  3. S α min {\displaystyle {\mathcal {S}}_{\alpha }\to \min } として α {\displaystyle \alpha \to -\infty }

の勾配はソフトマックスと密接に関係しており、次のように与えられる。 S α {\displaystyle {\mathcal {S}}_{\alpha }}

x i S α ( x 1 , , x n ) = e α x i j = 1 n e α x j [ 1 + α ( x i S α ( x 1 , , x n ) ) ] . {\displaystyle \nabla _{x_{i}}{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {e^{\alpha x_{i}}}{\sum _{j=1}^{n}e^{\alpha x_{j}}}}[1+\alpha (x_{i}-{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n}))].}

これにより、ソフトマックス関数は、勾配降下法を使用する最適化手法に役立ちます。

この演算子はボルツマン分布にちなんでボルツマン演算子と呼ばれることもあります[1]

対数和指数

もう1つの滑らかな最大値はLogSumExpです。

L S E α ( x 1 , , x n ) = 1 α log i = 1 n exp α x i {\displaystyle \mathrm {LSE} _{\alpha }(x_{1},\ldots ,x_{n})={\frac {1}{\alpha }}\log \sum _{i=1}^{n}\exp \alpha x_{i}}

がすべて非負の場合、これを正規化して、ドメインと値域を持つ関数を生成することもできます x i {\displaystyle x_{i}} [ 0 , ) n {\displaystyle [0,\infty )^{n}} [ 0 , ) {\displaystyle [0,\infty )}

g ( x 1 , , x n ) = log ( i = 1 n exp x i ( n 1 ) ) {\displaystyle g(x_{1},\ldots ,x_{n})=\log \left(\sum _{i=1}^{n}\exp x_{i}-(n-1)\right)}

この項は、1 つを除くすべてのゼロ指数をキャンセルすることによって、すべてがゼロであるという事実を修正します ( n 1 ) {\displaystyle (n-1)} exp ( 0 ) = 1 {\displaystyle \exp(0)=1} log 1 = 0 {\displaystyle \log 1=0} x i {\displaystyle x_{i}}

メロウマックス

メロウマックス演算子[1]は次のように定義される。

m m α ( x ) = 1 α log 1 n i = 1 n exp α x i {\displaystyle \mathrm {mm} _{\alpha }(x)={\frac {1}{\alpha }}\log {\frac {1}{n}}\sum _{i=1}^{n}\exp \alpha x_{i}}

これは非拡大演算子である。 のときは最大値のように振る舞う。 のときは算術平均のように振る舞う。 のときは最小値のように振る舞う。この演算子は、準算術平均の特定の具体例として見ることができる。また、情報理論の原理から、KL情報量によって定義されるコスト関数を用いて方策を正規化する方法として導出することもできる。この演算子は、電力工学などの他の分野でも利用されてきた。[2] α {\displaystyle \alpha \to \infty } α 0 {\displaystyle \alpha \to 0} α {\displaystyle \alpha \to -\infty }

LogSumExpとMellowmaxの接続

LogSumExpとMellowmaxは定数 だけ異なる同じ関数です。LogSumExpは常に真の最大値よりも大きく、n個の引数すべてが等しい場合に真の最大値との差は最大で 、1つを除くすべての引数が の場合は真の最大値と正確に等しくなります。同様に、Mellowmaxは常に真の最大値よりも小さく、1つを除くすべての引数が の場合は真の最大値との差は最大で 、n個の引数すべてが等しい場合は真の最大値と正確に等しくなります。 log n α {\displaystyle {\frac {\log {n}}{\alpha }}} log n α {\displaystyle {\frac {\log {n}}{\alpha }}} {\displaystyle -\infty } log n α {\displaystyle {\frac {\log {n}}{\alpha }}} {\displaystyle -\infty }

pノルム

もう一つの滑らかな最大値はpノルムです。

( x 1 , , x n ) p = ( i = 1 n | x i | p ) 1 p {\displaystyle \|(x_{1},\ldots ,x_{n})\|_{p}=\left(\sum _{i=1}^{n}|x_{i}|^{p}\right)^{\frac {1}{p}}}

これは として収束します ( x 1 , , x n ) = max 1 i n | x i | {\displaystyle \|(x_{1},\ldots ,x_{n})\|_{\infty }=\max _{1\leq i\leq n}|x_{i}|} p {\displaystyle p\to \infty }

pノルムの利点は、ノルムであることです。したがって、スケール不変同次)であり、三角不等式 を満たします ( λ x 1 , , λ x n ) p = | λ | ( x 1 , , x n ) p {\displaystyle \|(\lambda x_{1},\ldots ,\lambda x_{n})\|_{p}=|\lambda |\cdot \|(x_{1},\ldots ,x_{n})\|_{p}}

滑らかな最大単位

次の二項演算子は平滑最大単位(SMU)と呼ばれます。[3]

max ε ( a , b ) = a + b + | a b | ε 2 = a + b + ( a b ) 2 + ε 2 {\displaystyle {\begin{aligned}\textstyle \max _{\varepsilon }(a,b)&={\frac {a+b+|a-b|_{\varepsilon }}{2}}\\&={\frac {a+b+{\sqrt {(a-b)^{2}+\varepsilon }}}{2}}\end{aligned}}}

ここではパラメータです。 なのでとなります ε 0 {\displaystyle \varepsilon \geq 0} ε 0 {\displaystyle \varepsilon \to 0} | | ε | | {\displaystyle |\cdot |_{\varepsilon }\to |\cdot |} max ε max {\displaystyle \textstyle \max _{\varepsilon }\to \max }

参照

参考文献

  1. ^ ab Asadi, Kavosh; Littman, Michael L. (2017). 「強化学習のための代替ソフトマックス演算子」. PMLR . 70 : 243–252 . arXiv : 1612.05628 . 2023年1月6日閲覧
  2. ^ Safak, Aysel (1993年2月). 「相関する複数の対数正規成分のべき乗和の統計的分析」. IEEE Transactions on Vehicular Technology . 42 (1): {58–61. doi :10.1109/25.192387.
  3. ^ Biswas, Koushik; Kumar, Sandeep; Banerjee, Shilpak; Ashish Kumar Pandey (2021). 「SMU: スムージング最大値法を用いた深層ネットワークの滑らかな活性化関数」. arXiv : 2111.04682 [cs.LG].

https://www.johndcook.com/soft_maximum.pdf

M. Lange、D. Zühlke、O. Holz、T. Villmann、「勾配ベース学習ベクトル量子化におけるlpノルムとその滑らかな近似の応用」、Proc. ESANN、2014年4月、pp. 271-276。(https://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es2014-153.pdf)

Retrieved from "https://en.wikipedia.org/w/index.php?title=Smooth_maximum&oldid=1317993932"