Softmax函數

在數學，尤其是概率論和相關領域中，Softmax函數，或稱歸一化指數函數^[1]^:198，是邏輯函數的一種推廣。它能將一個含任意實數的K維的向量 $\mathbf {z}$ 的「壓縮」到另一個K維實向量 $\sigma (\mathbf {z} )$ 中，使得每一個元素的範圍都在(0, 1)之間，並且所有元素的和為1。該函數的形式通常按下面的式子給出：

\sigma (\mathbf {z} )_{j}={\frac {e^{z_{j}}}{\sum _{k=1}^{K}e^{z_{k}}}}

for j = 1, …, K.

Softmax函數實際上是有限項離散概率分布的梯度對數歸一化。因此，Softmax函數在包括多項邏輯回歸^[1]^:206–209 ，多項線性判別分析，樸素貝葉斯分類器和人工神經網絡等的多種基於概率的多分類問題方法中都有着廣泛應用。^[2] 特別地，在多項邏輯回歸和線性判別分析中，函數的輸入是從K個不同的線性函數得到的結果，而樣本向量 x 屬於第 j 個分類的概率為：

P(y=j|\mathbf {x} )={\frac {e^{\mathbf {x} ^{\mathsf {T}}\mathbf {w} _{j}}}{\sum _{k=1}^{K}e^{\mathbf {x} ^{\mathsf {T}}\mathbf {w} _{k}}}}

這可以被視作K個線性函數 $\mathbf {x} \mapsto \mathbf {x} ^{\mathsf {T}}\mathbf {w} _{1},\ldots ,\mathbf {x} \mapsto \mathbf {x} ^{\mathsf {T}}\mathbf {w} _{K}$ oftmax函數的複合（ $\mathbf {x} ^{\mathsf {T}}\mathbf {w}$ $\mathbf {x}$ $\mathbf {w}$ ）。

例子

輸入向量[1,2,3,4,1,2,3]對應的Softmax函數的值為[0.024, 0.064, 0.175, 0.475, 0.024, 0.064, 0.175]。輸出向量中擁有最大權重的項對應着輸入向量中的最大值「4」。這也顯示了這個函數通常的意義：對向量進行歸一化，凸顯其中最大的值並抑制遠低於最大值的其他分量。

References

^ ^1.0 ^1.1 Bishop, Christopher M. (2006).
^ ai-faq What is a softmax activation function?

[[Category:人工神经网络]] [[Category:计算神经科学]]

[bishop-1] 1.0 ^1.1 Bishop, Christopher M. (2006).

[2] -faq What is a softmax activation function?

[1]

[2]