Softmax函数

在数学，尤其是概率论和相关领域中，Softmax函数，或称归一化指数函数^[1]^:198，是逻辑函数的一种推广。它能将一个含任意实数的K维的向量 $\mathbf {z}$ 的“压缩”到另一个K维实向量 $\sigma (\mathbf {z} )$ 中，使得每一个元素的范围都在(0, 1)之间，并且所有元素的和为1。该函数的形式通常按下面的式子给出：

\sigma (\mathbf {z} )_{j}={\frac {e^{z_{j}}}{\sum _{k=1}^{K}e^{z_{k}}}}

for j = 1, …, K.

Softmax函数实际上是有限项离散概率分布的梯度对数归一化。因此，Softmax函数在包括多项逻辑回归^[1]^:206–209 ，多项线性判别分析，朴素贝叶斯分类器和人工神经网络等的多种基于概率的多分类问题方法中都有着广泛应用。^[2] 特别地，在多项逻辑回归和线性判别分析中，函数的输入是从K个不同的線性函數得到的结果，而样本向量 x 属于第 j 个分类的概率为：

P(y=j|\mathbf {x} )={\frac {e^{\mathbf {x} ^{\mathsf {T}}\mathbf {w} _{j}}}{\sum _{k=1}^{K}e^{\mathbf {x} ^{\mathsf {T}}\mathbf {w} _{k}}}}

这可以被视作K个线性函数 $\mathbf {x} \mapsto \mathbf {x} ^{\mathsf {T}}\mathbf {w} _{1},\ldots ,\mathbf {x} \mapsto \mathbf {x} ^{\mathsf {T}}\mathbf {w} _{K}$ oftmax函数的复合（ $\mathbf {x} ^{\mathsf {T}}\mathbf {w}$ $\mathbf {x}$ $\mathbf {w}$ ）。

例子

输入向量[1,2,3,4,1,2,3]对应的Softmax函数的值为[0.024, 0.064, 0.175, 0.475, 0.024, 0.064, 0.175]。输出向量中拥有最大权重的项对应着输入向量中的最大值“4”。这也显示了这个函数通常的意义：对向量进行归一化，凸显其中最大的值并抑制远低于最大值的其他分量。

References

^ ^1.0 ^1.1 Bishop, Christopher M. (2006).
^ ai-faq What is a softmax activation function?

[[Category:人工神经网络]] [[Category:计算神经科学]]

[bishop-1] 1.0 ^1.1 Bishop, Christopher M. (2006).

[2] -faq What is a softmax activation function?

[1]

[2]