Softmax 函数
Softmax 函数是一种常用的数学函数,广泛应用于机器学习中的分类问题,尤其是在神经网络的输出层。它的主要作用是将一个实数向量“压缩”成一个概率分布,使得所有输出的值在 0 到 1 之间,并且总和为 1。换句话说,Softmax 将模型的原始输出(logits)转化为概率,帮助我们做分类决策。
定义与公式
假设我们有一个向量 z=[z1,z2,…,zn] \mathbf{z} = [z_1, z_2, \dots, z_n] z=[z1,z2,…,zn],其中每个元素zi z_i zi 是模型的原始输出(logit)。Softmax 函数会将每个 zi z_i zi转换成一个概率 P(yi)P(y_i) P(yi),公式如下:
Softmax(zi)=ezi∑j=1nezj \text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}} Softmax(zi)=∑j=1nezjezi
其中:
- ezi e^{z_i} e