一文搞懂激活函数和损失函数（PyTorch）

最新推荐文章于 2025-06-18 00:15:30 发布

小马不会过河

最新推荐文章于 2025-06-18 00:15:30 发布

阅读量1.5k

点赞数 15

CC 4.0 BY-SA版权

文章标签： pytorch 人工智能 python 网络深度学习机器学习运维

本文链接：https://blog.csdn.net/m0_59163425/article/details/146471807

激活函数是神经网络中的非线性函数，用于在神经元之间引入非线性关系，使模型能够学习和表示复杂的数据模式，常见的激活函数有 Sigmoid、Tanh、ReLU 和 Leaky ReLU。

损失函数则是评估模型预测值与真实值之间的差异，通过最小化损失函数来优化模型参数，常见的损失函数有 MSE和交叉熵损失（Cross-Entropy Loss）。

通过合理组合激活函数与损失函数，并配合PyTorch的自动微分机制，能够构建出高效可靠的深度学习模型。

一、激活函数

激活函数（Activation Function）是什么？激活函数是神经网络中的非线性函数，用于在神经元之间引入非线性关系，从而使模型能够学习和表示复杂的数据模式。

*如果神经网络没有像Relu这样的激活函数（也叫非线性激活函数），神经网络每层就只包含两个线性运算（仿射变换），即点积与加法：output = dot(input, W) + b。这样多个线性层堆叠后，其整体运算仍然是线性的，增加层数并不能扩展假设空间。**为了获得更丰富的假设空间，需要引入非线性因素，即激活函数。*

Sigmoid和Tanh是早期激活函数，但易梯度消失。ReLU及其改进版（如Leaky ReLU等）解决了此问题，常用于隐藏层。Softmax则专用于多分类输出层，转输出为概率分布。

一、Sigmoid激活函数

将输入值压缩到(0, 1)之间，常用于二分类问题的输出层。但存在梯度消失问题，且输出不以零为中心。

二、Tanh激活函数

将输入值压缩到(-1, 1)之间，输出均值为0，更适合隐藏层。但同样存在梯度消失问题。

三、ReLU激活函数

当输入大于0时，输出等于输入；当输入小于0时，输出为0。*具有计算简单、梯度消失问题较轻的优点，是隐藏层常用的激活函数。但存在神经元死亡问题。*

四、Leaky ReLU激活函数

解决了ReLU在输入小于0时梯度为0的问题，允许小的梯度流过。

五、Softmax激活函数

将输入向量中的每个元素映射到(0, 1)区间内，并且所有输出元素的和为1。*用于多分类问题的输出层，将神经网络的输出转换为概率分布。*

PyTorch如何定义激活函数？PyTorch通过torch.nn模块提供了多种标准激活函数，可直接调用内置激活函数。

# ReLU：适合隐藏层，缓解梯度消失。nn.ReLU() # LeakyReLU：解决“神经元死亡”问题。nn.LeakyReLU(negative_slope=0.01)# Sigmoid：输出概率（0-1），用于二分类输出层。nn.Sigmoid()# Tanh：输出范围（-1,1），适合RNN隐藏层。nn.Tanh()# Softmax：多分类概率归一化。nn.Softmax(dim=1)# GELU：BERT等模型常用，平滑ReLU变体。nn.GELU()

二、损失函数

损失函数（Loss Function）是什么？在深度学习中，损失函数则是评估模型预测值与真实值之间的差异，通过最小化损失函数来优化模型参数。

模型通过损失值评估预测性能，并据此指导优化方向。为了优化模型参数，神经网络采用梯度下降等优化算法，通过不断减少损失值，逐步调整模型参数。在选择损失函数时，需考虑任务类型、数据分布以及特定需求，常见的损失函数类型包括均方误差和交叉熵损失等。

一、交叉熵损失（Cross Entropy Loss）

用于分类问题，衡量模型预测概率分布与真实概率分布之间的差异。包括二分类交叉熵损失和多类别交叉熵损失。

*二、均方误差（MSE Loss）*

用于回归问题，计算预测值与真实值之间差的平方的平均值。

PyTorch如何定义损失函数？PyTorch通过torch.nn模块提供了丰富的内置损失函数，涵盖回归、分类、生成等任务，可直接调用内置损失函数。

# 回归任务：均方误差（MSE），对异常值敏感，梯度稳定	nn.MSELoss()	# 回归任务：平均绝对误差（L1），对异常值鲁棒，梯度恒定nn.L1Loss()	# 分类任务：交叉熵损失（多分类），自动包含Softmax，适合类别概率分布	nn.CrossEntropyLoss()	# 分类任务：二元交叉熵（二分类），结合Sigmoid，避免数值溢出nn.BCEWithLogitsLoss()	# 生成任务：KL散度损失，衡量概率分布差异（如生成模型）	nn.KLDivLoss()

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述