卷积神经网络(CNN)循环神经网络(RNN)长短期记忆网络(LSTM)和Transformer

一、卷积神经网络

卷积神经网络工作时模拟人认知图像的过程,它由多个卷积层构成,每个卷积层包含多个卷积核,用这些卷积核从左向右、从上往下依次扫描整个图像,得到称为特征图(feature map)的输出数据。网络前面的卷积层捕捉图像局部、细节信息,有小的感受野,即输出图像的每个像素只利用输入图像很小的一个范围。后面的卷积层感受野逐层加大,用于捕获图像更复杂,更抽象的信息。经过多个卷积层的运算,最后得到图像在各个不同尺度的抽象表示。·

二、循环神经网络

循环神经网络是一种具有记忆力的网络,它可以记忆前边的输入,使得前边的输入n对后边n+1的输出产生影响。同时如果调换输入的顺序,RNN会有一个完全不同的输出,RNN对于输入顺序的变化很敏感,所以,RNN对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,它可以区分出ABC和CBA

三、长短时记忆网络

RNN有两个主要的局限性:

梯度消失梯度爆炸问题:在训练过程中,RNN通过反向传播来更新权重。当序列较长时,反向传播会导致梯度逐渐消失或无限增大,导致模型难以学习到长时间依赖关系。梯度消失会导致网络无法“记住”较早的输入,影响模型效果。

长期依赖问题:RNN在处理较短序列时能够表现良好,但随着序列长度的增加,RNN的记忆效果会迅速下降,导致模型无法有效处理长时间序列依赖。这一问题在语言建模、机器翻译等任务中尤为明显。

LSTM的设计旨在解决梯度消失和爆炸问题,并提高网络对长时间依赖关系的捕捉能力。

引入记忆单元(Cell State)来解决普通RNN在长序列数据处理中的梯度消失问题。

LSTM可以在长时间的序列中捕捉依赖关系,是一种非常适合处理时间序列、自然语言处理、语音识别等任务的深度学习模型。

 LSTM的局限性:计算复杂度与训练难度

计算复杂度高:LSTM的多层门控结构和复杂的记忆单元使其计算开销较大,在较大数据集或长序列任务中,训练时间较长,且需要大量内存资源。更容易出现过拟合

难以并行化:由于LSTM模型具有时间步的依赖关系,它在每个时间步之间都需要前一个时间步的输出。

与Transformer的对比:

并行计算:Transformer摒弃了RNN的时间步依赖性,通过注意力机制一次性计算整个序列,因此可以在硬件上实现高度并行化。Transformer在大规模数据上更高效。
处理长序列的能力:LSTM依赖于记忆单元的状态传递,处理长序列时有局限,而Transformer通过注意力机制能够更轻松地捕捉远距离的依赖关系,因此在长序列任务(如机器翻译)上表现更优。
计算复杂度:Transformer的自注意力机制虽然可以捕捉全局依赖,但计算复杂度较高,尤其在长序列上,自注意力的计算量随序列长度的平方增长。在计算资源充足的情况下,Transformer优于LSTM。

参考​​​​​​链接:https://blog.csdn.net/weixin_43114209/article/details/143696320

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值