一、卷积神经网络
卷积神经网络工作时模拟人认知图像的过程,它由多个卷积层构成,每个卷积层包含多个卷积核,用这些卷积核从左向右、从上往下依次扫描整个图像,得到称为特征图(feature map)的输出数据。网络前面的卷积层捕捉图像局部、细节信息,有小的感受野,即输出图像的每个像素只利用输入图像很小的一个范围。后面的卷积层感受野逐层加大,用于捕获图像更复杂,更抽象的信息。经过多个卷积层的运算,最后得到图像在各个不同尺度的抽象表示。·
二、循环神经网络
循环神经网络是一种具有记忆力的网络,它可以记忆前边的输入,使得前边的输入n对后边n+1的输出产生影响。同时如果调换输入的顺序,RNN会有一个完全不同的输出,RNN对于输入顺序的变化很敏感,所以,RNN对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,它可以区分出ABC和CBA
三、长短时记忆网络
RNN有两个主要的局限性:
梯度消失与梯度爆炸问题:在训练过程中,RNN通过反向传播来更新权重。当序列较长时,反向传播会导致梯度逐渐消失或无限增大,导致模型难以学习到长时间依赖关系。梯度消失会导致网络无法“记住”较早的输入,影响模型效果。
长期依赖问题:RNN在处理较短序列时能够表现良好,但随着序列长度的增加,RNN的记忆效果会迅速下降,导致模型无法有效处理长时间序列依赖。这一问题在语言建模、机器翻译等任务中尤为明显。
LSTM的设计旨在解决梯度消失和爆炸问题,并提高网络对长时间依赖关系的捕捉能力。
引入记忆单元(Cell State)来解决普通RNN在长序列数据处理中的梯度消失问题。
LSTM可以在长时间的序列中捕捉依赖关系,是一种非常适合处理时间序列、自然语言处理、语音识别等任务的深度学习模型。
LSTM的局限性:计算复杂度与训练难度
计算复杂度高:LSTM的多层门控结构和复杂的记忆单元使其计算开销较大,在较大数据集或长序列任务中,训练时间较长,且需要大量内存资源。更容易出现过拟合
难以并行化:由于LSTM模型具有时间步的依赖关系,它在每个时间步之间都需要前一个时间步的输出。
与Transformer的对比:
并行计算:Transformer摒弃了RNN的时间步依赖性,通过注意力机制一次性计算整个序列,因此可以在硬件上实现高度并行化。Transformer在大规模数据上更高效。
处理长序列的能力:LSTM依赖于记忆单元的状态传递,处理长序列时有局限,而Transformer通过注意力机制能够更轻松地捕捉远距离的依赖关系,因此在长序列任务(如机器翻译)上表现更优。
计算复杂度:Transformer的自注意力机制虽然可以捕捉全局依赖,但计算复杂度较高,尤其在长序列上,自注意力的计算量随序列长度的平方增长。在计算资源充足的情况下,Transformer优于LSTM。
参考链接:https://blog.csdn.net/weixin_43114209/article/details/143696320