卷积神经网络(CNN)循环神经网络(RNN)长短期记忆网络(LSTM)和Transformer

一、卷积神经网络

卷积神经网络工作时模拟人认知图像的过程，它由多个卷积层构成，每个卷积层包含多个卷积核，用这些卷积核从左向右、从上往下依次扫描整个图像，得到称为特征图（feature map）的输出数据。网络前面的卷积层捕捉图像局部、细节信息，有小的感受野，即输出图像的每个像素只利用输入图像很小的一个范围。后面的卷积层感受野逐层加大，用于捕获图像更复杂，更抽象的信息。经过多个卷积层的运算，最后得到图像在各个不同尺度的抽象表示。·

二、循环神经网络

循环神经网络是一种具有记忆力的网络，它可以记忆前边的输入，使得前边的输入n对后边n+1的输出产生影响。同时如果调换输入的顺序，RNN会有一个完全不同的输出，RNN对于输入顺序的变化很敏感，所以，RNN对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，它可以区分出ABC和CBA

三、长短时记忆网络

RNN有两个主要的局限性：

梯度消失与梯度爆炸问题：在训练过程中，RNN通过反向传播来更新权重。当序列较长时，反向传播会导致梯度逐渐消失或无限增大，导致模型难以学习到长时间依赖关系。梯度消失会导致网络无法“记住”较早的输入，影响模型效果。

长期依赖问题：RNN在处理较短序列时能够表现良好，但随着序列长度的增加，RNN的记忆效果会迅速下降，导致模型无法有效处理长时间序列依赖。这一问题在语言建模、机器翻译等任务中尤为明显。

LSTM的设计旨在解决梯度消失和爆炸问题，并提高网络对长时间依赖关系的捕捉能力。

引入记忆单元（Cell State）来解决普通RNN在长序列数据处理中的梯度消失问题。

LSTM可以在长时间的序列中捕捉依赖关系，是一种非常适合处理时间序列、自然语言处理、语音识别等任务的深度学习模型。

LSTM的局限性：计算复杂度与训练难度

计算复杂度高：LSTM的多层门控结构和复杂的记忆单元使其计算开销较大，在较大数据集或长序列任务中，训练时间较长，且需要大量内存资源。更容易出现过拟合

难以并行化：由于LSTM模型具有时间步的依赖关系，它在每个时间步之间都需要前一个时间步的输出。

与Transformer的对比：

并行计算：Transformer摒弃了RNN的时间步依赖性，通过注意力机制一次性计算整个序列，因此可以在硬件上实现高度并行化。Transformer在大规模数据上更高效。
处理长序列的能力：LSTM依赖于记忆单元的状态传递，处理长序列时有局限，而Transformer通过注意力机制能够更轻松地捕捉远距离的依赖关系，因此在长序列任务（如机器翻译）上表现更优。
计算复杂度：Transformer的自注意力机制虽然可以捕捉全局依赖，但计算复杂度较高，尤其在长序列上，自注意力的计算量随序列长度的平方增长。在计算资源充足的情况下，Transformer优于LSTM。

参考链接：https://blog.csdn.net/weixin_43114209/article/details/143696320