【机器学习】关于注意力模型（Attention-model）的理解和应用

本文链接：https://blog.csdn.net/u013106893/article/details/84387794

本文介绍了注意力模型在序列处理领域的应用，尤其是机器学习中的Encoder-Decoder结构和Attention-model。注意力模型通过量化思想，赋予序列中不同部分不同的权重，解决了传统Encoder-Decoder固定长度语义编码的问题，尤其在语言翻译中表现优异。此外，还探讨了如何将Attention模型应用于分类任务，如情感分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

注意力模型是近年来在序列处理领域新提出的机器学习方法，在语言翻译等领域取得了不错的效果。要想了解注意力模型，那么必须对现在的机器学习各领域有一定的了解，而且要了解encoder-decoder基本思想。

首先可以大致的概括下目前的机器学习尤其是深度学习的各个领域。图像方面，CNN当之无愧是绝对的主力，并且在各大公司的研究下仍然在发力。NLP（自然语言处理）方面，RNN型的网络仍然占多数，但是自从Facebook用CNN搭建的翻译模型超越谷歌的Seq2Seq以后，CNN已经开始蚕食RNN的领域。序列数据的处理不再是RNN类网络一家独大。

Attention-Model是Seq2Seq的一种，所谓的sequence就是指序列数据，序列数据处理一般有Seq2Label模型，如心电图分类、情感分析等。和Seq2Seq模型，如语言翻译和序列预测。