改变AI历史的Transformer是如何帮助LLM大模型工作的?看图解密Transformer原理,看不懂算我输!

图片

在过去的几年里,大型语言模型(LLM)的出现,为长达数十年的智能机器构建的探索中带来了巨大的飞跃。

这项基于试图模拟人类大脑的研究技术,也在近几年催生了一个新领域——Generative AI 生成式人工智能,简单理解就是可以

通过模仿人类能力和水平,生成合理且复杂的文本、好看图像甚至是计算机的代码。

2017年12月,Vaswani和研究团队用一篇“Attention is all you need”的论文彻底开启了AI的新纪元,论文提出了一种新的利用自注意力概念来处理顺序输入数据的变换器架构-Transformer,这使得对长距离依赖关系的更有效的处理成为可能。这个问题在之前一直是传统RNN架构难以克服的一个挑战。而这个Transformer就是大型语言模型(LLM)的基础,也是我们今天所见证的生成式人工智能强大能力的基础。

LLM一直为业内所公认的发力点,是通过撰写和分析文本提高生产力,而这个能力也恰恰是它对人类构成威胁的原因。高盛认为,这可能使大型经济体中相当于3亿全职工作者面临自动化的风险,导致大规模失业。

随着LLM以及所引领的生成式AI能力渐渐出现在我们生活的各个领域,了解LLM如何生成文本对我们来说意义重大,因为了解了它背后的原理,可以帮助我们理解这些模型是如何成就了各种多才多艺产品,同时也可以帮我们发现生成式AI还能在什么方面帮助到我们,与其担心被替代,不如主动出击,成为AI能力的驾驭者!

接下来我们用通俗易懂的语言,一步步看看LLM是怎么发挥威力的。

【理解阶段】把文字翻译成LLM看得懂的的语言

图片

首先,一段文字被分解成一个个的标记(tokens),这里用到的Embedding技术小纸条在之前的文章中为大家讲过,向量可以理解为就是大模型理解世界的语法。这些标记(tokens)是能够被编码的基本单元。在图中的例子中,我们将每个完整的单词视为一个独立的标记。

要弄清楚一个词的意思,比如例子中的“work”,大型语言模型(LLMs)会用大量的学习资料来研究它,同时关注它旁边的词。这些学习资料来源于网上的文本,量级非常的大,最新的GPT-4O甚至用到了1.8万亿。

最后,我们收集了一大堆词,其中一些在学习材料中是和“work”一起出现的(图中黄色的单词),还有一些词是没和“work”挨着的(图中灰色的单词)。

图片

模型在处理这些词的时候,会创建一个数值列表,我们称之为向量。它会根据每个词和“work”在训练材料里的距离来调整这个列表。这个列表就是词嵌入work embedding,它帮助模型捕捉到词的含义。

为了深入了解Transformer模型并将其应用于NLP任务,可以参考《深度解析Transformer模型:从概念到工作原理》这份资料。它将为你提供关于Transformer模型的全面解读,帮助你理解其核心概念应用。 参考资源链接:[深度解析Transformer模型:从概念到工作原理](https://wenku.csdn.net/doc/6oepgdg7sq?spm=1055.2569.3001.10343) Transformer模型由编码器解码器组成,每一个都包含多个堆叠的块。编码器接收入序列,并通过自注意力层前馈神经网络处理数据。自注意力层利用Key、ValueQuery三个矩阵对入序列进行线性变换,捕捉序列内部的依赖关系。随后的前馈神经网络通过ReLu激活函数增强了模型的表达能力。 解码器结构类似,但增加了遮罩自注意力机制来确保模型在预测位置时不会看到未来的信息。位置编码作为序列的附加信息,使得Transformer能够处理变长序列并且不依赖于序列的相对或绝对位置信息。 此外,Transformer的变种BERT模型在预训练阶段通过掩码语言模型下一句预测任务学习了丰富的语言表示,为下游NLP任务提供了更好的上下文理解能力。 为了有效利用Transformer模型,你需要掌握其内部机制细节。例如,理解自注意力的工作原理能够帮助你设计更有效的模型架构,并通过实践来优化NLP任务的性能。了解如何应用Transformer模型进行文本翻译、问答系统或文本分类等任务,你将能够实现高效且准确的自然语言处理应用。 参考资源链接:[深度解析Transformer模型:从概念到工作原理](https://wenku.csdn.net/doc/6oepgdg7sq?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值