LLM大模型（一）——大语言模型与Transformer相关概念-CSDN博客

文章目录

一、AI与大模型
二、Transformer模型
三、大语言模型

一、AI与大模型

1、什么是AI？什么是大模型？
（1）AI即人工智能，它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学，通过模拟人的思考方式实现人的头脑思维，是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
（2）大模型是指具有大规模参数和复杂计算结构的机器学习模型，这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能，能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用，包括自然语言处理、计算机视觉、语音识别和推荐系统等。大模型通过训练海量数据来学习复杂的模式和特征，具有更强大的泛化能力，可以对未见过的数据做出准确的预测。
2、大模型的分类
（1）按照输入数据类型的不同：

语言大模型（NLP）：是指在自然语言处理（Natural Language Processing，NLP）领域中的一类大模型，通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练，以学习自然语言的各种语法、语义和语境规则。例如：GPT 系列（OpenAI）、Bard（Google）、文心一言（百度）。
视觉大模型（CV）：是指在计算机视觉（Computer Vision，CV）领域中使用的大模型，通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练，可以实现各种视觉任务，如图像分类、目标检测、图像分割、姿态估计、人脸识别等。例如：VIT 系列（Google）、文心UFO、华为盘古 CV、INTERN（商汤）。
多模态大模型：是指能够处理多种不同类型数据的大模型，例如文本、图像、音频等多模态数据。这类模型结合了 NLP 和 CV 的能力，以实现对多模态信息的综合理解和分析，从而能够更全面地理解和处理复杂的数据。例如：DingoDB 多模向量数据库（九章云极DataCanvas）、DALL-E(OpenAI)、悟空画画（华为）、midjourney。

（2）按照应用领域的不同：

通用大模型 L0：是指可以在多个领域和任务上通用的大模型。它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法，在大规模无标注数据上进行训练，以寻找特征并发现规律，进而形成可“举一反三”的强大泛化能力，可在不进行微调或少量微调的情况下完成多场景任务，相当于 AI 完成了“通识教育”。
行业大模型 L1：是指那些针对特定行业或领域的大模型。它们通常使用行业相关的数据进行预训练或微调，以提高在该领域的性能和准确度，相当于 AI 成为“行业专家”。
垂直大模型 L2：是指那些针对特定任务或场景的大模型。它们通常使用任务相关的数据进行预训练或微调，以提高在该任务上的性能和效果。

3、什么是大模型微调？
给定预训练模型（Pre-trained model），基于模型进行微调（Fine Tune）。相对于从头开始训练(Training a model from scatch)，微调可以省去大量计算资源和计算时间，提高计算效率,甚至提高准确率。
模型微调的基本思想是使用少量带标签的数据对预训练模型进行再次训练，以适应特定任务。 在这个过程中，模型的参数会根据新的数据分布进行调整。这种方法的好处在于，它利用了预训练模型的强大能力，同时还能够适应新的数据分布。因此，模型微调能够提高模型的泛化能力，减少过拟合现象。

二、Transformer模型

1、什么是Transformer？
Transformer是一种用于自然语言处理（NLP）和其他序列到序列（sequence-to-sequence）任务的深度学习模型架构，它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制（self-attention mechanism），这是一个关键的创新，使其在处理序列数据时表现出色。
以下是Transformer的一些重要组成部分和特点：

自注意力机制（Self-Attention）：这是Transformer的核心概念之一，它使模型能够同时考虑输入序列中的所有位置，而不是像循环神经网络（RNN）或卷积神经网络（CNN）一样逐步处理。自注意力机制允许模型根据输入序列中的不同部分来赋予不同的注意权重，从而更好地捕捉语义关系。
多头注意力（Multi-Head Attention）：Transformer中的自注意力机制被扩展为多个注意力头，每个头可以学习不同的注意权重，以更好地捕捉不同类型的关系。多头注意力允许模型并行处理不同的信息子空间。
堆叠层（Stacked Layers）：Transformer通常由多个相同的编码器和解码器层堆叠而成。这些堆叠的层有助于模型学习复杂的特征表示和语义。
位置编码（Positional Encoding）：由于Transformer没有内置的序列位置信息，它需要额外的位置编码来表达输入序列中单词的位置顺序。
残差连接和层归一化（Residual Connections and Layer Normalization）：这些技术有助于减轻训练过程中的梯度消失和爆炸问题，使模型更容易训练。
编码器和解码器：Transformer通常包括一个编码器用于处理输入序列和一个解码器用于生成输出序列，这使其适用于序列到序列的任务，如机器翻译。
2、模型结构
（1）Transformer 模型的结构主要由编码器（Encoder）和解码器（Decoder）组成，如图 2-2 所示，它们分别负责将输入序列编码为连续的表示和将连续表示解码为输出序列。每个编码器和解码器由多个层堆叠而成。
（2）编码器由多个相同的编码器层组成，每个编码器层由自注意力层和前馈神经网络层组成。 自注意力层能够计算输入序列中每个位置与其他位置之间的注意力权重，从而捕捉到输入序列中的全局依赖关系。自注意力机制允许模型在编码过程中对不同位置的信息进行交互和整合。前馈神经网络层对自注意力层的输出进行全连接网络的处理，以增强特征表达能力。在编码器中，每个编码器层后面都会接一个残差连接和层归一化。残差连接可以有效地传递梯度和避免梯度消失问题，而层归一化有助于加速训练过程和提高模型的鲁棒性。
（3）解码器也由多个相同的解码器层组成，每个解码器层由自注意力层和编码-解码注意力层组成。 自注意力层与编码器中的自注意力层类似，解码器的自注意力层用于在解码过程中关注解码器输入序列中的不同位置。编码-解码注意力层使得解码器能够在解码过程中关注编码器输入序列的不同位置，从而捕捉到编码器和解码器之间的语义关联。与编码器类似，解码器层后面也有残差连接和层归一化。

图2-2 Transformer 结构

3、自注意力机制
自注意力的作用：随着模型处理输入序列的每个单词，自注意力会关注整个输入序列的所有单词，帮助模型对本单词更好地进行编码。在处理过程中，自注意力机制会将对所有相关单词的理解融入到我们正在处理的单词中。更具体的功能如下：

序列建模：自注意力可以用于序列数据（例如文本、时间序列、音频等）的建模。它可以捕捉序列中不同位置的依赖关系，从而更好地理解上下文。这对于机器翻译、文本生成、情感分析等任务非常有用。
并行计算：自注意力可以并行计算，这意味着可以有效地在现代硬件上进行加速。相比于RNN和CNN等序列模型，它更容易在GPU和TPU等硬件上进行高效的训练和推理。（因为在自注意力中可以并行的计算得分）
长距离依赖捕捉：传统的循环神经网络（RNN）在处理长序列时可能面临梯度消失或梯度爆炸的问题。自注意力可以更好地处理长距离依赖关系，因为它不需要按顺序处理输入序列。

4、位置编码
（1）由于 Transformer 模型不像循环神经网络（RNN）那样具有显式的顺序处理能
力，为了让模型能够感知到输入序列中的位置信息，需要通过位置编码进行表示。
位置编码是一组固定的向量，与输入序列的词向量进行逐元素相加。位置编码的
设计考虑了位置之间的相对距离，通过使用不同频率的正弦和余弦函数来编码位
置信息。
（2）在 Transformer 模型中，位置编码采用了一种特殊的方式，即使用正弦和余弦
函数来编码位置信息。位置编码的公式如下，其中 pos 表示当前词在句子中的位
置，i 表示向量中每个值的索引，d_model 表示向量维度。

$\frac{pos}{10000^{ \frac {2i}{d_{model}}}}$

最后把 Position Embedding 和词向量 Embedding 的值相加，作为输入送到下一层。
5、解码器层
Transformer 模型的解码器层是用于生成目标序列的组成部分。 它接收来自编
码器的上下文表示和已生成的部分目标序列作为输入，并逐步生成下一个目标序
列的单词。它通过自注意力、编码器-解码器注意力、前馈神经网络和解码器自注
意力等子层，逐步生成下一个目标单词，并利用位置编码来处理位置信息。这种
结构使得 Transformer 模型在序列生成任务中取得了很好的效果，例如机器翻译和
文本生成等任务。

三、大语言模型

大语言模型（LLM）是一种深度学习模型，特别是属于自然语言处理（NLP）的领域，一般是指包含数干亿（或更多）参数的语言模型，这些参数是在大量文本数据上训练的，例如模型GPT-3，PaLM，LLaMA等，大语言模型的目的是理解和生成自然语言，通过学习大量的文本数据来预测下一个词或生成与给定文本相关的内容。
自 chatGPT 问世以来，基于大模型的应用如雨后春笋，从技术层面划分，可以
将大模型的应用分为四个技术类型，包括：基于 prompt 工程的、基于微调的、基
于检索增强生成的及 Agent 四个机制。
（1）Prompt Engineering（提示工程）

Prompt（提示）：Prompt（提示）在人工智能，特别是AGI（通用人工智能）时代，扮演着至关重要的角色。它不仅是用户与AI模型如ChatGPT交互的桥梁，更是一种全新的“ 编程语言 ”，用于指导AI模型产生特定的输出。
Prompt的构成：

指示：指示是对任务的明确描述，相当于给模型下达了一个命令或请求。它告诉模型应该做什么，是任务执行的基础。
上下文：上下文是与任务相关的背景信息，它有助于模型更好地理解当前任务所处的环境或情境。在多轮交互中，上下文尤其重要，因为它提供了对话的连贯性和历史信息。
例子：例子是给出的一或多个具体示例，用于演示任务的执行方式或所需输出的格式。这种方法在机器学习中被称为示范学习，已被证明对提高输出正确性有帮助。
输入：输入是任务的具体数据或信息，它是模型需要处理的内容。在Prompt中，输入应该被清晰地标识出来，以便模型能够准确地识别和处理。
输出：输出是模型根据输入和指示生成的结果。在Prompt中，通常会描述输出的格式，以便后续模块能够自动解析模型的输出结果。常见的输出格式包括结构化数据格式如JSON、XML等。

Prompt的应用：

Chain-of-Thought Prompting（链式思考提示）：Chain-of-Thought Prompting，即链式思考提示，是一种在人工智能模型中引导逐步推理的方法。通过构建一系列有序、相互关联的思考步骤，模型能够更深入地理解问题，并生成结构化、逻辑清晰的回答。
Knowledge Generation Prompting（生成知识提示）：Knowledge Generation Prompting，即生成知识提示，是一种利用人工智能模型生成新知识或信息的方法。通过构建特定的提示语句，引导模型从已有的知识库中提取、整合并生成新的、有用的知识内容。
Tree of Thoughts Prompting（思维树提示）：Tree of Thoughts Prompting，即思维树提示，是一种将复杂思维过程结构化为树状图的方法。它通过逐级分解主题或问题，形成具有逻辑层次和关联性的思维节点，从而帮助用户更清晰地组织和表达思考过程。

大语言模型的 prompt 工程是指通过设计有效的输入提示（prompt）来引导和控制生成模型的输出。它是一种技术手段，旨在利用适当的问题陈述、指令或上下文信息来指导模型的回答或生成结果。通过巧妙设计的 prompt，可以引导模型在特定主题、风格或任务上产生所需的输出。
$p ro m pt$ 工程的目标是在生成模型中引入先验知识或偏好，以使模型更加可控和可靠。通过精心设计的 $p ro m pt$ ，可以引导模型产生更准确、一致和有用的回答，避免模型的无限创造性和不确定性。引入 $p ro m pt$ 工程可以提高模型在特定任务或应用中的性能和适用性，使其更符合实际需求并产生更实用的结果。
在实践中，prompt 工程可以采用不同的技术方法，如向模型提供问题模板、添加关键词或标记、调整生成模型的温度参数等。通过不断优化和尝试，可以设计出适用于不同应用场景的有效 prompt，进一步提升生成模型的质量和可控性。