1.简单介绍一下大语言模型【LLMs】
大模型:一般指1亿以上的参数的模型,但是这个标准一直在升级,目前万亿参数以上的模型(MinMaxabab6.5)也有了,大语言模型(Large Language Models,LLMs)是针对语言的大模型。
大模型的关键特点包括:
(1)大规模参数:LLMs拥有大量参数(如GPT-3的175B或PaLM的540B),参数数量越多,模型对语言的捕捉能力越强,可以更好的理解上下文和生成流畅的语言。
(2)多任务处理能力:经过训练后,LLMs具备在多种语言任务上表现良好的能力,例如文本摘要、情感分析、机器翻译等。这是因为它们学会在大数据集上归纳出各种语言模式和规律。
(3)上下文理解:LLMs可以根据上下文生成有逻辑和连贯的回应,这使得他们特别适合对话和内容创作任务。模型可以记住一段话中的重要细节,并在后续对话中包持一致性。
(4)自监督学习:大语言模型主要依赖自监督学习,使用未标注的数据进行训练,通过预测下一个词,填补空白或匹配句子等方式来学习语言结构。
(5)通用性和可扩展性:LLMs可以迁移到多种任务和领域,经过少量微调就能在专门的任务中(如医学文本分析或法律文件摘要)中发挥作用。(至于微调这边,后续会详细讲述)
2.大语言模型【LLMs】后面跟的175B、60B、540B等指的是什么?
在大语言名称后面跟随的数字如175B、60B、540B指的是模型的参数数量,通常以“B”表示“billion",即十亿。这些参数量直接影响模型的复杂性和计算能力。比如说175B代表1750亿个参数,比如说GPT-3。参数量越多,模型能学习和捕捉的语言模式和语义信息也越丰富,但对计算资源的要求也随之增加。更大的参数规模可以提高模型的性能,特别是处理复杂任务或生成高质量文本时。不过增加参数并不直接等于更好的效果,模型的优化、数据质量和训练方法也起着关键作用。
3.大语言模型具有什么优点?什么缺点
优点
(1)强大的语言理解与生成能力 :能理解自然语言的上下文,生成流畅、连贯、接近人类水平的文本。并且可以完成写作、翻译、润色、摘要、对话等各种任务
(2)通用性与跨领域能力 :不局限于单一任务,能在不同领域(编程、教育、医疗、科研、创意写作)应用。支持“零样本/小样本学习”(zero-shot / few-shot),不需要大量专门训练数据就能上手新任务。
(3)支持多语言:很对大语言模型具备多语言能力,能够处理并理解多种语言。
(4)快速部署和适应性:由于大语言模型能够基于预训练好的模型进行微调,从未适应不同的任务需求。例如,可以在模型的基础上微调特定领域数据,使其适用于具体领域。
缺点
缺乏事实的准确性、计算资源消耗大、可能会产生偏见、隐私和安全问题
4.常见的大模型分类有哪些
按照任务类型/模态分类
(1)语言大模型 典型:GPT、Claude、Gemini、LLaMA。主处理文本任务(对话、写作、翻译、代码生成等)
(2)视觉大模型 典型:SAM、InternImage。主要用于图像识别、分割、生成、视觉问答
(3)多模态大模型 典型:GPT-4o、Gemini 1.5、Claude 3.5 Sonnet。能处理 文字 、图片 、音频 、视频 等多模态输入输出
(4)语音大模型 典型Whisper、Bark、SpeechGPT。主要处理语音识别(ASR)语音合成(TTS)语音对话
(5)视频大模型典型:Sora、Runway Gen-2、Pika。主要做视频生成、理解、编辑。
按 训练方式 / 目标分类
(1)自回归语言模型(Autoregressive LM)根据前文预测下一个词 典型:GPT、LLaMA、Mistral
(2)编码模型(Autoencoder LM)主要用于理解任务(如 BERT),擅长文本分类、抽取、表示学习
(3)Encoder-Decoder 架构 同时适合理解和生成任务典型:T5、mBART
(4)扩散模型(Diffusion Models)常见于图像/视频生成(Stable Diffusion、Imagen)
(5)对比学习大模型 用于多模态对齐,如 CLIP(连接文本与图像语义)
按 模型规模 分类
(1)超大规模模型(千亿参数以上)GPT-4、Gemini 1.5 Pro
(2)中等规模模型(百亿级参数)LLaMA-2-70B、Mistral 7B
(3)小型模型 / 轻量化模型(几十亿参数以下,可本地部署)LLaMA-2-7B、Phi-3、Qwen-1.5-7B
5、目前主流的LLMs开源模型体系有哪些?(Prefix Decoder,Causal Decoder 和Encoder-Decoder区别是什么)
- 在预训练语言模型时代,自然语言处理领域广泛采用了预训练加微调的范式,并诞生了以BERT为代表的编码器(Encoder-only)架构、以GPT为代表的解码器(Decoder-only)架构和以T5为代表的编码器-解码器(Encoder-Decoder)架构的大规模预训练语言模型。
- 随着GPT系列模型的成功发展,当前自然语言处理领域走向了生成式大语言模型的道路,解码器架构已经成为目前大语言模型的主流架构。进一步解码架构还可以细分为两个变种架构,包括因果解码器架构(Causal Decoder)和前缀解码器(Prefix Decoder)。值得注意的是,学术界所提到的解码器架构时,通常指的是因果解码器架构。
Encoder-Decoder
首先先补充一下Encoder-Decoder的知识,机器翻译中Encoder-Decoder的步骤:
(1)源语言输入
把源语言句子(如英文"I love you")进行 分词 / 子词切分,再通过词嵌入(Word Embedding)转换为词向量序
(2)编码器(Encoder)
早期:使用 RNN / LSTM / GRU 来逐步读取言词向量。
现在:多为 Transformer Encoder,可以同时看到整句上下文。
输出:得到一系列隐藏状态(而不仅仅是一个向量)。
(3)上下文向量(Context Vector)
最早的 Seq2Seq (2014):只保留最后一个隐状态作为 “上下文向量”(固定长度)。
改进后的 Attention Seq2Seq (2015+):保留全部隐藏状态,解码器可以动态选择性地“关注”输入句子的不同部分。
这一步是关键改进:从固定向量 → 动态上下文。
(4)解码器(Decoder)
早期:RNN/LSTM,从上下文向量初始化 hidden state,然后逐词生成目标语言。
现在:Transformer Decoder,每一步生成时使用 因果掩码(Causal Mask) + Cross Attention 关注 Encoder 输出。
输出:逐步生成目标语言序列(如中文 “我 爱 你”)。
(5)目标语言输出
解码器生成的 token 依次拼接成目标句子。
常见生成方式:Greedy Search、Beam Search、Sampling。
(6)训练与优化
使用 交叉熵损失:比较解码器生成的概率分布和真实目标序列mo。
优化:反向传播 + 梯度下降更新参数。
Encoder-Decoder架构是自然语言处理领域的一种经典的模式架构,广泛应用于如机器翻译等多项任务中,原始的Transformer模型也使用了这一架构,组合了两个分别担任编码器和解码器的Transformer模块。在编码器端采用双向自注意力机制对输入信息进行编码处理,而在解码器端则使用交叉注意力与掩码自注意力机制,进而通过自回归的方式对输出进行生成。基于编码器-解码器架构构建的预训练语言模型在众多的自然语言理解与生成任务中展示了优异的性能,但是目前只有FLAN-T5等少数大语言模型是基于此架构构建而成。
Causal Decoder
只使用 Transformer Decoder 堆叠,没有单独的 Encoder。使用因果掩码 (Causal Mask),每个 token 在预测时,只能看到它之前的 token,不能看到未来。训练目标是自回归语言建模 (Auto-regressive LM),给定前缀,预测下一个 token。此架构典型代表是GPT系列模型,使用的是单向注意力掩码,以确保每个输入 token只能注意到过去的 token和它本身。
Prefix Decoder
本质上是 Transformer Encoder 堆叠。使用 双向注意力(Bidirectional Attention),每个 token 在计算表示时,可以同时看到它前后的 token。训练目标通常是 Masked Language Modeling (MLM)随机遮盖一部分 token,然后预测被遮盖的内容。
架构 |
注意力方式 |
输入输出 |
主要任务 |
优点 |
缺点 |
代表模型 |
Prefix Decoder (Encoder-only) |
双向 |
输入 → 表征 |
理解类任务 |
表征强,适合NLP下游任务 |
不适合生成 |
BERT, RoBERTa |
Causal Decoder (Decoder-only) |
单向(因果掩码) |
输入 → 生成后续 |
生成类任务 |
架构简单,易扩展,适合生成 |
理解能力早期较弱 |
GPT, LLaMA, Qwen |
Encoder–Decoder (Seq2Seq) |
Encoder双向 + Decoder单向 |
输入序列 → 输出序列 |
条件生成 |
翻译/摘要效果好 |
计算开销大 |
T5, mBART |
6.LLMs中,常见的预训练任务包含哪些?(LLMs的训练目标是什么?)
(1)Language Modeling (LM):这是最常见的预训练任务之一,目的是让模型学习预测给定文本序列中下一个单词的概率分布。通过自回归的方式,模型基于前面的上下文信息预测后续的词汇。例如,GPT 系列模型和 BERT 中的 Masked Language Model 都是基于语言建模进行预训练的。
- 在训练效率上:Prefix Decoder <Causal Decoder.
- Causal Decoder结构与会在所有token上计算损失,而Prefix Decoder只会在输出上计算损失.
(2)Denoising Autoencoding (DAE):去噪自编码是另一种预训练方法,它通过引入噪声到输入数据(通常是文本),然后要求模型恢复原始未受干扰的文本内容。这种方法有助于提高模型对不完整、有噪声或损坏数据的理解能力。如 T5和 GLM-130B 等模型在预训练阶段采用了 DAE 任务。
(3)Mixture-of-Denoisers (MoD) 或称为 UL2 损失:这是一种结合了多个不同类型的去噪任务的统一预训练目标。在 MoD 框架下,模型需要处理多种类型的噪声,并采用不同的 “denoiser” 来应对这些噪声。比如 PaLM 2 就采用了这种混合型去噪任务,其中包含了短跨度低噪声、长跨度高噪声等多种情况下的文本恢复任务,旨在增强模型在不同复杂度场景下的表现和泛化能力。
7.LLMs中,涌现能力是什么原因
涌现能力概念:复杂系统中,大量微小个体相互作用,在宏观层面展现出微观个体无法单独解释的特殊现象,即 涌现现象。在 LLMs 中,模型达到一定规模后,会展现预训练阶段未刻意学习的能力(如复杂推理),即为“涌现能力。
生活案例:雪花形成、堵车、动物迁徙等,以雪花为例,微观水分子在温度条件下相互作用,宏观形成规则对称的结构,体现微观到宏观的涌现。
涌现能力成因的两大猜想
猜想一:任务的评价指标不够平滑
核心逻辑:部分任务评价指标过于严格(如要求完全精确匹配),导致模型能力提升呈现 “突然涌现” 的假象。
案例说明:
Emoji_movie 任务:输入 Emoji,要求 LLM 输出完全正确的电影名(错一个词即算错)。小模型(2m 参数)无法完成,随模型规模增至 128B 才完全正确。但实际上,模型在 125m、4b 参数时已逐渐接近答案。
对比实验:若将任务改为多选题(降低评价严格度),模型效果随规模稳定提升,涌现现象消失,说明严格评价指标放大了能力提升的 “突变感”。
猜想二:复杂任务 vs 子任务
核心逻辑:涌现现象常出现在由多个子任务构成的复杂任务中。子任务效果随模型规模增长符合 Scaling Law(平滑提升),但复杂任务整体因子任务组合,宏观呈现 “涌现”。
在大语言模型(LLMs)领域,Scaling Law(缩放定律) 描述了模型性能与参数规模、数据量、计算资源之间的规律性关联,即通过按比例扩大模型参数、数据量和计算资源,模型性能会以可预测的方式提升。
案例说明:
国际象棋任务:
“将死” 评估(复杂任务):模型需完成一系列合法移动最终 “将死”,评价指标严格(仅 “将死” 算赢)。随模型规模增大,表现缓慢上升,呈现涌现。
合法移动评估(子任务):模型在合法移动步骤中正确选择,效果随模型规模持续提升,无涌现现象。
假设推演:若任务 T 由 5 个子任务构成,每个子任务指标从 40% 提升到 60%,最终任务指标可能从 1.1% 跃升至 7.8%,宏观呈现涌现,而子任务实际平滑增长。
小结
当前关于 LLMs 涌现能力的主流猜想:
任务评价指标不够平滑,严格指标放大能力突变表象;
复杂任务由多个子任务构成,子任务符合 Scaling Law,复杂任务整体呈现涌现。
八、什么是Scaling Law,谈谈你对他们的理解?
(1)Scaling Law 的目标与定义
目标
在训练前通过计算量、数据集规模、模型规模等因素,预测模型最终能力,辅助优化模型对齐、安全和部署决策。
定义
利用计算量、数据集规模、模型规模,以简单函数(如线性、幂律关系)预测模型最终能力。
大语言模型训练中,需权衡计算成本(如 GPU 数量、训练时间)、数据集大小、模型参数量,通过三方平衡提升模型性能。
(2)主流观点对比
OpenAI 的研究(2020 年)
核心观点:
语言建模性能与计算量、数据集大小、模型规模呈幂律关系,任一因素受限都会影响性能。
三要素影响程度:计算量>参数>>数据集大小。
最佳训练策略:在固定计算预算下,训练参数量大的模型并提前停止训练(Early Stopping),大模型样本效率更高,能用更少数据和优化步骤达相同性能。
DeepMind 的研究(2022 年)
核心观点:
模型大小和训练数据量应按相等比例扩展(如模型大小加倍,数据量也加倍)。
给定计算预算,存在最优解:模型过小时,在较多数据上训练更大模型更好;模型过大时,在更多数据上训练较小模型更优。
强调高质量数据集扩展的重要性,大模型需匹配高质量、大规模数据才能发挥优势。
小结
Scaling Law 定义:通过计算量、数据集、模型规模预测模型能力。
OpenAI 观点:三要素互相关联,计算量影响最大,性能与单要素呈幂律关系。
DeepMind 观点:模型和数据量应等比例扩展,注重计算预算下的最优平衡,强调数据质量