LLM基础题（面试版）

原创于 2025-09-14 00:41:35 发布 · 645 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习

1.简单介绍一下大语言模型【LLMs】

大模型：一般指1亿以上的参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型（MinMaxａｂａｂ6.5）也有了，大语言模型（Large Language Models，LLMs）是针对语言的大模型。

大模型的关键特点包括：

（1）大规模参数：LLMs拥有大量参数（如GPT-３的１７５B或PaLM的540B），参数数量越多，模型对语言的捕捉能力越强，可以更好的理解上下文和生成流畅的语言。

（2）多任务处理能力：经过训练后，LLMs具备在多种语言任务上表现良好的能力，例如文本摘要、情感分析、机器翻译等。这是因为它们学会在大数据集上归纳出各种语言模式和规律。

（3）上下文理解：LLMs可以根据上下文生成有逻辑和连贯的回应，这使得他们特别适合对话和内容创作任务。模型可以记住一段话中的重要细节，并在后续对话中包持一致性。

（4）自监督学习：大语言模型主要依赖自监督学习，使用未标注的数据进行训练，通过预测下一个词，填补空白或匹配句子等方式来学习语言结构。

（5）通用性和可扩展性：LLMs可以迁移到多种任务和领域，经过少量微调就能在专门的任务中（如医学文本分析或法律文件摘要）中发挥作用。（至于微调这边，后续会详细讲述）

2.大语言模型【LLMs】后面跟的175B、60B、540B等指的是什么？

在大语言名称后面跟随的数字如175B、60B、540B指的是模型的参数数量，通常以“B”表示“billion",即十亿。这些参数量直接影响模型的复杂性和计算能力。比如说175B代表1750亿个参数，比如说GPT-3。参数量越多，模型能学习和捕捉的语言模式和语义信息也越丰富，但对计算资源的要求也随之增加。更大的参数规模可以提高模型的性能，特别是处理复杂任务或生成高质量文本时。不过增加参数并不直接等于更好的效果，模型的优化、数据质量和训练方法也起着关键作用。

3.大语言模型具有什么优点？什么缺点

优点

（1）强大的语言理解与生成能力：能理解自然语言的上下文，生成流畅、连贯、接近人类水平的文本。并且可以完成写作、翻译、润色、摘要、对话等各种任务

（2）通用性与跨领域能力：不局限于单一任务，能在不同领域（编程、教育、医疗、科研、创意写作）应用。支持“零样本/小样本学习”（zero-shot / few-shot），不需要大量专门训练数据就能上手新任务。

（3）支持多语言：很对大语言模型具备多语言能力，能够处理并理解多种语言。

（4）快速部署和适应性：由于大语言模型能够基于预训练好的模型进行微调，从未适应不同的任务需求。例如，可以在模型的基础上微调特定领域数据，使其适用于具体领域。

缺点

缺乏事实的准确性、计算资源消耗大、可能会产生偏见、隐私和安全问题

4.常见的大模型分类有哪些

按照任务类型/模态分类

（1）语言大模型典型：GPT、Claude、Gemini、LLaMA。主处理文本任务（对话、写作、翻译、代码生成等）

（2）视觉大模型典型：SAM、InternImage。主要用于图像识别、分割、生成、视觉问答

（3）多模态大模型典型：GPT-4o、Gemini 1.5、Claude 3.5 Sonnet。能处理文字、图片、音频、视频等多模态输入输出

（4）语音大模型典型Whisper、Bark、SpeechGPT。主要处理语音识别（ASR）语音合成（TTS）语音对话

（5）视频大模型典型：Sora、Runway Gen-2、Pika。主要做视频生成、理解、编辑。

按训练方式 / 目标分类

（1）自回归语言模型（Autoregressive LM）根据前文预测下一个词典型：GPT、LLaMA、Mistral

（2)编码模型（Autoencoder LM）主要用于理解任务（如 BERT），擅长文本分类、抽取、表示学习

(3)Encoder-Decoder 架构同时适合理解和生成任务典型：T5、mBART

(4)扩散模型（Diffusion Models）常见于图像/视频生成（Stable Diffusion、Imagen）

(5)对比学习大模型用于多模态对齐，如 CLIP（连接文本与图像语义）

按模型规模分类

（1）超大规模模型（千亿参数以上）GPT-4、Gemini 1.5 Pro

（2）中等规模模型（百亿级参数）LLaMA-2-70B、Mistral 7B

（3）小型模型 / 轻量化模型（几十亿参数以下，可本地部署）LLaMA-2-7B、Phi-3、Qwen-1.5-7B

5、目前主流的LLMs开源模型体系有哪些？（Prefix Decoder，Causal Decoder 和Encoder-Decoder区别是什么）

在预训练语言模型时代，自然语言处理领域广泛采用了预训练加微调的范式，并诞生了以BERT为代表的编码器（Encoder-only)架构、以GPT为代表的解码器（Decoder-only）架构和以T5为代表的编码器-解码器（Encoder-Decoder)架构的大规模预训练语言模型。
随着GPT系列模型的成功发展，当前自然语言处理领域走向了生成式大语言模型的道路，解码器架构已经成为目前大语言模型的主流架构。进一步解码架构还可以细分为两个变种架构，包括因果解码器架构（Causal Decoder）和前缀解码器（Prefix Decoder)。值得注意的是，学术界所提到的解码器架构时，通常指的是因果解码器架构。

Encoder-Decoder

首先先补充一下Encoder-Decoder的知识，机器翻译中Encoder-Decoder的步骤：

(1)源语言输入

把源语言句子（如英文"I love you"）进行分词 / 子词切分，再通过词嵌入（Word Embedding)转换为词向量序

(2)编码器（Encoder）

早期：使用 RNN / LSTM / GRU 来逐步读取言词向量。

现在：多为 Transformer Encoder，可以同时看到整句上下文。

输出：得到一系列隐藏状态（而不仅仅是一个向量）。

(3)上下文向量（Context Vector）

最早的 Seq2Seq (2014)：只保留最后一个隐状态作为 “上下文向量”（固定长度）。

改进后的 Attention Seq2Seq (2015+)：保留全部隐藏状态，解码器可以动态选择性地“关注”输入句子的不同部分。

这一步是关键改进：从固定向量 → 动态上下文。

(4)解码器（Decoder）

早期：RNN/LSTM，从上下文向量初始化 hidden state，然后逐词生成目标语言。

现在：Transformer Decoder，每一步生成时使用因果掩码（Causal Mask） + Cross Attention 关注 Encoder 输出。

输出：逐步生成目标语言序列（如中文 “我爱你”）。

(5)目标语言输出

解码器生成的 token 依次拼接成目标句子。

常见生成方式：Greedy Search、Beam Search、Sampling。

(6)训练与优化

使用交叉熵损失：比较解码器生成的概率分布和真实目标序列mo。

优化：反向传播 + 梯度下降更新参数。

Encoder-Decoder架构是自然语言处理领域的一种经典的模式架构，广泛应用于如机器翻译等多项任务中，原始的Transformer模型也使用了这一架构，组合了两个分别担任编码器和解码器的Transformer模块。在编码器端采用双向自注意力机制对输入信息进行编码处理，而在解码器端则使用交叉注意力与掩码自注意力机制，进而通过自回归的方式对输出进行生成。基于编码器-解码器架构构建的预训练语言模型在众多的自然语言理解与生成任务中展示了优异的性能，但是目前只有FLAN－T５等少数大语言模型是基于此架构构建而成。

Causal Decoder

只使用 Transformer Decoder 堆叠，没有单独的 Encoder。使用因果掩码 (Causal Mask)，每个 token 在预测时，只能看到它之前的 token，不能看到未来。训练目标是自回归语言建模 (Auto-regressive LM)，给定前缀，预测下一个 token。此架构典型代表是GPT系列模型，使用的是单向注意力掩码，以确保每个输入 token只能注意到过去的 token和它本身。

Prefix Decoder

本质上是 Transformer Encoder 堆叠。使用双向注意力（Bidirectional Attention），每个 token 在计算表示时，可以同时看到它前后的 token。训练目标通常是 Masked Language Modeling (MLM)随机遮盖一部分 token，然后预测被遮盖的内容。

架构	注意力方式	输入输出	主要任务	优点	缺点	代表模型
Prefix Decoder (Encoder-only)	双向	输入 → 表征	理解类任务	表征强，适合NLP下游任务	不适合生成	BERT, RoBERTa
Causal Decoder (Decoder-only)	单向（因果掩码）	输入 → 生成后续	生成类任务	架构简单，易扩展，适合生成	理解能力早期较弱	GPT, LLaMA, Qwen
Encoder–Decoder (Seq2Seq)	Encoder双向 + Decoder单向	输入序列 → 输出序列	条件生成	翻译/摘要效果好	计算开销大	T5, mBART

6.LLMs中,常见的预训练任务包含哪些?(LLMs的训练目标是什么?)

(1)Language Modeling (LM)：这是最常见的预训练任务之一，目的是让模型学习预测给定文本序列中下一个单词的概率分布。通过自回归的方式，模型基于前面的上下文信息预测后续的词汇。例如，GPT 系列模型和 BERT 中的 Masked Language Model 都是基于语言建模进行预训练的。

在训练效率上:Prefix Decoder <Causal Decoder.
Causal Decoder结构与会在所有token上计算损失,而Prefix Decoder只会在输出上计算损失.

(2)Denoising Autoencoding (DAE)：去噪自编码是另一种预训练方法，它通过引入噪声到输入数据（通常是文本），然后要求模型恢复原始未受干扰的文本内容。这种方法有助于提高模型对不完整、有噪声或损坏数据的理解能力。如 T5和 GLM-130B 等模型在预训练阶段采用了 DAE 任务。

(3)Mixture-of-Denoisers (MoD) 或称为 UL2 损失：这是一种结合了多个不同类型的去噪任务的统一预训练目标。在 MoD 框架下，模型需要处理多种类型的噪声，并采用不同的 “denoiser” 来应对这些噪声。比如 PaLM 2 就采用了这种混合型去噪任务，其中包含了短跨度低噪声、长跨度高噪声等多种情况下的文本恢复任务，旨在增强模型在不同复杂度场景下的表现和泛化能力。