目录
什么是大语言模型(LLM)?它与传统语言模型的本质差异在哪里?
自回归模型(autoregressive)与掩码语言模型(masked LM)的异同是什么?各适合于哪些任务?
Transformer 的核心构件——多头自注意力机制如何捕捉长距离依赖?
位置编码(positional encoding)的作用及其实现形式有哪些?它解决了什么问题?
BPE、WordPiece 和 SentencePiece 各自的原理与优劣是什么?
Token embedding 的维度如何选取?它对模型性能有什么影响?
什么是“Chinchilla scaling”,它指明了预训练模型的计算与数据如何均衡?
LLM 为什么容易“hallucination”?其根源是什么?如何缓解?
大模型中具有什么样的偏见(bias)?其来源是什么?如何衡量与减轻?
RLHF(Reinforcement Learning from Human Feedback)是什么?工作过程如何?
什么是“Chinchilla scaling”,它指明了预训练模型的计算与数据如何均衡?
LLM 为什么容易“hallucination”?其根源是什么?如何缓解?
大模型中具有什么样的偏见(bias)?其来源是什么?如何衡量与减轻?
RLHF(Reinforcement Learning from Human Feedback)是什么?工作过程如何?
为什么要使用混合精度(mixed-precision)训练?
分布式训练框架有哪些?如 DeepSpeed、Accelerate 的作用与原理?
模型剪枝(pruning)和量化(quantization)对推理性能的提升机理为何?
什么是大语言模型(LLM)?它与传统语言模型的本质差异在哪里?
自回归模型(autoregressive)与掩码语言模型(masked LM)的异同是什么?各适合于哪些任务?
智能调度器 “scheduler” 在训练学习率曲线设计中的作用?
微调(Fine-tuning)和提示调优(Prompt Tuning)有何区别?
Prefix Tuning 又是怎样通过前缀提升模型效果的?
instruction‑tuning 前后模型性能差距体现在什么方面?
Prefix Tuning 又是怎样通过前缀提升模型效果的?
instruction‑tuning 前后模型性能差距体现在什么方面?
Prefix Tuning 又是怎样通过前缀提升模型效果的?
instruction‑tuning 前后模型性能差距体现在什么方面?
GPT‑x 系列模型一般用哪些 benchmark 与 leader-board?
latency、throughput、memory usage 三者如何在模型评估中结合衡量?
LLM 如何成为 Agent 与外部工具对接?ReAct、Toolformer 原理是什么?
多轮对话系统中 memory 和 context 如何管理?
在 serverless / cloud 环境部署 LLM 面临什么挑战?
如何监控线上模型真实性能?如实时监控 hallucination 率?
模型的自动更新如何做?deployment blue/green、canary 策略如何配合提示?
什么是大语言模型(LLM)?它与传统语言模型的本质差异在哪里?
大语言模型(LLM)是基于深度学习技术构建的超大规模语言处理模型,其核心特点在于通过海量文本数据训练获得对自然语言的深度理解与