最近几个月,我连续写了不少关于推理模型的文章(连续出了 4 篇!)。除了各种“智能体”(agent)相关的内容之外,推理(reasoning)将成为 2025 年大语言模型(LLM)领域最热门的话题之一。
不过,这个月我想和大家分享一些更基础、更“底层”的内容,教大家如何从零开始编写 LLM 代码。这也是深入理解 LLM 原理的最佳途径之一。
去年我分享过一个精简版的 LLM 工作坊,很多人表示非常喜欢,也从中受益良多。
因此,我想这次提供的内容(总时长约 15 小时,比之前长了大约 5 倍,且更加详细)应该会更有帮助。
但很遗憾,我最近颈部受了比较严重的伤,过去 1 个月几乎无法正常使用电脑。目前我正在尝试保守治疗,如果效果不佳,可能不得不考虑医生建议的手术方案。这次受伤的时机实在太糟糕了,我刚刚开始恢复正常的工作节奏,生活却又给我来了个措手不及。
所以,在我恢复期间,我想把过去几个月录制的这些视频分享给大家,作为过渡内容。(为了方便大家观看,中文字幕视频已上传至 CSDN,字幕不当之处望海涵)
希望这些内容对你们有所帮助,也感谢大家一直以来的支持!
PS:这些视频最初是作为我的书籍《从零构建大模型》的配套内容录制的。不过后来发现,即使单独观看,这些视频也非常有用。
**
**
为什么要从零开始构建 LLM?
从零开始动手构建,可能是深入理解 LLM 工作原理的最好、最高效的方法。此外,很多读者告诉我,他们在这个过程中也收获了不少乐趣。
打个比方:如果你对汽车感兴趣,想要真正理解汽车的工作原理,那么跟随教程从零开始造一辆车,绝对是个绝佳的学习方式。当然,我们一开始肯定不会去造一辆 F1 赛车,因为那样成本太高、难度太大,不适合作为入门项目。相反,我们更适合从简单的卡丁车开始。
造一辆卡丁车同样能教会你转向系统如何工作、发动机如何运转等等。你甚至可以把它开到赛道上练习(顺便还能玩得很开心),等到熟练之后再去驾驶专业赛车(或者加入一家专门造赛车的公司或团队)。毕竟,最优秀的赛车手往往都是从自己动手组装、改装卡丁车开始的(比如迈克尔 · 舒马赫和埃尔顿 · 塞纳)。正是通过这种方式,他们不仅对赛车有了更深入的理解,还能给机械师提供宝贵的反馈,从而在比赛中占据优势。
参考资料
-
图书《从零构建大模型》
-
《从零构建大模型》的 GitHub 代码库:
https://github.com/rasbt/LLMs-from-scratch
1 - 搭建代码环境(时长:0:21:01)
本视频是一个补充教程,讲解如何使用 uv 搭建 Python 环境。
具体来讲,我们使用的是“uv pip
”,相关说明请参考:https://github.com/rasbt/LLMs-from-scratch/blob/main/setup/01_optional-python-setup-preferences/README.md
此外,视频中提到但未详细讲解的原生uv add
语法,可以参考:https://github.com/rasbt/LLMs-from-scratch/blob/main/setup/01_optional-python-setup-preferences/native-uv.md
注意 / 提示: 在某些版本的 Windows 系统上,安装过程可能会出现问题。如果你使用的是 Windows,并且安装时遇到困难(很可能是由于视频 5 中加载 OpenAI 原版 GPT-2 模型权重时依赖 TensorFlow 所致),请不必担心,可以跳过 TensorFlow 的安装(具体做法是从 requirements 文件中删除 TensorFlow 这一行)。
作为替代方案,我已将 GPT-2 模型权重从 TensorFlow 格式转换为 PyTorch 张量,并上传到了 Hugging Face 模型库,你可以使用这些 PyTorch 权重替代视频 5 中加载权重的部分:https://huggingface.co/rasbt/gpt2-from-scratch-pytorch
无论如何,在视频 5 的最后部分之前,你都无需担心加载权重的代码。
2 - 处理文本数据(时长:1 小时 28 分 01 秒)
本视频讲解了训练 LLM 前的文本数据准备步骤,包括分词(tokenization)、字节对编码(byte pair encoding,BPE)、数据加载器(data loaders)等。
3 - 编码注意力机制(时长:2 小时 15 分 40 秒)
这是一个补充视频,通过从零开始编写代码,详细讲解了注意力机制(包括自注意力、因果注意力、多头注意力)的工作原理。
你可以将其理解为先构建汽车的引擎(之后再添加车架、座椅和车轮)。
4 - 从头实现 GPT 模型进行文本生成(时长:21 分 01 秒)
本视频介绍了如何从零开始编写一个 LLM 模型架构。
5 - 在无标签数据上进行预训练(时长:2 小时 36 分 44 秒)
本视频详细讲解了如何从零开始预训练一个 LLM 模型。
6 - 针对分类的微调(时长:2 小时 15 分 29 秒)
本视频以垃圾邮件分类为例,介绍了如何将 LLM 微调为分类器。这是对微调技术的入门介绍,为下一视频中的指令微调做准备。
7 - 指令微调(时长:1 小时 46 分 04 秒)
微调做准备。
7 - 指令微调(时长:1 小时 46 分 04 秒)
[外链图片转存中…(img-AWxJqcar-1752661576104)]
最后,本视频讲解了如何对 LLM 进行指令微调(instruction finetuning)。
那么,如何快速系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
9周快速成为大模型工程师
第1周:基础入门
-
了解大模型基本概念与发展历程
-
学习Python编程基础与PyTorch/TensorFlow框架
-
掌握Transformer架构核心原理
-
第2周:数据处理与训练
-
学习数据清洗、标注与增强技术
-
掌握分布式训练与混合精度训练方法
-
实践小规模模型微调(如BERT/GPT-2)
第3周:模型架构深入
-
分析LLaMA、GPT等主流大模型结构
-
学习注意力机制优化技巧(如Flash Attention)
-
理解模型并行与流水线并行技术
第4周:预训练与微调
-
掌握全参数预训练与LoRA/QLoRA等高效微调方法
-
学习Prompt Engineering与指令微调
-
实践领域适配(如医疗/金融场景)
第5周:推理优化
-
学习模型量化(INT8/FP16)与剪枝技术
-
掌握vLLM/TensorRT等推理加速工具
-
部署模型到生产环境(FastAPI/Docker)
第6周:应用开发 - 构建RAG(检索增强生成)系统
-
开发Agent类应用(如AutoGPT)
-
实践多模态模型(如CLIP/Whisper)
第7周:安全与评估
-
学习大模型安全与对齐技术
-
掌握评估指标(BLEU/ROUGE/人工评测)
-
分析幻觉、偏见等常见问题
第8周:行业实战 - 参与Kaggle/天池大模型竞赛
- 复现最新论文(如Mixtral/Gemma)
- 企业级项目实战(客服/代码生成等)
第9周:前沿拓展
- 学习MoE、Long Context等前沿技术
- 探索AI Infra与MLOps体系
- 制定个人技术发展路线图
👉福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】