《从零构建大模型》完整配套课程-CSDN博客

本文链接：https://blog.csdn.net/jennycisp/article/details/149404813

最近几个月，我连续写了不少关于推理模型的文章（连续出了 4 篇！）。除了各种“智能体”（agent）相关的内容之外，推理（reasoning）将成为 2025 年大语言模型（LLM）领域最热门的话题之一。

不过，这个月我想和大家分享一些更基础、更“底层”的内容，教大家如何从零开始编写 LLM 代码。这也是深入理解 LLM 原理的最佳途径之一。

去年我分享过一个精简版的 LLM 工作坊，很多人表示非常喜欢，也从中受益良多。

因此，我想这次提供的内容（总时长约 15 小时，比之前长了大约 5 倍，且更加详细）应该会更有帮助。

但很遗憾，我最近颈部受了比较严重的伤，过去 1 个月几乎无法正常使用电脑。目前我正在尝试保守治疗，如果效果不佳，可能不得不考虑医生建议的手术方案。这次受伤的时机实在太糟糕了，我刚刚开始恢复正常的工作节奏，生活却又给我来了个措手不及。

所以，在我恢复期间，我想把过去几个月录制的这些视频分享给大家，作为过渡内容。（为了方便大家观看，中文字幕视频已上传至 CSDN，字幕不当之处望海涵）

希望这些内容对你们有所帮助，也感谢大家一直以来的支持！

PS：这些视频最初是作为我的书籍《从零构建大模型》的配套内容录制的。不过后来发现，即使单独观看，这些视频也非常有用。

**
**

为什么要从零开始构建 LLM？

从零开始动手构建，可能是深入理解 LLM 工作原理的最好、最高效的方法。此外，很多读者告诉我，他们在这个过程中也收获了不少乐趣。

打个比方：如果你对汽车感兴趣，想要真正理解汽车的工作原理，那么跟随教程从零开始造一辆车，绝对是个绝佳的学习方式。当然，我们一开始肯定不会去造一辆 F1 赛车，因为那样成本太高、难度太大，不适合作为入门项目。相反，我们更适合从简单的卡丁车开始。

造一辆卡丁车同样能教会你转向系统如何工作、发动机如何运转等等。你甚至可以把它开到赛道上练习（顺便还能玩得很开心），等到熟练之后再去驾驶专业赛车（或者加入一家专门造赛车的公司或团队）。毕竟，最优秀的赛车手往往都是从自己动手组装、改装卡丁车开始的（比如迈克尔 · 舒马赫和埃尔顿 · 塞纳）。正是通过这种方式，他们不仅对赛车有了更深入的理解，还能给机械师提供宝贵的反馈，从而在比赛中占据优势。

参考资料

图书《从零构建大模型》
《从零构建大模型》的 GitHub 代码库：

https://github.com/rasbt/LLMs-from-scratch

1 - 搭建代码环境（时长：0:21:01）

本视频是一个补充教程，讲解如何使用 uv 搭建 Python 环境。

具体来讲，我们使用的是“uv pip”，相关说明请参考：https://github.com/rasbt/LLMs-from-scratch/blob/main/setup/01_optional-python-setup-preferences/README.md

此外，视频中提到但未详细讲解的原生uv add语法，可以参考：https://github.com/rasbt/LLMs-from-scratch/blob/main/setup/01_optional-python-setup-preferences/native-uv.md

注意 / 提示： 在某些版本的 Windows 系统上，安装过程可能会出现问题。如果你使用的是 Windows，并且安装时遇到困难（很可能是由于视频 5 中加载 OpenAI 原版 GPT-2 模型权重时依赖 TensorFlow 所致），请不必担心，可以跳过 TensorFlow 的安装（具体做法是从 requirements 文件中删除 TensorFlow 这一行）。

作为替代方案，我已将 GPT-2 模型权重从 TensorFlow 格式转换为 PyTorch 张量，并上传到了 Hugging Face 模型库，你可以使用这些 PyTorch 权重替代视频 5 中加载权重的部分：https://huggingface.co/rasbt/gpt2-from-scratch-pytorch

无论如何，在视频 5 的最后部分之前，你都无需担心加载权重的代码。

2 - 处理文本数据（时长：1 小时 28 分 01 秒）

本视频讲解了训练 LLM 前的文本数据准备步骤，包括分词（tokenization）、字节对编码（byte pair encoding，BPE）、数据加载器（data loaders）等。

3 - 编码注意力机制（时长：2 小时 15 分 40 秒）

这是一个补充视频，通过从零开始编写代码，详细讲解了注意力机制（包括自注意力、因果注意力、多头注意力）的工作原理。

你可以将其理解为先构建汽车的引擎（之后再添加车架、座椅和车轮）。

4 - 从头实现 GPT 模型进行文本生成（时长：21 分 01 秒）

本视频介绍了如何从零开始编写一个 LLM 模型架构。

5 - 在无标签数据上进行预训练（时长：2 小时 36 分 44 秒）

本视频详细讲解了如何从零开始预训练一个 LLM 模型。

6 - 针对分类的微调（时长：2 小时 15 分 29 秒）

本视频以垃圾邮件分类为例，介绍了如何将 LLM 微调为分类器。这是对微调技术的入门介绍，为下一视频中的指令微调做准备。

7 - 指令微调（时长：1 小时 46 分 04 秒）

微调做准备。

7 - 指令微调（时长：1 小时 46 分 04 秒）

[外链图片转存中…(img-AWxJqcar-1752661576104)]

最后，本视频讲解了如何对 LLM 进行指令微调（instruction finetuning）。

那么，如何快速系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》，扫码获取~

在这里插入图片描述

👉大模型学习指南+路线汇总👈
我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

在这里插入图片描述

9周快速成为大模型工程师

第1周：基础入门

了解大模型基本概念与发展历程
学习Python编程基础与PyTorch/TensorFlow框架
掌握Transformer架构核心原理

第2周：数据处理与训练

学习数据清洗、标注与增强技术
掌握分布式训练与混合精度训练方法
实践小规模模型微调（如BERT/GPT-2）

第3周：模型架构深入

分析LLaMA、GPT等主流大模型结构
学习注意力机制优化技巧（如Flash Attention）
理解模型并行与流水线并行技术

第4周：预训练与微调

掌握全参数预训练与LoRA/QLoRA等高效微调方法
学习Prompt Engineering与指令微调
实践领域适配（如医疗/金融场景）

第5周：推理优化

学习模型量化（INT8/FP16）与剪枝技术
掌握vLLM/TensorRT等推理加速工具
部署模型到生产环境（FastAPI/Docker）

第6周：应用开发 - 构建RAG（检索增强生成）系统

开发Agent类应用（如AutoGPT）
实践多模态模型（如CLIP/Whisper）

在这里插入图片描述

第7周：安全与评估

学习大模型安全与对齐技术
掌握评估指标（BLEU/ROUGE/人工评测）
分析幻觉、偏见等常见问题

第8周：行业实战 - 参与Kaggle/天池大模型竞赛

复现最新论文（如Mixtral/Gemma）
企业级项目实战（客服/代码生成等）

第9周：前沿拓展

学习MoE、Long Context等前沿技术
探索AI Infra与MLOps体系
制定个人技术发展路线图

👉福利篇👈
最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】