最近发现一个非常好的学习资料,可以一次性的掌握从理论到从头创建一个大模型,再到预训练,SFT(有监督微调),甚至到最后还有RAG以及Agent的搭建方式,非常的齐全。
就是这个Happy-LLM,Github将近10000星了,上升势头非常快。
在这个项目中你将获得:
- 🔍 深入理解 Transformer 架构和注意力机制
- 📚 掌握 预训练语言模型的基本原理
- 🧠 了解 现有大模型的基本结构
- 🏗️ 动手实现 一个完整的 LLaMA2 模型
- ⚙️ 掌握训练 从预训练到微调的全流程
- 🚀 实战应用 RAG、Agent 等前沿技术
本项目分为两部分——基础知识与实战应用。
第1章~第4章是基础知识部分,从浅入深介绍 LLM 的基本原理。
- 第1章:简单介绍 NLP 的基本任务和发展,为非 NLP 领域研究者提供参考
- 第2章:介绍 LLM 的基本架构——Transformer,包括原理介绍及代码实现,作为 LLM 最重要的理论基础;
- 第3章:整体介绍经典的 PLM,包括 Encoder-Only、Encoder-Decoder 和 Decoder-Only 三种架构,也同时介绍了当前一些主流 LLM 的架构和思想;
- 第4章则正式进入 LLM 部分,详细介绍 LLM 的特点、能力和整体训练过程。
第5章~第7章是实战应用部分,将逐步带领大家深入 LLM 的底层细节。
- 第5章:将带领大家者基于 PyTorch 层亲手搭建一个 LLM,并实现预训练、有监督微调的全流程;
- 第6章:将引入目前业界主流的 LLM 训练框架 Transformers,带领学习者基于该框架快速、高效地实现 LLM 训练过程;
- 第7章:将介绍 基于 LLM 的各种应用,补全学习者对 LLM 体系的认知,包括 LLM 的评测、检索增强生产(Retrieval-Augmented Generation,RAG)、智能体(Agent)的思想和简单实现。
学习建议:
- 若是科班出身且自学过自然语言处理(NLP)相关内容,第一章可直接跳过,其中仅包含基础概念知识;
- 若正在读研或计划从事大模型相关科研工作,建议在第二、三章多投入时间。这两章涉及大量数学公式与模型介绍,讲解十分细致,最好准备好笔和本子跟着演算——模型魔改的灵感往往就源于此;
- 若想了解大语言模型(LLM)训练的背后流程,第四章务必仔细研读;
- (有显卡者可看)第五章介绍了如何用代码搭建Llama2以及相关训练方法,不过即便是很小的模型,作者在使用8张Nvidia 4090的情况下,也花费了46个小时;
- (无显卡者也能看)第六章适合预算有限的读者。对个人而言,从头训练大模型意义不大,利用现有的开源大模型进行继续训练更贴合普通人的需求。本章使用的是Qwen的1.5B模型,普通笔记本运行起来毫无压力,因此强烈推荐!
- (第七章为选读内容)构建RAG、Agent其实有更简便的方式,例如借助LLM框架LangChain、LazyLLM等。
所以总结下,要搞科研的,2,3,5必看,可以深入到算法层次;长见识的第四章看完足够了;有钱有卡的大佬,可以着重看第五章,从头训练一个大模型,看着进度条一点点走,Loss一点点降是非常有成就感的。