【上岸实录】普通人如何自学AI大模型:一位大厂研发工程师的实战经验!

写在开篇

笔者本人2020年就读于一所普通本科院校,2023年6月,凭借三年的自学经验,顺利通过校招实习面试进入某大厂AI研究院,现就职于大模型研发团队,专注于自然语言处理与生成式AI技术。

说到自学AI大语言模型,我通常不建议普通人轻易尝试。原因很简单——这条路并不适合所有人。但如果你问我为什么能成功,我只能说:我可能就是那个“不一般”的人。


首先,谈谈我对AI大模型的认知

AI大模型的核心不仅仅是技术,更是对数据的敏感性和对算法的深刻理解。与大多数通过培训班入行的AI工程师不同,他们往往是为了快速就业而学习,掌握的多是基础的应用技能,比如调参、部署模型,或者简单地调用API。他们更关注的是如何用现成的工具解决问题,而不是深入理解背后的原理。

而我进入大厂,完全是靠自学和内推。当时我才20岁,基于对AI技术的热爱,我每天工作结束后,都会抱着论文和书籍啃到深夜。甚至主动承担一些额外的研究任务,比如优化模型推理效率、设计新的训练框架。和那些“躺平族”不同,我总是觉得自己学得不够多、不够深。


自学AI大模型的困难与突破

  1. 数学基础的薄弱: 刚开始接触Transformer架构时,我对矩阵运算和梯度下降的理解非常浅显。为了搞懂Self-Attention机制,我硬是把《深度学习》和《线性代数》重新学了一遍,甚至手推了几十页的公式。
  2. 算力资源的限制: 大模型的训练需要海量算力,而我只是个学生,根本没有GPU集群。于是我开始研究模型压缩和分布式训练,用有限的资源跑通了BERT的微调实验。
  3. 代码实现的细节: 第一次尝试复现GPT-2时,我连PyTorch的DataLoader都用得磕磕绊绊。为了搞懂每一个细节,我花了整整一个月时间,逐行阅读开源代码,甚至自己重写了部分模块。
  4. 前沿论文的阅读: 英文论文一度是我的噩梦,尤其是那些充满数学符号和晦涩术语的段落。为了克服这个问题,我每天坚持读一篇论文,并用自己的话总结核心思想。现在,我已经能轻松读懂NeurIPS和ICML的最新研究成果了。

我的“不一般”之处

  1. 对技术的极致追求: 我不满足于简单地调用API,而是深入研究每一行代码背后的逻辑。比如,为了理解GPT-3的Few-Shot Learning能力,我不仅读了原始论文,还复现了实验,甚至尝试改进Prompt设计。
  2. 持续学习的习惯: 工作之余,我还在学习最新的AI技术,比如多模态大模型和强化学习。最近,我正在研究如何将大模型应用于垂直领域,比如医疗和法律。
  3. 主动承担挑战: 在团队中,我总是主动请缨负责最难的任务。比如,优化模型推理速度、设计新的训练框架,甚至参与硬件选型。这些经历让我从“游击队”逐渐变成了“正规军”。

下面给大家分享一份2025最新版的大模型学习路线,帮助新人小白更系统、更快速的学习大模型!

在这里插入图片描述

为什么我说“一般人还是算了吧”

自学AI大语言模型,不仅需要强大的数学和编程基础,还需要对技术的极致热爱和持续学习的毅力。如果你只是为了高薪而学习,或者想走捷径,那我劝你还是算了吧。因为这条路,注定只属于那些“不一般”的人。

而我,可能就是那个“不一般”的人。


如何自学AI大语言模型

真的想入门大语言模型,只看这一个文章应该是可以入门的。但是修行下去,还是要靠自己的了!

如果你把大语言模型/LLM 当成一门技术来看,那就要看一下这门技术需要什么。

基本要求:

  • 开发语言:Python, C/C++
  • 开发框架:Numpy/Pytorch/Tensorflow/Keras/Onnx
  • 数学知识:线性代数、高数、概率、凸优化

这些东西我们假定你都已经会了,或者熟练使用了。

如果不熟,我建议你自己再学习一下。尤其是数学的几个基本公式,是要学会的。我列一下吧。

数学核心内容

线性代数:关键概念包括向量、矩阵、特征值和特征向量。重要的公式涉及矩阵乘法、行列式以及特征值方程Av=λv,其中 A是矩阵,v 是特征向量,λ是特征值。

高数:基本主题是微分和积分,重点是理解极限、导数和积分的概念。函数 f(x) 在点 x的导数由f′(x)=limh→0 f(x+h)−f(x) 给出,基本微积分定理将微分与积分联系起来。

概率:关键点包括概率公理、条件概率、贝叶斯定理、随机变量和分布。例如,贝叶斯定理由P(A∣B)=P(B∣A)P(A)/P(B)给出,它帮助在发生B 的情况下更新 A 的概率。

凸优化:关注目标函数为凸函数的问题。关键概念包括凸集、凸函数、梯度下降和拉格朗日乘数。梯度下降更新规则可以表示为 xn+1 =xnαf(xn ),其中 α是学习率。

你可以看到这些相对经常用到的数学,其实没有多难,只要你再看一下记住就好了。

开发框架

Numpy 主要是掌握各种数据的使用方法

Pytorch 与 Tensor、 Keras 就是完成各种网络及训练的方法

你至少要能保证下面的代码里的每一行代码都能完全理解

<code class="language-text">import torch

注意是每一行

Transformer基础

做为 LLM 的基础模型,你要想入门,那对 Transformer 这个模型要了如指掌才成!

而 Transformer 的基本图像就是下面这样的:

推荐自己手写一个 Transformer 模型,至少要写一个 Attention 的结构。还要看懂下面这个图。你就能体会到一个至简的模型是怎么遵循 Scaling Law的,AGI 可能就在这个简单的重复与变大中了!

但是Transformer 这么简单的东西怎么就这么厉害了呢? 整个大模型已经发展两三年了,如果你再不跟上,可能很快就淘汰了。

这些是个基础了。但是对于 LLM 来讲吧,如果你想自己继续研究,那可能要接触的就是下面这些东西了。

  • Prompt 工程
  • RAG 技术
  • Fine-Tune 技术
  • LLM Training From Scratch
  • LLM 部署及优化技术

这几项基本上是针对效果及成本的要求从低到高的顺序,也是技术上从简单到难的顺序列出来的。

Prompt 工程:涉及设计和完善给LLM的Prompt,来得到最准确或最有用的Response。核心原则是通过精心设计的问题或陈述引导LLM生成所需的输出。它需要理解LM的能力和限制,并且通常涉及反复试验以找到最有效的提示。

基本技术就是三件事:指令角色、精确表达、要求输出格式。

RAG 技术(检索增强生成):RAG 是一种方法,结合了检索器模型来获取相关文档或数据和生成器模型来产生最终输出。这种技术通过外部信息丰富LLM的响应,提高其准确性和可靠性,特别是对于知识密集型任务。关键是有效整合检索和生成过程,以利用现有知识和生成能力。你需要了解的就是 LangChain

Fine-Tune 技术:微调涉及在特定数据集或特定任务上轻微调整预训练模型参数以提高性能。这种方法允许利用大型预训练模型并将它们适应于专门的要求,无需进行大量重新训练。本质是保持LM的一般能力,同时为特定用例进行优化。

没啥好说的了,自己准备数据针对特定任务训练

LLM 从零开始训练:从头开始训练大型语言模型(LLM)意味着在不依赖现有预训练权重的情况下构建模型。这个过程涉及收集大量数据集、设计模型架构,然后在高性能计算资源上长时间训练模型。核心挑战是需要大量的计算能力和数据,以及有效管理训练过程的专业知识。

如果你没有在一个顶级的公司或者研究团队,想想就好了。

LLM 部署及优化技术:部署和优化LLM涉及有效提供预测的策略,同时有效管理计算资源。这包括模型量化(减少数字的精度以节省内存)、模型修剪(移除不那么重要的权重)和蒸馏训练一个较小的模型来模仿一个较大的模型)。目标是减少模型的大小和推理时间,而不会显著影响其性能,使其适合生产环境。

大模型和程序员的关系

(1)目前ChatGPT对程序员到底有哪些实质性的帮助?

第一点:Code Review ChatGPT能够理解代码,并针对代码给出针对性的建议和优化方案;

第二点:写测试用例、单元测试、集成测试等,这些ChatGPT都很擅长!

第三点:对线上问题的定位和分析 线上问题的各种疑难杂症,ChatGPT都能胜任!

第四点:SQL的翻译 实现两种数据库的SQL语言转换,比如将Oracle的SQL脚本转换成MySQL的SQL脚本。

(2)有了AI编程,还需要程序员吗?

第一,在冯诺依曼架构体系下,程序需要的是确定性计算;

第二,由于大模型本身的概率性,目前大模型生成的代码还具备一定的随意性和不确定性;

第三,目前大模型更擅长的是一些抽象层次比较低的工作,比如一段代码或一个算法的实现,写一个单元测试等等。而一些抽象层次比较高的工作,比如需求分析、架构设计、领域设计、架构选型等,这些工作反而是大模型不擅长的,而这些工作是比较具备有竞争力的,这恰恰是一些高级程序员以及系统架构师的价值所在。

(3)应用实践AIGC有几层境界?

第一层境界:简单对话; 通过ctrl-c/v出结果,人人都会。

第二层境界:系统掌握Prompt Engineering; 通过系统掌握好提示词工程,真正赋能工作提效。

第三层境界:将AIGC融入业务流程,指挥AIGC完成复杂的任务; 通过掌握AIGC的技能,并完成业务领域知识的深入结合。

第四层境界:拥有自己的大模型; 熟悉大模型的架构原理,通过开源大模型微调,最好能够拥有一定的行业数据壁垒。

第五层境界:参与设计训练大模型; 比如从事ChatGPT等研发工作。 目前,Edison还处于第二层即提示词工程,我们整理了很多针对SDLC(软件开发生命周期)过程中的经典场景的提示词模板来做提效。 那么,你处于哪一层呢?

(4)如何掌握AI大模型开发技能?

第一步:掌握开发AGI时代新应用程序的技能; 比如:大模型应用内核、LangChain开发框架、向量数据库等;

第二步:搞定开发企业级AI Agent的应用技能; 比如:AI Agent、大模型缓存、算力等;

第三步:驾驭开发企业级专有大模型的技能; 比如:RAG、微调等;

第四步:深入应用大模型技术成为开发大师; 比如:大模型预训练、LLMOps等;

大模型目前在人工智能领域可以说正处于一种“炙手可热”的状态,吸引了很多人的关注和兴趣,也有很多新人小白想要学习入门大模型,却苦于没有大模型入门学习资料?

下面给大家分享一份2025最新版的大模型学习路线,帮助新人小白更系统、更快速的学习大模型!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

请添加图片描述
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值