相信大家都有过这样的经历:
小时候学走路,刚开始总是摔倒,
后来慢慢学会了掌握平衡;
长大了玩游戏,一开始乱点技能,
玩着玩着就知道怎么通关了。
这就是“通过试错,不断改进”的过程。
在人工智能领域,也有一类算法就是模仿这个学习过程,它叫做——强化学习(Reinforcement Learning)。
1、强化学习到底是什么?
强化学习是让机器在“没人教”的情况下,通过尝试、失败、再尝试,最终学会做出正确决策的方法。
听起来有点高大上,但其实我们每天都在和它打交道。
举个🌰:
当你第一次尝试骑车,
你可能会向左倾斜太多,
于是你本能地向右调整,
如果调整得当,你会暂时保持平衡;
如果过度调整,你又会向右倾斜。
通过这样不断尝试和调整,你的大脑逐渐建立起“在什么状态下该采取什么动作”的映射关系,这就是你的“骑车策略”。
经过无数次尝试后,你终于学会了骑车。这个过程中没有人告诉你具体怎么做,完全是通过与环境互动、接收反馈而学习的。
强化学习正是这种学习方式的人工智能版本。
它的核心思路是:尝试不同的行为 → 获得奖励或惩罚 → 学会在特定情况下做出更好的选择。
2、强化学习与其他机器学习的区别
为了更好地理解强化学习,我们可以将它与其他两种主要的机器学习方法进行比较:
监督学习(Supervised Learning)——老师带着答案教做题
核心思路:用有标签的数据教模型 “对号入座”,就像老师教学生做题,有标准答案引导学生解题。
例如:
你教小朋友认动物,给他一本《动物大全》:
输入: 图片(带标签) →输出: 名称(答案)
核心特点:
- 需要标注数据
- 目标:学会从输入到输出的映射规则
- 典型应用:人脸识别(照片→人名)、语音识别(语音→文字)
无监督学习(Unsupervised Learning)—— 自己观察找规律
核心思路:用无标签的数据让模型自己 “找规律”,就像你整理书架,你可以按 “内容”或 “高矮” 分类。
例如:
给下图中的动物分组。它没有标准答案,全靠数据特征自行分组:
- 可以按颜色分组(白色动物/黑色动物)
- 或按体型分组(大型/小型)
核心特点:
- 不需要标注数据
- 目标:不依赖外部标签,而是通过数据自身的特征(潜在关联)发现规律
- 典型应用:用户画像(电商用户自动分组)
强化学习(Reinforcement Learning)—— 训练小狗做动作
核心思路:让模型(Agent)通过与环境互动,用 “试错” 的方式学习 “怎么做能得到最多奖励”,就像训练小狗 “坐下给零食,犯错不给”。
例如:
训练小狗 “坐下”“握手”。
- 如果它 “坐下”(动作正确),你给它零食(奖励 + 1),它下次更可能重复这个动作;
- 如果它 “乱跑”(动作错误),你不回应(奖励 - 1 或 0),它下次会减少这个动作。
- 经过多次尝试,小狗学会 “坐下 = 有零食,乱跑 = 没零食”,最终养成按指令行动的习惯(最优策略)。
核心特点:
- 通过环境反馈学习(奖励/惩罚信号)
- 目标:优化长期累计奖励
- 典型应用:游戏AI(AlphaGo)、机器人控制(机械臂自学抓取)
强化学习本质上是让机器“动手实践”并在实践中提升自己的技术。它不仅要学会“知道什么”,更要学会”知道如何做”。
3、强化学习的基本构成要素
强化学习由以下关键要素构成:
1.智能体(Agent)
- 执行决策的主体,通过与环境交互学习行为策略。
- 例如:学骑车的你
2.环境(Environment)
- 智能体交互的外部系统,提供状态和反馈。
- 例如:天气、路面状况等。
3.状态(State)
- 描述环境当前状况的特征集合,是智能体决策的依据。
- 例如:自行车的倾斜角度、速度、方向,以及你身体的姿势等。
4.动作(Action)
- 智能体在某一状态下可执行的操作。
- 例如:转动车把、踩踏板、刹车等。
5.奖励(Reward)
- 环境对智能体动作的反馈信号,用于评估动作的好坏。智能体的目标是最大化长期累积奖励。
- 例如:保持平衡并前进是正奖励,摔倒则是负奖励。
6.策略(Policy)
- 策略是智能体根据当前状态选择动作的“指导方针”。它可以看作是一个映射函数,告诉智能体在特定状态下应该采取什么动作(状态→动作的映射规则)。
- 例如:在骑自行车中的策略可能是“如果车身向左倾斜,就向右转动车把”等等。
7.价值函数(Value Function)
- 评估一个状态或动作“未来能带来多少奖励”的指标。它帮助智能体判断不同状态和动作的长期价值,而不仅仅是即时奖励。(具体解释见后文)
- 例如:当前自行车能够保持平衡(状态良好),但如果你看到前方有个大坑(这会导致未来的负奖励),你会提前调整路线。这就是考虑了状态的长期价值,而不仅仅是当前的稳定性。
价值函数有两种主要类型:
- 状态价值函数(V函数):评估处于某个状态的长期价值
- 状态-动作价值函数(Q函数):评估在某个状态下采取特定动作的长期价值
4、马尔可夫决策过程:强化学习的“地图和规则”
强化学习的一切,都建立在一个叫做马尔可夫决策过程(MDP) 的框架之上。
一句话定义:马尔可夫决策过程是一种用于建模智能体在环境中做决策的数学框架,描述了“状态、动作、奖励和转移的关系”,并假设未来只与当前状态有关(马尔可夫性)。
MDP 的五个基本组成(5 元组):
什么是“马尔可夫性”?
未来只取决于现在的状态和动作,与过去无关。 就像玩游戏时,你下一步怎么选只看当前关卡和血量,不用管之前死过多少次。
强化学习的目标是让智能体在环境中通过试错找到最优策略,而 MDP 是描述这种 “试错 - 反馈” 过程的数学模型。
几乎所有强化学习算法(如 Q-Learning、DQN、Actor-Critic)都依赖 MDP 这个结构来计算策略和评估价值。
5、强化学习是怎么“自己学会”的?
强化学习的过程可以概括为一个不断循环的模式,就像我们学习任何新技能一样。
在学习过程中,强化学习还面临一个重要的权衡:是继续尝试已知的好方法(利用,Exploitation),还是尝试新方法(探索,Exploration)?
回到骑自行车的例子:
- 利用: 小明已经发现轻轻转动车把可以保持平衡,所以他倾向于一直使用这个技巧。
- 探索: 但如果他只用这一种方法,可能永远学不会如何应对急转弯等突发情况。所以他需要尝试一些新的操作方式,即使这可能导致暂时的失败。
这种“探索与利用”的平衡是强化学习中的关键挑战。探索太少,可能陷入局部最优;探索太多,可能浪费时间在无效尝试上。优秀的强化学习算法需要在这两者之间找到合适的平衡点。
强化学习的另一个重要特点是关注长期累积奖励,而不仅仅是即时反馈。
前面提到的“折扣因子”(discount factor)的概念就是用来评估长期价值,权衡即时奖励和未来奖励的重要性。折扣因子越高,智能体越重视长期利益;折扣因子越低,智能体越关注即时回报。
这就像人生规划:有些人更看重当下的满足感(低折扣因子),有些人则愿意延迟满足,为未来投资(高折扣因子)。
6、几种经典的强化学习算法
强化学习领域有许多经典算法,它们各有特点和适用场景。我们依然通过骑自行车的例子来理解这些算法。
入门组:
Q-Learning(查表)→ DQN(用大脑查表):解决 “状态太多记不住” 的问题;特点:离散动作,不可处理连续动作。
1. Q-Learning(Q学习)——记小本本
Q-Learning是最基础的强化学习算法之一,它通过构建一个“大表格”来记录每个状态下每个动作的“预期回报”(叫 Q 值),不断试错更新,最后选回报最高的动作。
每次尝试后根据结果更新这个表格中对应项的值,每次更新都是朝着“实际获得的奖励+下一状态的最大预期价值”的方向调整当前“状态-动作”的估值。
优点:
- 简单直观。
- 在状态和动作种类都很少的情况下效果很好。
局限性:
- 状态太多时(如路面有 100 种坑洼情况),小本本记不过来,无法处理真实世界中连续、复杂的情况。
- 你只能记住具体发生过的组合,无法泛化“类似情况”。
2. DQN(Deep Q Network,深度Q网络)——用“大脑”记忆
Q-Learning 记笔记适合简单场景,但现实中状态太多,根本没法用表格记录。
DQN是Q-Learning的升级版,它使用神经网络来升级 Q 函数,不再依赖表格记录每一个“状态-动作”组合。
神经网络就好比大脑的归纳能力, 通过分析大量经验,发现 “当车身偏左时,右转车把通常能保持稳定”,并把这类规律压缩成一个 “经验模型”(类似神经网络),学会了近似地判断每种状态下最好的动作是什么。
例如,即使你从没遇到过“ 当前路口绿灯,但是前方有行人横穿马路”的情况,你依然知道要刹车减速。
关键点:神经网络如何替代表格?
- 泛化能力:表格只能存固定状态的 Q 值,而神经网络能通过 “车速、平衡度” 等连续特征,自动计算从未见过的状态的 Q 值。(这里要注意的是,DQN能泛化的是“状态”)
- 压缩信息:把无数状态压缩到神经网络的几层神经元中(类似 “车速快→需谨慎操作”“平衡差→优先稳定” 的抽象规则),避免表格爆炸。
优点:
- 能处理高维状态(如图像输入)。
- 学会在“类似情况中”做出合理判断。
局限性:
- 仍然局限于“动作是可枚举的”。
- 学习过程更复杂、更容易不稳定
- 大脑模型训练时需要反复回看“经验录像”(经验回放)来稳定学习。
进阶组:
Policy Gradient(直接选动作)→ Actor-Critic(找个参谋帮忙):解决 “不知道动作好不好” 的问题;特点:可处理连续动作。
3. Policy Gradient(策略梯度)——跟着感觉走
与Q-Learning关注“状态-动作”价值不同,策略梯度不再预测每个动作得多少分(Q值),而是**直接学习“选哪个动作的概率”,**用概率分布描述策略。
例如骑车时你不想记每一步该怎么做,而是总结出“策略”:“遇到拐弯,80% 刹车减速,20% 直接停下。”
不是算分,而是总结出一个“决策习惯”,每次骑车之后,根据整局得分来优化策略,让得分更高的动作更容易被选中。
策略梯度的核心思想是:增加导致高回报的动作概率,减少导致低回报的动作概率。
优点:
- 能直接处理连续动作空间(比如左转 10°、20°),非常适合复杂动作控制。
局限性:
- 容易陷入局部最优,例如可能因某次 “偶然奖励”(如下坡时加速可以轻松骑很远)大幅改变策略,导致动作激进(如以后下坡都猛加速)。
- 学习不稳定,效率不高,可能需要很多次尝试才能学出好策略。
4. Actor-Critic(演员-评论家)——教练陪练
Actor-Critic结合了Q-Learning和 Policy Gradient的优点,包含:
- Actor(演员): 负责选择动作,不自己判断动作好坏,而是根据 Critic 的反馈来调整动作策略(只负责“决定怎么骑”)。
- Critic(评论家): 不做决策,但会评价你刚才那个动作的好坏(类似 Q-learning /值函数网络,估计某个状态或动作的价值)。
例如现在在下坡,速度略快,且前方路段向左收窄。
- Actor 决定: 脚踏踩 60% 力度,车把向左偏 30°。
- Critic 评价:走得是否顺畅、是否偏离路面。
如果这次很稳,它会打高分。
- Actor 接收这个反馈,下次继续强化这个动作;
- 如果摔了,Critic 会反馈:“这动作值太低”,Actor 就学着换动作了。
这个过程不断循环,最终你就能骑得又快又稳。
优点:
- 结合了策略梯度和值函数方法的优势,稳定性强。
- 能够处理连续动作。
局限性:
- 比前几种复杂,需要训练两个模型(Actor 和 Critic)。
- 如果 Critic 给的反馈不准,Actor 会学偏。
顶流组:
PPO(谨慎版选动作)→ SAC(鼓励创新):解决 “学习不稳定” 和 “探索不足” 的问题,特点:可处理连续动作。
5. PPO(Proximal Policy Optimization,近端策略优化)——保守派
PPO是近年来广泛使用的算法,它通过限制每次策略更新的幅度,实现了稳定高效的训练。
PPO的核心创新是引入了一个“裁剪”机制,改进了 Policy Gradient 的 “激进试错” 问题,**要求新策略和旧策略不能差太多,**避免破坏性更新(一次大改动作导致严重摔车)。
例如,上次你大幅调整车把角度导致摔了,现在只允许你一次调整一点点,确保稳定改进,不乱动。
优点:
- 实现相对简单,训练效果非常好。
- 适用于多种任务类型,已经有大量实际应用(例如OpenAI 就用它训练 GPT 的 RLHF 阶段)。
局限性:
- 计算开销较大,对训练细节敏感。
6. SAC(Soft Actor-Critic,软演员-评论家)——鼓励创新
传统 Actor-Critic有两个问题:
1.太 “贪心”:只追求最大奖励,容易陷入局部最优(比如每次下坡都加速,结果遇到前方路面坑洼来不及刹车)。
2.对连续动作处理不够灵活: 比如策略需要精确到 1%(轻点刹车),传统算法可能难以收敛。
SAC 引入了 “熵” 的概念:鼓励探索
“熵” 代表策略的随机性,熵越高,动作选择越多样(比如 “路面坑洼选刹车 50%,选绕过 50%”)。
SAC 的目标不仅是最大化奖励,还要最大化熵(即 “在获得高奖励的同时,保持动作多样性,比如用单脚骑、站着骑、骑山路等等”),鼓励探索。
奖励公式:总分 = 传统奖励 + 动作多样性加分
双评论家(Critic)机制: 更稳健的评价体系,它用两个 “评论家”(Critic)同时评价动作,取较 “保守” 的分数,避免高估奖励。
比如长途骑行时,你既想尽早到达终点(高奖励),又想体验不同路线(高熵),于是每次选路时,会在 “主干道” 和 “乡间小路” 之间平衡,同时听两个导航 App 的建议,选更稳妥的路线。
优点:
- 探索性强,不容易陷入局部最优。
- 在连续动作控制问题中表现非常好。
- 高样本效率,训练稳定。
局限性:
- 算法结构更复杂,包含多个网络(Actor + 两个 Critic)。
- 计算资源消耗大。
- 在某些简单任务上可能“过度探索”。
强化学习的算法往往不是单独使用,而是组合搭配、分阶段采用, 以实现更好的训练效果。
7、结语:AI 不只是“知道”,还要“学会做”
AlphaGo 打败围棋世界冠军曾引起轰动,它也是强化学习应用的一个里程碑。除了通过人类棋谱进行初步学习,它更依赖强化学习在自我对弈中不断优化策略——让 AI 通过每一局胜负反馈优化决策。最终,这个 “自学成才” 的 AI 战胜了人类顶尖棋手,展现强化学习在复杂决策领域强大的自主学习与策略优化能力。
从本质上说,强化学习代表了AI发展的一个重要方向:从单纯的“知道”(知识获取)到“学会做”(技能掌握),其魅力在于能够处理那些难以用明确规则描述但可以通过实践掌握的任务。监督学习让机器学会了“模仿”人类,强化学习教会它们“自己思考”和“自主进化”。
8、如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。