目录
本文从大模型技术底层逻辑出发:先拆解大语言模型(LLM)本质,对比传统模型,揭示大模型如何突破概率统计,掌握语言智慧;再深入技术支撑,解析 Transformer + Attention 架构如何处理长程依赖,适配复杂任务;接着探讨大模型掌握语言知识的路径,从词法句法到推理能力逐一拆解;也不回避局限,点明当前框架在数据、长文本建模、创意任务的不足;更展望突破方向,从数据、反馈、算法创新到多模态 + 具身智能,展现大模型向通用智能进阶的潜力,最后关联人工智能发展浪潮,看大模型如何成为智能实现的关键拼图。
详细见下面9张PPT:
01.大模型LLM背后的本质
大语言模型(LLM),最开始以前我们做传统语言模型的时候,可能参考的上文就约 10 个词,很不错了,现在大语言模型参考的上文能到 8000 + 个词,甚至现在所谓更长的 128k 这样的概念,而且是用万亿级 Token 来训练,这是它最本质的东西。从概率上来说,当有 8000 个词的历史长度时,从统计上几乎所有相关概率都会趋近于 0 ,所以大模型已经不再是做概率统计层面的事,它不再计算概率,而是在分析一个句子、一篇文章的合理性等。这样自然而然逼着它学会了同义词、同类词、上位概念等 “智慧”,实现对句子合理性的判断。这有点类似于 “读书破万卷,其义自见”,大模型大量训练后,就自然掌握了词法、句法、语义、事实、逻辑、计算等一系列智慧。而且大家可以用大模型去做语法检错、语义检错等测试,会发现它都能非常准确做到,这充分证明它已完全掌握语言背后的知识逻辑,至于背后具体怎么实现的,值得探究
02.大模型背后的技术支撑
大模型背后是 Transformer + Attention 多层神经网络 ,大家对其核心的 Transformer 架构很熟悉,通过自回归模式,在大数据与大算力支撑下,利用多头注意力机制(multi - head attention)建模序列中的长程依赖性和关系。就像大语言模型(LLM),预测下一个 Token 时,会和前面 8000 甚至 100 万个词相关;Sora 文生视频,预测下一帧图片,要关联前面(60 秒24 帧256*256 = 94 万 )个像素取值 。不管是大语言模型,还是文生视频(类似 Sora ),本质都是基于前面内容去做长程依赖建模,大语言模型基于前文词预测下一个 Token,文生视频基于前面帧图像预测下一帧像素。
而且现在有了 GPU 等成熟的大模型训练平台,能基于万卡集群,花费数月时间,通过万亿 Token 数据,对这种长程依赖关系进行有效建模,训练出万亿参数的大语言模型(LLM )。实际上,现在也有很多研究专门探究 Transformer + Attention 到底是如何让模型掌握人类语言和知识的 。
03.LLM怎么掌握人类的语言知识和推理的
大语言模型(LLM)到底是怎么掌握人类的语言和知识的?把它总结为大概这三个方面:
1、词法、句法等语言能力
大语言模型的多层结构和注意力机制,几乎能模拟人类大脑进行语法解析时的动态规划过程(有很多 “探针” 类方法可观测其运作 )。它能深刻理解句子语法结构,还能自动生成自然通顺的句子。这有点像人类学母语时,没刻意学语法,却自然而然掌握了语法结构,大模型靠这种模式,初步掌握语言基础能力。
2、知识记忆能力
知识是记在 Transformer 的序列建模结构里,以 Token 串形式存储。比如 “中国的首都” 关联 “北京” 。研究表明,若想让大模型记住新知识,需用 5 种以上不同表达形式训练(让模型充分 “曝光” ),它才更容易记住、活用。也就是说,知识是嵌入在 Token 序列的结构中留存的。
3、联想及推理能力
Attention 机制是支撑 “联想” 的关键。以 “中国首都的纬度是多少” 为例,大模型会自底向上推理:先关联出 “中国首都是北京”,再推导 “北京的纬度” 。通过 “思维链(step by step)” 的显式推理方式,能有效降低推理难度。像回答这类问题时,模型会先输出 “中国首都是北京”,再进一步给出纬度,而非直接说结果,贴合人类认知逻辑。
从这个角度延伸看,也能思考强化学习与 “慢思考” 的本质逻辑,探究大模型智能背后更深层的运作规律 。
04.换一个角度看“强化学习+慢思考”本质
从前面的分析延伸,我们换个角度看 RL强化学习 + 慢思考” 的本质 ,结合数学答题案例理解会更直观:看这个数学题解答的思维链,会发现大模型的推理很 “啰嗦”,但这种 “啰嗦” 是关键设计:
1、长长的思维链:用文字逐步推导(如 “两边同时减 1,得到……” ),通过拆解步骤降低推理难度,让大模型更易处理复杂逻辑。
2、知识自我唤醒:主动关联基础概念(如 “二次函数的一般形式是 y = ax² + bx + c” ),强化知识记忆与引用,像人类解题时主动调用公式。
3、刻意添加引导词:用 “不过,再举个例子验证一下” 这类表述,通过 Attention 机制激发不同推理路径,给模型更丰富的参考信号。
4、多种推导路径:尝试不同方法解题,确保对知识理解更准确、调用更灵活,避免单一路径的局限。
5、采样优质路径:强化学习(RL)相比有监督微调(SFT),改变模型参数更少(RL 仅改变 15 - 30% 参数,SFT 常改变 70% )。参数变动少,训练更稳定、高效,能更精准适配任务。
抽象来看,强化学习(RL) + 慢思考 + 长思维链,本质是 “迎合” 大语言模型(LLM)背后 Transformer + Attention 的底层机制 。如今大家探索 “如何写更好的思维链(如构造优质 SMT )”,核心也是贴合大模型的数学逻辑与训练规律。当然,任何方法都有局限性,但这种 “迎合底层机制” 的思路,确实在推动大模型更高效地解决问题、适配场景,也存在一些局限。
05.框架的局限
大模型(基于Transformer + Attention框架)存在明显局限性,至少有这三方面表现:
1、对数据 “质与量” 要求高
大模型训练依赖大规模高质量数据,但像罕见病医疗诊断(病例数据稀缺、标注成本高 )、高质量教案生成(优质教育案例数量有限、个性化需求强 )这类场景,数据的 “量” 和 “质” 都难以满足。因此,用大模型直接处理这些任务,效果往往不佳。
2、超长距离建模偏浅、偏弱
虽然大模型能处理 8000 词甚至 128K 长度的文本,但长距离依赖的建模深度仍不足。比如写科学论文(需要严谨逻辑、跨段落呼应 )、长篇小说 / 悬疑小说(要求情节连贯、伏笔呼应、人物行为一致 )时,模型容易出现 “幻觉”(内容矛盾、逻辑断裂 ),难以达到人类创作的完整性与严谨性。
3、难胜任 “灵光乍现型” 任务
大模型当前架构下,缺乏人类 “灵感迸发” 的创造力。像写新笑话、新脑筋急转弯这类需要突破常规联想、创造新奇逻辑的任务,模型很难生成真正新颖、让人眼前一亮的内容 —— 因为这类创意依赖 “跳出既有数据统计” 的思维,而大模型本质是基于已有数据的概率预测。
简单说,Transformer + Attention 框架虽强大,仍有明显局限,需要后续技术突破(如更高效的小数据学习、长程依赖建模优化、创意激发机制 )来补足。
06.提升的潜在机会
认知大模型的进一步提升,突破存在三大潜在机会方向,从模型原理可这样理解:
1、数据准备侧:用 “高质量、适配性数据” 喂出更强模型
核心是为模型提供更优质、更贴合人类认知规律的数据:
-
多维度数据扩充:准备更多高质量的预训练数据、SFT(有监督微调)数据、RL(强化学习)数据,覆盖更多知识场景。
-
知识库 “文本化” 适配:基于人类既有知识库(知识图谱、表格等),转化为大模型易学习的文本形式(如把知识图谱拆成问答对、结构化描述 ),让知识更高效被模型吸收。
-
模拟人类学习路径:按人类知识习得顺序整理数据(如 “先小学→初中→高中” 的知识梯度 ),让模型模拟人类认知成长过程。实践发现,这种方式能帮助模型更系统、扎实地掌握知识,减少 “知识混乱” 或 “逻辑跳跃”。
2、激励反馈侧:用 “更精准的反馈” 引导模型优化
强化学习的核心是构建优质 Reward(奖励)函数,当前主要探索方向:
-
工具化反馈构建:基于人类既有系统(如代码编译器、科学计算器、数学证明器 Prover 等 ),构建反馈函数。例如,用代码编译器验证模型生成的代码,通过 “编译报错→修正奖励” 的闭环,提升模型代码能力(目前代码大模型已能超过多数人类编程水平 )。
-
弱监督过程反馈:用人类专家的 “过程性弱监督数据”(如数学题评分、步骤批改 ),引导模型学习 “分步推理”。比如用老师给数学题步骤打分的数据,训练模型实现 “步骤级批改”,强化逻辑严谨性。
-
多模型协同反馈:利用不同大模型的优势互补,让多个模型 “相互商议”(如 A 模型生成方案,B 模型评估优化 ),构建更强大的 Reward 函数,弥补单一模型的缺陷。
3、算法创新侧:用 “新算法突破架构瓶颈”
探索更高效的模型架构与训练策略,核心方向:
-
训练与推理优化:如思维链长度自动调节(根据任务复杂度动态调整推理步数 )、快慢混合训练(不同阶段用不同算力策略 )、稀疏注意力机制(减少冗余计算,强化长距离建模 ),目标是用更少参数、更低资源,实现更长文本的精准建模。
-
智慧涌现原理探究:研究大模型 “智慧涌现” 的底层逻辑(如参数规模、数据量达到何阈值会产生质变 ),为模型升级找规律。
-
架构替换尝试:探索替换 Transformer + Attention 架构的可能性(如 Mamba、脉冲神经网络等 )。不过,Transformer 对语言任务的适配性已被验证,短期替换难度较大,需攻克 “新架构与语言建模的适配性” 难题。
简单总结:认知大模型的提升,需要数据侧 “喂得更巧”、反馈侧 “导得更准”、算法侧 “长得更优” ,三者协同推动模型向更接近人类认知能力的方向进化。
07.下一个技术门槛预判
认知大模型的发展,已公认呈现 “三阶递进” 趋势,前两阶段是:
第一阶:预训练 + SFT(代表:ChatGPT、DeepSeek V3、讯飞星火 V4.0 Turbo ),通过大规模预训练和有监督微调(SFT),初步实现语言交互能力。
第二阶:强化学习 + 慢思考(代表:DeepSeek R1、讯飞星火 X1 ),当代码、数学、推理等任务性能提升超 30% 后,反哺 “快系统”,成为通向 AGI(通用人工智能)的关键路径。
第三阶:多模态 + 具身智能加持的认知智能(公认的下一个技术台阶)
这一阶段核心探索方向,呼应人类 “先有智能互动,后学语言” 的成长逻辑,尝试让大模型突破 “纯数字世界” 局限:
1、模型成长路径颠覆:人类是 “先通过感知世界(无语言时已能互动)→ 再学语言”,未来大模型或许可先构建 “世界模型”(理解物理规则、环境交互 ),再基于此理解语言,而非仅靠文本数据训练。
2、多模态与具身智能的落地:
-
探索 “多模态(图像、语音、触觉等)如何 token 化”,让模型像人类一样融合多感官信息;
-
研究 “具身智能如何感知、描述世界”(如机器人通过摄像头、传感器获取环境信息,转化为模型可理解的知识 )。
3、融合与价值突破:
-
解决 “多模态 + 具身智能如何与语言大模型融合” 的技术难题,让模型既有语言理解能力,又有物理世界的交互智慧;
-
尝试攻克大模型 “幻觉问题”(因纯数字训练导致的事实错误、逻辑矛盾 )—— 通过具身智能的 “实地感知”,让模型知识更真实、推理更可靠。
简单说,第三阶段的核心是让大模型 “跳出纯文本世界”,向人类的 “多感官交互 + 物理世界理解” 进化,这可能是 AGI 突破的关键方向,也会带来一系列全新技术挑战(如多模态 token 化、具身感知与语言的融合 )。
08.大模型的无限潜力
总体来说,我们认为大模型和人类大脑智慧涌现的原理已非常近似,这进一步预示着大模型的无限潜力。
大模型与人类大脑类似,基础系统都是靠超千亿 “神经元”(大模型中可理解为参数、网络单元 )组合,接受输入刺激后产生智慧输出;智能激发模式也高度相似 —— 以 “更准确预测未来(如大模型预测下一个 Token )” 构建奖励函数,验证并激发系统智能;运行机制同样是偏单线程、流式的逐步处理,难以直接做精准海量记忆和复杂数学计算(因此大模型常通过插件等方式补足这类能力 )。
正因大模型与大脑在原理上有这种近似性,才更彰显其无限潜力。胡教授个人技术判断是:大模型(深度神经网络方向 )很可能成为实现通用人工智能(AGI)的核心路径,只是在训练策略、算法等层面,仍有较大的升级、改造空间。
09.人工智能历次浪潮的特点
人工智能历经四次发展浪潮,我们认为,第四次浪潮中深度神经网络大模型的底层假设,与前几次有着本质区别:
-
第一次浪潮(50 - 70 年代,定理证明):假设 “智能靠数学”,试图用符号逻辑推理复现智能,但发现人类智慧难以被纯数学完全涵盖。
-
第二次浪潮(80 - 90 年代,知识工程):假设 “智能靠程序”,通过专家系统、多层神经网络编码知识,却受限于规则僵化、知识覆盖不足。
-
第三次浪潮(2000 - 2020 年,深度学习):假设 “智能靠建模”,借深度神经网络、大数据、算力构建感知系统,实现实用化突破,但未触及 “真正通用智能”。
-
第四次浪潮(2020 - 至今,深度神经网络大模型):假设 “智能靠涌现”—— 大模型通过大规模参数、数据训练,自发涌现出语言理解、推理等复杂能力,这一方向已展现出接近 “智能本质” 的潜力,我们认为是当前最接近 “智能实现正解” 的路径。
简单总结:四次浪潮的底层假设从 “数学→程序→建模→涌现” 迭代,第四次以 “涌现” 为核心的大模型浪潮,让我们看到通用智能的曙光。讯飞也一直以 “让机器能听会说、能理解会思考,用人工智能建设美好世界” 为目标,持续探索这条路径。
本文内容来自8月2日胡国平教授的《通用人工智能技术进展及发展》,来自第二部分:通用人工智能发展的一些思考;第一部分见链接:
请关注图片右下角的gzh “智简达”,接收最新信息,每天进步一点点。