2024 年,国产大模型的第一个重磅消息,来自智谱 AI。
在 1 月 16 日举办的 2024 智谱 AI 技术开放日 Zhipu DevDay 上,智谱 AI 正式发布新一代基座大模型「GLM-4」。
经历了三个月的技术迭代,GLM-4 相比上一代基座模型 GLM-3 实现了 60% 的性能全面提升,直接逼近 GPT-4。
一方面,GLM-4 支持更长的上下文、更强的多模态能力;另一方面,GLM-4 支持更快的推理、更多并发,大大降低了推理成本。
同时,GLM-4 也增强了智能体能力,智谱 AI 正式上线了「GLM-4-All Tools」和「GLMs」个性化智能体定制能力,在产品上持续全面对标 OpenAI。
这些全新升级后的能力,目前已经在智谱 AI 开放平台上线。
「正如我们在去年年初的承诺,2023 年底要实现逼近最先进的 GPT-4 性能的全栈自主创新的 GLM-4。今天,我们来交个答卷,也希望未来能以此为基础瞄向 AGI。」智谱 AI CEO 张鹏表示。
综合能力全面跃升
国产基座大模型比肩 GPT-4
一直以来,AI 领域内的研究者和从业者都以「GPT-4」作为大模型技术的标杆。而 GLM-4 的诞生,意味着国产大模型的水平真正做到了「比肩 GPT-4」。
据张鹏介绍,GLM-4 带来了 128K 上下文窗口长度,单次提示词可处理文本达到 300 页,在总结信息、内容抽取、复杂推理、代码等多个应用场景实现了复杂长文本能力。
智谱 AI 技术团队解决了长上下文全局信息因失焦导致的精度下降问题。在 needle test 大海捞针测试中,在 128K 文本长度内, GLM-4 模型可实现几乎 100% 精度召回。
张鹏表示,GLM-4 性能已经超过 Claude 2.1,直接逼近 GPT 4 。
智谱 Al 进行的多项大模型权威评测的结果证实了这一说法,GLM-4 在 MMLU(81.5)达到 GPT-4 94% 水平,GSM8K(87.6) 达到 GPT-4 95% 水平,MATH(47.9)达到 GPT-4 91% 水平,BBH (82.25) 达到 GPT-4 99% 水平,HellaSwag (85.4) 达到 GPT-4 90% 水平,HumanEval(72)达到 GPT-4 100% 水平。
在指令跟随能力方面,GLM-4 也实现了媲美 GPT-4 的水准。根据指令跟随评估基准 IFEval 的结果,GLM-4 在 Prompt 提示词跟随(中文)方面达到了 GPT-4 88% 的水平;在指令跟随(中文)方面,达到了 GPT-4 90% 的水平。
在实际落地应用过程中,模型的中文对齐能力格外重要,GLM-4 的表现也毫不逊色。
基于公开数据集 AlignBench 的评估结果,GLM-4 超过了 GPT-4 在 6 月 13 日发布的版本,逼近 GPT-4 最新(11 月 6 日版本)效果,在专业能力、中文理解、角色扮演方面超过了最新 GPT-4 的精度,唯一有待提升的是 GLM-4 在中文推理方面的能力。
短短几个月,GLM-4 即可实现多项模型能力的飞跃,与智谱 AI 长期以来所坚持的「All in 大模型」路线密不可分。
自成立以来,智谱 AI 始终致力于打造新一代认知智能大模型,从一开始探索超大规模预训练模型算法,到训练从几十亿、几百亿到千亿级的模型,并逐步探索实现规模化的产业应用落地。
2020 年底,智谱 AI 从 0 起步研发 GLM 预训练架构,在确保性能的同时具有独立、自主、可控特性。2022 年,智谱 AI 率先推出中英双语千亿级超大规模预训练模型 GLM-130B,引发了全球关注。
在 2023 年的大模型浪潮之中,智谱 AI GLM 系列大模型保持每 3-4 个月升级一次的节奏,同时逐步具备了多模态理解、代码解释、网络搜索增强等新功能。
多模态能力的水平,是决定模型能否应用于复杂现实场景的关键因素。此次 GLM-4 的多模态能力能够实现长足的进步,正是基于不断进化的智谱 AI 多模态理解模型 CogVLM 和文生图模型 CogView。
其中,最新发布的 CogView3 效果明显超过开源最佳的 Stable Diffusion XL,逼近最新 OpenAI 发布的 DALLE・3。在对齐、保真、安全、组合布局等各个评测维度上,CogView3 的效果都达到 DALLE・3 90% 以上水平,平均达到 95% 左右的相对性能。
GLM-4-All Tools 上线
产品持续对标 OpenAI
大模型本身还不足以解决所有问题,在实际的使用过程中,我们常常需要同时借助多种工具,比如网页浏览、数据分析、图像生成。
张鹏在演讲中提到了这一难点:「一直以来,普通用户甚至是开发者,需要用像魔法咒语一样的提示词或者机器才能解读执行的代码、调用大模型的各种能力,无论是回答问题、作画还是使用外部的知识源,总觉得大模型还是没那么聪明。」
这些复杂任务,都可以依靠「Agent」来完成。
强大的 Agent 能力,同样是提升 GLM-4 模型使用体验的关键因素之一。在这一次的技术开放日,智谱 AI 正式推出了「GLM-4-All Tools」。
「GLM-4-All Tools」提供了一系列强大的内置工具,让 GLM-4 实现了自主根据用户意图,自动理解、规划复杂指令,自由调用 WebGLM 搜索增强、Code Interpreter 代码解释器和多模态生成能力以完成复杂任务。开发者和用户可以更轻松地使用 GLM-4 模型,不再需要为提示词担心。
在现场,我们也看到了多个功能演示:以文生图为例,GLM-4-All Tools 能够准确地根据上下文语境进行 AI 绘图创作:
面对涉及复杂计算的指令,GLM-4 内嵌了代码解释器,能够自动进行复杂的方程或者微积分求解。对比 GSM8K、Math 以及 Math23K 三个数据集上的结果,GLM-4 取得了与 GPT-4 All Tools 相当的性能。
此外,GLM-4-All Tools 可以自动处理各种任务,包括文件处理、数据分析、图表绘制等,处理的文件类型覆盖我们常用的 Excel、PDF、PPT 等格式。在信息检索方面,All Tools 使得 GLM-4 从早期的检索自动增强升级为目前模型对网页的自动浏览能力。
「GLM 系列模型的全家桶能力,终于实现了 All-In-One。」张鹏总结道。
从全行业的角度来说,GLM-4-All Tools 的意义或许更为突出。基于比肩 GPT-4 的基座大模型能力,这一功能的上线将为应用、行业模型和商业化落地案例开辟出更加广阔的实践空间。
立足智能体开发
携手开发者、社区构筑更繁荣生态
能力水平的高低决定了大模型能否在未来的竞争中生存下去,而围绕大模型构筑起完善的生态链能够助力它们走得更远。二者缺一不可,相互促进。
一直以来,智谱 AI 在推进自家 GLM 系列模型研发时注重能力与生态「并举」,从第一代大模型创建起便在生态建设层面下足功夫, 将广大开发者、用户、开源社区、科研界以及产业链上下游合作伙伴都纳入进来。
在这一次的技术开放日活动中,我们见证了智谱 AI 加速构建 GLM 模型生态的一系列举措。
一项重磅推出是「GLMs」个性化智能体定制能力,为包括无编程基础开发者在内的所有人提供了创建专属智能体的新渠道。
目前,该功能已经上线智谱清言官网。基于 GLM-4 模型的强大基础能力,任何用户都可以使用简单的提示词创建定制化的 GLM 智能体。
智谱清言官网同时上线的 GLM 智能体和智能体中心(用户可以分享自己创建的各种智能体)。
至于效果怎样?张鹏现场让 GLM 智能体「智谱 DevDay」总结了技术开放日上午的议程,从结果来看,内容准确、没有遗漏。
GLMs 定制化智能体可以让任何人使用并充分挖掘 GLM-4 模型的潜力,结合自身所在领域以及专业知识、创意和智慧,自由创建更加多样化的智能体,实现便捷开发,进一步构建开放的大模型社区生态。同时更多人参与其中有助于更大规模地推动大模型及智能体在垂直场景和领域的部署,为应用落地提供了新的方式。
接下来,GLMs 模型应用商店以及开发者分成计划也将同期发布。这些与 GLMs 智能体一道构成了智谱 AI 在扩大开发者生态层面的重要尝试和迈出的关键步伐,让开发者应用大模型的门槛不断降低。
对于模型开源和对开源社区的贡献,智谱 AI 也一直走在国内外前列。智谱 AI 先后开源了中英双语对话大模型 ChatGLM-6B 和 ChatGLM2-6B,全球累计下载量超过了 1000 万,GitHub 星标累计超过 5.4 万。这些开源模型也「开花结果」,开发者已经在其上开发出了 600 多项优秀的大模型应用开源项目。
此次,智谱 AI 为开源社区带来了更多好消息,让我们看到了其围绕开源模型构筑更繁荣开源社区、建立更大模型生态的决心。
智谱 AI 针对开源社区发起了开源开放的大模型开源基金,概括为三个「一千」:
- 为大模型开源社区提供 1000 张卡;
- 提供 1000 万现金支持与大模型相关的开源项目;
- 为优秀的开源开发者提供 1000 亿免费 API tokens。
这些都是智谱 AI 为开发者和开源社区谋得的实打实的实惠,通过奖励为大模型普及、推广和应用做出贡献的开发者组织和个人,充分调动他们的积极性,进一步推动大模型研发,促进整个开源生态的发展。
同时面向科研界,联合中国计算机学会和中国中文信息学会社会媒体处理专委会分别发起了 CCF - 智谱大模型基金和 SMP - 智谱大模型交叉学科基金,围绕预训练大模型理论、算法、模型、应用以及与各领域的交叉创新做「深」文章。
为了助力生态伙伴走好大模型创业的「长征路」,智谱 AI 还面向全球大模型初创团队和小微企业升级了「Z 计划」创业基金,总额 10 亿人民币,覆盖大模型算法、底层算子、芯片优化、行业大模型和超级应用,旨在支持更多大模型原始创新和能力升级。
大模型的研发和应用涉及复杂的产业链条,任重而道远。从上述措施中,我们看到了智谱 AI 对于开发者生态、开源社区和客户的坚定承诺。
正如张鹏所言:「一枝独秀不是春,中国人工智能事业要繁荣、要发展,需要所有的参与者、产业链上下游合作伙伴、开发者社区、学术界一同努力。智谱不仅有意愿,而且有能力为打造繁荣的国产大模型生态贡献自己的力量。」
GLM 系列模型的合作伙伴已达 2000 多家,其中 200 多家参与模型深度共创与共建。
AGI 元年,智谱 AI 开局就要争先
自 ChatGPT 推出以来,我们见证了轰轰烈烈的百模大战、此起彼伏的 AIGC 应用落地以及成为厂商全新角逐点的 AI Agent。要想在每一个阶段都不被落下,则要事事争先、抓住每一次发展时机。
面向即将到来的更激烈的大模型之争,智谱 AI 已经做好了准备。正如此次技术开放日的一系列模型发布和能力升级,其每次都能给出及时的回应:
一方面不断夯实并升级 GLM 基座大模型的能力,并抓住 AI Agent 发展契机形成自己的 GLM 智能体发展体系,将大模型的应用做得更深、更广、更全;另一方面联动开发者、社区、科研界以及客户等各方,无死角地构筑起一个更宏大的模型生态圈层,打造更完整的生态链。
2024 年伊始,智谱 AI 带来了国产大模型带来了好消息,并以此为起点瞄准 AGI 之路。在未来的技术求索和产业应用道路上,智谱 AI 会成为最先赶超 OpenAI 的国内大模型创业力量吗?我们拭目以待。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。