LLMs之GPT-5:OpenAI 发布更智能、更快速、更有用的 AI 模型—内置思考能力,赋能人人专家级智能—技术突破、性能评估与安全保障全面解读
导读:2025年8月7日,OpenAI 发布了 GPT-5,这是他们目前最智能的 AI 系统。它在编码、数学、写作、健康、视觉感知等领域都表现出最先进的性能。
>> 功能特点:GPT-5 是一个统一的系统,可以判断何时快速响应,何时进行更长时间的思考,以提供专家级的响应。它还具有动态推理能力,能够对复杂的任务做出专家级的回应。
>> 编码能力:GPT-5 是 OpenAI 迄今为止最强大的编码模型。它在复杂的前端生成和调试大型代码库方面表现出特别的改进。它能够直观地将想法转化为现实,创造出美观且响应迅速的网站、应用程序和游戏。
>> 统一系统:GPT-5 是一个统一的系统,它具有一个智能高效的模型来回答大多数问题,一个更深入的推理模型(GPT-5 thinking)来解决更难的问题,以及一个实时路由器,可以根据对话类型、复杂性、工具需求和用户的明确意图快速决定使用哪个模型。
>> 评估:GPT-5 在学术和人工评估的基准测试中表现更智能,尤其是在数学、编码、视觉感知和健康方面。
>> 开发者:GPT-5 在 API 平台中发布,是用于编码和代理任务的最佳模型。它在关键编码基准测试中处于领先地位。
总之,GPT-5 是 OpenAI 最新发布的旗舰模型,代表了 AI 技术的重大进步。它在智能、速度和实用性方面都实现了显著提升,并在多个领域都表现出卓越的性能。GPT-5 的统一系统架构、动态推理能力和多模态处理能力使其能够胜任各种复杂的任务。OpenAI 在构建更强大、更可靠、更有帮助的模型方面也做出了巨大努力,包括提高准确性、诚实性和安全性。GPT-5 的发布将极大地推动 AI 技术的发展和应用,为各行各业带来新的机遇。
想象一下:一个能帮你写代码、拟情书、诊疾病,甚至用「午夜巴黎」的梗教你学法语的全能AI伙伴,如今免费向全人类开放——这不是科幻电影,而是OpenAI刚刚引爆的GPT-5!
发布会仅20分钟,科技圈集体高呼「AI登月时刻」;马斯克火速嘲讽微软又秒删帖;患者现身讲述GPT-5如何救命……这场面,比硅谷连续剧更抓马。
告别「人工智障」,迎接「博士级智能」,人类与AI的共生纪元,从此刻正式开机!
博主观点:GPT-5最可怕的不是技术,而是让人类意识到——我们发明的不是工具,而是文明进程的「加速器」。至于它是潘多拉魔盒还是阿拉丁神灯?答案掌握在我们人类手中。
目录
OpenAI 发布更智能、更快速、更有用的 AI 模型—内置思考能力,赋能人人专家级智能—技术突破、性能评估与安全保障全面解读
3、A smarter, more widely useful model (更智能、更广泛适用的模型)
5、Creative expression and writing (创意表达与写作)
10、Economically important tasks (具有经济价值的任务)
11、Faster, more efficient thinking (更快、更高效的思考)
12、Building a more robust, reliable, and helpful model (构建更强大、更可靠、更有帮助的模型)
13、More ways to customize ChatGPT (更多定制 ChatGPT 的方式)
14、Comprehensive safeguards for biological risk (生物风险的全面保障)
16、How to use GPT-5 (如何使用 GPT-5)
17、Availability and access (可用性和访问)
OpenAI 发布更智能、更快速、更有用的 AI 模型—内置思考能力,赋能人人专家级智能—技术突破、性能评估与安全保障全面解读
GPT-5十大颠覆性特点
-
「融合超脑」智能调度:不再需要手动切换模型!GPT-5内置实时路由模块,自动判断何时开启「深度思考模式」,像雇佣了一位AI管家。
-
当它思考时,你能偷看它的「脑回路」——比如生成400行代码时,全程围观它如何从伯努利方程推导到飞机设计。
-
-
史诗级「反幻觉」战士:准确性飙升到新高度,OpenAI豪言:「告别模型幻觉,从GPT-5开始」。
-
硬核案例:癌症患者用它解读病理报告,其丈夫惊叹:「它完全理解问题背后的问题!」
-
-
编程界的「灭霸」:现场5分钟造出法语学习APP「午夜巴黎」,还能把贪吃蛇改成「老鼠偷奶酪」单词游戏。
-
开发者狂喜:API支持「Vibe Coding」——给堆数据,5分钟生成财务仪表盘(原需数小时)。
-
-
文豪附体+声优变身:写作碾压GPT-4.5:给旧模型写「悼词」时,GPT-4o只会说套话,GPT-5却写出:「你们帮人类跨越语言障碍,让邮件不再冰冷。」
-
语音模式支持英语韩语无缝切换,可调速至「树懒语速」或「rapper语速」。
-
-
AI版「微信」入侵生活:自定义聊天框颜色+记忆长期对话+直连谷歌邮箱日历,帮你回邮件、记纪念日,网友调侃:「ChatGPT正在偷偷取代我的女朋友。」
-
教育界「降维打击」:免费用户可连续聊天数小时,Plus近乎无限——配合学习功能,家教机构瑟瑟发抖。
-
医疗领域「隐形专家」:不仅解读癌症报告,还能提供治疗方案建议(现场患者亲证)。
-
三档API「全家桶」:
GPT-5
(顶配)、GPT-5 mini
(性价比)、GPT-5 nano
(轻量级),价格最低$0.05/百万token。 -
安全新范式「Safe Completions」:问「如何点燃氢气」?旧模型直接拒绝,GPT-5却分析语境后回答:「需先获得安全许可。」
-
彩蛋:硅谷巨头的「相爱相杀」:微软CEO纳德拉发文祝贺,马斯克秒嘲讽:「人类测试还是Grok4赢!」(随后删帖)
-
网友神补刀:「马斯克注册『巨硬』商标,是要和OpenAI上演《硅谷复仇者联盟》?」
-
模型评估:屠榜狂魔的硬核战绩
测试项目 | GPT-5战绩 | 碾压对象 |
---|---|---|
AIME 2025 | 推理模式+工具调用→满分 | 所有前任模型 |
编程能力 | 超越Claude-opus-4.1 0.4% | 登顶新王 |
大模型竞技场 | 文本/编程/数学/创造等全维度第一 | Gemini-2.5-pro、Grok4 |
长上下文任务 | 断崖式领先(演示中处理超复杂推导) | 竞品平均落后20%+ |
各方评价:掌声与「蛐蛐」齐飞
-
OpenAI:「智能发布时代已来,未来超越『训练+微调』范式!」(暗示更恐怖的在路上)
-
用户:「医疗案例震撼,但测试图表纵坐标疑似『小心机』——52看着比69大?(狗头)」
-
马斯克:「人类测试Grok4 Heavy更强!」(网友:删帖是怕被告?)
-
开发者:「Cursor里5分钟搞定3D城堡游戏——这哪是coding?分明是许愿!」
博主观点:AI已从「工具」蜕变为「共生体」
-
「免费博士」掀认知革命:当GPT-5向全民开放博士级智能,知识鸿沟将被极速填平——教育的本质可能被重构。
脑洞场景:未来孩子可能带着GPT-5参加考试,监考老师该如何定义「作弊」?
-
医疗AI的「伦理炸弹」:它能提供治疗方案,但若出错谁负责?法规跑不过技术的困境已摆在眼前。
-
巨头的「冰与火之歌」:马斯克的「巨硬」vs 微软的「OpenAI依赖症」——AI竞赛正式进入「帝国争霸」阶段。
《Introducing GPT-5》
官网文章:https://openai.com/index/introducing-gpt-5/
1、GPT-5 介绍
介绍 OpenAI 最新发布的 GPT-5 模型,强调其在智能、速度和实用性方面的显著提升,以及内置的思考能力。
- GPT-5 是 OpenAI 目前为止最优秀的 AI 系统,在智能方面实现了重大飞跃。
- GPT-5 在编码、数学、写作、健康、视觉感知等领域均表现出最先进的性能。
- GPT-5 是一个统一的系统,能够根据任务的复杂程度智能选择合适的处理方式,提供专家级的响应。
- GPT-5 面向所有用户开放,Plus 用户享有更多使用量,Pro 用户可以访问具备扩展推理能力的 GPT-5 Pro 版本。
经验建议:
- GPT-5 适用于需要高度智能和专业知识的任务。
- Plus 用户可以将其作为日常使用的默认模型,Pro 用户则可以利用 GPT-5 Pro 处理更复杂的任务。
- 在 prompt 中使用 "think hard about this" 等提示语,可以确保模型使用推理能力。
2、One unified system (统一的系统)
介绍 GPT-5 的统一系统架构,包括智能高效的模型、深度推理模型(GPT-5 thinking)和实时路由机制。
- GPT-5 采用统一系统架构,包含一个智能高效的模型,一个更深入的推理模型(GPT-5 thinking),以及一个实时路由器。
- 实时路由器能够根据对话类型、复杂性、工具需求和用户意图,快速选择最佳的处理模型。
- 路由器通过实际信号(如用户切换模型、响应偏好率和正确性)进行持续训练,不断提升性能。
- 当使用量达到上限时,会启用每个模型的迷你版本来处理剩余查询。
- OpenAI 计划在不久的将来将这些能力整合到一个单一模型中。
经验建议:
- 在与 GPT-5 交互时,可以通过明确的指令引导模型选择合适的处理模式。
- 对于需要高度推理的任务,可以使用 "think hard about this" 等提示语,以触发 GPT-5 的深度推理模式。
- 关注 OpenAI 的后续更新,以便及时了解模型整合的进展。
3、A smarter, more widely useful model (更智能、更广泛适用的模型)
本节强调了 GPT-5 在基准测试和实际应用中的优势,包括减少幻觉、改进指令遵循和最小化谄媚行为。
- GPT-5 不仅在基准测试中超越了之前的模型,而且在回答问题的速度方面也更快。
- GPT-5 在减少幻觉、改进指令遵循和最小化谄媚行为方面取得了显著进展。
- GPT-5 在写作、编码和健康三个 ChatGPT 最常见的应用领域中,性能得到了全面提升。
经验建议:
- GPT-5 在处理真实世界的查询时更加可靠,可以放心地应用于各种实际场景。
- 在与 GPT-5 交互时,可以更加信任其提供的答案,并减少对错误信息的担忧。
4、Coding (编码)
本章节重点介绍了 GPT-5 在编码领域的突破性进展,包括复杂前端生成和调试大型代码库方面的改进。
- GPT-5 是 OpenAI 迄今为止最强大的编码模型,能够直观地将想法转化为现实。
- GPT-5 在复杂前端生成和调试大型代码库方面表现出显著的改进。
- GPT-5 能够根据用户需求,快速生成美观且响应迅速的网站、应用程序和游戏。
- GPT-5 在设计选择方面表现出色,对间距、排版和留白等概念有更好的理解。
经验建议:
- GPT-5 适用于各种编码任务,包括代码生成、错误修复和代码审查。
- 可以利用 GPT-5 快速构建原型,加速软件开发流程。
- 通过一个 prompt 就能让 GPT-5 创建游戏或者应用,比如:滚球小游戏、像素画、打字游戏、鼓模拟器、Lofi 可视化工具。
5、Creative expression and writing (创意表达与写作)
本章节介绍了 GPT-5 在创意表达和写作方面的能力,能够帮助用户将粗略的想法转化为引人入胜、富有文采的作品。
- GPT-5 是 OpenAI 最强大的写作助手,能够更可靠地处理结构含糊的写作任务。
- GPT-5 能够更好地处理无韵抑扬格五步诗或自由诗等形式,兼顾形式的尊重和表达的清晰。
- GPT-5 的写作能力提升意味着 ChatGPT 在起草和编辑报告、电子邮件、备忘录等日常任务中表现更出色。
经验建议:
- GPT-5 适用于各种写作任务,包括创意写作、内容生成和文本编辑。
- 可以利用 GPT-5 激发创作灵感,提升写作效率和质量。
6、Health (健康)
本章节介绍了 GPT-5 在健康领域的应用,能够为用户提供更准确、更可靠的健康信息和建议。
- GPT-5 是 OpenAI 在健康相关问题方面表现最佳的模型,在 HealthBench 基准测试中得分显著高于之前的模型。
- GPT-5 能够更主动地提出潜在问题并提出问题,从而提供更有帮助的答案。
- GPT-5 能够适应用户的背景、知识水平和地理位置,提供更安全、更有帮助的响应。
- ChatGPT 不能取代医疗专业人员,而是作为一种辅助工具,帮助用户理解结果、提出正确的问题并权衡选择。
经验建议:
- GPT-5 适用于各种健康相关问题,包括疾病咨询、健康管理和医学研究。
- 在使用 GPT-5 获取健康信息时,应注意结合自身情况进行判断,并咨询专业医疗人员的意见。
7、Evaluations (评估)
本章节通过一系列学术和人工评估基准测试,展示了 GPT-5 在数学、编码、视觉感知和健康等领域的卓越性能。
- GPT-5 在 AIME 2025(无需工具)、SWE-bench Verified、Aider Polyglot、MMMU 和 HealthBench Hard 等基准测试中均创下新纪录。
- GPT-5 Pro 凭借其扩展推理能力,在 GPQA 基准测试中也取得了新的 SOTA。
- GPT-5 在指令遵循和代理工具使用方面也取得了显著进展。
经验建议:
可以参考这些评估结果,了解 GPT-5 在不同领域的优势和局限性。
在选择使用 GPT-5 时,可以根据任务的具体需求,选择合适的模型版本和工具配置。
8、Multimodal (多模态)
本章节介绍了 GPT-5 在多模态任务中的表现,包括视觉、视频、空间和科学推理。
- GPT-5 在一系列多模态基准测试中表现出色,能够更准确地处理图像和其他非文本输入。
- GPT-5 能够解释图表、总结演示文稿的照片或回答有关图表的提问。
- 经验建议:
- GPT-5 适用于各种多模态任务,包括图像识别、视频分析和科学数据处理。
- 可以利用 GPT-5 处理复杂的视觉信息,提升工作效率和决策质量。
9、Health (健康)
本章节更深入地探讨了 GPT-5 在健康领域的应用,包括在 HealthBench 基准测试中的表现以及幻觉率的降低。
- GPT-5 在 HealthBench 基准测试中取得了显著进展,但在具有挑战性的对话中仍存在一定的幻觉率。
- OpenAI 致力于降低 GPT-5 在健康领域的幻觉率,以提供更准确、更可靠的健康信息。
经验建议:
- 在使用 GPT-5 获取健康信息时,应注意辨别信息的真伪,并咨询专业医疗人员的意见。
- 关注 OpenAI 在降低幻觉率方面的进展,以便及时了解模型的改进情况。
10、Economically important tasks (具有经济价值的任务)
本章节介绍了 GPT-5 在内部基准测试中,在复杂的、具有经济价值的知识工作中的表现。
- 在使用推理的情况下,GPT-5 在大约一半的情况下与专家相当或更好,并且在法律、物流、销售和工程等超过 40 个职业的任务中,胜过 o3 和 ChatGPT Agent。
经验建议:
- GPT-5 适用于各种具有经济价值的任务,可以提高工作效率和决策质量。
11、Faster, more efficient thinking (更快、更高效的思考)
本章节强调了 GPT-5 在思考效率方面的提升,能够在更短的时间内获得更有价值的结果。
- GPT-5 能够以更少的输出 tokens 实现更好的性能,包括视觉推理、代理编码和研究生级别的科学问题解决。
经验建议:
- 在与 GPT-5 交互时,可以尝试不同的思考模式,以找到最适合任务需求的解决方案。
12、Building a more robust, reliable, and helpful model (构建更强大、更可靠、更有帮助的模型)
本章节介绍了 OpenAI 在构建更强大、更可靠、更有帮助的模型方面所做的努力,包括提高准确性、诚实性和安全性。
- GPT-5 的幻觉率显著低于之前的模型,尤其是在启用网络搜索和使用推理的情况下。
- GPT-5 能够更诚实地传达其行为和能力,尤其是在处理不可能完成的任务时。
- GPT-5 采用了新的安全训练方法,能够更好地处理双重用途问题,并减少不必要的过度拒绝。
经验建议:
- 在使用 GPT-5 时,可以更加信任其提供的答案,并减少对错误信息的担忧。
- 在使用 GPT-5 处理敏感信息时,应注意遵守相关法律法规和伦理规范。
13、More ways to customize ChatGPT (更多定制 ChatGPT 的方式)
本章节介绍了 OpenAI 在定制 ChatGPT 方面所做的努力,包括改进指令遵循和推出预设人格。
- GPT-5 在指令遵循方面表现更出色,能够更好地理解和执行用户的指令。
- OpenAI 推出了四种新的预设人格,允许用户自定义 ChatGPT 的交互方式。
经验建议:
- 可以根据自己的需求,选择合适的预设人格,以获得更个性化的交互体验。
14、Comprehensive safeguards for biological risk (生物风险的全面保障)
本章节介绍了 OpenAI 在生物风险方面采取的全面保障措施,以确保 GPT-5 的安全使用。
- OpenAI 将 "GPT-5 thinking" 模型视为生物和化学领域的高能力模型,并实施了强有力的保障措施。
- OpenAI 与 CAISI 和 UK AISI 等合作伙伴进行了 5000 小时的红队测试。
- OpenAI 采用了多层防御系统,包括全面的威胁建模、安全完成范式、持续分类器和推理监视器,以及明确的执行管道。
经验建议:
- 在使用 GPT-5 处理生物相关信息时,应注意遵守相关法律法规和伦理规范。
- 关注 OpenAI 在生物风险方面的最新进展,以便及时了解模型的安全性能。
15、GPT-5 pro
本章节介绍了 GPT-5 Pro,它是 GPT-5 的一个变体,可以进行更长时间的思考,从而提供最高质量和最全面的答案。
- GPT-5 Pro 在几个具有挑战性的智能基准测试中实现了 GPT-5 系列的最高性能,包括在 GPQA 上的最先进性能。
- 外部专家在超过 1000 个具有经济价值的真实推理提示的评估中,67.8% 的时间更喜欢 GPT-5 Pro 而不是 "GPT-5 thinking"。
- GPT-5 Pro 的重大错误减少了 22%,并且在健康、科学、数学和编码方面表现出色。
经验建议:
- GPT-5 Pro 适用于需要高度专业知识和深入分析的任务。
- 在处理复杂的科学问题时,可以优先选择 GPT-5 Pro。
16、How to use GPT-5 (如何使用 GPT-5)
本章节介绍了如何使用 GPT-5,包括在 ChatGPT 中使用以及通过 Codex CLI 进行编码。
核心要点:
- GPT-5 是 ChatGPT 中的新默认模型,取代了之前的模型。
- 用户只需打开 ChatGPT 并输入问题,GPT-5 会自动处理,并在需要时应用推理。
- 付费用户仍然可以选择 "GPT-5 Thinking",或在提示中输入 "think hard about this" 等提示语,以确保使用推理。
经验建议:
- 可以通过不同的方式与 GPT-5 交互,以找到最适合自己的使用方式。
- 可以尝试不同的提示语,以探索 GPT-5 的各种功能和潜力。
17、Availability and access (可用性和访问)
本章节介绍了 GPT-5 的可用性和访问方式,包括面向不同用户的访问权限和使用限制。
- GPT-5 今天开始向所有 Plus、Pro、Team 和 Free 用户推出,Enterprise 和 Edu 用户的访问权限将在一周后开放。
- Pro、Plus 和 Team 用户还可以通过使用 ChatGPT 登录 Codex CLI 来开始使用 GPT-5 进行编码。
- 免费和付费访问 GPT-5 的区别在于使用量。
- Pro 订阅者可以无限制地访问 GPT-5,并访问 GPT-5 Pro。
- Plus 用户可以舒适地将其用作日常问题的默认模型,使用量明显高于免费用户。
- Team、Enterprise 和 Edu 客户也可以舒适地将 GPT-5 用作日常工作的默认模型,并具有慷慨的限制,使整个组织可以轻松地依赖 GPT-5。
- 对于 ChatGPT 免费用户,完整的推理功能可能需要几天才能完全推出。
- 一旦免费用户达到 GPT-5 的使用限制,他们将过渡到 GPT-5 mini,这是一个更小、更快且功能强大的模型。
经验建议:
- 根据自己的需求,选择合适的订阅计划,以获得最佳的使用体验。
- 关注 OpenAI 的最新公告,以便及时了解 GPT-5 的最新进展和可用性信息。