OpenAI Deep Research重磅上线!付费用户抢先体验!

1.Deep Research 正式向所有付费用户开放!

OpenAI 宣布——Deep Research 正式向所有 ChatGPT Plus、Team、Edu 和 Enterprise 用户开放!OpenAI 还发布了 Deep Research 系统卡,为用户揭开其背后的强大技术与安全保障。

图片

OpenAI 研究科学家 Noam Brown 在 𝕏 上透露了一个关键信息:Deep Research 使用的是 o3 正式版,而非 o3-mini。

Deep Research 是 OpenAI 本月初推出的强大智能体,它能够通过推理综合大量在线信息,为用户完成复杂的多步骤研究任务,助力用户进行深入、复杂的信息查询与分析。其能力之强,甚至在人类终极考试中远超 DeepSeek R1。

在过去的二十几天里,OpenAI 持续对 Deep Research 进行升级,进一步优化其性能。此次发布的系统卡报告详细介绍了 Deep Research 在发布前开展的安全工作,包括外部红队测试、基于准备度框架的风险评估,以及针对关键风险领域采取的缓解措施。

图片

2.核心数据与训练机制

Deep Research 的训练数据并不普通,而是为研究用例量身打造的浏览数据集。

图片


它掌握了核心的浏览功能——搜索、单击、滚动、解读文件,能在沙盒环境中熟练运用 Python 工具,执行计算、进行数据分析、绘制图表。通过强化学习训练,它能够推理和综合海量网站信息,无论是查找特定内容还是撰写综合报告,都能应对。


其训练数据集涵盖广泛任务,从有明确 ground truth 答案的客观自动评分任务,到更具开放性的评分标准任务,一应俱全。

图片


Deep Research 的训练还引入了 OpenAI o1 的现有安全数据集,以及为它量身定制的全新浏览安全数据集。

3.风险排查与应对

外部红队测试

OpenAI 联合外部红队,针对 Deep Research 的关键风险展开深度评估。红队聚焦于隐私保护、不当内容、危险建议等高风险领域,同时测试模型对提示注入和越狱的防御能力。他们通过角色扮演、黑客语言、莫尔斯电码等手段,试图突破模型防线,最终将 Deep Research 的表现与前代模型对比,验证其安全性。

图片

评估方法
Deep Research 的能力大幅提升,能够整合多源信息并提出新见解。为此,OpenAI 调整评估方法,针对复杂答案进行精准评判。评估涵盖隐私保护、内容安全等新领域,并通过自定义测试框架,全面衡量模型能力。Deep Research 还引入 o3-mini 模型辅助思维链总结,进一步优化性能。

安全挑战与缓解措施
风险评估结果显示,Deep Research 的安全表现优异。具体挑战及缓解措施详见原报告。

图片

4.Grok 3来袭,AI竞争战火升级!

就在上周,马斯克高调发布“地球上最聪明的 AI”——Grok 3。相比之下,OpenAI 的产品只能搜索网页,而 Grok 3 却能直接接入社交媒体 X 的实时数据!

图片

目前,Grok 3 还处于免费试用阶段,xAI 宣布会一直持续到“系统崩溃”为止。所以在OpenAI的评论区中,不少用户表示等Grok的功能上齐了就取消OpenAI的订阅,转到“马斯克门下”。

然而,OpenAI 面临的对手可不止 Grok 3。黄仁勋力挺的 AI 搜索工具 Perplexity 也在 2 月 14 日发布了 Deep Research 功能,在“人类终极考试”中,其准确率高达 21.1%,与 o3 的差距微乎其微。

图片

5.Microsoft Azure OpenAI服务现推出o3模型

Azure OpenAI 里面已上架o3-mini,现在可在Playground 预览。

图片

o3-mini 引入了几个增强 Al 推理和定制的关键功能:

推理力度参数:允许用户以低、中、高推理水平调整模型的认知负荷,从而更好地控制响应和延迟。 

结构化输出:该模型现在支持 JSON Schema 约束,从而更容易为自动化工作流程生成定义明确的结构化输出。

功能和工具支持:与之前的型号一样,o3-mini与功能和外部工具无缝集成,使其成为 AI 自动化的理想选择。


开发人员消息:“角色":“开发人员”属性取代了以前型号中的系统消息,提供更灵活、更结构化的指令处理。


系统消息兼容性:Azure OpenAl服务将日系统消息映射到开发人员消息以确保无缝的向后兼容性。


继续增强编码、数学和科学推理能力:o3-mini 进一步增强了其编码、数学和科学推理能力,确保在这些关键领域的高性能。


通过速度、控制和成本效率的改进,o3-mini针对企业 AI 解决方案进行了优化,使企业能够有效扩展其 AI 应用程序,同时保持精度和可靠性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值