【翻译】OpenAI Deep Research (2025年2月2日OpenAI发布)

原文:Introducing deep research | OpenAI

引入深度研究

使用推理来综合大量在线信息并为您完成多步骤研究任务的代理。今天适用于 Pro 用户,接下来是 Plus 和 Team. 

今天,我们将在 ChatGPT 中启动深度研究,这是一种新的代理功能,可以在互联网上针对复杂任务进行多步骤研究。它只需数十分钟就能完成人类需要数小时才能完成的工作。

深度研究是 OpenAI 的下一个代理,它可以独立为您工作 - 您给它一个提示,ChatGPT 将查找、分析和综合数百个在线资源,以研究分析师的水平创建一份综合报告。它由即将推出的 OpenAI o3 模型的一个版本提供支持,该模型针对网页浏览和数据分析进行了优化,它利用推理来搜索、解释和分析互联网上的大量文本、图像和 PDF,并根据需要根据遇到的信息做出调整。

综合知识的能力是创造新知识的先决条件。因此,深度研究标志着我们朝着开发 AGI 的更广泛目标迈出了重要一步,我们长期以来一直设想 AGI 能够产生新颖的科学研究。

我们建立深度研究的原因

深度研究是为那些在金融、科学、政策和工程等领域从事密集知识工作并需要彻底、精确和可靠研究的人而建立的。它对于寻找超个性化推荐的挑剔购物者同样有用,这些推荐通常需要仔细研究才能购买,例如汽车、家电和家具。每个输出都经过完整记录,并附有清晰的引文和思路摘要,便于引用和验证信息。它在查找需要浏览大量网站的小众、非直观信息方面特别有效。深度研究让您只需一个查询即可卸载和加快复杂、耗时的网络研究,从而释放宝贵的时间。

深度研究独立发现、推理和整合来自整个网络的见解。为了实现这一点,它接受了需要使用浏览器和 Python 工具的现实任务的训练,使用了我们的第一个推理模型 OpenAI o1 背后的相同强化学习方法。虽然 o1 在编码、数学和其他技术领域展现出了令人印象深刻的能力,但许多现实世界的挑战需要从各种在线来源收集广泛的背景和信息。深度研究建立在这些推理能力之上,以弥合这一差距,使其能够解决人们在工作和日常生活中面临的各种问题。

如何使用深度研究

在 ChatGPT 中,在消息编辑器中选择“deep research”并输入您的查询。告诉 ChatGPT 您需要什么——无论是流媒体平台的竞争分析,还是最佳通勤自行车的个性化报告。您可以附加文件或电子表格来为您的问题添加背景。一旦它开始运行,就会出现一个侧边栏,其中包含已采取的步骤和使用的来源的摘要。

深度研究可能需要 5 到 30 分钟才能完成工作,需要花时间深入研究网络。在此期间,您可以离开或处理其他任务——研究完成后您会收到通知。最终输出结果以报告的形式出现在聊天中——在接下来的几周内,我们还将在这些报告中添加嵌入式图像、数据可视化和其他分析输出,以提供更多清晰度和背景信息。

与深度研究相比,GPT-4o 非常适合实时、多模式对话。对于深度和细节至关重要的多方面、特定领域的调查,深度研究进行广泛探索和引用每项主张的能力是快速摘要与可用作工作产品的有据可查、经过验证的答案之间的区别。

工作原理

深度研究使用端到端强化学习在一系列领域的硬浏览和推理任务上进行训练。通过这种训练,它学会了规划和执行多步骤轨迹以找到所需的数据,并在必要时回溯并对实时信息做出反应。该模型还能够浏览用户上传的文件,使用 Python 工具绘制和迭代图表,在其响应中嵌入生成的图表和网站图像,并引用其来源中的特定句子或段落。经过这种训练,它在一系列针对现实问题的公开评估中达到了新高。

人类的最后考试

在最近发布的评估“人类的最后考试”中,该模型在专家级问题上测试了广泛学科的人工智能,为深度研究提供支持的模型以 26.6% 的准确率创下了新高。该测试包括 3,000 多道多项选择题和简答题,涵盖语言学到火箭科学、古典文学到生态学等 100 多个学科。与 OpenAI o1 相比,进步最大的学科是化学、人文和社会科学以及数学。支持深度研究的模型展示了一种类似人类的方法,可以在必要时有效地寻找专业信息。

GAIA

在 GAIA⁠上,这是一个评估人工智能在现实世界中问题的公共基准,支持深度研究的模型达到了新的最先进水平 (SOTA),位居外部排行榜⁠榜首。这些任务涵盖三个难度级别的问题,成功完成这些任务需要具备推理、多模式流畅性、网页浏览和工具使用熟练等能力。

专家级任务

在对各个领域的专家级任务进行的内部评估中,领域专家认为深度研究可以自动完成数小时的艰难手动调查。

局限性

深度研究释放了重要的新功能,但它仍处于早期阶段,并且存在局限性。根据内部评估,它有时会在响应中产生幻觉或做出错误的推断,但发生率明显低于现有的 ChatGPT 模型。它可能难以区分权威信息和谣言,目前在信心校准方面表现出弱点,往往无法准确传达不确定性。在发布时,报告和引文中可能会出现轻微的格式错误,任务可能需要更长时间才能启动。我们预计所有这些问题都会随着使用量的增加和时间的增加而迅速改善。

访问

ChatGPT 中的深度研究目前非常耗费计算资源。研究查询所需的时间越长,所需的推理计算就越多。我们今天开始使用针对 Pro 用户优化的版本,每月最多可进行 100 次查询。Plus 和 Team 用户接下来将获得访问权限,然后是 Enterprise。我们仍在努力为英国、瑞士和欧洲经济区的用户提供访问权限。

当我们发布更快、更具成本效益的深度研究版本时,所有付费用户将很快获得更高的速率限制,该版本由更小的模型驱动,但仍能提供高质量的结果。

在接下来的几周和几个月里,我们将致力于技术基础设施,密切关注当前版本,并进行更严格的测试。这符合我们的迭代部署原则。如果所有安全检查继续符合我们的发布标准,我们预计将在大约一个月内向 Plus 用户发布深度研究。

下一步是什么

深度研究现已在 ChatGPT 网络上提供,并将在一个月内推广到移动和桌面应用程序。目前,深度研究可以访问开放网络和任何上传的文件。将来,您将能够连接到更专业的数据源——扩大其对基于订阅或内部资源的访问——以使其输出更加强大和个性化。

展望未来,我们设想在 ChatGPT 中汇集代理体验,以实现异步、现实世界的研究和执行。可以进行异步在线调查的深度研究与可以采取真实世界行动的 Operator 的结合,将使 ChatGPT 能够为您执行日益复杂的任务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值