网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI上线Deep Research!人类终极考试远超DeepSeek R1

0
分享至

机器之心报道

机器之心编辑部

一觉醒来,OpenAI 又发新产品了,这次是面向深度研究领域的智能体产品 ——「Deep Research」。

具体来讲,这是一个使用推理来综合大量在线信息并为用户完成多步骤研究任务的智能体,旨在帮助用户进行深入、复杂的信息查询与分析。目前,Pro 用户现已可用,接下来还将开放给 Plus 和 Team 用户使用。

有了这个新的智能体,用户将可以在 ChatGPT 中开启深度研究,在几十分钟内完成人类需要数小时才能完成的工作。

作为 OpenAI 的下一代智能体,Deep Research 可以独立为用户工作。用户给它一个提示,ChatGPT 将查找、分析和综合数百个在线资源,以研究分析师的水平创建一份综合报告。Deep Research 由即将推出的 o3 模型的一个版本提供支持,该模型针对网页浏览和数据分析进行了优化,它利用推理来搜索、解释和分析互联网上的大量文本、图像和 PDF,并根据需要根据遇到的信息做出调整。

OpenAI 表示,综合知识的能力是创造新知识的先决条件。因此,Deep Research 标志着 OpenAI 朝着开发 AGI 的更广泛目标迈出了重要一步。OpenAI 长期以来一直设想 AGI 能够产生新颖的科学研究。

从大家的反应来看,OpenAI 这次的智能体产品切中了用户的需求,甚至有人认为这是迈向智能体 AI 的重要里程碑。

OpenAI 的 Deep Research 通过搜索网络并将知识综合成研究论文,这种自主研究标志着 AI 进入到了自我发现新知识的下一步。

图源:X@tsarnick

构建 Deep Research 的目的

Deep Research 是为那些在金融、科学、政策和工程等领域从事密集知识工作并需要彻底、精确和可靠研究的用户而量身打造的。

同时,Deep Research 对于寻找超个性化推荐的挑剔购物者同样有用,这些推荐通常需要仔细研究才能购买如汽车、家电和家具。每个输出都经过完整记录,并附有清晰的引文和思路摘要,以便于引用和验证信息。同样地,Deep Research 在查找需要浏览大量网站的小众、非直观信息方面也特别有效。

总之,Deep Research 让用户只需一个查询即可加快复杂、耗时的网络研究,从而释放宝贵的时间。

此外,Deep Research 能够独立发现、推理和整合来自网络的见解。为了实现这一点,它接受了需要使用浏览器和 Python 工具的现实任务的训练,使用了 OpenAI 第一个推理模型 o1 背后的相同强化学习方法。虽然 o1 在编码、数学和其他技术领域表现出令人印象深刻的能力,但许多现实世界的挑战需要从各种在线来源收集广泛的背景和信息。Deep Research 利用这些推理能力来弥补这一差距,使其能够解决人们在工作和日常生活中面临的各类问题。

如何使用 Deep research

在 ChatGPT 中,选择「message composer」中的 deep research 并输入查询。告诉 ChatGPT 你需要什么 —— 无论是关于流媒体平台的竞争分析,还是关于最佳通勤的个性化报告都可以。甚至你也可以附加文件或电子表格,为问题添加上下文。一旦开始运行,侧边栏将显示所采取的步骤和使用的来源摘要。

Deep research 可能需要 5 到 30 分钟的时间来完成其工作,因为它需要深入挖掘网络信息。在此期间,用户可以离开或处理其他任务 —— 任务完成后你会收到通知。最终结果将以报告的形式出现在聊天中 —— 在接下来的几周内,OpenAI 还将为这些报告添加嵌入的图像、数据可视化和其他分析输出,以提供更清晰的说明和上下文。

与 deep research 相比,GPT-4o 更适合实时的多模态对话。对于需要深度和细节的各个方面、特定领域的查询,deep research 能够进行广泛的探索并引用每个声明。

下面是一些 GPT-4o 与 deep research 对比。

大海捞针。

询问 GPT-4o:「前段时间我看过一部电视剧。我忘了名字,但我记得其中一集发生了什么。你能帮我找到名字吗?以下是我记得的一集内容:

两个男人玩扑克。一个弃牌,另一个让他下注。弃牌的人实际上手牌很好,但被骗了。第二手牌,同一个人再次弃牌,但这次手牌很糟糕

请深入浏览网页,找到发生此事的电视剧集。」

GPT-4o 回答:「根据您提供的详细信息,您似乎指的是电视剧《仆人》中的一集。这部剧由 Tony Basgallop 创作,M. Night Shyamalan 担任执行制片人,于 2019 年在 Apple TV+ 上首播。故事围绕一对费城夫妇展开,他们在经历了巨大的损失后,雇佣了一名年轻保姆,导致他们家中发生了一系列令人不安的事件……」

询问 deep research 同样的问题,其给出的答案:「您所描述的三个事件都发生在 Starz 系列剧《Counterpart》第一季第四集,标题为 Both Sides Now。在这一集中……」

以下是完整过程:

在上述例子中,deep research 被赋予了一个模糊的查询,即使对人类来说也很难找到答案,因为没有关键词能够轻易揭示查询的答案。deep research 能够以创造性和持久性的方式进行搜索,直到找到一个完全符合条件的结果。

类似的对比还有通用知识(general knowledge)的查询:「NFL 球员的平均退休年龄是多少?」

在这个例子中,deep research 提供了需要考虑的组成部分和因素,而不仅仅是一个数字。它更加全面,提供了清晰的统计背景,使用了支持性的例子,并直接解释了射门员相对于其他位置球员职业生涯较长的原因。这种细节和清晰度使得 deep research 更具信息量,并更直接地回应了那些希望了解 NFL 退休年龄趋势的人的需求。

如何工作

Deep Research 通过端到端的强化学习在多个领域的复杂浏览和推理任务上进行了训练。通过这种训练,它学会了规划和执行多步骤的轨迹,以找到所需的数据,并在必要时回溯和实时响应信息。

Deep Research 还能够浏览用户上传的文件,使用 Python 工具绘制和迭代图表,在生成的图表和从网站获取的图像中嵌入其响应,并引用其来源中的特定句子或段落。得益于这种训练,Deep Research 在多个专注于现实世界问题的公开评估中达到了新的高度。

人类终极考试(Humanity’s Last Exam)

对于最近发布的「人类终极考试」评估,在专家级问题上对广泛学科的人工智能进行了测试,支持 Deep Research 的模型以 26.6% 的准确率创下了新高

这项测试包括 3,000 多个多项选择题和简答题,涵盖了从语言学到火箭科学、古典文学到生态学的 100 多个学科。与 o1 相比,进步最大的是化学、人文和社会科学以及数学。支持 Deep Research 的模型展示了一种类人方法,可以在必要时有效地寻找专业信息。

GAIA 基准测试

在评估人工智能在现实问题上表现的公共基准 GAIA 上,支持 Deep Research 的模型达到了新的 SOTA 水平,位居排行榜榜首。这些任务涵盖三个难度级别的问题,成功完成需要具备推理、多模式流畅性、网页浏览和工具使用熟练等能力。

我们来看一个 GAIA 任务示例:

专家级别的任务

在对各个领域专家级任务进行的内部评估中,领域专家认为Deep Research 可以自动完成数小时的艰难手动调查

以下两图分别为专家级任务的通过率(按估计经济价值计算)以及专家级任务的预计小时数通过率。

专家级别的任务示例如下:

ChatGPT 中的 Deep research 目前对计算资源的需求非常高。research 一个查询所需的时间越长,耗费的推理计算资源就越多。

从现在开始,OpenAI 推出了针对 Pro 用户优化的版本,每月最多可进行 100 次查询。接下来将会向 Plus 和 Team 用户开放,随后是 Enterprise 用户。

目前,Deep research 功能已在 ChatGPT 网页版上线,并将在本月内逐步推广到移动和桌面应用程序。目前,Deep research 可以访问开放的互联网以及任何上传的文件。未来,将能够连接到更多专业的数据源。

现在看来,Deep research 能够进行异步的在线查找,而 Operator 则能够在现实世界中采取行动,两者的结合将使 ChatGPT 能够为用户执行越来越复杂的任务。

不过,值得一提的是,Deep research 目前仍处于早期阶段,并且存在局限性。根据内部评估,它有时会在响应中产生幻觉或做出错误推断,但发生率明显低于现有的 ChatGPT 模型,它可能难以区分权威信息和谣言。在发布之际,Deep research 报告和引文中可能会出现轻微的格式错误,任务可能需要更长时间才能启动。所有这些问题都会随着使用和时间的推移而迅速改善。

博客地址:https://openai.com/index/introducing-deep-research/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

海峡导报社
2026-03-26 15:29:03
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
重庆警方通报“一小区有人高空撒钱”:系涉诈嫌犯抛撒赃款

重庆警方通报“一小区有人高空撒钱”:系涉诈嫌犯抛撒赃款

澎湃新闻
2026-03-26 21:39:03
新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

荷兰豆爱健康
2026-03-26 08:26:08
太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

时间巡查
2026-03-25 04:28:00
深圳一救援队队员遭遇意外去世,年仅40岁,曾参与救援行动10次,累计志愿服务时长750小时

深圳一救援队队员遭遇意外去世,年仅40岁,曾参与救援行动10次,累计志愿服务时长750小时

极目新闻
2026-03-26 22:22:23
泰国U23国脚:中国队是亚洲顶级球队之一,和他们交手很愉快

泰国U23国脚:中国队是亚洲顶级球队之一,和他们交手很愉快

懂球帝
2026-03-26 12:27:11
省长刘捷在台州专题调研开发区高质量发展工作

省长刘捷在台州专题调研开发区高质量发展工作

台州发布
2026-03-26 20:57:28
拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

萌兰聊个球
2026-03-26 13:09:33
为什么建议你多做俯卧撑?6个被低估的好处

为什么建议你多做俯卧撑?6个被低估的好处

增肌减脂
2026-03-25 11:53:14
卢卡库擅自玩消失,孔蒂急了,那不勒斯怒了

卢卡库擅自玩消失,孔蒂急了,那不勒斯怒了

体坛周报
2026-03-26 21:43:12
73岁港姐为李小龙哥哥扫墓,墓前铺满白花,离婚逾30年仍每年拜祭

73岁港姐为李小龙哥哥扫墓,墓前铺满白花,离婚逾30年仍每年拜祭

八斗小先生
2026-03-26 15:02:47
土耳其油轮遭无人机袭击引发剧烈爆炸,载有14万吨原油,曾被多方制裁

土耳其油轮遭无人机袭击引发剧烈爆炸,载有14万吨原油,曾被多方制裁

红星新闻
2026-03-26 17:20:06
想不明白!当年李小冉两次怀上鄢颇的孩子,为何鄢颇仍是不娶她?

想不明白!当年李小冉两次怀上鄢颇的孩子,为何鄢颇仍是不娶她?

春之寞陌
2026-03-19 05:58:30
美国鹰派很不满,叫嚣特朗普对中国还不够狠,拜登派系开始冒头了

美国鹰派很不满,叫嚣特朗普对中国还不够狠,拜登派系开始冒头了

三石记
2026-03-26 20:32:54
伊朗首都德黑兰遭空袭 多地传出爆炸声

伊朗首都德黑兰遭空袭 多地传出爆炸声

财联社
2026-03-26 19:44:11
广东宏远今日早报!杜锋深夜发声,陈家政效仿徐昕,徐杰状态回升

广东宏远今日早报!杜锋深夜发声,陈家政效仿徐昕,徐杰状态回升

多特体育说
2026-03-26 10:17:08
CBA最新排名!三四名竞争激烈,山西浙江连败,5队争夺第12!

CBA最新排名!三四名竞争激烈,山西浙江连败,5队争夺第12!

篮球资讯达人
2026-03-26 22:29:07
1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

明月清风阁
2026-03-25 16:30:09
越打越贵的账单:俄罗斯的“红线”为什么消失了

越打越贵的账单:俄罗斯的“红线”为什么消失了

民间胡扯老哥
2026-03-24 07:16:00
2026-03-26 23:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
家居
旅游
本地
军事航空

这些才是适合春季的穿搭!不沉闷、不单调,大方靓丽又减龄

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版