网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI上线Deep Research!人类终极考试远超DeepSeek R1

0
分享至

内容来自:机器之心

一觉醒来,OpenAI 又发新产品了,这次是面向深度研究领域的智能体产品 ——「Deep Research」。

具体来讲,这是一个使用推理来综合大量在线信息并为用户完成多步骤研究任务的智能体,旨在帮助用户进行深入、复杂的信息查询与分析。目前,Pro 用户现已可用,接下来还将开放给 Plus 和 Team 用户使用。

有了这个新的智能体,用户将可以在 ChatGPT 中开启深度研究,在几十分钟内完成人类需要数小时才能完成的工作。

作为 OpenAI 的下一代智能体,Deep Research 可以独立为用户工作。用户给它一个提示,ChatGPT 将查找、分析和综合数百个在线资源,以研究分析师的水平创建一份综合报告。Deep Research 由即将推出的 o3 模型的一个版本提供支持,该模型针对网页浏览和数据分析进行了优化,它利用推理来搜索、解释和分析互联网上的大量文本、图像和 PDF,并根据需要根据遇到的信息做出调整。

OpenAI 表示,综合知识的能力是创造新知识的先决条件。因此,Deep Research 标志着 OpenAI 朝着开发 AGI 的更广泛目标迈出了重要一步。OpenAI 长期以来一直设想 AGI 能够产生新颖的科学研究。

从大家的反应来看,OpenAI 这次的智能体产品切中了用户的需求,甚至有人认为这是迈向智能体 AI 的重要里程碑。

OpenAI 的 Deep Research 通过搜索网络并将知识综合成研究论文,这种自主研究标志着 AI 进入到了自我发现新知识的下一步。

图源:X@tsarnick

构建 Deep Research 的目的

Deep Research 是为那些在金融、科学、政策和工程等领域从事密集知识工作并需要彻底、精确和可靠研究的用户而量身打造的。

同时,Deep Research 对于寻找超个性化推荐的挑剔购物者同样有用,这些推荐通常需要仔细研究才能购买如汽车、家电和家具。每个输出都经过完整记录,并附有清晰的引文和思路摘要,以便于引用和验证信息。同样地,Deep Research 在查找需要浏览大量网站的小众、非直观信息方面也特别有效。

总之,Deep Research 让用户只需一个查询即可加快复杂、耗时的网络研究,从而释放宝贵的时间。

此外,Deep Research 能够独立发现、推理和整合来自网络的见解。为了实现这一点,它接受了需要使用浏览器和 Python 工具的现实任务的训练,使用了 OpenAI 第一个推理模型 o1 背后的相同强化学习方法。虽然 o1 在编码、数学和其他技术领域表现出令人印象深刻的能力,但许多现实世界的挑战需要从各种在线来源收集广泛的背景和信息。Deep Research 利用这些推理能力来弥补这一差距,使其 能够解决人们在工作和日常生活中面临的各类问题。

如何使用 Deep research

在 ChatGPT 中,选择「message composer」中的 deep research 并输入查询。告诉 ChatGPT 你需要什么 —— 无论是关于流媒体平台的竞争分析,还是关于最佳通勤的个性化报告都可以。甚至你也可以附加文件或电子表格,为问题添加上下文。一旦开始运行,侧边栏将显示所采取的步骤和使用的来源摘要。

Deep research 可能需要 5 到 30 分钟的时间来完成其工作,因为它需要深入挖掘网络信息。在此期间,用户可以离开或处理其他任务 —— 任务完成后你会收到通知。最终结果将以报告的形式出现在聊天中 —— 在接下来的几周内,OpenAI 还将为这些报告添加嵌入的图像、数据可视化和其他分析输出,以提供更清晰的说明和上下文。

与 deep research 相比,GPT-4o 更适合实时的多模态对话。对于需要深度和细节的各个方面、特定领域的查询,deep research 能够进行广泛的探索并引用每个声明。

下面是一些 GPT-4o 与 deep research 对比。

大海捞针。

询问 GPT-4o:「前段时间我看过一部电视剧。我忘了名字,但我记得其中一集发生了什么。你能帮我找到名字吗?以下是我记得的一集内容:

两个男人玩扑克。一个弃牌,另一个让他下注。弃牌的人实际上手牌很好,但被骗了。第二手牌,同一个人再次弃牌,但这次手牌很糟糕

请深入浏览网页,找到发生此事的电视剧集。」

GPT-4o 回答:「根据您提供的详细信息,您似乎指的是电视剧《仆人》中的一集。这部剧由 Tony Basgallop 创作,M. Night Shyamalan 担任执行制片人,于 2019 年在 Apple TV+ 上首播。故事围绕一对费城夫妇展开,他们在经历了巨大的损失后,雇佣了一名年轻保姆,导致他们家中发生了一系列令人不安的事件……」

询问 deep research 同样的问题,其给出的答案:「您所描述的三个事件都发生在 Starz 系列剧《Counterpart》第一季第四集,标题为 Both Sides Now。在这一集中……」

以下是完整过程:

在上述例子中,deep research 被赋予了一个模糊的查询,即使对人类来说也很难找到答案,因为没有关键词能够轻易揭示查询的答案。deep research 能够以创造性和持久性的方式进行搜索,直到找到一个完全符合条件的结果。

类似的对比还有通用知识(general knowledge)的查询:「NFL 球员的平均退休年龄是多少?」

在这个例子中,deep research 提供了需要考虑的组成部分和因素,而不仅仅是一个数字。它更加全面,提供了清晰的统计背景,使用了支持性的例子,并直接解释了射门员相对于其他位置球员职业生涯较长的原因。这种细节和清晰度使得 deep research 更具信息量,并更直接地回应了那些希望了解 NFL 退休年龄趋势的人的需求。

如何工作

Deep Research 通过端到端的强化学习在多个领域的复杂浏览和推理任务上进行了训练。通过这种训练,它学会了规划和执行多步骤的轨迹,以找到所需的数据,并在必要时回溯和实时响应信息。

Deep Research 还能够浏览用户上传的文件,使用 Python 工具绘制和迭代图表,在生成的图表和从网站获取的图像中嵌入其响应,并引用其来源中的特定句子或段落。得益于这种训练,Deep Research 在多个专注于现实世界问题的公开评估中达到了新的高度。

人类终极考试(Humanity’s Last Exam)

对于最近发布的「人类终极考试」评估,在专家级问题上对广泛学科的人工智能进行了测试,支持 Deep Research 的模型以 26.6% 的准确率创下了新高

这项测试包括 3,000 多个多项选择题和简答题,涵盖了从语言学到火箭科学、古典文学到生态学的 100 多个学科。与 o1 相比,进步最大的是化学、人文和社会科学以及数学。支持 Deep Research 的模型展示了一种类人方法,可以在必要时有效地寻找专业信息。

GAIA 基准测试

在评估人工智能在现实问题上表现的公共基准 GAIA 上,支持 Deep Research 的模型达到了新的 SOTA 水平,位居排行榜榜首。这些任务涵盖三个难度级别的问题,成功完成需要具备推理、多模式流畅性、网页浏览和工具使用熟练等能力。

我们来看一个 GAIA 任务示例:

专家级别的任务

在对各个领域专家级任务进行的内部评估中,领域专家认为 Deep Research 可以自动完成数小时的艰难手动调查

以下两图分别为专家级任务的通过率(按估计经济价值计算)以及专家级任务的预计小时数通过率。

专家级别的任务示例如下:

ChatGPT 中的 Deep research 目前对计算资源的需求非常高。research 一个查询所需的时间越长,耗费的推理计算资源就越多。

从现在开始,OpenAI 推出了针对 Pro 用户优化的版本,每月最多可进行 100 次查询。接下来将会向 Plus 和 Team 用户开放,随后是 Enterprise 用户。

目前,Deep research 功能已在 ChatGPT 网页版上线,并将在本月内逐步推广到移动和桌面应用程序。目前,Deep research 可以访问开放的互联网以及任何上传的文件。未来,将能够连接到更多专业的数据源。

现在看来,Deep research 能够进行异步的在线查找,而 Operator 则能够在现实世界中采取行动,两者的结合将使 ChatGPT 能够为用户执行越来越复杂的任务。

不过,值得一提的是,Deep research 目前仍处于早期阶段,并且存在局限性。根据内部评估,它有时会在响应中产生幻觉或做出错误推断,但发生率明显低于现有的 ChatGPT 模型,它可能难以区分权威信息和谣言。在发布之际,Deep research 报告和引文中可能会出现轻微的格式错误,任务可能需要更长时间才能启动。所有这些问题都会随着使用和时间的推移而迅速改善。

博客地址:

https://openai.com/index/introducing-deep-research/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
离队倒计时?北京首钢又一水货外援,许利民难咎其责

离队倒计时?北京首钢又一水货外援,许利民难咎其责

篮球看比赛
2026-01-19 12:32:35
79岁陶华碧太狠了!出山救子改回老配方,老干妈狂赚54亿重回巅峰

79岁陶华碧太狠了!出山救子改回老配方,老干妈狂赚54亿重回巅峰

卷史
2026-01-17 04:17:58
67万亿砸向市场!比08年疯狂16倍,房价物价要变天?

67万亿砸向市场!比08年疯狂16倍,房价物价要变天?

无情有思ss
2026-01-18 16:45:23
伺候瘫痪婆婆十年,丈夫说我在家吃白食,我当即出门旅游半个月

伺候瘫痪婆婆十年,丈夫说我在家吃白食,我当即出门旅游半个月

船长与船1
2026-01-19 11:48:30
建议大家:今明年买房,牢记“买旧、买大、不买二”,真不是胡说

建议大家:今明年买房,牢记“买旧、买大、不买二”,真不是胡说

家居设计师苏哥
2026-01-19 12:44:16
官媒亲自点名,揭开43岁张杰陷饭圈大战的内幕,他也走上孙俪老路

官媒亲自点名,揭开43岁张杰陷饭圈大战的内幕,他也走上孙俪老路

阿器谈史
2026-01-19 16:25:11
内蒙古伊金霍洛旗应急管理局:东博煤矿存在重大安全隐患,停产整顿2日

内蒙古伊金霍洛旗应急管理局:东博煤矿存在重大安全隐患,停产整顿2日

界面新闻
2026-01-19 16:35:57
《新三国》20个名梗,一个比一个好笑,都成经典了

《新三国》20个名梗,一个比一个好笑,都成经典了

可乐谈情感
2026-01-18 11:21:15
原来他是罗京的儿子,14岁时扛起小家,母亲再嫁时只提了一个要求

原来他是罗京的儿子,14岁时扛起小家,母亲再嫁时只提了一个要求

丰谭笔录
2026-01-11 07:30:10
无法停止的大雪崩,湖人的25-26赛季已然结束了

无法停止的大雪崩,湖人的25-26赛季已然结束了

小僫搞笑解说
2026-01-19 00:42:16
古代没有光谱仪,给一块石头包上银子,能拿出去当钱花吗?

古代没有光谱仪,给一块石头包上银子,能拿出去当钱花吗?

收藏大视界
2026-01-17 17:41:56
徐寅生:国家用纳税人的钱培养运动员 打不打奥运会不该由WTT决定

徐寅生:国家用纳税人的钱培养运动员 打不打奥运会不该由WTT决定

念洲
2026-01-18 16:12:52
董璇前夫高云翔深夜晒淋雪照!边走边笑,对比张维伊差太多

董璇前夫高云翔深夜晒淋雪照!边走边笑,对比张维伊差太多

一盅情怀
2026-01-19 14:10:47
那个在西藏头顶撒野40年的邻居终于老实了

那个在西藏头顶撒野40年的邻居终于老实了

历史回忆室
2026-01-16 12:23:12
农历春节前好运回归,意外横财来袭,3个生肖实力飙升开启上坡路

农历春节前好运回归,意外横财来袭,3个生肖实力飙升开启上坡路

毅谈生肖
2026-01-19 11:49:37
国家统计局:2025年出生人口792万人

国家统计局:2025年出生人口792万人

EOL教育在线
2026-01-19 14:01:21
刚刚,川普正式向欧盟宣战

刚刚,川普正式向欧盟宣战

西楼饮月
2026-01-18 23:23:12
台岛海峡发生激烈对峙!2架直10不顾阻扰,强行压向美军宙斯盾舰

台岛海峡发生激烈对峙!2架直10不顾阻扰,强行压向美军宙斯盾舰

荐史
2026-01-19 09:20:16
看笑话的人失望了,波音最担心的发生,欧洲人试飞C919评了8个字

看笑话的人失望了,波音最担心的发生,欧洲人试飞C919评了8个字

通文知史
2026-01-17 20:55:03
上海第二大高铁站2027年建成,同步接入国铁与市铁,实现内联外通

上海第二大高铁站2027年建成,同步接入国铁与市铁,实现内联外通

行走的知识库
2026-01-19 12:11:24
2026-01-19 17:03:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1429文章数 5081关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

嫣然天使基金暂停筹款 工作人员:常规筹款预算已筹满

头条要闻

嫣然天使基金暂停筹款 工作人员:常规筹款预算已筹满

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

离婚三年,孙怡董子健首次公开互动

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

游戏
家居
本地
艺术
公开课

《剑星》×《妮姬》红莲大尺度雕像 翘臀挺立很性感

家居要闻

隽永之章 清雅无尘

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

艺术要闻

有一种美,叫做中国园林!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版