网易首页 > 网易号 > 正文 申请入驻

OpenAI Deep Research“被开源”:24小时成功复现,揭秘背后技术细节

0
分享至

智东西2月8日消息,24小时极速复现OpenAI Deep Research,还免费提供,这是开源AI社区Hugging Face做出的新贡献——一款开源的AI研究agent,不仅能胜任整理信息写报告的复杂任务,而且仅开放一天就在严苛的通用AI助手基准测试中达到55%的准确率(OpenAI原功能是67%)。

DeepSeek-R1在海外的现象级爆火,加速OpenAI推出免费的o3-mini、Deep Research等新模型与功能。然而,DeepSeek开源策略掀起的前沿模型复现潮,让广大网友已经不满足于OpenAI的闭源系统,而是希望用更低成本的开源系统实现同样的效果。

OpenAI的Deep Research能进行多步骤自主研究、信息深度整合以及复杂任务的处理,OpenAI在博客中透露,Deep Research由一个大模型和一个内部Agent框架组成。

复现时,Hugging Face团队基于微软的开源Agent系统,并用代码Agent框架进行优化,让Agent用代码来规划、表达其行动,这对提升系统表现的作用显著。

该团队还提出,未来可通过增加支持的文件格式数量、提出对文件进行更细粒度处理的建议以及使用基于视觉的网络浏览器,来进一步提升系统表现。

项目链接:https://huggingface.co/blog/open-deep-research

试用链接:https://m-ric-open-deep-research.hf.space/

一、代码Agent架构可显著提升性能,运行成本降低30%

Hugging Face团队本次复现OpenAI Deep Research的核心任务便是Agent框架的搭建。Agent框架是大模型上一层的架构,用于指导大模型进行浏览网页、阅读PDF等操作,并且按照一系列步骤组织上述操作。

将大模型整合进Agent框架可显著提升性能表现。在多项基准测试中,仅需使用基础的开源通用Agent架构smolagents库,就能将几款最近发布的前沿模型的表现提升至高60分。

▲Agent框架能显著提升大模型表现(图源:Hugging Face)

实际上,OpenAI也在发布Deep Research功能的博客文章中强调,在知识密集型的高难度基准测试“Humanity’s Last Exam”中,Deep Research的表现要明显好于独立运行的大模型。

在复现Deep Research功能时,Hugging Face团队主要采用代码Agent来提升传统Agent架构的表现。先前研究显示,让Agent用代码来规划、表达其行动具有4个优势,尤其是在表达复杂的行动序列时。

1、在下方案例中,用代码来表示行动比JSON要简洁许多。这一序列需要运行4个并行流,每个流包含5个连续行动。在JSON中,你需要生成20个JSON块,每个块在单独的步骤中;而若用代码表示,只需1个步骤。

▲研究来源:Paper page – Executable Code Actions Elicit Better LLM Agents

平均而言,论文显示代码行动比JSON少30%的步骤,这意味着生成的token也相应减少。由于大模型调用通常是Agent系统的主要成本,这意味着Agent系统的运行成本降低了约30%。

2、用代码来表示行动还能更方便地再利用常见库中的工具。

3、这种系统在基准测试中的表现更好,因为大模型在训练时广泛接触了代码数据,这种行动表达方式对它们来说更为直观。

4、更好的状态处理能力:在多模态任务中,如果需要存储图像、音频等内容后续使用,只需将其作为变量分配给状态。但在JSON中,必须让大模型在字典键中命名它,大模型后续能否理解和使用也还是未知数。

同时,Agent系统需要配备正确的工具集,Hugging Face的复现团队使用了微软研究院现成的的Magentic-One Agent,试图用最低的复杂性获得最高的性能。工具集中包含2个工具:

1、一个网络浏览器。虽然像Operator这样的完整网络浏览器交互需要达到全性能,但Hugging Face团队目前先使用了一个简单的基于文本的网络浏览器,作为概念验证。

2、一个简单的文本检查器,能够读取大量文本文件格式。

二、远超开源SOTA系统,还有三大提升空间

为测试上述系统的性能,Hugging Face团队使用了GAIA这一全面且难度较高的Agent测试基准,涉及许多基于大语言模型的挑战。

下方是一个测试集中的难题:

“在2008年的画作《乌兹别克斯坦刺绣》中展示的水果,哪些被用作1949年10月邮轮早餐菜单的一部分,该邮轮后来被用作电影《最后的航行》的浮动道具?请以逗号分隔列出这些水果,按照画作中从12点位置开始按顺时针方向排列的水果顺序,使用每个水果的复数形式。”

此类问题对Agent系统提出了多个挑战:识别水果需要用到多模态能力;搜集信息时需要理解信息间的相互依赖关系;输出回答时需要按照指定的格式。此外,系统还需将问题解决的轨迹按正确顺序串联起来。

解决此问题需要高级规划能力和严格的执行,这两个领域在使用时单独使用大模型时会遇到很多困难。

在GAIA的公共排行榜上,GPT-4在没有任何Agent设置的情况下,连7%的验证集分数都达不到。但通过Deep Research,OpenAI在验证集上达到了67.36%的分数,提升了一个数量级。


▲Deep Research在GAIA上的成绩(图源:OpenAI)

在Hugging Face 24小时的复现尝试中,代码Agent的使用对系统的整体表现提升明显。之前,Magentic-One是GIGA测试中表现最佳的开源系统,Hugging Face团队将其表现从46%提升至55.15%,这种性能提升主要归功于让Agent以代码的形式编写其动作。

当切换到以JSON而不是代码编写动作的标准Agent时,相同设置的验证集性能会立即下降到33%左右。

Hugging Face团队认为,未来此类系统还可以从三方面进行改进:

1、扩展可读取的文件格式数量。

2、提出对文件进行更细粒度处理的建议。

3、替换为基于视觉的网页浏览器(开源地址)。

结语:DeepSeek掀起的开源热潮持续

DeepSeek凭借其透明、可操作性强的发布与开源模式,成为了全球AI模型开源的最佳实践案例之一。

Hugging Face本次对OpenAI Deep Reasearch的复现,也正是顺应了DeepSeek掀起的开源热潮。这一趋势有望让前沿AI模型的技术进步惠及更广大的研究群体。

来源:Hugging Face

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

健康科普365
2025-12-18 10:01:25
外媒:卢卡申科首次访问朝鲜

外媒:卢卡申科首次访问朝鲜

参考消息
2026-03-25 19:37:47
这辈子走不出牢门,尹锡悦报复李在明的手段,就只剩下折磨狱警了

这辈子走不出牢门,尹锡悦报复李在明的手段,就只剩下折磨狱警了

奥字侃剧
2026-03-26 11:07:34
青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

林子说事
2026-03-26 13:57:35
开火之日就是全军覆灭之时!万万没想到,菲律宾导弹已经瞄准台海

开火之日就是全军覆灭之时!万万没想到,菲律宾导弹已经瞄准台海

黑翼天使
2026-03-24 07:50:52
1971年,陈毅在病房拍了照片,49岁的张茜,一脸憔悴和忧伤

1971年,陈毅在病房拍了照片,49岁的张茜,一脸憔悴和忧伤

抽象派大师
2026-03-26 10:57:02
事发48小时,日方终于表态了,中国小题大做,设套让日本往里钻?

事发48小时,日方终于表态了,中国小题大做,设套让日本往里钻?

我不叫阿哏
2026-03-26 16:46:00
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

阿凫爱吐槽
2026-03-25 15:24:29
《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

阿纂看事
2026-03-26 16:03:34
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
800亿!泉州首富家族,太可怕了

800亿!泉州首富家族,太可怕了

深蓝财经
2026-03-26 18:58:45
7000 家央国企春招,本科却成废纸?门槛高到离谱求职者彻底破防

7000 家央国企春招,本科却成废纸?门槛高到离谱求职者彻底破防

眼界看视野
2026-03-24 11:00:18
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

林轻吟
2026-03-25 19:25:45
勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

司峰阿道
2026-03-26 14:45:09
伊朗伊斯兰革命卫队海军指挥官身亡

伊朗伊斯兰革命卫队海军指挥官身亡

财联社
2026-03-26 16:23:15
张雪峰离世不到48小时,治丧组曝光追悼会内幕,女儿成了“心病”

张雪峰离世不到48小时,治丧组曝光追悼会内幕,女儿成了“心病”

丁丁鲤史纪
2026-03-26 14:49:19
第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

健身狂人
2026-03-26 10:14:34
“能劝一个是一个,海肠捞饭就是智商税”

“能劝一个是一个,海肠捞饭就是智商税”

风味人间
2026-03-26 13:32:37
真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

金山话体育
2026-03-26 08:29:20
伊朗武装部队向以色列发射新一轮导弹

伊朗武装部队向以色列发射新一轮导弹

财联社
2026-03-26 19:42:42
2026-03-26 21:55:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11440文章数 117016关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
家居
教育
亲子
军事航空

艺术要闻

哪一座桥不是风景?

家居要闻

傍海而居 静观蝴蝶海

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

亲子要闻

你好,我是馒头,快开门!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版