网易首页 > 网易号 > 正文 申请入驻

OpenAI Deep Research“被开源”:24小时成功复现,揭秘背后技术细节

0
分享至


智东西
编译 陈骏达
编辑 Panken

智东西2月8日消息,24小时极速复现OpenAI Deep Research,还免费提供,这是开源AI社区Hugging Face做出的新贡献——一款开源的AI研究agent,不仅能胜任整理信息写报告的复杂任务,而且仅开放一天就在严苛的通用AI助手基准测试中达到55%的准确率(OpenAI原功能是67%)。

DeepSeek-R1在海外的现象级爆火,加速OpenAI推出免费的o3-mini、Deep Research等新模型与功能。然而,DeepSeek开源策略掀起的前沿模型复现潮,让广大网友已经不满足于OpenAI的闭源系统,而是希望用更低成本的开源系统实现同样的效果。

OpenAI的Deep Research能进行多步骤自主研究、信息深度整合以及复杂任务的处理,OpenAI在博客中透露,Deep Research由一个大模型和一个内部Agent框架组成。

复现时,Hugging Face团队基于微软的开源Agent系统,并用代码Agent框架进行优化,让Agent用代码来规划、表达其行动,这对提升系统表现的作用显著。

该团队还提出,未来可通过增加支持的文件格式数量、提出对文件进行更细粒度处理的建议以及使用基于视觉的网络浏览器,来进一步提升系统表现。

项目链接:https://huggingface.co/blog/open-deep-research

试用链接:https://m-ric-open-deep-research.hf.space/

一、代码Agent架构可显著提升性能,运行成本降低30%

Hugging Face团队本次复现OpenAI Deep Research的核心任务便是Agent框架的搭建。Agent框架是大模型上一层的架构,用于指导大模型进行浏览网页、阅读PDF等操作,并且按照一系列步骤组织上述操作。

将大模型整合进Agent框架可显著提升性能表现。在多项基准测试中,仅需使用基础的开源通用Agent架构smolagents库,就能将几款最近发布的前沿模型的表现提升至高60分。


▲Agent框架能显著提升大模型表现(图源:Hugging Face)

实际上,OpenAI也在发布Deep Research功能的博客文章中强调,在知识密集型的高难度基准测试“Humanity’s Last Exam”中,Deep Research的表现要明显好于独立运行的大模型。

在复现Deep Research功能时,Hugging Face团队主要采用代码Agent来提升传统Agent架构的表现。先前研究显示,让Agent用代码来规划、表达其行动具有4个优势,尤其是在表达复杂的行动序列时。

1、在下方案例中,用代码来表示行动比JSON要简洁许多。这一序列需要运行4个并行流,每个流包含5个连续行动。在JSON中,你需要生成20个JSON块,每个块在单独的步骤中;而若用代码表示,只需1个步骤。


▲研究来源:Paper page – Executable Code Actions Elicit Better LLM Agents

平均而言,论文显示代码行动比JSON少30%的步骤,这意味着生成的token也相应减少。由于大模型调用通常是Agent系统的主要成本,这意味着Agent系统的运行成本降低了约30%。

2、用代码来表示行动还能更方便地再利用常见库中的工具。

3、这种系统在基准测试中的表现更好,因为大模型在训练时广泛接触了代码数据,这种行动表达方式对它们来说更为直观。

4、更好的状态处理能力:在多模态任务中,如果需要存储图像、音频等内容后续使用,只需将其作为变量分配给状态。但在JSON中,必须让大模型在字典键中命名它,大模型后续能否理解和使用也还是未知数。

同时,Agent系统需要配备正确的工具集,Hugging Face的复现团队使用了微软研究院现成的的Magentic-One Agent,试图用最低的复杂性获得最高的性能。工具集中包含2个工具:

1、一个网络浏览器。虽然像Operator这样的完整网络浏览器交互需要达到全性能,但Hugging Face团队目前先使用了一个简单的基于文本的网络浏览器,作为概念验证。

2、一个简单的文本检查器,能够读取大量文本文件格式。

二、远超开源SOTA系统,还有三大提升空间

为测试上述系统的性能,Hugging Face团队使用了GAIA这一全面且难度较高的Agent测试基准,涉及许多基于大语言模型的挑战。

下方是一个测试集中的难题:

“在2008年的画作《乌兹别克斯坦刺绣》中展示的水果,哪些被用作1949年10月邮轮早餐菜单的一部分,该邮轮后来被用作电影《最后的航行》的浮动道具?请以逗号分隔列出这些水果,按照画作中从12点位置开始按顺时针方向排列的水果顺序,使用每个水果的复数形式。”

此类问题对Agent系统提出了多个挑战:识别水果需要用到多模态能力;搜集信息时需要理解信息间的相互依赖关系;输出回答时需要按照指定的格式。此外,系统还需将问题解决的轨迹按正确顺序串联起来。

解决此问题需要高级规划能力和严格的执行,这两个领域在使用时单独使用大模型时会遇到很多困难。

在GAIA的公共排行榜上,GPT-4在没有任何Agent设置的情况下,连7%的验证集分数都达不到。但通过Deep Research,OpenAI在验证集上达到了67.36%的分数,提升了一个数量级。


▲Deep Research在GAIA上的成绩(图源:OpenAI)

在Hugging Face 24小时的复现尝试中,代码Agent的使用对系统的整体表现提升明显。之前,Magentic-One是GIGA测试中表现最佳的开源系统,Hugging Face团队将其表现从46%提升至55.15%,这种性能提升主要归功于让Agent以代码的形式编写其动作。

当切换到以JSON而不是代码编写动作的标准Agent时,相同设置的验证集性能会立即下降到33%左右。

Hugging Face团队认为,未来此类系统还可以从三方面进行改进:

1、扩展可读取的文件格式数量。

2、提出对文件进行更细粒度处理的建议。

3、替换为基于视觉的网页浏览器(开源地址)。

结语:DeepSeek掀起的开源热潮持续

DeepSeek凭借其透明、可操作性强的发布与开源模式,成为了全球AI模型开源的最佳实践案例之一。

Hugging Face本次对OpenAI Deep Reasearch的复现,也正是顺应了DeepSeek掀起的开源热潮。这一趋势有望让前沿AI模型的技术进步惠及更广大的研究群体。

来源:Hugging Face

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
周秀娜有可能上位,徐子淇地位恐不保

周秀娜有可能上位,徐子淇地位恐不保

吾爱纪实
2025-03-19 22:27:22
李家诚的空姐前女友曝光,年近六十风韵犹存,徐子淇长得有点像她

李家诚的空姐前女友曝光,年近六十风韵犹存,徐子淇长得有点像她

上官晚安
2025-03-19 14:56:55
妻子升镇长后要离婚,我冷笑,转身当上县长,她后悔不已求我回头

妻子升镇长后要离婚,我冷笑,转身当上县长,她后悔不已求我回头

红豆讲堂
2025-03-16 09:35:44
网红甜品冲上热搜第一!吃完感觉像个“罪人”?医生紧急提醒……

网红甜品冲上热搜第一!吃完感觉像个“罪人”?医生紧急提醒……

鲁中晨报
2025-03-20 18:40:10
北京封阳台,发出了信号

北京封阳台,发出了信号

楼花
2025-03-20 13:28:39
加拉:就桑乔这表现,我是切尔西我违约赔钱都把他送回去曼联

加拉:就桑乔这表现,我是切尔西我违约赔钱都把他送回去曼联

直播吧
2025-03-20 19:11:03
后续!谢浩男已答应改户口,养父母家庭被扒,同学发声:他太难了

后续!谢浩男已答应改户口,养父母家庭被扒,同学发声:他太难了

夏聊娱乐
2025-03-20 19:49:58
X飙升至440亿美元,戏剧性反弹回到收购价

X飙升至440亿美元,戏剧性反弹回到收购价

三体引力波
2025-03-20 20:12:44
最新照片公布:重返地球的宇航员恢复惊人!NASA罕见承认川普的关键作用

最新照片公布:重返地球的宇航员恢复惊人!NASA罕见承认川普的关键作用

华人生活网
2025-03-20 04:12:03
邱毅:台湾反对统一的人占九成以上!蔡英文:“一中”是唯一选择

邱毅:台湾反对统一的人占九成以上!蔡英文:“一中”是唯一选择

老谢谈史
2025-03-19 20:55:57
克内克特路走窄了!布朗尼空位他不传球却连打5个,詹皇脸色难看

克内克特路走窄了!布朗尼空位他不传球却连打5个,詹皇脸色难看

嘴炮体坛
2025-03-20 13:30:29
蔡依林现场观战湖人vs掘金,分享东契奇、詹姆斯、约基奇照片

蔡依林现场观战湖人vs掘金,分享东契奇、詹姆斯、约基奇照片

懂球帝
2025-03-20 14:47:15
今天北京花粉浓度为“高到很高”级别

今天北京花粉浓度为“高到很高”级别

新京报
2025-03-20 16:24:11
无滤镜大变样,林志颖像人妖,闫妮黑胖土,辣目洋子丑到认不出

无滤镜大变样,林志颖像人妖,闫妮黑胖土,辣目洋子丑到认不出

林轻吟
2025-03-14 06:35:03
97 岁李兆基晚年凄凉!守 40 亿庄园,护工相伴却盼不来儿孙

97 岁李兆基晚年凄凉!守 40 亿庄园,护工相伴却盼不来儿孙

娱乐故事荟
2025-03-19 22:38:15
黄奕带女儿吃上海菜,母女同框像姐妹,12岁黄芊玲戴假发好呆萌

黄奕带女儿吃上海菜,母女同框像姐妹,12岁黄芊玲戴假发好呆萌

娱圈小愚
2025-03-20 15:27:07
央视终于转播国足了!

央视终于转播国足了!

大象新闻
2025-03-20 00:42:06
32岁男演员失联,已证实离世!原本当天要登台演出

32岁男演员失联,已证实离世!原本当天要登台演出

浙江之声
2025-03-19 08:15:59
女子穿瑜伽裤参加家宴,男子嫌丢人当场要她回去换:怕村里人笑话

女子穿瑜伽裤参加家宴,男子嫌丢人当场要她回去换:怕村里人笑话

梅子的小情绪
2025-03-20 21:10:12
逆市加仓!56只股票被主力大幅买入,减速器、海洋经济、高端装备

逆市加仓!56只股票被主力大幅买入,减速器、海洋经济、高端装备

小波股事历程
2025-03-20 19:08:42
2025-03-20 23:52:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
9600文章数 116728关注度
往期回顾 全部

科技要闻

华为发业界首款阔折叠华为Pura X,7499元起

头条要闻

13款宣称零添加酱油被送检:12款检出镉 7款检出总砷

头条要闻

13款宣称零添加酱油被送检:12款检出镉 7款检出总砷

体育要闻

赛季快结束了,想起来自己是合同年了?

娱乐要闻

主流媒体为大S发声,生前最后一条动态被提起

财经要闻

快递诈骗 韵达出事

汽车要闻

搭华为ADS 3.3 问界新M5 Ultra售22.98万起

态度原创

亲子
房产
健康
家居
手机

亲子要闻

5岁娃如何学数学?用行星游戏激发思维潜力,学习也可以很快乐

房产要闻

官宣要搬!海秀商圈,要大变样了!

护龈工具大PK,冠军会花落谁家?

家居要闻

阳光简约 清新大气

手机要闻

智慧新物种来了!华为Pura X全新小艺 语音交互更具真人感

无障碍浏览 进入关怀版