网易首页 > 网易号 > 正文 申请入驻

阿里开源「深度研究」王炸Agent,登顶开源Agent模型榜首

0
分享至

智东西
作者 王涵
编辑 漠影

智东西9月17日报道,今天凌晨,阿里巴巴开源了其首个深度研究Agent模型:通义DeepResearch

在Humanity’s Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等权威Agent评测集中,通义DeepResearch模型凭借3B激活参数,性能超越基于OpenAI o3DeepSeek V3.1Claude-4-Sonnet等旗舰模型的ReAct Agent(推理-行动智能体)。

▲基准测试成绩排名

▲基准测试分数

目前,通义DeepResearch的模型、框架和方案已在Github、Hugging Face和魔搭社区全面开源,开发者和用户可自行下载模型与代码。

下载地址:

Github:

https://github.com/Alibaba-NLP/DeepResearch

Hugging Face:

https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

魔搭社区:

https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

深度研究作为近一年的AI研究热点,吸引了谷歌、OpenAI、Anthropic等众多主流企业投入研发。

深度研究研发的现有方法大多采用“单窗口、线性累加”的信息处理模式,在处理长周期任务时,Agent易遭遇“认知空间窒息”与“不可逆的噪声污染”,导致推理能力降低,难以完成复杂研究任务。

据介绍,为解决这些问题,阿里通义团队构建了一套合成数据驱动的完整训练链路,覆盖预训练与后训练阶段。

该链路以Qwen3-30B-A3B模型为基础进行优化,设计了RL算法验证与真实训练模块,涵盖真实与虚拟环境,并借助异步强化学习算法及自动化数据策展流程,有效提升了模型的迭代速度与泛化能力。

在推理阶段,通义团队还设计了ReAct基于自研IterResearch的Heavy两种模式。ReAct用于精准评估模型的基础内在能力,Heavy则通过test-time scaling策略,充分挖掘模型的性能上限,确保在长任务中也能实现高质量推理。

结语:阿里进一步补全开源布局

今年以来,阿里已陆续开源WebWalker、WebDancer和WebSailor等多款检索和推理智能体,且均取得开源SOTA成绩。通义DeepResearch的开源,进一步丰富了阿里在AI智能体领域的开源布局。

通义DeepResearch的开源为深度研究Agent赛道提供了“轻量化高性能”的新选择,也为全球开发者攻克长周期复杂研究任务提供了关键工具支撑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

铁甲西奇
2026-03-26 16:43:09
杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

娱乐领航家
2026-03-26 00:00:03
中国摩托在越南被日本本田打的惨败!现在又一路翻盘,太解气!

中国摩托在越南被日本本田打的惨败!现在又一路翻盘,太解气!

万物知识圈
2026-03-26 15:19:33
女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

复转这些年
2026-03-23 20:48:15
中美关系的底牌摊开了:要么一方交出产业,要么一方放弃霸权

中美关系的底牌摊开了:要么一方交出产业,要么一方放弃霸权

甜柠聊史
2026-03-26 18:59:27
浙江省高校排名更新!宁波大学第4,浙工大第7,温州医科大仅排14

浙江省高校排名更新!宁波大学第4,浙工大第7,温州医科大仅排14

朗威谈星座
2026-03-26 18:09:46
天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

凯旋学长
2026-03-26 14:50:48
江苏卧床35年女子诞下健康宝宝:患有脊髓性肌萎缩症,从8个月起便常年卧床;分娩风险高,在孩子足月的情况下进行剖宫产

江苏卧床35年女子诞下健康宝宝:患有脊髓性肌萎缩症,从8个月起便常年卧床;分娩风险高,在孩子足月的情况下进行剖宫产

潇湘晨报
2026-03-26 11:49:57
梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

兴趣知识
2026-03-25 12:32:27
他已任武汉市政府党组成员,安徽桐城人

他已任武汉市政府党组成员,安徽桐城人

文都桐网
2026-03-26 15:45:13
又不缺土地,为什么全世界只有中国,在疯狂地修建高层住宅?

又不缺土地,为什么全世界只有中国,在疯狂地修建高层住宅?

张鼋卤说体育
2026-02-07 12:45:26
张雪峰自拍,面如土色,身体应该是早有预警了,太可惜了!

张雪峰自拍,面如土色,身体应该是早有预警了,太可惜了!

可乐谈情感
2026-03-26 18:53:34
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
张雪峰去世媒体人发文:我问过了,他还在,网友:最后一课很沉重

张雪峰去世媒体人发文:我问过了,他还在,网友:最后一课很沉重

蜜桔娱乐
2026-03-25 10:20:48
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
中国著名车企澳洲代理商突然破产! 车主崩溃: 售后无人管, 10年保修打水漂!

中国著名车企澳洲代理商突然破产! 车主崩溃: 售后无人管, 10年保修打水漂!

澳微Daily
2026-03-25 12:47:36
可怜的内贾德,为何被杀?

可怜的内贾德,为何被杀?

雪中风车
2026-03-01 22:16:05
水果骗局大揭秘!这些水果其实全是假的,买了你就上当了!

水果骗局大揭秘!这些水果其实全是假的,买了你就上当了!

时评人李文君
2026-03-25 19:32:21
燃气调价通知

燃气调价通知

孝感汇
2026-03-25 16:38:10
剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

军武次位面
2026-03-26 14:26:42
2026-03-26 19:48:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11436文章数 117015关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
游戏
旅游
手机
本地

艺术要闻

哪一座桥不是风景?

《迷你金属2》4月开启开发版测试 军事题材战略模拟

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

手机要闻

狂揽307万!红米杀疯了:K90破150万、Turbo 5破百万,性价比赢麻

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版