网易首页 > 网易号 > 正文 申请入驻

阿里新开源模型AgenticQwen亮相,推理延迟剧降23%!

0
分享至

智猩猩AI整理

编辑:林夕

当前,用户普遍期待大语言模型能借助外部工具处理订票、网购等实际事务,但工业级智能体系统大多依赖GPT‑5、Claude等大型专有模型,API费用高昂。即便是开源的Qwen3‑235B,在百万级用户场景下计算成本依然过高。

对于Vibe coding这类高度专业的复杂任务,超大模型的确有必要。但订票、检索等标准化高频任务,并不需要巨型模型。小模型完全可以胜任,并显著降低成本与延迟。可惜的是,Kimi、MiniMax、DeepSeek等主流机构,很少推出具备强智能体能力的小模型,市场存在明显缺口。

针对这一问题,阿里团队以Qwen轻量底座为基础,打造出AgenticQwen模型体系。研究团队首创推理+智能体双数据飞轮训练架构,依托多轮GRPO强化学习机制,使8B/30B小模型在工具交互任务中逼近超大模型水准。实验结果表明,在TAU-2与BFCL-V4两项主流智能体基准评测中,AgenticQwen-8B模型取得47.4的综合分数,性能是基线Qwen3-8B(23.8)的2倍以上。仅激活3B参数的AgenticQwen-30B-MoE版本,综合得分达到50.2,推理时延相比Qwen3-235B降低23%,在性能逼近超大模型的同时实现了效率的显著提升。



  • 论文标题:

    AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use

  • 论文链接:

    https://arxiv.org/pdf/2604.21590

  • 项目地址:

    https://huggingface.co/collections/alibaba-pai/agenticqwen

01

核心创新

AgenticQwen训练框架融合推理RLAgentic RL,分别对应两个相互独立又互补的数据飞轮。

  • 推理RL(Reasoning RL):聚焦多步推理任务,基于Omni、2WikiMultiHopQA、HotpotQA等数据集开展训练,引导模型调用网页搜索、代码解释器等工具,解决数学推理、多轮问答等复杂问题。训练采用二元奖励机制,直接以最终结果为导向:答案正确得满分,错误则计0分。
  • Agentic RL:瞄准真实工业落地场景任务,以SYNTHAGENT数据集作为初始训练底座,同时借助Qwen3-235B构建模拟用户与工具交互的仿真环境。训练不再采用简单二元奖励, 而是基于rubric(评分细则)的 0-1连续奖励,把任务拆成若干可验证子目标,按完成比例给分。

但仅靠这两类RL与固定数据,模型训练一两轮就会快速饱和、性能不再提升。于是团队提出双重数据飞轮(Dual Data Flywheels):通过从模型错误中持续挖掘、生成更具挑战性的多样化训练样本,形成闭环迭代,推动模型能力迭代升级。


第一重飞轮:推理数据飞轮(Reasoning Data Flywheel)

从模型失败样本出发,用自指令扩展与场景注入生成更具挑战性的推理问题,再经多模型一致性过滤得到高质量可验证难题,最终回流至训练流程,持续提升模型多步推理与工具协同解题能力。

第二重飞轮:Agentic 数据飞轮(Agentic Data Flywheel)

Agentic RL 的训练以线性任务为起点,通过四个阶段的迭代,把简单的工具调用流程,逐步升级为具备复杂分支决策能力的真实工作流。

(1)线性任务初始化。

以无分支、无异常的单路径任务为起点,让模型学习基础工具调用流程,例如完成 “查询机票→预订→确认” 的标准流程,掌握工具语义与基础交互逻辑。


(2)行为树扩展

引入环境状态变化,将线性流程扩展为多分支行为树。例如机票售罄时,衍生出查询高铁、搜索邻近机场等备选路径,让模型学习条件判断与多方案切换。


(3)通过分支到任务的倒置生成新任务

将扩展后的行为树反向生成新任务,把每个分支对应的环境状态、用户指令与操作规范转化为训练样本,推动训练数据复杂度持续提升,从固定流程走向动态决策。

(4)对抗性模拟用户干预

在多分支行为树基础上,加入航班延误、用户不合理诉求等对抗场景,甚至模拟误导性指令,迫使模型在复杂分支中做出合规决策,避免无效路径,提升鲁棒性与边界处理能力。


通过多轮迭代,简单的线性任务会逐渐成长为包含数十个分支的复杂行为树,覆盖各种正常流程、异常情况和对抗场景。

02 实验结果分析

论文在TAU-2和BFCL-V4 Multi-turn上评估模型。TAU-2覆盖航空Airline、电信Telecom、零售Retail这三类场景,来评估模型在真实世界中的可靠性;BFCL-V4 Multi-turn用来评估模型多轮调用工具的能力。

(1)公开Agentic Benchmark

在公开智能体基准上,AgenticQwen的表现远超同尺寸原生模型,甚至在部分任务中追平或超越超大模型。

在覆盖航空、电信、零售三大真实场景的 TAU-2 测试中,AgenticQwen-8B 平均分达到47.4,是原生Qwen3-8B(23.8)的两倍,大幅缩小了与 Qwen3-235B 的差距;AgenticQwen-30B-A3B则进一步将平均分提升至50.2,在电信、零售等场景中表现亮眼。

而在BFCL-V4 Multi-turn多轮工具调用测试中,两个版本同样实现了对基线的全面超越。特别是在Base子集上,AgenticQwen-30B-A3B以60.0的得分,超过了 Qwen3-235B的58.5,展现出小模型在标准化工具编排任务上的强大潜力。


(2)飞轮训练迭代效果

AgenticQwen-8B与30B版本从第0轮到第3轮训练,在七大任务类别上性能持续稳定提升,三轮训练后接近数据生成大模型水平,验证双飞轮训练的有效性。其中AgenticQwen-30B-A3B为混合专家模型,仅激活3B参数,推理效率优于密集型 8B模型,实现参数量与性能的平衡。


(3)工业系统部署

研究团队进一步将AgenticQwen集成并部署到云端Agent产品系统中,系统通过沙箱环境调用各类工具,可自主串联完成SQL销售数据查询、JSON用户日志解析、PDF市场报告检索增强生成全流程,实现多源跨模态数据融合推理,自动产出标准化业绩简报。

整套任务全程自主闭环、无需人工介入,生成报告的内容质量可与Qwen3-235B超大模型持平,部署与使用成本却足足降低了一个数量级。


在阿里云产品环境的沙盒中,AgenticQwen模型在有限搜索数据训练下,仍实现出色泛化。WebWalker、XBench、GAIA三大基准中,AgenticQwen-30B-A3B得分52.5、47.0、41.7,远超基准Qwen3-30B-A3B,逼近Qwen3-235B。


推理延迟方面,相同硬件环境下,AgenticQwen-30B-A3B平均推理时长344.1秒,优于原生30B模型,远低于Qwen3-235B的449.5秒,推理步骤更精简,效率更高。


04 总结

AgenticQwen 的发布,标志着工业级 Agent 进入了 "小模型也能办大事" 的新时代,突破核心在于双数据飞轮解决小模型训练数据瓶颈,推理飞轮提升抽象解题能力,智能体飞轮适配真实场景决策复杂性,强化学习与动态数据生成结合,让小模型精准掌握工具调用逻辑。相比原生模型,该方案无需扩大参数量即可实现性能跃迁,在成本、延迟与性能间取得最优平衡,适合工业规模化部署。

入群申请

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
定了!6月通车!西安超级枢纽正式上线,城东起飞沸腾了!

定了!6月通车!西安超级枢纽正式上线,城东起飞沸腾了!

木兮聊房
2026-05-08 18:09:03
新婚儿媳拒交陪嫁,婆婆怒扇她7耳光,次日婆婆痛哭:我错了

新婚儿媳拒交陪嫁,婆婆怒扇她7耳光,次日婆婆痛哭:我错了

青青会讲故事
2024-10-31 13:15:45
G2湖人107-125再输雷霆 球员评价:2人优秀,5人及格,2人低迷

G2湖人107-125再输雷霆 球员评价:2人优秀,5人及格,2人低迷

篮球资讯达人
2026-05-08 12:25:48
取消提前1年落户限制!南京鼓楼区2026年小学、初中招生入学工作实施办法

取消提前1年落户限制!南京鼓楼区2026年小学、初中招生入学工作实施办法

南京择校
2026-05-08 18:00:09
丘吉尔在回忆录中称,原子弹挽救日本,否则日本或将不复存在

丘吉尔在回忆录中称,原子弹挽救日本,否则日本或将不复存在

磊子讲史
2026-03-23 16:34:24
演都不演了!吴宜泽夺冠不到48小时,恶心的事情发生,还不止一件

演都不演了!吴宜泽夺冠不到48小时,恶心的事情发生,还不止一件

丁丁鲤史纪
2026-05-08 18:04:41
罗马诺:弗洛伦蒂诺已直接沟通球员,问题点是消息如何外泄的

罗马诺:弗洛伦蒂诺已直接沟通球员,问题点是消息如何外泄的

懂球帝
2026-05-08 01:11:13
中国版劳斯莱斯杀疯了!尊界S800销量碾压奔驰S级、迈巴赫、宝马7系、奥迪A8总和

中国版劳斯莱斯杀疯了!尊界S800销量碾压奔驰S级、迈巴赫、宝马7系、奥迪A8总和

快科技
2026-05-08 14:32:28
河南一景区海报文案欠妥引人不适,景区致歉:系追忆不同年代场景长廊,已下架整改更换

河南一景区海报文案欠妥引人不适,景区致歉:系追忆不同年代场景长廊,已下架整改更换

潇湘晨报
2026-05-07 18:55:16
卡西利亚斯:在我看来,阿隆索本是皇马最理想的主帅人选

卡西利亚斯:在我看来,阿隆索本是皇马最理想的主帅人选

懂球帝
2026-05-08 18:58:17
得内线者得天下!CBA全线陷入内线荒,多支强队暴露致命短板

得内线者得天下!CBA全线陷入内线荒,多支强队暴露致命短板

寒律
2026-05-09 00:13:13
意大利中国商会发布关于欧盟《网络安全法》修订草案的声明:对不合理措施坚决反对

意大利中国商会发布关于欧盟《网络安全法》修订草案的声明:对不合理措施坚决反对

证券时报
2026-05-08 21:32:05
一条传了近30年的谣言,澄清为何那么难?

一条传了近30年的谣言,澄清为何那么难?

网络辟谣
2026-04-27 08:11:30
老紫薇不需要老干部!杨超越翻身失败!

老紫薇不需要老干部!杨超越翻身失败!

八卦疯叔
2026-05-08 11:27:51
台官员曝赖清德成功返台内幕,大陆出手阻止未果,背后有难言之隐

台官员曝赖清德成功返台内幕,大陆出手阻止未果,背后有难言之隐

混沌录
2026-05-07 20:57:08
世界杯门票太贵,特朗普惊了:即使是我也不会花1000美元看比赛!央视拒绝花天价买转播权,底气何在?“国际足联可能已经慌了”上热搜

世界杯门票太贵,特朗普惊了:即使是我也不会花1000美元看比赛!央视拒绝花天价买转播权,底气何在?“国际足联可能已经慌了”上热搜

每日经济新闻
2026-05-08 14:58:09
日本:射程之内!

日本:射程之内!

新民周刊
2026-05-01 09:17:00
瘦肚子最有效的运动:不是卷腹,每天20分钟,干掉肚腩、秀出马甲线

瘦肚子最有效的运动:不是卷腹,每天20分钟,干掉肚腩、秀出马甲线

增肌减脂
2026-03-17 16:25:06
从52跌到1.7!30万散户被套,一股民持仓10年亏损148万

从52跌到1.7!30万散户被套,一股民持仓10年亏损148万

财经智多星
2026-05-03 09:27:25
北京开展“僵尸车”清理行动 公示7天无人认领将清拖

北京开展“僵尸车”清理行动 公示7天无人认领将清拖

极目新闻
2026-05-08 19:29:37
2026-05-09 01:03:00
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
381文章数 6719关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

家居
房产
艺术
手机
公开课

家居要闻

流动的尺度 打破家的形式主义

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

艺术要闻

惊艳私房摄影:感受真情与绝美画面!

手机要闻

小米超大屏旗舰杀回来了!小米17 Max入网配置全曝光,价格很香

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版