网易首页 > 网易号 > 正文 申请入驻

DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路

0
分享至



该工作的第一作者为香港大学计算机系博士生赵学亮。蚂蚁武威、关健为共同贡献者。

在 R1 与 O1 引领「深度推理」浪潮之后,大模型推理领域正迎来新的分叉点!

大模型推理的爆发,实际源于 scaling 范式的转变:从 train-time scaling 到 test-time scaling(TTS),即将更多的算力消耗部署在 inference 阶段。典型的实现是以 DeepSeek r1 为代表的 long CoT 方法:通过增加思维链的长度来获得答案精度的提升。那么 long CoT 是 TTS 的唯一实现吗?

针对这个问题,来自蚂蚁和香港大学自然语言组的研究团队(后简称「团队」)给出了 TTS 的另一种思路:让模型不仅「想得久」,更要「想得准」。

在这一思路下,团队提出了 DynaAct,该工作已经被 NeurIPS 2025 接收。



  • Title:DynaAct: Large Language Model Reasoning with Dynamic Action Spaces
  • Paper:
  • https://arxiv.org/abs/2511.08043
  • Code:
  • https://github.com/zhaoxlpku/DynaAct

与传统 token-by-token 式的 CoT 不同,DynaAct 提出以 Action Space Optimization 为核心的 TTS 范式:在每一步推理中动态构建可选动作集合,并通过学习算法从中选择最优动作,从而让推理路径更高效、更具结构化。



为什么是 Action Space 优化?

当前主流 TTS 方法通过「更长的思维链」来提升性能,但随之而来的,是搜索空间爆炸与冗余思考。团队认为,推理效率的瓶颈并不在「算得不够多」,而在「选得不够好」。

DynaAct 将推理过程类比为决策序列:每一步的关键不是「生成什么」,而是「选择什么去执行」。

因此,它聚焦于如何自动学习、动态构建每一步推理的动作空间,并提出两条核心原则:

  • 数据驱动——动作候选从真实推理数据中学习,而非人工规则生成;
  • 完备且紧凑——既覆盖潜在解,又避免冗余。


方法:

Submodular Optimization × MCTS

DynaAct 核心思想是将动作空间学习问题转化为集合选择问题,并通过子模优化(Submodular Optimization)来实现线性复杂度的算法。

子模优化的关键在于定义合适的子模函数(Submodular Function)。由于子模函数具备「集合越大,新增元素收益越小」的性质,因此可以贪心地构建一个子集,实现子集性质近似最优,同时算法复杂度维持在线性。

具体来说,DynaAct 定义的子模函数包括 utility 和 diversity 两个部分。前者度量动作空间与当前状态的相似度;而后者则刻画动作空间中动作的冗余度:







这样定义下的子模函数学习等价于学习动作和状态的 embedding。DynaAct 采用 Q-learning 来优化,希望利用学到的子模函数能最终选出最大化推理回报(reward)的动作空间。



代码亮点:

高效 MCTS 加速

在系统实现层面,团队开源了基于 vLLM 的高性能 MCTS 框架。该实现显著提升了节点扩展、Rollout 与 Reward 计算效率,为后续 TTS 研究提供了通用加速方案。

效果:

Smarter Space, Better Reasoning

在 6 项推理基准上,DynaAct 显著优于 CoT、RAP 与 rStar 等方法,验证了动态动作空间的有效性。



进一步分析显示,随着 MCTS Rollout 次数增加,DynaAct 呈现出稳定的 test-time scaling 趋势:



同时动作空间更小、延迟几乎不升:



展望:

从 Reasoning 走向 Smarter Search

DynaAct 证明了:TTS 的未来,不在更多计算,而在更聪明的搜索。

团队计划进一步探索:

  • 将 Dynamic Action Space 扩展到 multi-agent 规划场景;
  • 将子模优化与强化学习结合,学习端到端的自适应推理策略;
  • 推出更高效的 MCTS 工具包,服务开源社区。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美媒对比弗拉格与布泽尔大一赛季数据,布泽尔全面占优

美媒对比弗拉格与布泽尔大一赛季数据,布泽尔全面占优

林子说事
2026-02-15 21:07:24
跟学历低的妹子谈恋爱是什么体验?如果你被她吸引,不妨放下预设

跟学历低的妹子谈恋爱是什么体验?如果你被她吸引,不妨放下预设

另子维爱读史
2026-01-09 22:06:39
确认是假货!涉及多个大牌,网友:天塌了,我说怎么那么便宜?

确认是假货!涉及多个大牌,网友:天塌了,我说怎么那么便宜?

浙江之声
2026-02-13 13:11:59
韩媒:还是0金!中国连遭韩国巴西羞辱 “不毛之地”都夺历史首金

韩媒:还是0金!中国连遭韩国巴西羞辱 “不毛之地”都夺历史首金

念洲
2026-02-15 12:41:16
冷空气抵达江南华南,江汉江南有阴雨雪天气

冷空气抵达江南华南,江汉江南有阴雨雪天气

界面新闻
2026-02-16 09:14:54
郭靖到死都没想到,骄纵任性的女儿郭芙,偶然成就了3位天下第一

郭靖到死都没想到,骄纵任性的女儿郭芙,偶然成就了3位天下第一

武侠百晓生
2026-02-14 19:56:42
你无意之中撞见过什么秘密?网友:我婆婆和公公外面各自有人

你无意之中撞见过什么秘密?网友:我婆婆和公公外面各自有人

带你感受人间冷暖
2026-02-12 00:05:09
刚刚,重大利好!A股节后或爆发

刚刚,重大利好!A股节后或爆发

风风顺
2026-02-16 07:46:17
广东一男子骑摩托一脚踹倒路边拾荒老人,当地回应:1人刑事拘留,2人行政处罚;被踢老人已送医检查,身体无大碍

广东一男子骑摩托一脚踹倒路边拾荒老人,当地回应:1人刑事拘留,2人行政处罚;被踢老人已送医检查,身体无大碍

大风新闻
2026-02-15 12:03:04
劉德華太太朱麗蒨被揭私人飛機奇葩事,空姐接觸兩個月爆真實人品

劉德華太太朱麗蒨被揭私人飛機奇葩事,空姐接觸兩個月爆真實人品

粤睇先生
2026-02-15 22:51:08
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
15年前,那个当着全世界喝下核污染水的日本官员,如今还活着吗?

15年前,那个当着全世界喝下核污染水的日本官员,如今还活着吗?

墨兰史书
2026-02-09 23:08:35
男篮锋线8选4!两王牌锁定,21岁新星或首次入围,郭士强面临抉择

男篮锋线8选4!两王牌锁定,21岁新星或首次入围,郭士强面临抉择

老叶评球
2026-02-16 09:15:53
性能机皇!新机官宣:2月26日,全新首发

性能机皇!新机官宣:2月26日,全新首发

科技堡垒
2026-02-15 11:22:22
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
白银连环杀人凶手高承勇:为儿子前途收手,被捕后儿子被单位辞退

白银连环杀人凶手高承勇:为儿子前途收手,被捕后儿子被单位辞退

谈史论天地
2026-01-26 16:55:03
东北男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

东北男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

品读时刻
2026-02-14 09:03:05
特朗普的“天才”主意:美债“瞬间清零”,但我们真能承受结果吗

特朗普的“天才”主意:美债“瞬间清零”,但我们真能承受结果吗

东极妙严
2026-02-15 11:55:15
两岸统一突破点不在马英九,也不在国民党,可能在他的身上?

两岸统一突破点不在马英九,也不在国民党,可能在他的身上?

生活魔术专家
2026-02-15 23:22:42
你祖上有啥很大的机缘转折点?网友:但凡发生一下改变,就没你了

你祖上有啥很大的机缘转折点?网友:但凡发生一下改变,就没你了

带你感受人间冷暖
2026-02-13 15:23:12
2026-02-16 10:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12312文章数 142567关注度
往期回顾 全部

科技要闻

OpenAI拿下OpenClaw,承诺开源绝不动摇

头条要闻

牛弹琴:被王毅痛斥后 日本急了

头条要闻

牛弹琴:被王毅痛斥后 日本急了

体育要闻

遭针对?谷爱凌炮轰国际雪联安排

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

艺术
旅游
健康
公开课
军事航空

艺术要闻

入选作品选刊 | 2026年“新生活·新风尚·新年画”美术作品展

旅游要闻

马年新春畅玩!五大景区年味盛宴已就位,速来解锁~

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版