网易首页 > 网易号 > 正文 申请入驻

清华耶鲁推理模型新范式:动态推理实现高效测试时扩展

0
分享至

Z1团队 投稿
量子位 | 公众号 QbitAI

推理性能提升的同时,还大大减少Token消耗!

清华、耶鲁团队提出推理模型新范式:动态推理实现高效测试时扩展

测试时扩展(test-time scaling)技术加速推动了大语言模型在复杂推理领域的突破。

以OpenAI的o1系列、DeepSeek-R1等模型为代表,这些系统通过强化学习和大规模思维链(CoT)轨迹训练,在数学证明、编程竞赛等任务中展现出接近人类专家的水平。

例如,DeepSeek R1在MATH500数学基准上达到97.3%的准确率,其核心在于允许模型在推理时动态扩展计算资源——生成更长的思维轨迹意味着更高的解题成功率。

然而,这种“以计算换性能”的策略带来了显著的效率代价。

现有方法通常强制分割上下文窗口:模型必须在前半段完成完整推理(如R1采用…分隔符),即使面对简单问题也需消耗很大一部分的思考tokens(thinking tokens)。

更严重的是,部分模型在复杂问题上会出现“过度思考”(overthinking)现象:生成冗余的循环推理步骤却无法提升准确率。论文中揭示,直接截断超过4096 tokens的思考过程可能导致DeepSeek-R1性能下降12.7%,这暴露了当前方法在效率与效果间的根本矛盾。

△(a) 与传统长思考模型相比,Z1的动态思考窗口可以节省大量思考token,达到高效推理性能(b)

针对这一挑战,来自清华、耶鲁团队基于纯代码数据训练了一个高效思考模型,其具有天然的动态推理能力,可根据问题难度高低生成不同长度的推理轨迹,同时搭配可调节的思考窗口,使得模型可以在预先设定的推理预算下实现高效的推理思考。

Z1:动态推理实现高效测试时扩展

本文的主要创新在于两个层面:

1、数据层面:构建Z1-Code-Reasoning-107K数据集

作者创建了一个包含10.7万条编程问题及其长短思维轨迹的数据集Z1-Code-Reasoning-107K。通过QwQ-32B模型生成原始轨迹后,逐步提高推理等级,使其保留从“直接求解”到“多步推导”的连续复杂度分布。这种数据设计确保了模型在训练过程中能够接触不同复杂度的推理轨迹,从而提升其在实际任务中的适应能力。在此数据集上训练得到的Z1模型具备天然的动态推理能力,并且可迁移至数学等代码以外的推理任务。

2、机制层面:设计动态思考窗口(Shifted Thinking Window)

作者抛弃了硬性分隔符约束,设计了Shifted Thinking Window机制。对于简单问题(如BigCodeBench-Hard中的基础函数实现),模型自动触发弱推理模式,可直接输出答案;当遇到GPQA钻石级难题时,则自动启用强推理模式,在max thinking tokens阈值内自由推导并给出结果,如果思考超限则自动追加提示短语引导输出答案。

二者结合,使Z1模型具备动态思考能力和预算调整能力,在使用较少thinking tokens的同时,保持较高的基准准确率,实现高效动态的推理。

△Z1方法的数据构建、训练与动态思考范式

实验结果

多个benchmark上的实验结果

实验证明,该方法在效率-效果平衡上实现显著提升。

在包含880道竞赛编程题的LiveCodeBench v5测试中,Z1-7B以35.3%准确率明显超过其他开源7B思考模型,且平均思考token大大降低(R1-Distill-Qwen-7B需要四倍以上思考token才能达到相同性能)。

此外,仅使用代码轨迹训练也使模型在数学推理任务上的性能提升,例如在GPQA钻石级科学难题上,Z1-7B以47.5%准确率超越原始Qwen2.5-Coder-7B(37.4%)10.1个百分点,同时减少28%的tokens消耗,揭示了此高效推理能力的泛化性。

Test-Time Scaling Evaluation


在三个推理benchmark上的测试时扩展实验可以看到,仅在代码的推理数据上微调后的Z1-7B在代码之外的任务上也实现了Test-time scaling的能力。

同时,相较于R1-Distill-Qwen-7B,Z1-7B的都能以更短的平均思考长度获得更高的分数,体现其高效的测试时扩展能力。

这项研究证明,通过多样性思考轨迹的混合训练和动态计算资源分配,大模型能够突破”暴力计算”的局限,自适应地在不同难度的任务中使用不同级别的推理时计算资源;同时这个模型也将非推理模型与长推理模型进行统一,为大型推理模型在高效思考方面的发展提供了重要的贡献。

论文链接:https://arxiv.org/abs/2504.00810
代码链接:https://github.com/efficientscaling/Z1
模型链接:https://huggingface.co/efficientscaling/Z1-7B
数据链接:https://huggingface.co/datasets/efficientscaling/Z1-Code-Reasoning-107K

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯开打前73天,德国把加纳主帅打下课!

世界杯开打前73天,德国把加纳主帅打下课!

体坛周报
2026-03-31 12:09:12
被裁!精神异常+疯言疯语!天才5号秀彻底玩完了...

被裁!精神异常+疯言疯语!天才5号秀彻底玩完了...

柚子说球
2026-03-31 09:26:33
全网震动!字节跳动多人被抓!

全网震动!字节跳动多人被抓!

大佬灼见
2026-03-30 11:39:00
190亿,498.8米!中国未来第八高楼,南京起飞!

190亿,498.8米!中国未来第八高楼,南京起飞!

GA环球建筑
2026-03-30 20:55:17
绝对“钞能力”!哈兰德用不到一周工资,入手限量LV联名迈巴赫!

绝对“钞能力”!哈兰德用不到一周工资,入手限量LV联名迈巴赫!

田先生篮球
2026-03-30 21:35:46
我嫁给不能生育的迪拜富商,不到3个月我竟孕吐不止,医生:恭喜

我嫁给不能生育的迪拜富商,不到3个月我竟孕吐不止,医生:恭喜

千秋文化
2026-03-25 21:42:08
初中生靠迷你小屏看完百万字小说,妈妈又气又笑:这用学习上多好

初中生靠迷你小屏看完百万字小说,妈妈又气又笑:这用学习上多好

捣蛋窝
2026-03-30 21:09:36
安切洛蒂:我已明确世界杯首战首发,对最终名单也有清楚规划

安切洛蒂:我已明确世界杯首战首发,对最终名单也有清楚规划

懂球帝
2026-03-31 09:41:13
欧盟已做好准备,即使欧尔班胜选,也会是“竹篮打水一场空”

欧盟已做好准备,即使欧尔班胜选,也会是“竹篮打水一场空”

山河路口
2026-03-30 20:28:01
官宣离婚才几天,姚晨就和曹郁联手,给内娱所有离异夫妻上了一课

官宣离婚才几天,姚晨就和曹郁联手,给内娱所有离异夫妻上了一课

暖心萌阿菇凉
2026-03-30 12:57:40
全球OCR新王来自中国开源!GitHub狂揽73300+Star

全球OCR新王来自中国开源!GitHub狂揽73300+Star

量子位
2026-03-30 22:11:02
月入50万还不够花?“90后”夜店主管同时和2位富婆恋爱,骗走1700万!46岁女友被PUA到想自杀

月入50万还不够花?“90后”夜店主管同时和2位富婆恋爱,骗走1700万!46岁女友被PUA到想自杀

环球网资讯
2026-03-31 10:23:12
吴向飞再回应李荣浩:这些年只要我参与的诉讼,最终对方全部败诉

吴向飞再回应李荣浩:这些年只要我参与的诉讼,最终对方全部败诉

小徐讲八卦
2026-03-30 07:47:00
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

寻墨阁
2026-03-25 11:39:10
伊朗外长喊话沙特“是时候驱逐美军了”

伊朗外长喊话沙特“是时候驱逐美军了”

环球网资讯
2026-03-31 08:47:11
官方:CCTV5+转播亚洲杯首轮中国女足U20vs越南女足U20

官方:CCTV5+转播亚洲杯首轮中国女足U20vs越南女足U20

懂球帝
2026-03-31 11:26:14
三只新股上市首日集体大涨

三只新股上市首日集体大涨

每日经济新闻
2026-03-31 09:44:07
2012年一伙歹徒劫机,快得手时,有女乘客大吼一声,结局意想不到

2012年一伙歹徒劫机,快得手时,有女乘客大吼一声,结局意想不到

阿胡
2025-04-07 16:04:09
英媒终于承认:中东一打仗才发现,中国这三张底牌,谁都学不来!

英媒终于承认:中东一打仗才发现,中国这三张底牌,谁都学不来!

甜到你心坎
2026-03-30 16:35:38
玲花暴雨中睁不开眼,全网都在问:这头发到底用的什么定型?

玲花暴雨中睁不开眼,全网都在问:这头发到底用的什么定型?

烟浔渺渺
2026-03-31 06:24:28
2026-03-31 14:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
12381文章数 176433关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

从俄乌冲突到伊朗战争:4年间AI从"打辅助"到"做决策"

头条要闻

从俄乌冲突到伊朗战争:4年间AI从"打辅助"到"做决策"

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

16万级最强2.0T 全新一代瑞虎9来了

态度原创

教育
数码
时尚
游戏
艺术

教育要闻

深度解读|天府新区2026年入学新政:学区拆细了,流程简化了

数码要闻

Omdia:2025美国PC出货7150万台 2026或同比下降13%

妈妈们的人生,不该只有一个选项

PS5多款即将上线重点游戏!含科乐美IGN高分新作

艺术要闻

石涛『野色册』

无障碍浏览 进入关怀版