网易首页 > 网易号 > 正文 申请入驻

首个测试时共进化合成框架TTCS:在「左右互搏」中突破推理瓶颈

0
分享至



在 DeepSeek-R1 和 OpenAI o1 引领的「后训练(Post-Training)」与「测试时扩展」(Test-Time Scaling)」时代,如何利用测试时的算力进行有效训练成为焦点。

然而,面对极难的测试题,现有的测试时训练(Test-Time Training, TTT)往往因伪标签噪声大而陷入「瞎猜」的困境。

厦门大学 DeepLIT 课题组提出了一种全新的测试时课程合成框架 ——TTCS (Test-Time Curriculum Synthesis)。该框架不依赖任何外部人工标注,通过生成器(Synthesizer)与求解器(Solver)的共进化博弈,自动合成处于模型「能力边界」的课程数据,解决了测试样本过难导致的训练坍塌问题。

实验显示,在 Qwen2.5-Math-1.5B 上,TTCS 将数学推理平均分从 17.30 暴涨至 41.49,在极具挑战的 AIME 竞赛题上更是显著超越了 TTRL 等强基线。



  • 论文标题:TTCS: Test-Time Curriculum Synthesis for Self-Evolving
  • 论文链接:https://arxiv.org/abs/2601.22628
  • 项目代码:https://github.com/XMUDeepLIT/TTCS
  • HuggingFace 主页:https://huggingface.co/papers/2601.22628

01. 核心动机:当「题海战术」遇到「超纲难题」

随着大语言模型(LLM)的发展,业界共识已从单纯的「预训练扩大参数」转向挖掘测试时扩展(Test-Time Scaling)的潜力。

DeepSeek-R1 等模型的成功证明了强化学习(RL)在推理任务上的巨大威力。然而,目前的 RL 范式(如 RLVR)通常依赖大量高质量的 Ground Truth 标签,这限制了其扩展性。

为了摆脱对标签的依赖,测试时训练(Test-Time Training, TTT)应运而生。其核心思想是:在测试阶段,利用模型对测试题生成的伪标签(Pseudo-labels)进行即时更新。

但在面对高难度推理任务(如 AIME 数学竞赛)时,TTT 遭遇了致命的「能力错配」悖论

  1. 伪标签不可靠(Noisy Rewards):面对 AIME 这种难题,由于模型本身能力不足,即使进行多次采样(Majority Voting),大部分答案也是错的。基于错误的共识进行训练,只会让模型「越学越偏」。(如 Intro 中 Figure 1 (a) 所示)
  2. 缺乏中间阶梯(Steep Learning Curve):就像让小学生直接做微积分,缺乏中间难度的过渡题目,模型无法跨越巨大的难度鸿沟,导致优化失败。

团队思考:如果没有老师,模型能否像人类自学者一样,通过自己给自己出题,把一道难题拆解变为一组成梯度、可解决的练习题,从而实现螺旋上升?



基于此,团队提出了TTCS—— 一个基于共进化(Co-evolution)的测试时课程合成框架。

02. 方法论:Synthesizer 与 Solver 的双重共进化

TTCS 的核心在于构建了一个闭环的生态系统,包含两个共享初始权重的 Agent,它们通过迭代式的GRPO (Group Relative Policy Optimization)进行训练:

角色分工





关键机制:如何寻找「能力边界」?

为了防止生成的题目太简单(无效训练)或太难(无效反馈),团队设计了一套精密的能力自适应奖励(Capability-Adaptive Reward)机制:



闭环效应:

Solver 能力提升后,其「能力边界」会向更难的区域移动,感知到这一变化的 Synthesizer 为了获得高奖励会自动生成难度更高的问题,Solver 继续攻克新难题。二者相互追赶,在测试时实现了动态的 Curriculum Learning。

03. 硬核实验结果:推理能力提升

团队在 AMC23、AIME24、AIME25、MATH-500、Minerva 等多个权威数学基准上进行了广泛验证。基础模型涵盖 Qwen2.5-Math (1.5B, 7B) 和 Qwen3-4B。

1. 主流基准上的碾压式提升

TTCS 在所有尺寸的模型上均取得了显著优于基线的成绩(详见 Table 1):

  • Qwen2.5-Math-1.5B:TTCS 的平均分达到,相比预训练模型(17.30)提升了+24.19 分!即使对比测试时微调的强基线 TTRL(36.56),依然有大幅优势。
  • Qwen2.5-Math-7B:TTCS 平均分达到,相比广泛使用的 Self-Consistency(32.15)提升了+20.39 分,再次证明了主动的测试时训练远胜于被动的多路采样。



2. 攻克高难度竞赛题 (AIME)

在最能体现推理上限的 AIME 竞赛题上,TTCS 展现了极强的攻坚能力:

  • AIME 2024:在 1.5B 模型上,TTRL 仅得 13.23 分,而 TTCS 跃升至分,提升幅度达
  • AIME 2025:在 7B 模型上,TTCS 达到了分,显著优于 TTRL 的 14.06 分。
  • 这有力地证明了:当测试题太难导致 TTRL 的伪标签失效时,TTCS 通过合成中间难度的课程,成功架起了通往高难度推理的桥梁。

3. 为什么 TTCS 有效?(深度分析)

为了探究性能提升的来源,团队进行了多维度的分析:

  • 不仅仅是数学(泛化性)

实验 Q1 显示,在 AIME 上进行测试时训练的 TTCS 模型,在MMLU-ProSuperGPQA等通用领域推理任务上也实现了性能跃升(Figure 3a)。这说明模型学到的是通用的推理逻辑,而非简单的过拟合。



  • 动态老师 > 静态名师

团队尝试用一个更强但固定的Qwen2.5-14B-Instruct模型作为 Synthesizer(实验 Q3)。结果令人惊讶:共进化的 1.5B Synthesizer (TTCS) 带来的提升 (+5.34) 竟然是静态 14B Synthesizer (+2.66) 的两倍

这揭示了一个深刻的道理:适应学生当前水平的老师,比单纯水平高但不懂因材施教的老师更重要。



  • 数据效率惊人

即使只使用 10% 的测试数据(仅 3 道题),TTCS 在 AIME24 上的准确率就能达到13.33,远超同等数据量下 TTRL 的表现(Figure 4)。这表明 TTCS 能够高效地榨取每一个测试样本的信息量。



04. 总结与展望

TTCS 框架的提出,是对「测试时计算」范式的一次重构。团队证明了:在测试时,模型不应是被动的解题者,而应是主动的课程设计者。

通过 Synthesizer 和 Solver 的共进化,TTCS 完美解决了测试时训练中「数据稀缺」和「难度断层」的两大痛点。

这不仅为提升大模型在复杂数学、代码推理任务上的表现提供了新思路,也为未来自进化智能体(Self-Evolving Agents)—— 即模型能够在完全未知的环境中通过自我博弈实现持续进化 —— 奠定了坚实基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小米冰箱事件后续来了,官方承诺所有人的冰箱都会发货

小米冰箱事件后续来了,官方承诺所有人的冰箱都会发货

映射生活的身影
2026-02-09 22:00:02
业主收房日推迟三周 学区变卦车库毛坯,绿景白石洲困在资金泥潭里

业主收房日推迟三周 学区变卦车库毛坯,绿景白石洲困在资金泥潭里

西莫的艺术宫殿
2026-02-10 12:45:42
佐藤教练谈苏翊鸣:北京冬奥后胖成35岁大叔,放纵生活失去目标

佐藤教练谈苏翊鸣:北京冬奥后胖成35岁大叔,放纵生活失去目标

一枚野球君
2026-02-09 20:03:49
16年前,那个被刀郎告上法庭后退出歌坛的降央卓玛,如今现状如何

16年前,那个被刀郎告上法庭后退出歌坛的降央卓玛,如今现状如何

小徐讲八卦
2026-02-09 16:00:06
往后,遍地是绝望的工程人

往后,遍地是绝望的工程人

黯泉
2026-01-22 23:34:13
年内最强新股!电科蓝天开盘飙涨750%,市值超1000亿元,中一签赚2.67万

年内最强新股!电科蓝天开盘飙涨750%,市值超1000亿元,中一签赚2.67万

金融界
2026-02-10 12:32:13
大妈花50万买基金,账号忘了15年,孙子找回看到余额,全家愣住了

大妈花50万买基金,账号忘了15年,孙子找回看到余额,全家愣住了

黄家湖的忧伤
2025-08-12 17:05:12
英国各大啤酒品牌纷纷将酒精度降至3.4%

英国各大啤酒品牌纷纷将酒精度降至3.4%

啤酒日报
2026-02-06 18:36:14
《乡村爱情18》彻底沦为闹剧,赵本山捧人失败,2个角色劝退观众

《乡村爱情18》彻底沦为闹剧,赵本山捧人失败,2个角色劝退观众

星宿影视鸭
2026-02-10 18:54:08
雷军称新一代小米SU7门把手符合新国标 新增机械冗余

雷军称新一代小米SU7门把手符合新国标 新增机械冗余

CNMO科技
2026-02-10 21:26:12
台湾费尽心思安排到解放军内部的间谍,全都被李志豪给揪了出来

台湾费尽心思安排到解放军内部的间谍,全都被李志豪给揪了出来

雪中风车
2026-02-06 08:12:58
朝鲜两名高官发动兵变为张成泽报仇,因细节败露,金正恩一招镇压

朝鲜两名高官发动兵变为张成泽报仇,因细节败露,金正恩一招镇压

阿胡
2024-04-30 11:48:45
斯诺克战报!常冰玉4-0夺赛点,中国4将领先,刘宏宇或无缘正赛 

斯诺克战报!常冰玉4-0夺赛点,中国4将领先,刘宏宇或无缘正赛 

刘姚尧的文字城堡
2026-02-10 19:46:38
长春一道路旁多辆小车遭“冰封”,整车裹着厚厚冰层像被包浆,有人拿菜刀锤子除冰,附近商户称近期无雨雪,当地正调查原因

长春一道路旁多辆小车遭“冰封”,整车裹着厚厚冰层像被包浆,有人拿菜刀锤子除冰,附近商户称近期无雨雪,当地正调查原因

极目新闻
2026-02-10 12:01:23
南博的事还没平息,又有重磅捐献者说,他们家捐献的也不翼而飞

南博的事还没平息,又有重磅捐献者说,他们家捐献的也不翼而飞

我心纵横天地间
2025-12-25 16:26:36
救救美国的中产吧,他们都快要饿死了!

救救美国的中产吧,他们都快要饿死了!

走读新生
2026-01-27 21:49:52
北京女子吃饭忘付款,赶飞机途中想起立刻折返结账

北京女子吃饭忘付款,赶飞机途中想起立刻折返结账

科学发掘
2026-02-10 19:02:14
同样是名酒,五粮液敢用玻璃瓶,茅台为啥坚决不用?答案太意外

同样是名酒,五粮液敢用玻璃瓶,茅台为啥坚决不用?答案太意外

复转这些年
2026-02-10 23:27:51
史上规模最大的套利,被日本终结了!

史上规模最大的套利,被日本终结了!

樱桃大房子
2025-12-19 20:57:16
刚从广东南海回来,毫不夸张的说,南海就是全国郊区城建天花板!

刚从广东南海回来,毫不夸张的说,南海就是全国郊区城建天花板!

笔墨V
2026-02-10 18:22:38
2026-02-11 00:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12283文章数 142565关注度
往期回顾 全部

科技要闻

Seedance刷屏:网友们玩疯 影视圈瑟瑟发抖

头条要闻

28岁小伙年会醉酒 被同事送回宿舍后心脏骤停死亡

头条要闻

28岁小伙年会醉酒 被同事送回宿舍后心脏骤停死亡

体育要闻

NBA上演全武行,超大冲突4人驱逐!

娱乐要闻

章子怡和马丽争影后 金像奖提名太精彩

财经要闻

雀巢中国近千经销商的“追债记”

汽车要闻

应用于190KW四驱Ultra版 方程豹钛7搭载天神之眼5.0

态度原创

房产
本地
手机
亲子
军事航空

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

手机要闻

2026年手机行业剧透:7大信号来袭,要卷出新高度了

亲子要闻

萌娃和爸爸争夺妈妈,爆笑发言:这是我的妈妈,你的妈妈在奶奶家

军事要闻

以军持续在约旦河西岸多地发动突袭

无障碍浏览 进入关怀版