网易首页 > 网易号 > 正文 申请入驻

首个测试时共进化合成框架TTCS:在「左右互搏」中突破推理瓶颈

0
分享至



在 DeepSeek-R1 和 OpenAI o1 引领的「后训练(Post-Training)」与「测试时扩展」(Test-Time Scaling)」时代,如何利用测试时的算力进行有效训练成为焦点。

然而,面对极难的测试题,现有的测试时训练(Test-Time Training, TTT)往往因伪标签噪声大而陷入「瞎猜」的困境。

厦门大学 DeepLIT 课题组提出了一种全新的测试时课程合成框架 ——TTCS (Test-Time Curriculum Synthesis)。该框架不依赖任何外部人工标注,通过生成器(Synthesizer)与求解器(Solver)的共进化博弈,自动合成处于模型「能力边界」的课程数据,解决了测试样本过难导致的训练坍塌问题。

实验显示,在 Qwen2.5-Math-1.5B 上,TTCS 将数学推理平均分从 17.30 暴涨至 41.49,在极具挑战的 AIME 竞赛题上更是显著超越了 TTRL 等强基线。



  • 论文标题:TTCS: Test-Time Curriculum Synthesis for Self-Evolving
  • 论文链接:https://arxiv.org/abs/2601.22628
  • 项目代码:https://github.com/XMUDeepLIT/TTCS
  • HuggingFace 主页:https://huggingface.co/papers/2601.22628

01. 核心动机:当「题海战术」遇到「超纲难题」

随着大语言模型(LLM)的发展,业界共识已从单纯的「预训练扩大参数」转向挖掘测试时扩展(Test-Time Scaling)的潜力。

DeepSeek-R1 等模型的成功证明了强化学习(RL)在推理任务上的巨大威力。然而,目前的 RL 范式(如 RLVR)通常依赖大量高质量的 Ground Truth 标签,这限制了其扩展性。

为了摆脱对标签的依赖,测试时训练(Test-Time Training, TTT)应运而生。其核心思想是:在测试阶段,利用模型对测试题生成的伪标签(Pseudo-labels)进行即时更新。

但在面对高难度推理任务(如 AIME 数学竞赛)时,TTT 遭遇了致命的「能力错配」悖论

  1. 伪标签不可靠(Noisy Rewards):面对 AIME 这种难题,由于模型本身能力不足,即使进行多次采样(Majority Voting),大部分答案也是错的。基于错误的共识进行训练,只会让模型「越学越偏」。(如 Intro 中 Figure 1 (a) 所示)
  2. 缺乏中间阶梯(Steep Learning Curve):就像让小学生直接做微积分,缺乏中间难度的过渡题目,模型无法跨越巨大的难度鸿沟,导致优化失败。

团队思考:如果没有老师,模型能否像人类自学者一样,通过自己给自己出题,把一道难题拆解变为一组成梯度、可解决的练习题,从而实现螺旋上升?



基于此,团队提出了TTCS—— 一个基于共进化(Co-evolution)的测试时课程合成框架。

02. 方法论:Synthesizer 与 Solver 的双重共进化

TTCS 的核心在于构建了一个闭环的生态系统,包含两个共享初始权重的 Agent,它们通过迭代式的GRPO (Group Relative Policy Optimization)进行训练:

角色分工





关键机制:如何寻找「能力边界」?

为了防止生成的题目太简单(无效训练)或太难(无效反馈),团队设计了一套精密的能力自适应奖励(Capability-Adaptive Reward)机制:



闭环效应:

Solver 能力提升后,其「能力边界」会向更难的区域移动,感知到这一变化的 Synthesizer 为了获得高奖励会自动生成难度更高的问题,Solver 继续攻克新难题。二者相互追赶,在测试时实现了动态的 Curriculum Learning。

03. 硬核实验结果:推理能力提升

团队在 AMC23、AIME24、AIME25、MATH-500、Minerva 等多个权威数学基准上进行了广泛验证。基础模型涵盖 Qwen2.5-Math (1.5B, 7B) 和 Qwen3-4B。

1. 主流基准上的碾压式提升

TTCS 在所有尺寸的模型上均取得了显著优于基线的成绩(详见 Table 1):

  • Qwen2.5-Math-1.5B:TTCS 的平均分达到,相比预训练模型(17.30)提升了+24.19 分!即使对比测试时微调的强基线 TTRL(36.56),依然有大幅优势。
  • Qwen2.5-Math-7B:TTCS 平均分达到,相比广泛使用的 Self-Consistency(32.15)提升了+20.39 分,再次证明了主动的测试时训练远胜于被动的多路采样。



2. 攻克高难度竞赛题 (AIME)

在最能体现推理上限的 AIME 竞赛题上,TTCS 展现了极强的攻坚能力:

  • AIME 2024:在 1.5B 模型上,TTRL 仅得 13.23 分,而 TTCS 跃升至分,提升幅度达
  • AIME 2025:在 7B 模型上,TTCS 达到了分,显著优于 TTRL 的 14.06 分。
  • 这有力地证明了:当测试题太难导致 TTRL 的伪标签失效时,TTCS 通过合成中间难度的课程,成功架起了通往高难度推理的桥梁。

3. 为什么 TTCS 有效?(深度分析)

为了探究性能提升的来源,团队进行了多维度的分析:

  • 不仅仅是数学(泛化性)

实验 Q1 显示,在 AIME 上进行测试时训练的 TTCS 模型,在MMLU-ProSuperGPQA等通用领域推理任务上也实现了性能跃升(Figure 3a)。这说明模型学到的是通用的推理逻辑,而非简单的过拟合。



  • 动态老师 > 静态名师

团队尝试用一个更强但固定的Qwen2.5-14B-Instruct模型作为 Synthesizer(实验 Q3)。结果令人惊讶:共进化的 1.5B Synthesizer (TTCS) 带来的提升 (+5.34) 竟然是静态 14B Synthesizer (+2.66) 的两倍

这揭示了一个深刻的道理:适应学生当前水平的老师,比单纯水平高但不懂因材施教的老师更重要。



  • 数据效率惊人

即使只使用 10% 的测试数据(仅 3 道题),TTCS 在 AIME24 上的准确率就能达到13.33,远超同等数据量下 TTRL 的表现(Figure 4)。这表明 TTCS 能够高效地榨取每一个测试样本的信息量。



04. 总结与展望

TTCS 框架的提出,是对「测试时计算」范式的一次重构。团队证明了:在测试时,模型不应是被动的解题者,而应是主动的课程设计者。

通过 Synthesizer 和 Solver 的共进化,TTCS 完美解决了测试时训练中「数据稀缺」和「难度断层」的两大痛点。

这不仅为提升大模型在复杂数学、代码推理任务上的表现提供了新思路,也为未来自进化智能体(Self-Evolving Agents)—— 即模型能够在完全未知的环境中通过自我博弈实现持续进化 —— 奠定了坚实基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
NBA大结局,爆料詹姆斯有望加入雷霆联手亚历山大,冲第五冠

NBA大结局,爆料詹姆斯有望加入雷霆联手亚历山大,冲第五冠

宗介说体育
2026-06-02 10:42:12
澎湃新闻:联赛上半程争议判罚非常多,冠军悬念已经不复存在

澎湃新闻:联赛上半程争议判罚非常多,冠军悬念已经不复存在

懂球帝
2026-06-02 12:17:21
奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

背包旅行
2026-05-28 18:04:35
刘家成又来创造惊喜?曝其出任北控总经理,目标依然是冲击季后赛

刘家成又来创造惊喜?曝其出任北控总经理,目标依然是冲击季后赛

篮球资讯达人
2026-06-02 15:05:53
开拓者热火追字母最积极!大概率三周完成交易 魔术也成潜在下家

开拓者热火追字母最积极!大概率三周完成交易 魔术也成潜在下家

罗说NBA
2026-06-02 07:19:12
徐志胜被狗仔拍到携恋爱五年的圈外女友与父母在北京聚餐亲密互动

徐志胜被狗仔拍到携恋爱五年的圈外女友与父母在北京聚餐亲密互动

枫尘余往逝
2026-06-01 14:43:59
普速列车能否全面禁烟?新探健康发展研究中心、中国控烟协会等16家组织发布倡议书

普速列车能否全面禁烟?新探健康发展研究中心、中国控烟协会等16家组织发布倡议书

红星新闻
2026-06-01 17:13:56
亢奋女主硬刚导演:我是OnlyFans模特,裸戏别想删!

亢奋女主硬刚导演:我是OnlyFans模特,裸戏别想删!

自愈小日子
2026-06-02 00:21:55
何猷君婚礼现场!奚梦瑶穿素雅白纱,伴郎团帅,女嘉宾穿搭被吐槽

何猷君婚礼现场!奚梦瑶穿素雅白纱,伴郎团帅,女嘉宾穿搭被吐槽

夜深爱杂谈
2026-06-02 10:57:40
湖南谭嗣同墓地:破败寒酸,杂草丛生,时至今日凭吊、瞻仰者不绝

湖南谭嗣同墓地:破败寒酸,杂草丛生,时至今日凭吊、瞻仰者不绝

浩渺青史
2026-05-03 17:18:22
蒋孝勇想把“两蒋”移灵大陆,后公开大怒说了两句话,让世人唏嘘

蒋孝勇想把“两蒋”移灵大陆,后公开大怒说了两句话,让世人唏嘘

文史季季红
2026-06-02 06:45:03
导弹上膛!中国公布荷兰战舰闯西沙画面,电子干扰原来是最后一步

导弹上膛!中国公布荷兰战舰闯西沙画面,电子干扰原来是最后一步

芳芳历史烩
2026-05-29 11:37:24
多家银行补贴微信支付提现

多家银行补贴微信支付提现

芒果都市
2026-06-02 11:19:47
董璇给酒窝庆10岁生日太体面,爷奶爸爸都出镜,英语考87分很开心

董璇给酒窝庆10岁生日太体面,爷奶爸爸都出镜,英语考87分很开心

小疯子耶
2026-06-02 14:24:45
刚刚,腾讯救了自己,也救了恒生科技…

刚刚,腾讯救了自己,也救了恒生科技…

巴山侃侃
2026-06-02 11:58:08
台湾63%民众希望永久维持现状,权威民调展现民意实情

台湾63%民众希望永久维持现状,权威民调展现民意实情

至今
2026-06-02 13:29:10
一场针对亚洲的无声洗劫,已经到了最高潮。

一场针对亚洲的无声洗劫,已经到了最高潮。

果妈聊娱乐
2026-06-01 08:38:41
元器件行情火热,东山精密涨停!高盛:MLCC成AI服务器第三大成本

元器件行情火热,东山精密涨停!高盛:MLCC成AI服务器第三大成本

每日经济新闻
2026-06-02 14:06:08
骑士休赛期清洗名单曝光:三将恐离队,莫布利成最大交易筹码

骑士休赛期清洗名单曝光:三将恐离队,莫布利成最大交易筹码

奕辰说球
2026-06-02 09:31:42
中产瞧不起耐克了

中产瞧不起耐克了

李东阳朋友圈
2026-06-01 15:12:05
2026-06-02 17:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13151文章数 142660关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓 检方抗诉成功

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓 检方抗诉成功

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

时尚
本地
健康
数码
军事航空

推广|| 入夏第一双鞋买得好成功!暴走1w步、搭遍小裙子

本地新闻

用剪纸的方式,打开江苏扬州

干细胞临床研究向患者收费?别踩坑

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版