网易首页 > 网易号 > 正文 申请入驻

阶跃星辰开源Deep Think新框架,小模型解锁百万Token测试时计算

0
分享至



8B 模型在数学竞赛任务上超越 GPT-5!

阶跃星辰正式推出并行协同推理(PaCoRe, Parallel Coordinated Reasoning),这是一个全新的训练和推理框架,让大模型的能力不再受限于线性思维链的上下文窗口大小(Context Window)和处理速度,而是基于大规模并行协同的方式,让模型进行前所未有的广度和深度思考。

强大性能的 Gemini Deep Think 模式仅隐约透露其采用“并行思考”扩展测试时计算的思路;而 PaCoRe 以卓越的表现验证了大规模扩展测试时计算的有效性,并完整开源模型,训练数据,推理管线从而加速该领域的研究与创新。

基于该框架,小模型亦能解锁百万级 Token 测试时计算(Test-Time Compute)。

经过大规模、基于结果的强化学习(Outcome-based RL)训练,阶跃星辰研究团队的 PaCoRe-8B 模型掌握了综合发散性推理轨迹的能力。在 HMMT 2025 数学基准测试中,它取得了 94.5 的高分,一举超越了 GPT-5 的 93.2 分。这一成绩的取得,得益于模型在解决单个问题时,能够有效利用高达两百万 Token 的计算量。

长程推理是人类智力皇冠上的明珠。正如人类需要数月甚至数年的专注思考来攻克最棘手的难题,通用人工智能(AGI)也必须在推理阶段大幅扩展其计算规模,PaCoRe的研究进展标志着在这个方向上迈出了坚实的一步。



  • 论文链接:https://github.com/stepfun-ai/PaCoRe/blob/main/pacore_report.pdf
  • GitHub:https://github.com/stepfun-ai/PaCoRe
  • Hugging Face:https://huggingface.co/stepfun-ai/PaCoRe-8B

PaCoRe 框架

标准的思维链(Chain-of-Thought)推理与上下文容量是强耦合的:一旦窗口填满,推理就必须停止。PaCoRe 通过将推理的主要驱动力从 “串行深度” 转移到 “并行协同的广度”,成功解耦了这种关系。



图 1:并行协同推理(PaCoRe)的性能表现。

左图: 在 HMMT 2025 上,PaCoRe-8B 展示了惊人的测试时扩展(Test-Time Scaling)能力。通过增加并行轨迹(Parallel Trajectories)和协同轮次(Coordinated Rounds),性能稳步提升,最终超越了 GPT-5。右图: 在 LiveCodeBench 上,普通的 RLVR-8B 模型无法利用增加的测试时计算量,而 PaCoRe 有效地解锁了这种综合能力,随着计算量的增加带来了显著的性能提升。

推理机制 (Inference)



图 2:PaCoRe 的推理流程。



PaCoRe 的核心是一个按轮次运行的迭代消息传递架构。其工作流程如下:





3.迭代协同(Iterative Coordination): 这些精简消息成为下一轮的上下文,使模型能够在多次迭代中修正理解、发现共识并纠正错误。为了确保收敛,最后一轮仅使用单一轨迹,生成最终的精简消息作为 PaCoRe 推理流水线的输出。

这种循环机制使得系统能够将 “有效测试时计算量(Effective TTC)”—— 即所有轨迹的 Token 总和 —— 扩展到远远超出模型物理上下文窗口限制的程度。

训练方法 (Training)

实现这一框架的主要挑战在于将模型从简单聚合孤立推理转移为主动合作。未经训练的推理模型常常在具有简单解结构的问题上使用诸如多数表决这样的简单规则,而在更加多样解的问题上,模型常常展现出 孤立推理 的现象:尽管在上下文中接收到了来自并行分支的丰富见解,但模型往往会忽略它们,试图从头开始重新解决问题。

为了克服这一问题,研究团队将综合阶段视为一个情景式强化学习环境。我们采用大规模、基于结果的 RL 来教会模型推理综合(Reasoning Synthesis) 能力:即审查并行分支、调和相互冲突的证据并提炼出统一解决方案的能力。

通过过滤训练数据,排除那些仅靠启发式规则就能解决的简单问题,我们迫使模型发展出真正的综合能力,将其从一个孤立的求解者转变为一个高效的协同者。



图 3:PaCoRe 训练动力学。



实验结果

研究团队将 PaCoRe-8B(初始化自基于 Qwen3-8B-Base 的内部后训练模型)与当前最具代表性的前沿推理模型进行了对比评估。

前沿级的性能表现

结果表明,并行协同机制使 8B 模型能够通过大规模扩展 TTC,获得远超标准解码限制的显著收益,在一些最复杂的数学和代码基准测试中超越了最先进的系统。



“综合” 能力的涌现



图 4:训练过程中模型输出中 “综合” 相关语言特征的演变。

研究团队绘制了 PaCoRe 训练期间,数学和代码任务生成解决方案中 “交叉检查” 类词汇(包括 'reference', ' 参考 ', 'Ref

', 'ref

')的频率。训练在这两个领域都激发并放大了这种综合能力。值得注意的是,模型最初在代码任务上很少进行交叉检查,这佐证了图 1 中代码任务在 PaCoRe 训练前测试时扩展性差的现象。

研究团队通过追踪训练过程中 “交叉检查”(cross-checking)语言标记的普遍性来探究 PaCoRe 的底层机制。如上图所示,基于结果的强化学习推动了这种行为在两个领域的稳步上升。模型显式地学会了引用同伴的消息(Referencing peer messages),这种行为在未经 PaCoRe 训练的模型中几乎不存在。这证实了 RL 根本性地改变了推理动态,使模型能够有效地利用大规模并行计算。

训练数据的通用有效性

除了框架本身,研究团队还发现为 PaCoRe 构建的训练语料库是一种密度极高的学习资源。经验观察表明,将我们发布的数据集作为标准 RLVR 的主要基底,也能带来稳健的性能提升。这表明我们的问题集 —— 经过精心筛选以要求真正的综合能力 —— 是训练通用强推理模型的高效催化剂。

结论与未来方向

PaCoRe 建立了一条通往大规模测试时扩展(Test-Time Scaling)的无限路径。通过围绕 “并行协同” 构建推理架构并针对 “综合能力” 进行训练,研究团队以将测试时计算扩展到数百万 Token,从而允许较小的开放权重模型在复杂任务上超越专有的前沿系统。

阶跃星辰团队将发布模型权重、训练数据和推理代码,以加速社区的研究。

展望未来,团队将 PaCoRe 视为通向以下更大目标的基础性一步:

1.扩展极限(Scaling the Extremes): 计划将 PaCoRe 应用于更强大的基础模型,扩展任务领域,并进一步扩大广度(并行轨迹)和深度(协同轮次),以攻克目前被认为无法解决的挑战。

2.提升 Token 智能密度(Boosting Token Intelligence Density): 虽然目前通过 “量” 来扩展,但研究团队的目标是最大化每一个计算单元的效用。这包括通过更好的组织、合作和轨迹间的劳动分工,实现更高效的并行探索。

3.涌现多智能体智能(Emergent Multi-Agent Intelligence): 研究团队有兴趣探索综合策略(Synthesis Policy)与消息传递机制的联合训练,构建一个极简却丰富的协作多智能体学习环境,这将是研究涌现式沟通、自组织和群体智能的宝贵试验场。

4.衔接预训练与后训练的 “衔尾蛇”(Ouroboros): 研究团队打算利用 PaCoRe 流程开发先进的合成数据生成技术,以反哺并改进当前的预训练和后训练过程,形成良性循环。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
神秘“华人”爆料,某岛上钱色交易不值一提,深层次的秘密才可怕

神秘“华人”爆料,某岛上钱色交易不值一提,深层次的秘密才可怕

林林故事揭秘
2024-12-25 12:24:41
女子退货寄奔驰钥匙后续:一把钥匙6千元,因为冷才把衣服一直穿

女子退货寄奔驰钥匙后续:一把钥匙6千元,因为冷才把衣服一直穿

苗苗情感说
2026-02-01 05:35:01
半天票房28万,预计亏损1000万,谢苗巨星梦要碎了

半天票房28万,预计亏损1000万,谢苗巨星梦要碎了

影视高原说
2026-01-30 13:04:35
加拿大怒了:美国怂恿能源大省闹独立

加拿大怒了:美国怂恿能源大省闹独立

上观新闻
2026-01-30 14:49:05
做完手术人就废了,这5种手术不需要做,别让无知害了自己

做完手术人就废了,这5种手术不需要做,别让无知害了自己

华庭讲美食
2026-01-19 14:27:13
复旦大学研究发现:长命百岁的关键是吃肉

复旦大学研究发现:长命百岁的关键是吃肉

科海识贝sci
2026-01-22 17:35:10
我卖了22年楼,今天说句实话:2026年,别再问房价了

我卖了22年楼,今天说句实话:2026年,别再问房价了

李博世财经
2026-01-31 17:07:50
80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

白云故事
2026-01-30 11:40:09
穆帅:抽到皇马等于抽到欧冠里的“王者”,库尔图瓦很有风度

穆帅:抽到皇马等于抽到欧冠里的“王者”,库尔图瓦很有风度

懂球帝
2026-02-01 00:21:40
为什么我说800V,是“最没用”的配置?

为什么我说800V,是“最没用”的配置?

少数派报告Report
2026-01-31 11:23:53
马斯克官宣3月首飞!5家中国企业成核心供应链主力

马斯克官宣3月首飞!5家中国企业成核心供应链主力

元爸体育
2026-02-01 09:51:17
3少妇卖淫:叫声太大邻居不堪忍受,现场画面流出,肮脏细节披露

3少妇卖淫:叫声太大邻居不堪忍受,现场画面流出,肮脏细节披露

博士观察
2026-01-31 23:11:22
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
女子嫁云南果商,吃车厘子得给钱,偷拉一车水果回娘家,婆婆炸了

女子嫁云南果商,吃车厘子得给钱,偷拉一车水果回娘家,婆婆炸了

离离言几许
2026-01-30 21:33:54
姚振华实名举报江苏官员,再次证明了一件事

姚振华实名举报江苏官员,再次证明了一件事

作家加野
2026-02-01 10:56:14
曝美联储主席提名人卷入爱泼斯坦案 目前白宫及沃什方面暂未置评

曝美联储主席提名人卷入爱泼斯坦案 目前白宫及沃什方面暂未置评

财联社
2026-01-31 15:50:59
联合国撑不过今年7月?古特雷斯正式通告全球,就等美国的答复

联合国撑不过今年7月?古特雷斯正式通告全球,就等美国的答复

娱乐的宅急便
2026-02-01 10:29:19
吴文忻肝脏肿瘤恶化到晚期,2个女儿含泪替妈妈祈福求助

吴文忻肝脏肿瘤恶化到晚期,2个女儿含泪替妈妈祈福求助

素素娱乐
2026-01-31 10:14:58
1988年授衔前,赵南起被匿名举报为“韩国间谍”,为何仍被授上将

1988年授衔前,赵南起被匿名举报为“韩国间谍”,为何仍被授上将

墨说古今
2026-01-18 22:56:11
小鹏年会给优秀员工发黄金工牌

小鹏年会给优秀员工发黄金工牌

三言科技
2026-01-30 14:23:08
2026-02-01 13:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142560关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

金价大跳水后 男子斥资20多万元抄底买入200克

头条要闻

金价大跳水后 男子斥资20多万元抄底买入200克

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

健康
家居
房产
手机
公开课

耳石症分类型,症状大不同

家居要闻

蓝调空舍 自由与个性

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

手机要闻

OPPO A6v搭载6500mAh电池、天玑6300处理器,2月2日预售

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版