网易首页 > 网易号 > 正文 申请入驻

字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」

0
分享至



机器之心报道

机器之心编辑部

现代 LLM 通常依赖显式的文本生成过程(例如「思维链」)来进行「思考」训练。这种策略将推理任务推迟到训练后的阶段,未能充分挖掘预训练数据中的潜力。

为解决这一问题,字节 Seed 团队联合多家机构推出了Ouro,一类被称为循环语言模型(Looped Language Models)的新型预训练模型,其名称源于象征循环与自我吞噬的「衔尾蛇」(Ouroboros)。

Ouro 另辟蹊径通过(i)在潜在空间中进行迭代计算,(ii)采用熵正则化目标以实现学习型深度分配,以及(iii)扩展至 7.7T tokens 的数据规模,将推理能力直接构建到了预训练阶段。 这些设计使得模型能够在预训练阶段直接学习和构建推理能力,而非仅依赖后期微调。



  • 论文标题:Scaling Latent Reasoning via Looped Language Models
  • 论文地址:https://arxiv.org/pdf/2510.25741
  • 项目主页:https://ouro-llm.github.io/
  • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

通过对照实验,研究者发现 Ouro 的性能提升并非源于知识存储量的增加,而是得益于其更高效的知识操控与推理能力。进一步分析表明,Ouro 的潜在推理过程相比标准 LLM,更接近真实的人类推理机制。



Ouro 循环语言模型的性能。(左)参数共享的循环架构。(中与右)雷达图比较了 Ouro 1.4B 与 2.6B 模型(均采用 4 个循环步,红色)与单独的 Transformer 基线模型。我们的模型表现出强劲性能,可与更大规模的基线模型相媲美,甚至在部分任务上超越它们。

最终,Ouro 的 1.4B 和 2.6B 参数规模的 LoopLM,分别能在几乎所有基准测试中达到与 4B 和 8B 标准 Transformer 相当的性能,实现了 2–3 倍的参数效率提升,显示了其在数据受限时代下作为一种新型扩展路径的潜力。



在高级推理基准测试中的表现。Ouro-Thinking 系列模型与强大的基线模型(如 Qwen3 和 DeepSeek-Distill)进行对比。Ouro-1.4B-Thinking R4 的性能可与 4B 规模模型相媲美,而 Ouro-2.6B-Thinking R4 在多个数学与科学数据集上的表现达到或超越了 8B 规模模型。

另外,LoopLM 架构在 HEx-PHI 基准上显著降低了有害性,且随着循环步数(包括外推步)增加,模型的安全性进一步提升。与传统的 CoT 方法不同,研究者的迭代潜变量更新机制产生的是因果一致的推理过程,而非事后的合理化解释。

循环架构

LoopLM 架构的灵感来源于「通用 Transformer」。其核心思想是在一个固定的参数预算内实现「动态计算」。具体而言,该架构包含一个由 N 个共享权重层组成的「层堆栈」。

在模型的前向传播过程中,这个共享的层堆栈会被循环应用多次,即经历多个「循环步骤」。这种设计将模型的计算规模从「参数数量」解耦到了「计算深度」。

该架构的关键特性是其自适应计算能力。它集成了一个学习到的「退出门」,当模型处理输入时:简单输入可能会在经历较少的循环步骤后就提前退出,从而节省计算资源;复杂输入则会自然地被分配更多的迭代次数,以进行更深层的处理。

这种迭代重用被视为一种「潜在推理」。与 CoT 在外部生成显式文本步骤不同,LoopLM 是在模型的内部隐藏状态中构建了一个「潜在思想链」。每一次循环都是对表征的逐步精炼,从而在不增加参数的情况下提升了模型的知识操纵能力。

训练流程

Ouro 的训练流程是一个多阶段过程,总共使用了 7.7T tokens 的数据。

如图 4 所示,该流程始于一个通用的预热阶段,随后是使用 3T token 的初始稳定训练阶段。在此之后,模型通过「upcycling」策略分支为 1.4B 和 2.6B 两种参数规模的变体。



两种变体均独立经历后续四个相同的训练阶段:第二次稳定训练(3T token)、CT 退火(CT Annealing, 1.4T token)、用于长上下文的 LongCT(20B token)以及中途训练(Mid-Training, 300B token)。

这个过程产生了 Ouro-1.4B 和 Ouro-2.6B 两个基础模型。最后,为了强化特定能力,模型还额外经历了一个专门的推理监督微调阶段,以创造出专注于推理的 Ouro-Thinking 系列模型。

在训练稳定性方面,团队发现最初使用 8 个循环步骤会导致损失尖峰等不稳定问题,因此在后续阶段将循环步骤减少到 4,以此在计算深度和稳定性之间取得了平衡。

为了让模型学会何时「提前退出」,训练流程采用了新颖的两阶段目标:



循环语言模型架构概览。

左图为训练阶段。在训练过程中,模型使用共享参数的 N 层堆叠结构,并执行 n 个循环步骤(R = 1 到 R = n)。在每个循环步骤 i,一个退出门预测退出概率 pᵢ,而语言建模头 Lᵢ 则计算对应的任务损失。 训练目标函数结合了所有循环步骤的期望任务损失,并加入熵正则化项 H(p₁,…,pₙ),以鼓励模型探索不同的计算深度。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美菲已用实际行动证明:一旦开战,中国航母根本无法通过巴士海峡

美菲已用实际行动证明:一旦开战,中国航母根本无法通过巴士海峡

超喜欢我
2025-12-10 08:16:21
涉嫌严重违纪违法,云南一州长主动投案!曾任瑞丽市委副书记等职

涉嫌严重违纪违法,云南一州长主动投案!曾任瑞丽市委副书记等职

潇湘晨报
2026-01-04 09:36:12
青岛女护士后续: 正脸曝光系惯犯,医院被牵连,卫健委: 已被停职

青岛女护士后续: 正脸曝光系惯犯,医院被牵连,卫健委: 已被停职

鋭娱之乐
2026-01-04 08:47:27
为什么美国、日本第一时间就知道中国的决策、军事及重大的工程等

为什么美国、日本第一时间就知道中国的决策、军事及重大的工程等

老谢谈史
2025-11-26 15:57:45
最坏的结果发生,马杜罗已被抓捕,34国被催开会,中方发出警告

最坏的结果发生,马杜罗已被抓捕,34国被催开会,中方发出警告

寻途
2026-01-04 10:01:07
意甲最新积分战报:尤文掉链子,罗马倒下,亚特兰大险胜

意甲最新积分战报:尤文掉链子,罗马倒下,亚特兰大险胜

足球狗说
2026-01-04 06:28:01
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
委内瑞拉致信联合国提四点要求 竟然没有要求美国放人

委内瑞拉致信联合国提四点要求 竟然没有要求美国放人

野渡商业评论
2026-01-03 22:42:27
腐乳再次被关注!研究发现:糖尿病患者常吃腐乳,或出现4种变化

腐乳再次被关注!研究发现:糖尿病患者常吃腐乳,或出现4种变化

摇感军事
2026-01-03 21:16:50
教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

夕阳渡史人
2026-01-04 09:59:52
当不成总统了?特朗普下令开战,俄英法选边站,美本土或陷入大乱

当不成总统了?特朗普下令开战,俄英法选边站,美本土或陷入大乱

标体
2026-01-04 09:22:02
网络上“轻言大义者”,已经越来越多

网络上“轻言大义者”,已经越来越多

林中木白
2025-09-23 23:09:13
美国这次入侵,未必都是坏事

美国这次入侵,未必都是坏事

牛弹琴
2026-01-04 07:56:20
特朗普谈抓马杜罗行动:有美军人员受伤 直升机被击中

特朗普谈抓马杜罗行动:有美军人员受伤 直升机被击中

新华社
2026-01-03 23:07:04
委内瑞拉变天,俄智库痛心疾首:无人机神话被破,中俄武器没反应

委内瑞拉变天,俄智库痛心疾首:无人机神话被破,中俄武器没反应

荐史
2026-01-03 21:17:43
贵州茅台成立爱茅台数字科技公司 经营范围含集成电路芯片及产品销售等

贵州茅台成立爱茅台数字科技公司 经营范围含集成电路芯片及产品销售等

财联社
2026-01-04 10:38:47
28岁,黑丝腿控局,好爱伸舌头拍照

28岁,黑丝腿控局,好爱伸舌头拍照

技巧君侃球
2026-01-02 23:39:46
再掏10万获谅解!永州美女老板正式表态不送车:企业+家庭有困难

再掏10万获谅解!永州美女老板正式表态不送车:企业+家庭有困难

风过乡
2026-01-03 17:10:37
中国最后流失的领土,1994年正式脱离中国,如今风景绝佳美女无数

中国最后流失的领土,1994年正式脱离中国,如今风景绝佳美女无数

丰谭笔录
2026-01-02 09:29:55
1950 年,毛主席毫无预兆地怒而下令,周总理与聂荣臻急忙起身应对,众人纷纷揣测:他为何突然发火?

1950 年,毛主席毫无预兆地怒而下令,周总理与聂荣臻急忙起身应对,众人纷纷揣测:他为何突然发火?

源溯历史
2026-01-03 14:55:11
2026-01-04 11:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12034文章数 142528关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

牛弹琴:美国开了一个危险先例 世界正在大乱

头条要闻

牛弹琴:美国开了一个危险先例 世界正在大乱

体育要闻

离开中超后,他成了足坛“倒钩之王”

娱乐要闻

司晓迪再曝猛料,晒和陈翔亲密合照

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

本地
时尚
旅游
家居
艺术

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

伊姐元旦热推:电视剧《剥茧》;电视剧《玉茗茶骨》......

旅游要闻

科技焕彩迎新春!东营市科技馆元旦假期接待游客近 1万人次

家居要闻

黑白碰撞 个性多元冷冽风

艺术要闻

故宫一级文物:和珅送给乾隆的80大寿贺礼

无障碍浏览 进入关怀版