网易首页 > 网易号 > 正文 申请入驻

字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」

0
分享至



机器之心报道

机器之心编辑部

现代 LLM 通常依赖显式的文本生成过程(例如「思维链」)来进行「思考」训练。这种策略将推理任务推迟到训练后的阶段,未能充分挖掘预训练数据中的潜力。

为解决这一问题,字节 Seed 团队联合多家机构推出了Ouro,一类被称为循环语言模型(Looped Language Models)的新型预训练模型,其名称源于象征循环与自我吞噬的「衔尾蛇」(Ouroboros)。

Ouro 另辟蹊径通过(i)在潜在空间中进行迭代计算,(ii)采用熵正则化目标以实现学习型深度分配,以及(iii)扩展至 7.7T tokens 的数据规模,将推理能力直接构建到了预训练阶段。 这些设计使得模型能够在预训练阶段直接学习和构建推理能力,而非仅依赖后期微调。



  • 论文标题:Scaling Latent Reasoning via Looped Language Models
  • 论文地址:https://arxiv.org/pdf/2510.25741
  • 项目主页:https://ouro-llm.github.io/
  • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

通过对照实验,研究者发现 Ouro 的性能提升并非源于知识存储量的增加,而是得益于其更高效的知识操控与推理能力。进一步分析表明,Ouro 的潜在推理过程相比标准 LLM,更接近真实的人类推理机制。



Ouro 循环语言模型的性能。(左)参数共享的循环架构。(中与右)雷达图比较了 Ouro 1.4B 与 2.6B 模型(均采用 4 个循环步,红色)与单独的 Transformer 基线模型。我们的模型表现出强劲性能,可与更大规模的基线模型相媲美,甚至在部分任务上超越它们。

最终,Ouro 的 1.4B 和 2.6B 参数规模的 LoopLM,分别能在几乎所有基准测试中达到与 4B 和 8B 标准 Transformer 相当的性能,实现了 2–3 倍的参数效率提升,显示了其在数据受限时代下作为一种新型扩展路径的潜力。



在高级推理基准测试中的表现。Ouro-Thinking 系列模型与强大的基线模型(如 Qwen3 和 DeepSeek-Distill)进行对比。Ouro-1.4B-Thinking R4 的性能可与 4B 规模模型相媲美,而 Ouro-2.6B-Thinking R4 在多个数学与科学数据集上的表现达到或超越了 8B 规模模型。

另外,LoopLM 架构在 HEx-PHI 基准上显著降低了有害性,且随着循环步数(包括外推步)增加,模型的安全性进一步提升。与传统的 CoT 方法不同,研究者的迭代潜变量更新机制产生的是因果一致的推理过程,而非事后的合理化解释。

循环架构

LoopLM 架构的灵感来源于「通用 Transformer」。其核心思想是在一个固定的参数预算内实现「动态计算」。具体而言,该架构包含一个由 N 个共享权重层组成的「层堆栈」。

在模型的前向传播过程中,这个共享的层堆栈会被循环应用多次,即经历多个「循环步骤」。这种设计将模型的计算规模从「参数数量」解耦到了「计算深度」。

该架构的关键特性是其自适应计算能力。它集成了一个学习到的「退出门」,当模型处理输入时:简单输入可能会在经历较少的循环步骤后就提前退出,从而节省计算资源;复杂输入则会自然地被分配更多的迭代次数,以进行更深层的处理。

这种迭代重用被视为一种「潜在推理」。与 CoT 在外部生成显式文本步骤不同,LoopLM 是在模型的内部隐藏状态中构建了一个「潜在思想链」。每一次循环都是对表征的逐步精炼,从而在不增加参数的情况下提升了模型的知识操纵能力。

训练流程

Ouro 的训练流程是一个多阶段过程,总共使用了 7.7T tokens 的数据。

如图 4 所示,该流程始于一个通用的预热阶段,随后是使用 3T token 的初始稳定训练阶段。在此之后,模型通过「upcycling」策略分支为 1.4B 和 2.6B 两种参数规模的变体。



两种变体均独立经历后续四个相同的训练阶段:第二次稳定训练(3T token)、CT 退火(CT Annealing, 1.4T token)、用于长上下文的 LongCT(20B token)以及中途训练(Mid-Training, 300B token)。

这个过程产生了 Ouro-1.4B 和 Ouro-2.6B 两个基础模型。最后,为了强化特定能力,模型还额外经历了一个专门的推理监督微调阶段,以创造出专注于推理的 Ouro-Thinking 系列模型。

在训练稳定性方面,团队发现最初使用 8 个循环步骤会导致损失尖峰等不稳定问题,因此在后续阶段将循环步骤减少到 4,以此在计算深度和稳定性之间取得了平衡。

为了让模型学会何时「提前退出」,训练流程采用了新颖的两阶段目标:



循环语言模型架构概览。

左图为训练阶段。在训练过程中,模型使用共享参数的 N 层堆叠结构,并执行 n 个循环步骤(R = 1 到 R = n)。在每个循环步骤 i,一个退出门预测退出概率 pᵢ,而语言建模头 Lᵢ 则计算对应的任务损失。 训练目标函数结合了所有循环步骤的期望任务损失,并加入熵正则化项 H(p₁,…,pₙ),以鼓励模型探索不同的计算深度。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乒乓球全运会:林诗栋0-2落后大逆转!11-3大胜,3-0领先冲16强!

乒乓球全运会:林诗栋0-2落后大逆转!11-3大胜,3-0领先冲16强!

刘姚尧的文字城堡
2025-11-11 18:30:46
今晚19-30直播表:CCTV5+节目单及乒乓球赛程安排

今晚19-30直播表:CCTV5+节目单及乒乓球赛程安排

阿薎美食
2025-11-12 15:17:27
副院长与门诊副主任不雅照,背后的警示?

副院长与门诊副主任不雅照,背后的警示?

小小一米月儿
2025-11-08 08:57:20
全军仅此一例:师长授中将,军长和另外3名师长仅被授予少将

全军仅此一例:师长授中将,军长和另外3名师长仅被授予少将

冰雅忆史
2025-11-12 09:19:39
中字头,突然拉升!

中字头,突然拉升!

证券时报
2025-11-12 12:59:03
“被三耳光打晕的武术传人”赵鸿刚不过是一个“穿着西服的阿Q”

“被三耳光打晕的武术传人”赵鸿刚不过是一个“穿着西服的阿Q”

壹家言
2025-11-11 15:39:27
李德新已任大连市委副书记

李德新已任大连市委副书记

大风新闻
2025-11-12 10:15:05
曾主任和祖院长是真爱?都是久经考验的人,哪有什么真爱

曾主任和祖院长是真爱?都是久经考验的人,哪有什么真爱

合赞历史
2025-11-12 15:12:27
家庭存款11大等级曝光,50%的人难以跨越第四层,你在哪一层?

家庭存款11大等级曝光,50%的人难以跨越第四层,你在哪一层?

历史求知所
2025-11-12 11:35:03
宣布大裁员!4.8万人面临失业

宣布大裁员!4.8万人面临失业

最江阴
2025-11-12 16:10:42
自我勉励,内马尔在社交媒体上晒出科比的经典照片

自我勉励,内马尔在社交媒体上晒出科比的经典照片

懂球帝
2025-11-11 21:35:02
曾琦,女,1981年出生,博士,主任医师,副教授

曾琦,女,1981年出生,博士,主任医师,副教授

岁月有情1314
2025-11-09 09:56:33
10分击败北京,山东斩获第5,鞠维松完成任务,陶汉林收官战26+17

10分击败北京,山东斩获第5,鞠维松完成任务,陶汉林收官战26+17

萌兰聊个球
2025-11-12 15:22:52
全国各地医保亏损,新乡限制医保报销额度,统筹日支付限额50元!

全国各地医保亏损,新乡限制医保报销额度,统筹日支付限额50元!

你食不食油饼
2025-11-11 07:00:06
买了66台苹果手机总价50多万!男子放在平台出租,如今租金拿不到,手机也要不回来

买了66台苹果手机总价50多万!男子放在平台出租,如今租金拿不到,手机也要不回来

潇湘晨报
2025-11-09 22:27:27
郭晶晶没想到,79岁的公公霍震霆再破天花板,让整个豪门圈沉默了

郭晶晶没想到,79岁的公公霍震霆再破天花板,让整个豪门圈沉默了

陈意小可爱
2025-11-10 09:56:04
泪目!全红婵深夜发文,14字道尽心声,告别全运会,陈芋汐送祝福

泪目!全红婵深夜发文,14字道尽心声,告别全运会,陈芋汐送祝福

大秦壁虎白话体育
2025-11-12 09:32:53
赵露思生日音乐会造型封神!又纯又欲氛围感拉满

赵露思生日音乐会造型封神!又纯又欲氛围感拉满

述家娱记
2025-11-09 19:00:42
广汽丰田全新威兰达11月20日上市:RAV4姊妹车型,内外全面换代

广汽丰田全新威兰达11月20日上市:RAV4姊妹车型,内外全面换代

IT之家
2025-11-12 10:02:16
惠特莫尔反戈,火箭首发5将变阵 谢泼德与底薪后卫竞争 新援缺阵

惠特莫尔反戈,火箭首发5将变阵 谢泼德与底薪后卫竞争 新援缺阵

钱说体育
2025-11-12 16:42:02
2025-11-12 17:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11697文章数 142504关注度
往期回顾 全部

科技要闻

Meta"宫斗"持续,AI教父杨立昆被"气"走了

头条要闻

"大客户"租两豪车后人间蒸发 车行找到车后一看天塌了

头条要闻

"大客户"租两豪车后人间蒸发 车行找到车后一看天塌了

体育要闻

太阳三连胜&活塞东部第一 哪个更想不到

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

专家建议设立5万亿房地产稳定基金

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

家居
游戏
亲子
教育
公开课

家居要闻

情感之所 生活教会设计

《棕色尘埃2》上架Steam!12月16日爽玩 有特别活动

亲子要闻

爸爸说今天让孩子们自制披萨

教育要闻

教育部重磅部署为教师减负,这次能带来彻底好转吗? “除了畜牧局,都在使唤我们”,教育部重磅部署为教师...

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版