网易首页 > 网易号 > 正文 申请入驻

字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」

0
分享至



机器之心报道

机器之心编辑部

现代 LLM 通常依赖显式的文本生成过程(例如「思维链」)来进行「思考」训练。这种策略将推理任务推迟到训练后的阶段,未能充分挖掘预训练数据中的潜力。

为解决这一问题,字节 Seed 团队联合多家机构推出了Ouro,一类被称为循环语言模型(Looped Language Models)的新型预训练模型,其名称源于象征循环与自我吞噬的「衔尾蛇」(Ouroboros)。

Ouro 另辟蹊径通过(i)在潜在空间中进行迭代计算,(ii)采用熵正则化目标以实现学习型深度分配,以及(iii)扩展至 7.7T tokens 的数据规模,将推理能力直接构建到了预训练阶段。 这些设计使得模型能够在预训练阶段直接学习和构建推理能力,而非仅依赖后期微调。



  • 论文标题:Scaling Latent Reasoning via Looped Language Models
  • 论文地址:https://arxiv.org/pdf/2510.25741
  • 项目主页:https://ouro-llm.github.io/
  • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

通过对照实验,研究者发现 Ouro 的性能提升并非源于知识存储量的增加,而是得益于其更高效的知识操控与推理能力。进一步分析表明,Ouro 的潜在推理过程相比标准 LLM,更接近真实的人类推理机制。



Ouro 循环语言模型的性能。(左)参数共享的循环架构。(中与右)雷达图比较了 Ouro 1.4B 与 2.6B 模型(均采用 4 个循环步,红色)与单独的 Transformer 基线模型。我们的模型表现出强劲性能,可与更大规模的基线模型相媲美,甚至在部分任务上超越它们。

最终,Ouro 的 1.4B 和 2.6B 参数规模的 LoopLM,分别能在几乎所有基准测试中达到与 4B 和 8B 标准 Transformer 相当的性能,实现了 2–3 倍的参数效率提升,显示了其在数据受限时代下作为一种新型扩展路径的潜力。



在高级推理基准测试中的表现。Ouro-Thinking 系列模型与强大的基线模型(如 Qwen3 和 DeepSeek-Distill)进行对比。Ouro-1.4B-Thinking R4 的性能可与 4B 规模模型相媲美,而 Ouro-2.6B-Thinking R4 在多个数学与科学数据集上的表现达到或超越了 8B 规模模型。

另外,LoopLM 架构在 HEx-PHI 基准上显著降低了有害性,且随着循环步数(包括外推步)增加,模型的安全性进一步提升。与传统的 CoT 方法不同,研究者的迭代潜变量更新机制产生的是因果一致的推理过程,而非事后的合理化解释。

循环架构

LoopLM 架构的灵感来源于「通用 Transformer」。其核心思想是在一个固定的参数预算内实现「动态计算」。具体而言,该架构包含一个由 N 个共享权重层组成的「层堆栈」。

在模型的前向传播过程中,这个共享的层堆栈会被循环应用多次,即经历多个「循环步骤」。这种设计将模型的计算规模从「参数数量」解耦到了「计算深度」。

该架构的关键特性是其自适应计算能力。它集成了一个学习到的「退出门」,当模型处理输入时:简单输入可能会在经历较少的循环步骤后就提前退出,从而节省计算资源;复杂输入则会自然地被分配更多的迭代次数,以进行更深层的处理。

这种迭代重用被视为一种「潜在推理」。与 CoT 在外部生成显式文本步骤不同,LoopLM 是在模型的内部隐藏状态中构建了一个「潜在思想链」。每一次循环都是对表征的逐步精炼,从而在不增加参数的情况下提升了模型的知识操纵能力。

训练流程

Ouro 的训练流程是一个多阶段过程,总共使用了 7.7T tokens 的数据。

如图 4 所示,该流程始于一个通用的预热阶段,随后是使用 3T token 的初始稳定训练阶段。在此之后,模型通过「upcycling」策略分支为 1.4B 和 2.6B 两种参数规模的变体。



两种变体均独立经历后续四个相同的训练阶段:第二次稳定训练(3T token)、CT 退火(CT Annealing, 1.4T token)、用于长上下文的 LongCT(20B token)以及中途训练(Mid-Training, 300B token)。

这个过程产生了 Ouro-1.4B 和 Ouro-2.6B 两个基础模型。最后,为了强化特定能力,模型还额外经历了一个专门的推理监督微调阶段,以创造出专注于推理的 Ouro-Thinking 系列模型。

在训练稳定性方面,团队发现最初使用 8 个循环步骤会导致损失尖峰等不稳定问题,因此在后续阶段将循环步骤减少到 4,以此在计算深度和稳定性之间取得了平衡。

为了让模型学会何时「提前退出」,训练流程采用了新颖的两阶段目标:



循环语言模型架构概览。

左图为训练阶段。在训练过程中,模型使用共享参数的 N 层堆叠结构,并执行 n 个循环步骤(R = 1 到 R = n)。在每个循环步骤 i,一个退出门预测退出概率 pᵢ,而语言建模头 Lᵢ 则计算对应的任务损失。 训练目标函数结合了所有循环步骤的期望任务损失,并加入熵正则化项 H(p₁,…,pₙ),以鼓励模型探索不同的计算深度。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
证监会重磅!紧急召开座谈会,利好三大板块!下周A股将加速上涨

证监会重磅!紧急召开座谈会,利好三大板块!下周A股将加速上涨

虎哥闲聊
2026-02-28 08:39:33
56岁女主持人因患癌症去世!昏迷3天,家人含泪拔管送最后一程

56岁女主持人因患癌症去世!昏迷3天,家人含泪拔管送最后一程

代军哥哥谈娱乐
2026-02-27 10:49:34
CCTV5直播!中国男篮对阵中国台北,CBA后卫巅峰对决,剑指连胜

CCTV5直播!中国男篮对阵中国台北,CBA后卫巅峰对决,剑指连胜

中国篮坛快讯
2026-02-27 14:10:03
全球足球俱乐部年度吸金王:一年收入近百亿,已连续25个季度盈利

全球足球俱乐部年度吸金王:一年收入近百亿,已连续25个季度盈利

柳先说
2026-02-27 22:02:28
四川成都一交警在马路中央被非机动车撞飞,头部流血送医;警方回应:被撞交警正在医院治疗,事故原因正在调查中

四川成都一交警在马路中央被非机动车撞飞,头部流血送医;警方回应:被撞交警正在医院治疗,事故原因正在调查中

扬子晚报
2026-02-27 15:37:20
情侣虎跳峡游玩时男子坠江失踪!女友崩溃:我们马上要结婚…已是五天内第二起事故

情侣虎跳峡游玩时男子坠江失踪!女友崩溃:我们马上要结婚…已是五天内第二起事故

新民晚报
2026-02-27 19:50:14
为什么东风-41洲际导弹,拒绝使用“北斗”卫星导航制导?

为什么东风-41洲际导弹,拒绝使用“北斗”卫星导航制导?

Ck的蜜糖
2026-02-28 01:00:58
中朝边境鸭绿江口现状:朝鲜领土正在不断增加,中方却在逐渐减少

中朝边境鸭绿江口现状:朝鲜领土正在不断增加,中方却在逐渐减少

普览
2026-02-26 21:29:19
吉利偷偷换上了朱雀新车标,被18个国家抢购,帅得有点太过分

吉利偷偷换上了朱雀新车标,被18个国家抢购,帅得有点太过分

有态度网友17y
2026-02-26 19:58:08
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
巴拿马总统彻底傻眼!发现强吞中国18亿资产,竟是自掘坟墓

巴拿马总统彻底傻眼!发现强吞中国18亿资产,竟是自掘坟墓

妙知
2026-02-28 11:29:13
又来?!皮特朱莉24岁儿子放弃皮特姓氏!已经第四个了啊...

又来?!皮特朱莉24岁儿子放弃皮特姓氏!已经第四个了啊...

英国那些事儿
2026-02-27 23:25:01
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
73岁李修贤:老到认不出,住3层豪华别墅,带3个混血外孙当网红

73岁李修贤:老到认不出,住3层豪华别墅,带3个混血外孙当网红

以茶带书
2026-02-27 19:15:16
知名好莱坞演员在自家谷仓内身亡:汽车搭电时突然自燃,曾获5届拳击冠军

知名好莱坞演员在自家谷仓内身亡:汽车搭电时突然自燃,曾获5届拳击冠军

红星新闻
2026-02-27 17:33:09
就是一整块屏!广东新闻联播提前展示OPPO Find N6:微距展示肉眼几乎看不到折痕

就是一整块屏!广东新闻联播提前展示OPPO Find N6:微距展示肉眼几乎看不到折痕

快科技
2026-02-27 10:42:00
柬埔寨国王太后赴华体检 汪文斌大使送行

柬埔寨国王太后赴华体检 汪文斌大使送行

看看新闻Knews
2026-02-27 16:04:02
张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

秀语千寻
2026-02-22 19:28:42
赚大了!网友网购一条32GB DDR5内存 打开包裹目瞪口呆:竟收到十条

赚大了!网友网购一条32GB DDR5内存 打开包裹目瞪口呆:竟收到十条

快科技
2026-02-27 09:37:04
骑士主帅:哈登在训练中表现得有些吃力,教练组决定让他继续休息

骑士主帅:哈登在训练中表现得有些吃力,教练组决定让他继续休息

移动挡拆
2026-02-28 08:32:33
2026-02-28 12:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12377文章数 142573关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

本地
亲子
家居
教育
数码

本地新闻

津南好·四时总相宜

亲子要闻

生孩子如同走一趟“鬼门关”?产床旁的一面墙,揭开生育的遮羞布

家居要闻

素色肌理 品意式格调

教育要闻

忍无可忍!中国数学会发布声明,很多孩子参加的竞赛可能是白忙活

数码要闻

联想后续将推出Ultra 5 338H版ThinkBook 14+/16+笔记本电脑

无障碍浏览 进入关怀版