网易首页 > 网易号 > 正文 申请入驻

字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」

0
分享至



机器之心报道

机器之心编辑部

现代 LLM 通常依赖显式的文本生成过程(例如「思维链」)来进行「思考」训练。这种策略将推理任务推迟到训练后的阶段,未能充分挖掘预训练数据中的潜力。

为解决这一问题,字节 Seed 团队联合多家机构推出了Ouro,一类被称为循环语言模型(Looped Language Models)的新型预训练模型,其名称源于象征循环与自我吞噬的「衔尾蛇」(Ouroboros)。

Ouro 另辟蹊径通过(i)在潜在空间中进行迭代计算,(ii)采用熵正则化目标以实现学习型深度分配,以及(iii)扩展至 7.7T tokens 的数据规模,将推理能力直接构建到了预训练阶段。 这些设计使得模型能够在预训练阶段直接学习和构建推理能力,而非仅依赖后期微调。



  • 论文标题:Scaling Latent Reasoning via Looped Language Models
  • 论文地址:https://arxiv.org/pdf/2510.25741
  • 项目主页:https://ouro-llm.github.io/
  • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

通过对照实验,研究者发现 Ouro 的性能提升并非源于知识存储量的增加,而是得益于其更高效的知识操控与推理能力。进一步分析表明,Ouro 的潜在推理过程相比标准 LLM,更接近真实的人类推理机制。



Ouro 循环语言模型的性能。(左)参数共享的循环架构。(中与右)雷达图比较了 Ouro 1.4B 与 2.6B 模型(均采用 4 个循环步,红色)与单独的 Transformer 基线模型。我们的模型表现出强劲性能,可与更大规模的基线模型相媲美,甚至在部分任务上超越它们。

最终,Ouro 的 1.4B 和 2.6B 参数规模的 LoopLM,分别能在几乎所有基准测试中达到与 4B 和 8B 标准 Transformer 相当的性能,实现了 2–3 倍的参数效率提升,显示了其在数据受限时代下作为一种新型扩展路径的潜力。



在高级推理基准测试中的表现。Ouro-Thinking 系列模型与强大的基线模型(如 Qwen3 和 DeepSeek-Distill)进行对比。Ouro-1.4B-Thinking R4 的性能可与 4B 规模模型相媲美,而 Ouro-2.6B-Thinking R4 在多个数学与科学数据集上的表现达到或超越了 8B 规模模型。

另外,LoopLM 架构在 HEx-PHI 基准上显著降低了有害性,且随着循环步数(包括外推步)增加,模型的安全性进一步提升。与传统的 CoT 方法不同,研究者的迭代潜变量更新机制产生的是因果一致的推理过程,而非事后的合理化解释。

循环架构

LoopLM 架构的灵感来源于「通用 Transformer」。其核心思想是在一个固定的参数预算内实现「动态计算」。具体而言,该架构包含一个由 N 个共享权重层组成的「层堆栈」。

在模型的前向传播过程中,这个共享的层堆栈会被循环应用多次,即经历多个「循环步骤」。这种设计将模型的计算规模从「参数数量」解耦到了「计算深度」。

该架构的关键特性是其自适应计算能力。它集成了一个学习到的「退出门」,当模型处理输入时:简单输入可能会在经历较少的循环步骤后就提前退出,从而节省计算资源;复杂输入则会自然地被分配更多的迭代次数,以进行更深层的处理。

这种迭代重用被视为一种「潜在推理」。与 CoT 在外部生成显式文本步骤不同,LoopLM 是在模型的内部隐藏状态中构建了一个「潜在思想链」。每一次循环都是对表征的逐步精炼,从而在不增加参数的情况下提升了模型的知识操纵能力。

训练流程

Ouro 的训练流程是一个多阶段过程,总共使用了 7.7T tokens 的数据。

如图 4 所示,该流程始于一个通用的预热阶段,随后是使用 3T token 的初始稳定训练阶段。在此之后,模型通过「upcycling」策略分支为 1.4B 和 2.6B 两种参数规模的变体。



两种变体均独立经历后续四个相同的训练阶段:第二次稳定训练(3T token)、CT 退火(CT Annealing, 1.4T token)、用于长上下文的 LongCT(20B token)以及中途训练(Mid-Training, 300B token)。

这个过程产生了 Ouro-1.4B 和 Ouro-2.6B 两个基础模型。最后,为了强化特定能力,模型还额外经历了一个专门的推理监督微调阶段,以创造出专注于推理的 Ouro-Thinking 系列模型。

在训练稳定性方面,团队发现最初使用 8 个循环步骤会导致损失尖峰等不稳定问题,因此在后续阶段将循环步骤减少到 4,以此在计算深度和稳定性之间取得了平衡。

为了让模型学会何时「提前退出」,训练流程采用了新颖的两阶段目标:



循环语言模型架构概览。

左图为训练阶段。在训练过程中,模型使用共享参数的 N 层堆叠结构,并执行 n 个循环步骤(R = 1 到 R = n)。在每个循环步骤 i,一个退出门预测退出概率 pᵢ,而语言建模头 Lᵢ 则计算对应的任务损失。 训练目标函数结合了所有循环步骤的期望任务损失,并加入熵正则化项 H(p₁,…,pₙ),以鼓励模型探索不同的计算深度。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广州又要降温了!新冷空气即将发货,最低气温12℃!

广州又要降温了!新冷空气即将发货,最低气温12℃!

羊城攻略
2025-11-12 17:42:36
她死于1688年,她的黄谣却传到了2025年

她死于1688年,她的黄谣却传到了2025年

最爱历史
2025-11-06 17:55:58
4分惜败!辽宁一胜难求,吴庆龙尽力了,刘子扬23分,李悦洲35+4

4分惜败!辽宁一胜难求,吴庆龙尽力了,刘子扬23分,李悦洲35+4

萌兰聊个球
2025-11-12 18:35:45
中方态度:支持,但暂不出资

中方态度:支持,但暂不出资

陆弃
2025-11-12 10:33:33
破产之后,王中磊仍住别墅,搬家后院子冷清,妻子感叹往日不再

破产之后,王中磊仍住别墅,搬家后院子冷清,妻子感叹往日不再

晓楖科普
2025-11-12 16:01:37
小米汽车的数据,好假!

小米汽车的数据,好假!

道哥说车
2025-11-12 09:47:12
A股:2个重要信号来了,明天,或将迎来新的上涨?

A股:2个重要信号来了,明天,或将迎来新的上涨?

明心
2025-11-12 16:34:46
匡琦太无奈:对朱婷没办法,她一个人带飞河南队!已是夺牌大热门

匡琦太无奈:对朱婷没办法,她一个人带飞河南队!已是夺牌大热门

金毛爱女排
2025-11-12 16:58:56
女子被赤裸抛尸续:继二伯狂打70通电话想发生关系,丈夫痛哭露面

女子被赤裸抛尸续:继二伯狂打70通电话想发生关系,丈夫痛哭露面

吭哧有力
2025-11-12 13:02:37
分享解剖学知识,破除多年来的G点谣传

分享解剖学知识,破除多年来的G点谣传

远方青木
2025-10-25 00:06:11
队史全运会第三冠!广东36分大胜浙江登顶 徐杰18+7吴前14中1

队史全运会第三冠!广东36分大胜浙江登顶 徐杰18+7吴前14中1

颜小白的篮球梦
2025-11-12 21:08:24
安徽高考生詹胡涛去世,年仅18岁,刚考上交通大学,前后仅2个月

安徽高考生詹胡涛去世,年仅18岁,刚考上交通大学,前后仅2个月

阅识
2025-11-12 10:15:35
谁注意,一位大人物赛后与杜锋握手致意,球迷:有排面日后或升官

谁注意,一位大人物赛后与杜锋握手致意,球迷:有排面日后或升官

南海浪花
2025-11-12 07:06:52
湖南人民医院事件新进展,视频拍摄者身份已清晰,第三者已出现

湖南人民医院事件新进展,视频拍摄者身份已清晰,第三者已出现

平老师666
2025-11-12 11:41:29
主动退出奥运申办!中国这一招,让西方媒体无话可说

主动退出奥运申办!中国这一招,让西方媒体无话可说

青梅侃史啊
2025-08-18 16:14:26
人事把我开除了,临走前问我还有什么想说的,我:被开除的是你

人事把我开除了,临走前问我还有什么想说的,我:被开除的是你

小秋情感说
2025-11-02 14:17:32
172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

健身迷
2025-10-16 10:10:40
中国名将2连胜!赵心童连胜3局,绝杀世界冠军,4强PK特鲁姆普

中国名将2连胜!赵心童连胜3局,绝杀世界冠军,4强PK特鲁姆普

小李子爱体育
2025-11-12 20:44:40
为什么床头不能放卫生纸?很多人不知道原因,看完赶紧收起来!

为什么床头不能放卫生纸?很多人不知道原因,看完赶紧收起来!

生活不过如此呀
2025-11-12 16:17:00
全运会7大省一哥遭淘汰!疯狂爆冷国乒新人堪忧,还得看小胖陈梦

全运会7大省一哥遭淘汰!疯狂爆冷国乒新人堪忧,还得看小胖陈梦

嘴炮体坛
2025-11-12 19:06:43
2025-11-12 21:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11699文章数 142504关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

本地
游戏
家居
数码
手机

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

M站87分!NS2平台《异度之刃X终极版》获重要优化

家居要闻

情感之所 生活教会设计

数码要闻

京东双11家电销冠之争:美的海尔都是第一,咋回事?

手机要闻

小米米家 App 安卓端推送 11.1.505.302 体验版,3D 家居视图上线

无障碍浏览 进入关怀版