网易首页 > 网易号 > 正文 申请入驻

清华00后校友推出「分层推理」模型,仅2700万参数,击败o3-mini-high

0
分享至

尽管大语言模型(LLM)在内容(文本、图像、视频、音频等)生成、对话交互等任务中“大放异彩”,但在实现“真正推理”方面依然存在局限性

思维链(CoT)并非一个理想的长期方案:它依赖于脆弱的人工预定义分解,任何一个步骤出错或顺序有误,都可能导致整个推理过程完全偏离正确轨道;而且 CoT 推理通常需要大量的训练数据,并为完成复杂推理任务而生成大量 token,目前缺少一种更高效方法来最大限度地减少数据需求。

清华 00 后校友王冠(Guan Wang)领导的 Sapient Intelligence 团队认为,分层、递归、多时间尺度——这些人脑特有的运作机制,或许可以推动推理 LLM 实现重要突破。

为此,他们发布、开源了一个名为“分层推理模型”(Hierarchical Reasoning Model,HRM)的类脑 AI 模型,仅使用1000个训练样本、无需预训练无需 CoT 数据,仅2700万参数,却在 ARC-AGI、复杂数独谜题和大型迷宫中最优路径搜索等超高难度挑战任务中,击败了 o3-mini-high、Claude 3.7 8k、DeepSeek R1等前沿模型。

图|HRM 包括四个可学习组件:输入网络、低级递归模块、高级递归模块和输出网络。

值得一提的是,上述基于 CoT 的 SOTA 模型在数独、迷宫任务中的完成率为0,而 HRM 分别取得了55%74.5%的准确率。

研究团队表示,这些结果凸显了 HRM 作为实现通用计算和通用推理系统方面的潜力。

论文链接:https://arxiv.org/abs/2506.21734

GitHub 地址:https://github.com/sapientinc/HRM

模仿人脑,解决AI推理难题

深度学习,顾名思义,源于通过堆叠更多层(layer)来增强表征能力和提高性能的思路。然而,尽管 LLM 取得了显著的进展,但其核心架构仍然较“浅”,从根本上限制了其关键推理能力

标准的 Transformer 具有固定的深度,这使得其计算能力受到复杂度类别的限制,无法解决那些需要多项式时间复杂度的问题。因此,LLM 并非图灵完备的,至少在纯粹的端到端模式下,它们无法执行复杂的算法推理任务,比如涉及深度规划或符号操作的任务。

图|复杂推理中深度的必要性。左图:Sudoku-Extreme Full 任务需要大量的树状搜索和回溯,增加 Transformer 的宽度不会带来性能提升,而增加深度则至关重要。右图:标准架构会饱和,无法从深度的增加中获益。

为了解决上述问题,研究团队探索了“潜在推理”,使模型能够在潜在空间中进行推理。然而,即使采用潜在空间推理,这一方法的效果仍然受到模型有效计算深度的限制。于是,他们转向大脑的分层、多时间尺度生物架构,通过 HRM 有效提升了模型的计算深度。

具体而言,他们参考了大脑神经计算的三个基本原则:分层处理,大脑通过皮层区域的层次结构来处理信息;时空分离,不同层次结构在不同内在时间尺度下运行,这一现象反映在神经节律中;递归连接,大脑具有广泛的循环连接。

通过“层次收敛”的机制,HRM 克服了过早收敛的问题。具体来说,在每个周期中,L 模块(一个 RNN)都会稳定地收敛到一个局部平衡点,这种平衡取决于在该周期中提供的高级状态 zH。在完成 T 个步骤后,H 模块会吸收子计算的结果(最终状态 zL),并执行自己的更新。zH 的更新为 L 模块建立一个全新的环境,实质上是“重启”它的计算路径,并启动一个新的收敛阶段,以达到不同的局部均衡。

图|前向残差与 PCA 轨迹的比较。HRM 显示了分层收敛:H 模块稳步收敛,而 L 模块在被 H 重置前反复在周期内收敛,导致残差尖峰。递归神经网络表现出快速收敛,残差迅速趋近于零。相比之下,深度神经网络的梯度消失,残差主要出现在初始层(输入层)和末尾层。

通过这样的设计,HRM 能够执行一系列不同的、稳定的嵌套计算。与此同时,HRM 依然能够保持稳定地逐步收敛,这意味着它在任何计算深度下都可以取得更好的性能。

利用其增强的有效深度,HRM 在需要大量搜索和回溯的任务中表现出色。HRM 仅使用 1000 个输入输出示例,且无需预训练或 CoT 监督,便能解决即使 SOTA LLM 也难以完成的问题。

重要的是,HRM 模型表现出能够灵活适应不同的推理方式,并且很可能针对每个特定任务选择最有效的策略。然而,研究团队也表示,若要对这些策略形成更全面、深入地理解,仍需开展进一步研究。

摆脱CoT依赖,迈向通用智能

与早期的神经推理模型(如通用 Transformer)类似,HRM 在计算上具备通用性。实际上,先前的这类循环神经推理器受限于过早收敛和内存密集型时间反向传播(BPTT)问题,其有效计算深度始终受限。

而 HRM 通过解决这两大难题,并引入自适应计算机制,为未来能够训练更长推理过程、解决依赖深度优先搜索和复杂回溯的难题,提供了新的可能,也使其朝着实用化的图灵完备性更进一步

除了使用人类标注的 CoT 进行微调之外,强化学习(RL)是另一种常见的训练方法。RL 主要是挖掘现有的类似 CoT 的能力,而不是从根本上发现新的推理机制。此外,RL 训练通常不稳定、数据效率低,通常需要大量探索和精心的奖励设计。

相比之下,HRM 采取的是基于密集梯度反馈的监督训练而非稀疏奖励信号。同时,HRM 在连续的潜在空间中自然地完成推理过程,避免了为每个 token 分配相同的计算资源,即使不同 token 在推理和规划复杂性方面有所差异。

当前研究不仅在探索递归结构在通用计算方面的潜力,也尝试将其作为替代手段,取代 Transformer 中的注意力机制。然而,仅替换注意力机制并不能改变 Transformer 本质上仍是固定深度模型的事实,因此仍然需要借助 CoT 作为补偿机制。值得注意的是,线性注意力在处理扩展上下文时能够减少对键值(key-value)缓存的依赖,使其更适合部署在资源受限的端侧设备上。

HRM通过结合分层结构与多时间尺度处理机制,在不牺牲训练稳定性和效率的前提下,实现了显著的计算深度。尽管大脑在大多数认知过程中高度依赖分层结构,但这一理念长期以来主要停留在学术讨论中,尚未有效转化为实际应用。目前主流的人工智能方法仍倾向于使用非分层模型。

本研究的结果挑战了这一主流范式,表明层次推理模型是一种具有可行性的替代方案,能够取代当前主流的 CoT 推理方法,并向实现图灵完备的通用计算基础框架迈出了关键一步。

整理:小羊

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演都不演了!大衣哥女儿出嫁不到1天!恶心的事发生,还不止一件

演都不演了!大衣哥女儿出嫁不到1天!恶心的事发生,还不止一件

林轻吟
2026-02-15 17:31:26
外交部驻港公署就有关国家和组织干预黎智英案量刑裁决向其驻港机构提出严正交涉

外交部驻港公署就有关国家和组织干预黎智英案量刑裁决向其驻港机构提出严正交涉

环球网资讯
2026-02-14 14:22:40
24岁研究生与55岁阿姨宿舍偷情:现场画面流出,大量肮脏细节曝光

24岁研究生与55岁阿姨宿舍偷情:现场画面流出,大量肮脏细节曝光

博士观察
2026-02-15 12:16:17
比特币的属性已经变了!从12万美元到6万美元,币价腰斩后,持币71万枚的“巨鲸”走到破产边缘

比特币的属性已经变了!从12万美元到6万美元,币价腰斩后,持币71万枚的“巨鲸”走到破产边缘

每日经济新闻
2026-02-13 14:51:06
陈皮配它一煮,倒床就睡,疏肝解郁!我靠这方法睡得香,精神足!

陈皮配它一煮,倒床就睡,疏肝解郁!我靠这方法睡得香,精神足!

宝哥精彩赛事
2026-02-14 17:44:52
被联名举报的川大导师王竹卿,才是真正的学术和清廉楷模!

被联名举报的川大导师王竹卿,才是真正的学术和清廉楷模!

闲侃闲侃
2026-02-15 08:34:19
乌军团长摊牌:不打将军只斩营连长,无人机绞杀才是制胜关键

乌军团长摊牌:不打将军只斩营连长,无人机绞杀才是制胜关键

老马拉车莫少装
2026-02-10 23:18:25
2026香港富豪榜出炉:霍家未入前十,刘銮雄仅排第七

2026香港富豪榜出炉:霍家未入前十,刘銮雄仅排第七

纵拥千千晚星
2026-02-14 17:56:47
普通人不要妄自菲薄:这个世界就是一个大的草台班子,稳住就能赢

普通人不要妄自菲薄:这个世界就是一个大的草台班子,稳住就能赢

木言观
2026-01-16 22:56:22
意甲最新积分战报:科莫爆冷,拉齐奥倒下,国米绝杀尤文

意甲最新积分战报:科莫爆冷,拉齐奥倒下,国米绝杀尤文

足球狗说
2026-02-15 07:07:01
高亭宇获得米兰冬奥会速度滑冰男子500米第七名

高亭宇获得米兰冬奥会速度滑冰男子500米第七名

环球网资讯
2026-02-15 06:41:08
莫言:夫妻能过就好好过,最好别离婚,你渐渐就会发现,跟谁过都是一个鬼样,或许更糟糕

莫言:夫妻能过就好好过,最好别离婚,你渐渐就会发现,跟谁过都是一个鬼样,或许更糟糕

北极星心理
2025-12-31 06:50:45
被美国关了一个多月,马杜罗想清楚了,委内瑞拉就该走现在的路

被美国关了一个多月,马杜罗想清楚了,委内瑞拉就该走现在的路

流年顛簸
2026-02-15 02:47:36
网红“大鑫”直播间声称“合成牛肉”为“100%纯牛肉”,被罚6.5万元;宣称“假一赔万”,“大鑫”虽已致歉但未赔偿消费者

网红“大鑫”直播间声称“合成牛肉”为“100%纯牛肉”,被罚6.5万元;宣称“假一赔万”,“大鑫”虽已致歉但未赔偿消费者

扬子晚报
2026-02-15 09:17:17
女子深夜打车回家,发现司机绕路她准备报警,司机:你仔细看后面

女子深夜打车回家,发现司机绕路她准备报警,司机:你仔细看后面

千秋文化
2026-02-12 20:06:26
王志坚已任兰州市委副书记,河南邓州人

王志坚已任兰州市委副书记,河南邓州人

大象新闻
2026-02-15 11:43:06
唐朝为什么要设置节度使,难道不知道这会导致地方割据吗?

唐朝为什么要设置节度使,难道不知道这会导致地方割据吗?

掠影后有感
2026-02-14 13:28:52
比中国还大的西伯利亚,一年“冬眠”七个月,当地居民如何过冬?

比中国还大的西伯利亚,一年“冬眠”七个月,当地居民如何过冬?

阿諢体育
2026-02-15 09:48:26
俄罗斯专家:“美国面对的中国,是一个没有任何缺陷的超级大国”

俄罗斯专家:“美国面对的中国,是一个没有任何缺陷的超级大国”

刘浶开挖机
2026-02-15 16:17:32
杜若溪带公婆去娘家过年,坐18个小时绿皮车,一家八口同框很幸福

杜若溪带公婆去娘家过年,坐18个小时绿皮车,一家八口同框很幸福

TVB的四小花
2026-02-14 21:10:27
2026-02-15 18:15:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

网红带货"100%纯牛肉"涉虚假宣传 事后道歉但拒绝赔偿

头条要闻

网红带货"100%纯牛肉"涉虚假宣传 事后道歉但拒绝赔偿

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

数码
时尚
健康
房产
军事航空

数码要闻

央视主持人马凡舒点赞!追觅T60 Ultra洗地机春晚后台实力救场

推广中奖名单-更新至2026年2月3日推广

转头就晕的耳石症,能开车上班吗?

房产要闻

三亚新机场,又传出新消息!

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版