网易首页 > 网易号 > 正文 申请入驻

又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

27M小模型超越o3-mini-high和DeepSeek-R1!推理还不靠思维链。

开发者是那位拒绝了马斯克、还要挑战Transformer的00后清华校友,Sapient Intelligence的创始人王冠

这个27M小模型就是Sapient最新提出的开源可复现的分层推理模型Hierarchical Reasoning Model(下面简称HRM),模仿大脑的分层处理与多时间尺度运作机制,克服了标准Transfomer的计算局限。

2700万参数,就实现了对现有大模型的精准超车。

不用预训练补课,还不靠思维链打草稿,仅凭1000个训练样本,就把极端数独、30x30迷宫玩得明明白白。

甚至连衡量通用智能的ARC-AGI测试都能碾压一众参数规模更大、上下文更长的Claude 3.7等“大前辈”。

有网友感叹,这就像四两拨千斤AI版……

所以,HRM这个小模型是如何做到的?

核心是仿脑的双层循环模块设计

HRM之所以能有如此出色的表现,源于其五项核心技术的巧妙设计。

首先是分层循环模块与时间尺度分离

HRM受大脑皮层区域分层处理和时间分离机制启发,设计了两个相互配合的循环模块:一个高层模块负责慢节奏的抽象规划,一个低层模块处理快节奏的细节计算,不用明确监督中间过程,一次就能完成推理。

两者在不同时间尺度上协同工作。低阶模块在每个高阶周期内完成多次计算并达到临时稳定状态后,高阶模块才会更新决策,随后低阶模块重置并开启新一轮计算。

这种设计既保证了全局方向的正确性,又提升了局部执行的效率。

比如,在需要大量树搜索和回溯的Sudoku-Extreme Full任务上,增加Transformer的宽度不能提升性能,增加深度才是关键,而标准架构会出现性能饱和,无法从深度增加中获益。

HRM则克服了这一限制,能有效利用计算深度实现近乎完美的准确率。

其次是分层收敛机制

普通的循环神经网络常出现过早收敛的问题——计算几步就陷入稳定状态,后续再复杂的任务也无法推进。

而HRM中,低阶模块在每轮计算中会收敛到基于当前高阶状态的局部结果,但高阶模块更新后,会给低阶模块设定新的目标,使其进入新的收敛周期。

这就像完成项目时,先攻克一个子任务,再根据整体进度调整目标,确保持续推进不偷懒。

第三项是近似梯度技术

传统循环模型训练时,需要存储所有中间状态并反向追溯,类似复盘时要回看每一步操作,既耗内存又低效。

HRM则采用一步梯度近似,只需根据最终状态反推优化方向,如同根据考试结果直接定位薄弱知识点,内存需求恒定且计算高效,更符合生物大脑的学习规律。

第四是深度监督机制

它受大脑中神经振荡调节学习节奏的启发,引入了阶段性测试。

模型在学习过程中被分成多个阶段,每个阶段结束后立即评估并调整参数,且前后阶段的计算互不干扰。

这种方式能及时纠正偏差,就像学生每学一单元就测试巩固,比期末一次性考试的学习效果更扎实。

自适应计算时间让HRM能像人一样灵活分配思考时间

它通过类似评估收益的算法(Q学习),动态决定是否继续计算,在保证准确率的同时避免算力浪费,推理时还能通过增加计算资源进一步提升表现。

比如,简单任务如简单迷宫快速给出答案,复杂任务如高难度数独则延长计算时间。

这些技术的融合,让HRM在多项测试中表现不凡。

下图通过可视化中间步骤,验证了HRM的分层推理机制能够有效拆解复杂任务,通过渐进式计算逼近正确结果,而非依赖黑箱式的一次性输出。

在衡量AI通用推理能力的ARC-AGI挑战中,HRM仅用2700万参数和1000个训练样本,就达到40.3%的准确率,超过了参数规模更大的o3-mini-high(34.5%)和Claude 3.7 8K(21.2%)。

对于需要反复试错的9x9极端数独,现有思维链模型完全无法解决(准确率0%),即便是结构相似的Transformer模型,用同样数据训练也毫无头绪。而HRM几乎能全部做对。

在30x30复杂迷宫的最优路径寻找任务中,HRM表现稳定,而1.75亿参数的大型Transformer模型准确率不足20%。

虽然,HRM被指参数太小、训练范围有限,只针对特定领域表现好,无法泛化到领域外,并不通用。但有人认为小而精的模型或许在某些角度上更智能。

人工智能的飞跃在于创造性。

也有人认为HRM的前景更在于“仿脑”,通过精心设计的高低两个模块避免过早收敛,对过拟合具有极强的抵抗力

甚至有人相当乐观,认为这种新架构是神经网络一个巨大的进步。有可能是超越Transformer的时刻。

拒绝马斯克,挑战Transfomer

论文的第一作者王冠是一位00后,8岁开始学习编程,后保送至清华大学计算机系。

他是GitHub揽星5.1k开源项目OpenChat的独立开发者,独立完成了OpenChat全部版本的模型开发和训练框架搭建。

也正是因为OpenChat这个项目,他和马斯克产生了交集。

但他算得上是一个拒绝了马斯克的男人——此前,王冠多次拒绝了xAI等一线机构创始人的加入邀请。

原因是他认为自己要做的是颠覆Transfomer

2024年,王冠和同为清华校友的陈威廉创办了Sapient Intelligence,并成功融资数千万美元。致力于打造“真正具有复杂推理和规划能力的全新大模型架构”。

论文地址:https://arxiv.org/abs/2506.21734
代码地址:https://github.com/sapientinc/HRM


[1]https://x.com/casper_hansen_/status/1951656675250684163
[2]https://x.com/deedydas/status/1951677875004100814
[3]https://x.com/omarsar0/status/1951751651729060081

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不要再向以色列提供一架战斗机!

不要再向以色列提供一架战斗机!

武器纵论
2026-04-09 22:35:26
张雪峰团队复播爆火,其妻李丽婧发声辟谣!

张雪峰团队复播爆火,其妻李丽婧发声辟谣!

品牌新
2026-04-09 20:27:02
孙杨:与张豆豆已有孩子

孙杨:与张豆豆已有孩子

南方都市报
2026-04-09 19:55:35
恩比德确诊急性阑尾炎!在休城接受紧急手术 相似病例平均歇23天

恩比德确诊急性阑尾炎!在休城接受紧急手术 相似病例平均歇23天

罗说NBA
2026-04-10 05:46:36
郑丽文一行在上海参访 点赞大陆经济活力与城市魅力

郑丽文一行在上海参访 点赞大陆经济活力与城市魅力

新华社
2026-04-09 15:36:11
陈丽华追悼会这天,江湖地位、人情冷暖,在她身上展现的淋漓尽致

陈丽华追悼会这天,江湖地位、人情冷暖,在她身上展现的淋漓尽致

阿纂看事
2026-04-09 17:06:27
收下中国26万桶柴油后,马科斯给南沙131处岛礁改名!菲律宾变脸

收下中国26万桶柴油后,马科斯给南沙131处岛礁改名!菲律宾变脸

趣文说娱
2026-04-09 20:17:07
3-1!夺冠热门诞生,埃梅里征服客场,目标直指欧战冠军

3-1!夺冠热门诞生,埃梅里征服客场,目标直指欧战冠军

足球狗说
2026-04-10 04:55:40
广东省高级人民法院刑一庭审判员、三级高级法官王一民被查

广东省高级人民法院刑一庭审判员、三级高级法官王一民被查

南方都市报
2026-04-10 10:44:09
“十多年没遇到过这样的!”浙江房东崩溃,租客两年藏近千斤尿液在房间,柜子全被塞满……

“十多年没遇到过这样的!”浙江房东崩溃,租客两年藏近千斤尿液在房间,柜子全被塞满……

扬子晚报
2026-04-10 11:06:50
NBA历史首次!爸爸詹姆斯接儿子布朗尼助攻暴扣 官方发声盛赞

NBA历史首次!爸爸詹姆斯接儿子布朗尼助攻暴扣 官方发声盛赞

醉卧浮生
2026-04-10 11:12:46
安徽蚌埠一幼儿园给孩子喂错药,家长回应:老师错将其他生病小孩的药喂给孩子;最新回应:已报警,卫健委已介入

安徽蚌埠一幼儿园给孩子喂错药,家长回应:老师错将其他生病小孩的药喂给孩子;最新回应:已报警,卫健委已介入

极目新闻
2026-04-10 12:20:03
传光伏设备对美出口,被全面叫停!

传光伏设备对美出口,被全面叫停!

赶碳号
2026-04-09 23:27:22
73岁迟重瑞送别妻子!憔悴哀伤瘦了好多,长子的举动打破世俗猜忌

73岁迟重瑞送别妻子!憔悴哀伤瘦了好多,长子的举动打破世俗猜忌

叨唠
2026-04-10 03:01:28
苏林,再次首访中国

苏林,再次首访中国

新民周刊
2026-04-10 09:05:29
湖北一男子涉嫌杀害4岁女儿后报溺水假警被刑拘,细节曝光:案发前5个月曾给女儿投保意外险,事发当天将女儿抛入江中,假意对遗体实施急救

湖北一男子涉嫌杀害4岁女儿后报溺水假警被刑拘,细节曝光:案发前5个月曾给女儿投保意外险,事发当天将女儿抛入江中,假意对遗体实施急救

扬子晚报
2026-04-10 11:22:32
郑丽文想要的,大陆给得很爽快,随行人员有惊喜,蓝营一姐发话了

郑丽文想要的,大陆给得很爽快,随行人员有惊喜,蓝营一姐发话了

近史博览
2026-04-10 09:58:26
日本企业2025财年破产超万家,创下近12年新高,招不到人成为重要原因

日本企业2025财年破产超万家,创下近12年新高,招不到人成为重要原因

三言四拍
2026-04-09 13:59:27
华为Mate 80 Pro Max 风驰版硬核挑战:手机风扇从夯到拉谁更强?

华为Mate 80 Pro Max 风驰版硬核挑战:手机风扇从夯到拉谁更强?

极果酷玩
2026-04-02 18:51:42
做了连战马英九没敢做的事,郑丽文专机将飞进北京,岛内风向要变

做了连战马英九没敢做的事,郑丽文专机将飞进北京,岛内风向要变

流史岁月
2026-04-09 09:41:01
2026-04-10 13:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12449文章数 176450关注度
往期回顾 全部

科技要闻

程序员惊喜,每月100美元!OpenAI推新套餐

头条要闻

再次"一肩挑"的苏林 将中国作为出访的首个国家

头条要闻

再次"一肩挑"的苏林 将中国作为出访的首个国家

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

爱尔眼科一院长被指猥亵 总部:已被停职

汽车要闻

全新一代理想 L8 五座旗舰+5C增程系统 三季度交付

态度原创

旅游
教育
房产
手机
时尚

旅游要闻

上观福利|春染大别山,赴约来六安,这里有一封来自春天的邀请

教育要闻

公共俄语四级词汇与语法技巧,仅3招拿下20分!

房产要闻

2400亩!大三亚又一个滨海度假区,规划曝光!

手机要闻

摩托罗拉Edge 70 Pro手机渲染图曝光:3种配色,6500mAh电池

越来越流行的松弛感穿搭,照着穿就很好看

无障碍浏览 进入关怀版