网易首页 > 网易号 > 正文 申请入驻

又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

27M小模型超越o3-mini-high和DeepSeek-R1!推理还不靠思维链。

开发者是那位拒绝了马斯克、还要挑战Transformer的00后清华校友,Sapient Intelligence的创始人王冠



这个27M小模型就是Sapient最新提出的开源可复现的分层推理模型Hierarchical Reasoning Model(下面简称HRM),模仿大脑的分层处理与多时间尺度运作机制,克服了标准Transfomer的计算局限。



2700万参数,就实现了对现有大模型的精准超车。

不用预训练补课,还不靠思维链打草稿,仅凭1000个训练样本,就把极端数独、30x30迷宫玩得明明白白。

甚至连衡量通用智能的ARC-AGI测试都能碾压一众参数规模更大、上下文更长的Claude 3.7等“大前辈”。

有网友感叹,这就像四两拨千斤AI版……



所以,HRM这个小模型是如何做到的?

核心是仿脑的双层循环模块设计

HRM之所以能有如此出色的表现,源于其五项核心技术的巧妙设计。

首先是分层循环模块与时间尺度分离

HRM受大脑皮层区域分层处理和时间分离机制启发,设计了两个相互配合的循环模块:一个高层模块负责慢节奏的抽象规划,一个低层模块处理快节奏的细节计算,不用明确监督中间过程,一次就能完成推理。



两者在不同时间尺度上协同工作。低阶模块在每个高阶周期内完成多次计算并达到临时稳定状态后,高阶模块才会更新决策,随后低阶模块重置并开启新一轮计算。

这种设计既保证了全局方向的正确性,又提升了局部执行的效率。

比如,在需要大量树搜索和回溯的Sudoku-Extreme Full任务上,增加Transformer的宽度不能提升性能,增加深度才是关键,而标准架构会出现性能饱和,无法从深度增加中获益。

HRM则克服了这一限制,能有效利用计算深度实现近乎完美的准确率。



其次是分层收敛机制

普通的循环神经网络常出现过早收敛的问题——计算几步就陷入稳定状态,后续再复杂的任务也无法推进。

而HRM中,低阶模块在每轮计算中会收敛到基于当前高阶状态的局部结果,但高阶模块更新后,会给低阶模块设定新的目标,使其进入新的收敛周期。



这就像完成项目时,先攻克一个子任务,再根据整体进度调整目标,确保持续推进不偷懒。

第三项是近似梯度技术

传统循环模型训练时,需要存储所有中间状态并反向追溯,类似复盘时要回看每一步操作,既耗内存又低效。

HRM则采用一步梯度近似,只需根据最终状态反推优化方向,如同根据考试结果直接定位薄弱知识点,内存需求恒定且计算高效,更符合生物大脑的学习规律。



第四是深度监督机制

它受大脑中神经振荡调节学习节奏的启发,引入了阶段性测试。

模型在学习过程中被分成多个阶段,每个阶段结束后立即评估并调整参数,且前后阶段的计算互不干扰。



这种方式能及时纠正偏差,就像学生每学一单元就测试巩固,比期末一次性考试的学习效果更扎实。

自适应计算时间让HRM能像人一样灵活分配思考时间

它通过类似评估收益的算法(Q学习),动态决定是否继续计算,在保证准确率的同时避免算力浪费,推理时还能通过增加计算资源进一步提升表现。



比如,简单任务如简单迷宫快速给出答案,复杂任务如高难度数独则延长计算时间。

这些技术的融合,让HRM在多项测试中表现不凡。

下图通过可视化中间步骤,验证了HRM的分层推理机制能够有效拆解复杂任务,通过渐进式计算逼近正确结果,而非依赖黑箱式的一次性输出。



在衡量AI通用推理能力的ARC-AGI挑战中,HRM仅用2700万参数和1000个训练样本,就达到40.3%的准确率,超过了参数规模更大的o3-mini-high(34.5%)和Claude 3.7 8K(21.2%)。

对于需要反复试错的9x9极端数独,现有思维链模型完全无法解决(准确率0%),即便是结构相似的Transformer模型,用同样数据训练也毫无头绪。而HRM几乎能全部做对。



在30x30复杂迷宫的最优路径寻找任务中,HRM表现稳定,而1.75亿参数的大型Transformer模型准确率不足20%。

虽然,HRM被指参数太小、训练范围有限,只针对特定领域表现好,无法泛化到领域外,并不通用。但有人认为小而精的模型或许在某些角度上更智能。



人工智能的飞跃在于创造性。



也有人认为HRM的前景更在于“仿脑”,通过精心设计的高低两个模块避免过早收敛,对过拟合具有极强的抵抗力

甚至有人相当乐观,认为这种新架构是神经网络一个巨大的进步。有可能是超越Transformer的时刻。



拒绝马斯克,挑战Transfomer

论文的第一作者王冠是一位00后,8岁开始学习编程,后保送至清华大学计算机系。



他是GitHub揽星5.1k开源项目OpenChat的独立开发者,独立完成了OpenChat全部版本的模型开发和训练框架搭建。

也正是因为OpenChat这个项目,他和马斯克产生了交集。

但他算得上是一个拒绝了马斯克的男人——此前,王冠多次拒绝了xAI等一线机构创始人的加入邀请。

原因是他认为自己要做的是颠覆Transfomer

2024年,王冠和同为清华校友的陈威廉创办了Sapient Intelligence,并成功融资数千万美元。致力于打造“真正具有复杂推理和规划能力的全新大模型架构”。

论文地址:https://arxiv.org/abs/2506.21734
代码地址:https://github.com/sapientinc/HRM


[1]https://x.com/casper_hansen_/status/1951656675250684163
[2]https://x.com/deedydas/status/1951677875004100814
[3]https://x.com/omarsar0/status/1951751651729060081

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国没想到,俄罗斯先下手为强,凌晨不宣而战,炸死8名英美军官

美国没想到,俄罗斯先下手为强,凌晨不宣而战,炸死8名英美军官

烈史
2026-01-09 17:39:09
内蒙古关于对拟任干部进行公示的公告

内蒙古关于对拟任干部进行公示的公告

黄河新闻网吕梁频道
2026-01-10 08:49:57
视频丨“南天门计划”正照进现实!专家:技术实现只是时间问题

视频丨“南天门计划”正照进现实!专家:技术实现只是时间问题

国际在线
2026-01-09 13:47:31
李在明也没想到,访华仅3天,59岁妻子竟凭一个举动给他长脸了

李在明也没想到,访华仅3天,59岁妻子竟凭一个举动给他长脸了

丁丁鲤史纪
2026-01-07 11:35:05
孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

娱乐领航家
2026-01-09 22:00:03
劳力士中国内地开卖官方二手表,能规范二级市场吗

劳力士中国内地开卖官方二手表,能规范二级市场吗

第一财经资讯
2026-01-10 21:37:09
大家做好准备!明年起,六七十岁的老人或将面临“三个现实问题”

大家做好准备!明年起,六七十岁的老人或将面临“三个现实问题”

哄动一时啊
2026-01-10 14:19:05
97岁田华现状曝光,和小孙子相依为命,住破旧老房子,日子清贫

97岁田华现状曝光,和小孙子相依为命,住破旧老房子,日子清贫

以茶带书
2025-12-02 18:11:43
新华社消息|中央宣传部、公安部联合发布2025年“最美基层民警”

新华社消息|中央宣传部、公安部联合发布2025年“最美基层民警”

新华社
2026-01-09 20:09:29
大结局!球王梅西加冕,足坛历史地位第一人。

大结局!球王梅西加冕,足坛历史地位第一人。

篮球看比赛
2026-01-10 14:36:44
87分钟绝杀!越南2连胜登顶 基本进U23亚洲杯8强 国足战澳大利亚

87分钟绝杀!越南2连胜登顶 基本进U23亚洲杯8强 国足战澳大利亚

侃球熊弟
2026-01-09 23:58:25
皇马28天5连胜!阿隆索自救成功:即便输巴萨丢冠也不下课

皇马28天5连胜!阿隆索自救成功:即便输巴萨丢冠也不下课

叶青足球世界
2026-01-10 15:40:23
渔村逆袭?“电诈恶魔”陈志老婆是四川人,150亿比特币沾满血泪

渔村逆袭?“电诈恶魔”陈志老婆是四川人,150亿比特币沾满血泪

豆腐脑观察局
2025-11-17 06:50:03
升温“一日游”落幕!广东新冷空气+下周降雨!来碗“四乌”汤健脾又滋补→

升温“一日游”落幕!广东新冷空气+下周降雨!来碗“四乌”汤健脾又滋补→

城事特搜
2026-01-10 19:33:58
天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

草莓解说体育
2026-01-07 01:43:18
GDP涨7.5%!印度超越日本,成世界第四大经济体

GDP涨7.5%!印度超越日本,成世界第四大经济体

意讯
2026-01-10 21:39:02
我国新增20万颗卫星申请

我国新增20万颗卫星申请

21世纪经济报道
2026-01-10 20:29:30
2026开年最旺3生肖!1月吉星高照,贵人送单,两年赚够一辈子钱

2026开年最旺3生肖!1月吉星高照,贵人送单,两年赚够一辈子钱

毅谈生肖
2026-01-10 11:16:34
欧媒:中国都上桌了,500年来头一次,瓜分世界怎能没有欧洲的份

欧媒:中国都上桌了,500年来头一次,瓜分世界怎能没有欧洲的份

阿器谈史
2025-12-25 21:09:35
1972年陈毅追悼会,江青故意无视宋庆龄,毛主席当场下一死命令,事后宋庆龄感慨:主席真聪明

1972年陈毅追悼会,江青故意无视宋庆龄,毛主席当场下一死命令,事后宋庆龄感慨:主席真聪明

寄史言志
2025-12-17 16:08:14
2026-01-10 22:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
11998文章数 176357关注度
往期回顾 全部

科技要闻

传DeepSeek准备第二次震惊全世界

头条要闻

男子精神分裂砍死同学的弟弟 第二次精神鉴定结果变了

头条要闻

男子精神分裂砍死同学的弟弟 第二次精神鉴定结果变了

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

时尚
本地
亲子
数码
军事航空

年底大牌返场 || 每次都“秒空”,这次100+真的好值!

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

亲子要闻

带法国家人第一次雪山滑雪,结束后来上这么一顿火锅,太爽了!

数码要闻

雷神MIX GAMING 2迷你主机,竟能实现4K 120帧游戏体验

军事要闻

海空英雄高翔逝世 曾驾驶歼-6打爆美军机

无障碍浏览 进入关怀版