网易首页 > 网易号 > 正文 申请入驻

马斯克挖不动的清华学霸,一年造出 “反内卷 AI”!0.027B 参数硬刚思维链模型,推理完爆 o3-mini-high

0
分享至


整理 | 华卫

近期,总部位于新加坡的 Sapient Intelligence 推出了一款新的人工智能模型,名为 HRM。其参数规模仅为 2700 万,但能够解决那些让当今先进大型语言模型都束手无策的复杂推理难题。

据其研究人员称,像 ChatGPT 这类模型存在一个问题——它们在架构上属于“浅层”设计。这些模型依赖“思维链(CoT)”提示法(本质上是通过一步步自言自语来拆解问题)作为辅助手段,但这种方式存在隐患:只要一步出错,整个推理过程就会偏离正轨。而这次发布的小型模型 HRM 采用了截然不同的思路,其做法是借鉴了人类大脑的工作方式。

发布后,该模型迅速引起了网友的讨论。不少网友震惊于该模型的参数规模及带来的效果,称“这太疯狂了”。一位网友指出,“一个名为 HRM 的小型 AI 模型刚刚击败了 Claude 3.5 和 Gemini,它甚至不使用 token。”

一位资深投资人对该模型的成果论文给予极高的评价:“人工智能领域最重要的论文之一”。还有一位网友称,“如果这个成果得以确立,它不仅仅是一篇人工智能论文——它标志着一个哲学性的转变。效率和结构或许终于能够战胜蛮力。”

值得一提的是,Sapient Intelligence 背后是一个大学生团队。2024 年 8 月,刚从清华大学毕业的王冠和连续创业者郑晓明共同创立了这家公司。

创业之前,王冠尝试做了一个仅 7B 大小的的开源模型 OpenChat,发布后在 Github 上获得 5.2k stars,在无融资和推广的情况下成为全世界下载量最高的开源模型之一,在 Hugging face 上月均下载量一直在 20 万以上。

之后,这个开源小模型还获得了马斯克的关注与青睐。据了解,XAI 曾向王冠伸出橄榄枝,想让他利用 OpenChat 的经验从事模型开发工作,但被其拒绝了。

王冠与郑晓明的相识,也与 OpenChat 有很大关联。彼时,Austin 正在寻找可以在 AGI 领域有突破、致力于改变世界的年轻人,借由 OpenChat 的热度,他在 Github 上发现了王冠。

据悉,在创立初期,Sapient Intelligence 汇聚了众多来自世界各地的一线科学家,包括 XAI、Deepmind、Google、Anthropic、Meta 和 Microsoft 等世界级 AI 机构的资深科学家。这些来自世界各地的人才曾领导或参与过众多知名模型和产品的开发,包括 AlphaGo、Gemini、Microsoft Copilot 等。

1 准确率碾压先进思维链模型,推理能力超越 o3-mini-high

当前,大型语言模型在面对复杂问题时很大程度上依赖思维链提示法,将问题拆解为基于文本的中间步骤,本质上是强迫模型在朝着解决方案推进的过程中 “大声思考”。尽管思维链提升了大型语言模型的推理能力,但它存在根本性局限。

Sapient Intelligence 的研究人员在论文中指出:“用于推理的思维链只是一种辅助手段,并非理想的解决方案。它依赖于脆弱的、人为定义的分解方式,其中任何一个步骤出错或步骤顺序混乱,都可能导致整个推理过程彻底偏离轨道。”

这种对生成显性语言的依赖,将模型的推理限制在了 token 层面,这往往需要海量的训练数据,并且会产生冗长而缓慢的响应。这种方法还忽略了那种在内部发生、无需通过语言明确表达的“隐性推理”。正如研究人员所指出的:“我们需要一种更高效的方法来减少这些数据需求。”

据 Sapient Intelligence 介绍,其推出的 HRM 在复杂推理任务上能与大型语言模型不相上下,在某些情况下甚至远超后者,同时其规模显著更小,数据效率也更高。

研究人员对该模型的测试结果显示,在“极限数独”和“高难度迷宫”基准测试中,最先进的思维链模型彻底失败,准确率为 0%;相比之下,HRM 在每个任务仅用 1000 个样本训练后,就达到了接近完美的准确率。

在用于测试抽象推理与泛化能力的 ARC-AGI 基准测试中,这个参数规模仅为 2700 万的 HRM 取得了 40.3% 的得分。这一成绩超过了主流的基于思维链的模型,如规模大得多的 o3-mini-high(34.5%)和 Claude 3.7 Sonnet(21.2%)。(根据之前微软论文,几款主流模型参数量分别为:Claude 3.5 Sonnet: 175B;GPT-4: 1.76T;GPT-4o: 200B;o1-preview: 300B;o1-mini: 200B。)HRM 在没有大型预训练语料库、仅用极少数据的情况下就实现了这样的性能,充分彰显了其架构的强大与高效。


除此之外,HRM 在另一类问题上体现出现实世界中的意义。Sapient Intelligence 的创始人兼 CEO 王冠表示,开发者应继续使用大型语言模型处理语言相关或创意任务,但对于“复杂或确定性任务”,类似 HRM 的架构能以更少的幻觉输出实现更优性能。他特别指出了“需要复杂决策或长期规划的序列性问题”,尤其是在具身 AI 和机器人等对延迟敏感的领域以及科学探索等数据稀缺的领域。

在这些场景中,HRM 不仅能解决问题,还能学得更高效的解决方法。“在我们的大师级数独实验中,随着训练推进,HRM 需要的步骤逐渐减少——就像新手成长为专家的过程。”王冠解释道。

2 受大脑启发,提出“隐性推理”路径

据介绍,HRM 的灵感来源于人类大脑如何利用不同系统进行慢速、审慎的规划和快速、直觉性的计算。并且,该模型仅需当今大型语言模型所需数据和内存的一小部分,就能取得令人瞩目的结果。这种高效性可能对现实世界中的企业级人工智能应用产生重要影响 —— 在这些场景中,数据往往稀缺,计算资源也十分有限。


在论文中,Sapient Intelligence 详细介绍了他们所探索的各种思路及做出的相关研究工作。

首先,为突破思维链的局限,研究人员探索了“隐性推理”——模型不再生成“思考 tokens”,而是通过其内部对问题的抽象表征进行推理。这与人类的思考方式更为契合:“大脑能在隐性空间中以极高的效率维持冗长且连贯的推理链,无需不断将其转化为语言。”

然而,在人工智能中实现这种深度的内部推理并非易事。在深度学习模型中简单堆叠更多层,往往会导致“梯度消失”问题——学习信号在各层间逐渐减弱,使训练效果大打折扣。另一种选择是通过循环计算的递归架构,但这类架构又可能面临“过早收敛”问题——模型在未充分探索问题的情况下就仓促得出结论。

为了找到更优方案,Sapient Intelligence 团队转从神经科学中去寻求灵感。“人类大脑为实现当代人工模型所缺乏的有效计算深度提供了极具吸引力的蓝图。它通过不同时间尺度运作的皮质区域,对计算进行分层组织,从而实现深度、多阶段的推理。”研究人员写道。

受此启发,他们为 HRM 设计了两个耦合的递归模块:一个是用于慢速、抽象规划的高层(H)模块,另一个是用于快速、细节计算的低层(L)模块。这种结构实现了团队所说的“分层收敛”过程。直观来看,快速运作的 L 模块处理部分问题,执行多步计算直至得出稳定的局部解;此时,慢速运作的 H 模块接收这一结果,更新整体策略,并向 L 模块下达新的、更精确的子问题。这一过程有效重置了 L 模块,避免其陷入僵局(过早收敛),同时让整个系统能以精简的模型架构执行长序列推理步骤,且不会出现梯度消失问题。


论文中提到,“这一过程使 HRM 能够执行一系列独特、稳定且嵌套的计算——H 模块主导整体解题策略,L 模块则负责执行每一步所需的密集搜索或细化工作。”这种嵌套循环设计让模型能在隐性空间中深度推理,无需冗长的思维链提示或海量数据。

一个自然会产生的疑问是:这种“隐性推理”是否以牺牲可解释性为代价?对此,王冠并不认同。他解释说,模型的内部过程可以被解码和可视化,就像思维链能让人窥见模型的“思考”过程一样。他还指出,思维链本身可能具有误导性。“思维链并不能真正反映模型的内部推理。”

王冠在接受采访时表示,他引用的研究显示,模型有时会在推理步骤错误的情况下得出正确答案,反之亦然,“它本质上仍然是一个黑箱。”

3 经济性突出,任务效率百倍提升

对于企业而言,架构的高效性直接转化为经济效益。据王冠估计,不同于思维链那种逐 token 的串行生成方式,HRM 的并行处理能力可实现“任务完成时间 100 倍的提速”。这意味着更低的推理延迟,以及在边缘设备上运行强大推理的能力。

为了直观说明其高效性,他提到训练达到专业水平数独能力的模型仅需约 2 个 GPU 小时,而针对复杂的 ARC-AGI 基准测试,也只需 50 到 200 个 GPU 小时——这只是大型基础模型所需资源的一小部分。这为解决特定业务问题开辟了道路,从物流优化到复杂系统诊断,这些场景往往数据和预算都有限。

“与大型、昂贵且延迟高的基于 API 的模型相比,像 HRM 这样的专用推理引擎为特定复杂推理任务提供了更具前景的替代方案。”王冠说道。

据悉,Sapient Intelligence 已着手将 HRM 从专用问题求解器发展为更通用的推理模块。“我们正积极开发基于 HRM 的类脑模型。”同时,王冠强调了他们在医疗健康、气候预测和机器人技术领域取得的初步可喜成果。据其透露,这些下一代模型将与当今的文本型系统有显著差异,尤其是会加入自我修正能力。

https://arxiv.org/pdf/2506.21734

https://venturebeat.com/ai/new-ai-architecture-delivers-100x-faster-reasoning-than-llms-with-just-1000-training-examples/

https://36kr.com/p/2957829366400520

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官方账号批评反美斗士造黄谣,牢A要凉了吗?

官方账号批评反美斗士造黄谣,牢A要凉了吗?

历史总在押韵
2026-02-01 23:20:24
曼联3-2富勒姆!被连追2球+新援替补压哨绝杀 卡里克上任后3连胜

曼联3-2富勒姆!被连追2球+新援替补压哨绝杀 卡里克上任后3连胜

我爱英超
2026-02-02 00:05:34
澳网决赛焦灼中,德约科维奇抽空喊话看台上的纳达尔:你想下来打吗,拉法?

澳网决赛焦灼中,德约科维奇抽空喊话看台上的纳达尔:你想下来打吗,拉法?

上观新闻
2026-02-01 20:09:08
“三通一达”的理论被这帮女留学生自己坐得实实的!

“三通一达”的理论被这帮女留学生自己坐得实实的!

达文西看世界
2026-02-01 11:52:18
全是假的!涉及多个品牌,检测结果触目惊心!很多人家里老人、小孩都在吃...

全是假的!涉及多个品牌,检测结果触目惊心!很多人家里老人、小孩都在吃...

上观新闻
2026-02-01 18:29:09
乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

史政先锋
2026-02-01 19:11:54
1斤瓜子贵过猪肉,新“刺客”来了

1斤瓜子贵过猪肉,新“刺客”来了

中国新闻周刊
2026-02-01 19:27:25
令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

纵相新闻
2026-02-01 19:09:12
快讯|王石社交媒体发文疑自证 此前有失联传言流出

快讯|王石社交媒体发文疑自证 此前有失联传言流出

每日经济新闻
2026-02-01 11:42:43
6+3+2+2!河村勇辉首秀!亚洲第一控卫杀回NBA

6+3+2+2!河村勇辉首秀!亚洲第一控卫杀回NBA

篮球实战宝典
2026-02-01 17:41:53
中美金融战之“大宗商品定价权争夺”的具像化——白银

中美金融战之“大宗商品定价权争夺”的具像化——白银

百味朱砂
2026-02-01 09:52:59
特朗普称就格陵兰岛的谈判即将达成一致

特朗普称就格陵兰岛的谈判即将达成一致

财联社
2026-02-01 10:44:04
既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

安安说
2026-02-01 14:01:51
朝鲜宣布:这是建国以来首次重大决策!

朝鲜宣布:这是建国以来首次重大决策!

IN朝鲜
2026-02-01 15:23:30
金价大跳水后,男子斥资20多万元抄底买入200克,称“不在意短期涨跌”,还有人称“肯定会回调”,工行、农行、交行公告

金价大跳水后,男子斥资20多万元抄底买入200克,称“不在意短期涨跌”,还有人称“肯定会回调”,工行、农行、交行公告

每日经济新闻
2026-02-01 10:38:04
女子称退150多元大衣时不慎寄走奔驰钥匙,“配一把6000元”!网店工作人员:若看到会给她

女子称退150多元大衣时不慎寄走奔驰钥匙,“配一把6000元”!网店工作人员:若看到会给她

极目新闻
2026-02-01 10:11:45
华尔街为啥铁了心打爆黄金多头?

华尔街为啥铁了心打爆黄金多头?

公子豹
2026-02-01 13:33:10
惊!2026年立春不一般!2月4日这4类人必须躲春,做错白忙一场

惊!2026年立春不一般!2月4日这4类人必须躲春,做错白忙一场

老特有话说
2026-01-30 22:51:04
德约大度祝贺阿卡:未来10年内还会多次相遇!幽默互动逗笑纳达尔

德约大度祝贺阿卡:未来10年内还会多次相遇!幽默互动逗笑纳达尔

我爱英超
2026-02-01 20:37:19
特朗普又有疯狂想法:白宫格斗赛 首都飙赛车!

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车!

看看新闻Knews
2026-02-01 23:31:07
2026-02-02 06:28:54
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12012文章数 51729关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

游戏
本地
亲子
数码
公开课

末期癌症玩家圆梦《毁灭战士》!id公开致敬

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

亲子要闻

兰姐带玥儿看北京新学校,玥儿一待俩小时,筱梅的话终于有人信了

数码要闻

显存稀缺暴涨:三款RTX 50 GPU将占一季度总供应量75%!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版