网易首页 > 网易号 > 正文 申请入驻

马斯克挖不动的清华学霸,一年造出 “反内卷 AI”!0.27B参数硬刚思维链模型,推理完爆o3-mini-high

0
分享至


整理 | 华卫

近期,总部位于新加坡的 Sapient Intelligence 推出了一款新的人工智能模型,名为 HRM。其参数规模仅为 2700 万,但能够解决那些让当今先进大型语言模型都束手无策的复杂推理难题。

据其研究人员称,像 ChatGPT 这类模型存在一个问题——它们在架构上属于“浅层”设计。这些模型依赖“思维链(CoT)”提示法(本质上是通过一步步自言自语来拆解问题)作为辅助手段,但这种方式存在隐患:只要一步出错,整个推理过程就会偏离正轨。而这次发布的小型模型 HRM 采用了截然不同的思路,其做法是借鉴了人类大脑的工作方式。

发布后,该模型迅速引起了网友的讨论。不少网友震惊于该模型的参数规模及带来的效果,称“这太疯狂了”。一位网友指出,“一个名为 HRM 的小型 AI 模型刚刚击败了 Claude 3.5 和 Gemin,它甚至不使用 token。”

一位资深投资人对该模型的成果论文给予极高的评价:“人工智能领域最重要的论文之一”。还有一位网友称,“如果这个成果得以确立,它不仅仅是一篇人工智能论文——它标志着一个哲学性的转变。效率和结构或许终于能够战胜蛮力。”

值得一提的是,Sapient Intelligence 背后是一个大学生团队。2024 年 8 月,刚从清华大学毕业的王冠和连续创业者郑晓明共同创立了这家公司。

创业之前,王冠尝试做了一个仅 7B 大小的的开源模型 OpenChat,发布后在 Github 上获得 5.2k stars,在无融资和推广的情况下成为全世界下载量最高的开源模型之一,在 Hugging face 上月均下载量一直在 20 万以上。

之后,这个开源小模型还获得了马斯克的关注与青睐。据了解,XAI 曾向王冠伸出橄榄枝,想让他利用 OpenChat 的经验从事模型开发工作,但被其拒绝了。

王冠与郑晓明的相识,也与 OpenChat 有很大关联。彼时,Austin 正在寻找可以在 AGI 领域有突破、致力于改变世界的年轻人,借由 OpenChat 的热度,他在 Github 上发现了王冠。

据悉,在创立初期,Sapient Intelligence 汇聚了众多来自世界各地的一线科学家,包括 XAI、Deepmind、Google、Anthropic、Meta 和 Microsoft 等世界级 AI 机构的资深科学家。这些来自世界各地的人才曾领导或参与过众多知名模型和产品的开发,包括 AlphaGo、Gemini、Microsoft Copilot 等。

准确率碾压先进思维链模型,

推理能力超越 o3-mini-high

当前,大型语言模型在面对复杂问题时很大程度上依赖思维链提示法,将问题拆解为基于文本的中间步骤,本质上是强迫模型在朝着解决方案推进的过程中 “大声思考”。尽管思维链提升了大型语言模型的推理能力,但它存在根本性局限。

Sapient Intelligence 的研究人员在论文中指出:“用于推理的思维链只是一种辅助手段,并非理想的解决方案。它依赖于脆弱的、人为定义的分解方式,其中任何一个步骤出错或步骤顺序混乱,都可能导致整个推理过程彻底偏离轨道。”

这种对生成显性语言的依赖,将模型的推理限制在了 token 层面,这往往需要海量的训练数据,并且会产生冗长而缓慢的响应。这种方法还忽略了那种在内部发生、无需通过语言明确表达的“隐性推理”。正如研究人员所指出的:“我们需要一种更高效的方法来减少这些数据需求。”

据 Sapient Intelligence 介绍,其推出的 HRM 在复杂推理任务上能与大型语言模型不相上下,在某些情况下甚至远超后者,同时其规模显著更小,数据效率也更高。

研究人员对该模型的测试结果显示,在“极限数独”和“高难度迷宫”基准测试中,最先进的思维链模型彻底失败,准确率为 0%;相比之下,HRM 在每个任务仅用 1000 个样本训练后,就达到了接近完美的准确率。

在用于测试抽象推理与泛化能力的 ARC-AGI 基准测试中,这个参数规模仅为 2700 万的 HRM 取得了 40.3% 的得分。这一成绩超过了主流的基于思维链的模型,如规模大得多的 o3-mini-high(34.5%)和 Claude 3.7 Sonnet(21.2%)。(根据之前微软论文,几款主流模型参数量分别为:Claude 3.5 Sonnet: 175B;GPT-4: 1.76T;GPT-4o: 200B;o1-preview: 300B;o1-mini: 200B。)HRM 在没有大型预训练语料库、仅用极少数据的情况下就实现了这样的性能,充分彰显了其架构的强大与高效。


除此之外,HRM 在另一类问题上体现出现实世界中的意义。Sapient Intelligence 的创始人兼 CEO 王冠表示,开发者应继续使用大型语言模型处理语言相关或创意任务,但对于“复杂或确定性任务”,类似 HRM 的架构能以更少的幻觉输出实现更优性能。他特别指出了“需要复杂决策或长期规划的序列性问题”,尤其是在具身 AI 和机器人等对延迟敏感的领域以及科学探索等数据稀缺的领域。

在这些场景中,HRM 不仅能解决问题,还能学得更高效的解决方法。“在我们的大师级数独实验中,随着训练推进,HRM 需要的步骤逐渐减少——就像新手成长为专家的过程。”王冠解释道。

受大脑启发,

提出“隐性推理”路径

据介绍,HRM 的灵感来源于人类大脑如何利用不同系统进行慢速、审慎的规划和快速、直觉性的计算。并且,该模型仅需当今大型语言模型所需数据和内存的一小部分,就能取得令人瞩目的结果。这种高效性可能对现实世界中的企业级人工智能应用产生重要影响 —— 在这些场景中,数据往往稀缺,计算资源也十分有限。


在论文中,Sapient Intelligence 详细介绍了他们所探索的各种思路及做出的相关研究工作。

首先,为突破思维链的局限,研究人员探索了“隐性推理”——模型不再生成“思考 tokens”,而是通过其内部对问题的抽象表征进行推理。这与人类的思考方式更为契合:“大脑能在隐性空间中以极高的效率维持冗长且连贯的推理链,无需不断将其转化为语言。”

然而,在人工智能中实现这种深度的内部推理并非易事。在深度学习模型中简单堆叠更多层,往往会导致“梯度消失”问题——学习信号在各层间逐渐减弱,使训练效果大打折扣。另一种选择是通过循环计算的递归架构,但这类架构又可能面临“过早收敛”问题——模型在未充分探索问题的情况下就仓促得出结论。

为了找到更优方案,Sapient Intelligence 团队转从神经科学中去寻求灵感。“人类大脑为实现当代人工模型所缺乏的有效计算深度提供了极具吸引力的蓝图。它通过不同时间尺度运作的皮质区域,对计算进行分层组织,从而实现深度、多阶段的推理。”研究人员写道。

受此启发,他们为 HRM 设计了两个耦合的递归模块:一个是用于慢速、抽象规划的高层(H)模块,另一个是用于快速、细节计算的低层(L)模块。这种结构实现了团队所说的“分层收敛”过程。直观来看,快速运作的 L 模块处理部分问题,执行多步计算直至得出稳定的局部解;此时,慢速运作的 H 模块接收这一结果,更新整体策略,并向 L 模块下达新的、更精确的子问题。这一过程有效重置了 L 模块,避免其陷入僵局(过早收敛),同时让整个系统能以精简的模型架构执行长序列推理步骤,且不会出现梯度消失问题。


论文中提到,“这一过程使 HRM 能够执行一系列独特、稳定且嵌套的计算——H 模块主导整体解题策略,L 模块则负责执行每一步所需的密集搜索或细化工作。”这种嵌套循环设计让模型能在隐性空间中深度推理,无需冗长的思维链提示或海量数据。

一个自然会产生的疑问是:这种“隐性推理”是否以牺牲可解释性为代价?对此,王冠并不认同。他解释说,模型的内部过程可以被解码和可视化,就像思维链能让人窥见模型的“思考”过程一样。他还指出,思维链本身可能具有误导性。“思维链并不能真正反映模型的内部推理。”

王冠在接受采访时表示,他引用的研究显示,模型有时会在推理步骤错误的情况下得出正确答案,反之亦然,“它本质上仍然是一个黑箱。”

经济性突出,

任务效率百倍提升

对于企业而言,架构的高效性直接转化为经济效益。据王冠估计,不同于思维链那种逐 token 的串行生成方式,HRM 的并行处理能力可实现“任务完成时间 100 倍的提速”。这意味着更低的推理延迟,以及在边缘设备上运行强大推理的能力。

为了直观说明其高效性,他提到训练达到专业水平数独能力的模型仅需约 2 个 GPU 小时,而针对复杂的 ARC-AGI 基准测试,也只需 50 到 200 个 GPU 小时——这只是大型基础模型所需资源的一小部分。这为解决特定业务问题开辟了道路,从物流优化到复杂系统诊断,这些场景往往数据和预算都有限。

“与大型、昂贵且延迟高的基于 API 的模型相比,像 HRM 这样的专用推理引擎为特定复杂推理任务提供了更具前景的替代方案。”王冠说道。

据悉,Sapient Intelligence 已着手将 HRM 从专用问题求解器发展为更通用的推理模块。“我们正积极开发基于 HRM 的类脑模型。”同时,王冠强调了他们在医疗健康、气候预测和机器人技术领域取得的初步可喜成果。据其透露,这些下一代模型将与当今的文本型系统有显著差异,尤其是会加入自我修正能力。

https://arxiv.org/pdf/2506.21734

https://venturebeat.com/ai/new-ai-architecture-delivers-100x-faster-reasoning-than-llms-with-just-1000-training-examples/

https://36kr.com/p/2957829366400520

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3-2!胖虎传射建功,谢什科94分钟绝杀,卡圣3连胜,曼联重返前四

3-2!胖虎传射建功,谢什科94分钟绝杀,卡圣3连胜,曼联重返前四

我的护球最独特
2026-02-02 00:14:28
广州一初中生独自背着被褥、蚊帐坐地铁回家,十几斤行李在背上堆成小山!当事人:室友帮助花20多分钟打包,网友:“自己扛”比分数更重要

广州一初中生独自背着被褥、蚊帐坐地铁回家,十几斤行李在背上堆成小山!当事人:室友帮助花20多分钟打包,网友:“自己扛”比分数更重要

极目新闻
2026-02-01 08:47:16
随着一场3-2!曼联绝杀富勒姆,反超切尔西+利物浦!冲到英超第4

随着一场3-2!曼联绝杀富勒姆,反超切尔西+利物浦!冲到英超第4

足球评论qs
2026-02-02 00:06:33
6+3+2+2!河村勇辉首秀!亚洲第一控卫杀回NBA

6+3+2+2!河村勇辉首秀!亚洲第一控卫杀回NBA

篮球实战宝典
2026-02-01 17:41:53
突发!伊朗多地发生爆炸,已致超20人死伤,以色列:与我们无关!特朗普发出“最后通牒”,伊方:已掌握敌方作战计划,将适时发动打击

突发!伊朗多地发生爆炸,已致超20人死伤,以色列:与我们无关!特朗普发出“最后通牒”,伊方:已掌握敌方作战计划,将适时发动打击

每日经济新闻
2026-02-01 00:54:06
钱再多有什么用?52岁刘强东身家上千亿,儿子却成为他一生的遗憾

钱再多有什么用?52岁刘强东身家上千亿,儿子却成为他一生的遗憾

青橘罐头
2026-01-31 21:39:14
爱泼斯坦鸡腿人照片炸锅!案板火鸡旁疑似人腿,官方辟谣难平众怒

爱泼斯坦鸡腿人照片炸锅!案板火鸡旁疑似人腿,官方辟谣难平众怒

眼光很亮
2026-02-01 17:15:19
四川泸州“花坛埋尸案”背后:一对父子被撕裂的28年

四川泸州“花坛埋尸案”背后:一对父子被撕裂的28年

潇湘晨报
2026-02-01 16:07:16
舍什科补时绝杀!曼联三连胜重返前四,对手看傻眼,弗格森笑了

舍什科补时绝杀!曼联三连胜重返前四,对手看傻眼,弗格森笑了

奥拜尔
2026-02-02 00:09:16
1688平台售卖“德国双筒望远镜”宣称可望38.4万千米 到手成地摊玩具

1688平台售卖“德国双筒望远镜”宣称可望38.4万千米 到手成地摊玩具

信网
2026-02-01 15:01:30
国外网络基本互通,中国为何限制访问外网?17年前的教训刻骨铭心

国外网络基本互通,中国为何限制访问外网?17年前的教训刻骨铭心

和平声浪
2026-02-01 09:30:41
欧媒:欧洲最大电池巨头企业破产,今后再也没有击败中国的希望了

欧媒:欧洲最大电池巨头企业破产,今后再也没有击败中国的希望了

比利
2026-01-31 21:39:19
B费领跑助攻榜,胖虎传射舍什科绝杀,曼联3-2富勒姆重返英超前4

B费领跑助攻榜,胖虎传射舍什科绝杀,曼联3-2富勒姆重返英超前4

钉钉陌上花开
2026-02-01 23:59:17
一个逻辑闭环:阿富汗女性只能上到小学,但女患者又必须看女医生

一个逻辑闭环:阿富汗女性只能上到小学,但女患者又必须看女医生

黄娜老师
2026-02-01 13:45:43
就剩日本了

就剩日本了

新民周刊
2026-02-01 09:09:29
《名侦探柯南》与辱华漫画联动,紧急声明!

《名侦探柯南》与辱华漫画联动,紧急声明!

极目新闻
2026-02-01 10:34:47
缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

小虎新车推荐员
2026-02-01 05:45:13
阿维塔陷销量、亏损双重困局,华为、长安等“三巨头”扶不起来?

阿维塔陷销量、亏损双重困局,华为、长安等“三巨头”扶不起来?

贝多财经
2026-02-01 10:58:03
沙特金元足球终于开始暴雷!!

沙特金元足球终于开始暴雷!!

足球大叔1986
2026-02-01 06:41:21
iPhone 18 Pro新外观曝光,全系12GB运存

iPhone 18 Pro新外观曝光,全系12GB运存

科技堡垒
2026-02-01 12:19:03
2026-02-02 00:27:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1282文章数 114关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

家居
教育
旅游
手机
时尚

家居要闻

蓝调空舍 自由与个性

教育要闻

鼓楼、玄武、建邺、秦淮多区教育局发布提醒!

旅游要闻

豫园灯会“扩容”至外滩!今晚六大灯区首次全景点亮,BFC联合泡泡玛特打造新春游园会

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

“多巴胺风”又又又火了!这样穿时髦又减龄

无障碍浏览 进入关怀版