网易首页 > 网易号 > 正文 申请入驻

3B激活参数!商汤绝影Sage登顶PinchBench,端侧第一

0
分享至


新智元报道

编辑:YHluck

【新智元导读】一个3B激活参数的端侧模型,在全球Agent权威评测中,以94%任务完成率,超越了Claude、GPT-5.4、Gemini等国际主流云侧和端侧大模型。商汤绝影Sage来了,它不是「更聪明的语音助手「,而是第一个真正能在车里「办成复杂事「的智能体基座。

有人可能不信。

一个部署在车端的小模型,凭什么在Agent评测上赢过Claude、GPT-5.4?

数字摆在这里——在公开Agent评测基准PinchBench上,商汤绝影Sage端侧大模型最佳任务完成率:94%

同场较量的对手?Claude-Opus-4.6(93.3%)、GPT-5.4(90.5%)、Google-Gemini-3(87.0%)、Qwen3.5-27B(90.0%)……全部落后。



这不是一场「以大打大」的胜利。

Sage的激活参数只有3B,总参数量32B(MoE架构)。而小米MiMo-v2-Pro的激活参数是42B、总参数规模超1T——Sage所需激活算力仅为其1/14,显存占用约为其1/31,但在PinchBench上的任务完成率仍高出6.6个百分点。


1/14的算力,多出6.6个百分点。

这是什么概念?

这意味着一件事被彻底证明了:「只有大模型才能做好Agent任务」,这个判断,错了。

从「听懂指令「到「说到做到」

座舱缺的从来不是语音

先说说这个问题的背景。

今天的智能座舱,卡在哪儿?

不是没有AI,是AI「太浅了」。

用户说「帮我订今晚回北京的高铁,顺便把车内温度调低两度」——现有的语音助手,大概率会拆解成两件事分开问你确认,甚至直接说「我不太明白您的意思」。

这叫「能听懂指令」,但不叫「能办成一件复杂的事」。

真正的Agent能力,需要模型跨越多个步骤、多个工具、多轮推理,最终完成任务闭环。这种能力,过去只存在于云端大模型里。

原因很直接:车端芯片算力有限,大参数模型跑不动;小模型又没有足够的推理深度。

智能座舱因此陷入两难:

依赖云端:有延迟、有成本、有断网风险; 坚守端侧:有响应速度,但没有真正的智能体能力。

Sage的发布,第一次打破了这个僵局。

效果先看

Sage在车里能「干」什么

空谈技术路线,不如先看能力。

场景一:复合指令一次解析,多系统自动联动

用户说:「今晚出门晚,车内预热一下,帮我把导航设回家,音乐切换到轻松一点的。」

Sage不需要用户一句一句确认。

它一次性解析复合指令,自动联动空调、导航、音乐三个系统,完成任务闭环——整个流程,首字响应约0.5秒,用户几乎感觉不到「等待」。

场景二:主动感知,不等唤醒

后排坐着孩子,传感器检测到,Sage主动触发儿童模式:锁定车窗控制权、切换适龄内容、调整音量上限。

没有人唤醒它,它已经做了。

场景三:实时路况判断,主动提出方案

进入拥堵路段,结合实时路况感知,Sage主动问:「当前路段预计延误23分钟,是否切换到备选路线?」

不只是回答,而是主动发起。

这三个场景,指向同一个能力转变:Sage不再是「被动唤醒、单次响应」的语音助手,而是一个真正懂场景、会主动思考的出行伙伴。

在OrinX平台部署下,Sage可实现首字响应(TTFT)约0.5秒、单Token推理延迟(TPOT)低至0.03秒、生成吞吐达到80tk/s,平均任务时长优于主流API模型,保证座舱体验的稳定性和实时感。

两项黑科技

一个让它「学得快」

一个让它「做事不出错」

Sage在PinchBench跑赢一众大模型的背后,真正的功臣是商汤绝影自研的两项后训练技术:SCOUTERL

SCOUT:省60%算力,让车载AI快速「学会」复杂出行任务

全称:Sub-Scale Collaboration on Unseen Tasks(分级协同学习框架)。

它解决的是一个工程现实问题——让大模型学习复杂任务,太贵了。

出行场景涉及空间规划、多设备联动、多步决策,直接让大模型在真实任务中自己反复试错,既慢又烧算力。

SCOUT的思路是「探路与吸收解耦」:先派一个轻量小模型快速跑一遍,把走得通的路径筛出来,再把这些高价值经验喂给大模型学习。

用类比来说,就是「小模型先探路、踩雷、找通道,大模型再吸收精华、直接上手」。

结果是:在复杂任务能力注入过程中,GPU小时消耗节省约60%,同时快速掌握更多真实用车场景技能。

技术论文已上传arXiv:https://arxiv.org/abs/2601.21754

ERL:让模型「边想边纠错」,任务完成率提升20%

全称:Erasable Reinforcement Learning(可擦除强化学习)。

这项技术已被机器学习顶级会议ICLR 2026收录。

它解决的核心问题是:复杂任务链路里,一步出错,全盘崩。

用户说一句话,模型可能需要10步推理和执行。哪怕第7步偏了一点,前面6步的努力就白费,整个任务流程失效。

ERL让模型能够自动识别推理过程中的错误步骤,对错误内容进行擦除并重新生成,从源头阻断偏差扩散——就像给推理过程装上了「实时橡皮擦」。

这项技术让Sage在多跳复杂推理基准上较此前SOTA取得显著提升,装车后复杂任务完成率提升20%。

技术论文已上传arXiv:https://arxiv.org/abs/2510.00861

SCOUT负责学习效率,ERL负责执行稳定性,两项技术前后协同,共同推动Sage从语言大模型演进为能独立完成复杂任务的智能体。

能力天花板

Sage和同级端侧旗舰的差距有多大

PinchBench上的94%是综合结果,具体能力维度上,Sage和行业参照点的差距更直观。

对比对象:Google-Gemma4——本月最新发布的同量级端侧旗舰。

跨学科专业知识(MMLUPro)Sage 76分,领先同级端侧模型约10%。端侧模型,已具备云端级通用知识密度。

研究生级专业推理(GPQA Diamond):Sage 77分,提升33%。这是考察深度推理的维度,也是Agent能否应对复杂决策的关键。

座舱语义与视觉理解(Human Semantic Understanding):Sage 91分,提升32%。依托原生车载数据建立的差异化优势,直接影响真实座舱体验。

工具调用与任务闭环(τ2-bench):Sage 80分,较Gemma4提升38%,接近翻倍领先。

最后这个数字值得单独说一下。

τ2-bench,专门评估模型调用工具、走完多步任务的实战能力——也就是「会聊天」和「会办事」之间的分水岭。

接近翻倍的领先,直接印证了Sage作为端侧智能体基座在真实任务执行上的核心优势。

市场转折点

汽车AI的上半场,靠指令

下半场,靠Agent

为什么「端侧Agent基座」这件事,现在重要?

先看一组行业现实。

当前搭载了「智能语音」的汽车,普遍存在同一个用户体验瓶颈:语音助手能听,但不能想;能应答,但不能执行;能单步,但不能多步。

这不是某一家车企的问题,是整个行业在AI算力、模型能力和车端部署之间的结构性矛盾。

依赖云端方案的代价在放大:每次对话都要消耗Token,单任务token消耗就可达数十万量级;网络抖动就会影响体验;数据隐私也是潜在风险。

端侧部署才是量产落地的唯一可行路径——但端侧模型的能力天花板,一直是整个行业的卡脖子问题。

Sage的出现,正好踩在这个时间窗口。

Sage可接入OpenClaw、Hermes等主流Agent框架,不只是一个座舱大模型,而是一个为更多端侧智能体落地提供核心支撑的基座——可覆盖出行、家庭等全场景智能体部署。

北京车展期间,商汤绝影将正式推出搭载Sage端侧多模态智能体基座大模型的SageBox,为汽车迈入超级智能体时代打下技术底座。

这意味着,车企在引入端侧Agent能力时,有了一套经过全球评测验证的量产方案。

商汤绝影

从「懂AI」到「懂车AI」的技术积累

Sage不是一款从零起步的产品。

它背后是商汤绝影多年在汽车AI领域的技术沉淀——从智能驾驶感知到座舱语义理解,再到今天的端侧智能体基座,每一步都在向「真正懂车、懂人、懂场景」靠近。

Sage之所以能在Human Semantic Understanding(座舱语义与视觉理解)上拿到91分、提升32%,正是原生车载数据训练的结果。


通用大模型的训练数据里,没有「车内乘员状态感知」,没有「驾驶场景多步决策」,没有「空调+导航+影音联动」这种出行场景特有的任务链路。

Sage有。

这种原生优势,不是靠刷榜刷出来的,是靠在真实出行场景里长期训练出来的。

智能座舱

正在迎来它真正的「奇点时刻」

回头看汽车AI的发展历程。

第一阶段:语音识别,能听懂人话。

第二阶段:语音助手,能应答简单指令。

第三阶段:大模型接入,能对话、能聊天。

现在,第四阶段来了——

能独立规划、能多步执行、能主动感知、能在车端实时完成复杂任务的端侧智能体。

Sage代表的技术方向,不只是「更聪明的语音助手」,而是从根本上改变人与汽车的协作方式。

用户不再需要把一件事拆成十个指令说给汽车听,汽车开始真正理解「你想要什么」,然后想办法帮你做到。

3B激活参数赢过了一众云端旗舰,这个结果告诉行业:智能座舱的上限,不在云端,在端侧原生技术路线上还有更多可能。

SageBox即将亮相北京车展。

下一代汽车AI的样子,已经在那里了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
史上首次!特朗普请求伊朗:放过这8位女性,美4位前总统表态

史上首次!特朗普请求伊朗:放过这8位女性,美4位前总统表态

呼呼历史论
2026-04-22 14:32:00
安东尼:湖人的防守很聪明,宁可让其他人击败也不让杜兰特打

安东尼:湖人的防守很聪明,宁可让其他人击败也不让杜兰特打

懂球帝
2026-04-22 15:56:11
联手两大MVP冲冠!中国女篮26岁2米07王牌回应再战WNBA:我成长了

联手两大MVP冲冠!中国女篮26岁2米07王牌回应再战WNBA:我成长了

李喜林篮球绝杀
2026-04-21 17:05:42
证监会主席吴清:加大力度支持北京科技创新和产业创新深度融合 推动科创板、创业板等改革在京落地见效

证监会主席吴清:加大力度支持北京科技创新和产业创新深度融合 推动科创板、创业板等改革在京落地见效

科创板日报
2026-04-22 08:51:34
不是红牌?中超罕现全身腾空式“双腿飞铲”:外援痛苦倒地不起

不是红牌?中超罕现全身腾空式“双腿飞铲”:外援痛苦倒地不起

足球大腕
2026-04-22 12:29:11
浙江74岁婆婆丧偶十多年,突然要找邻居当老伴;三个儿女全反对:百年后和谁葬在一起?孙辈却表示:奶奶幸福就好

浙江74岁婆婆丧偶十多年,突然要找邻居当老伴;三个儿女全反对:百年后和谁葬在一起?孙辈却表示:奶奶幸福就好

洪观新闻
2026-04-22 15:05:29
郑丽文成功了!国民党3位元老出山,朱立伦的反扑计划宣告失败

郑丽文成功了!国民党3位元老出山,朱立伦的反扑计划宣告失败

叮当当科技
2026-04-22 12:55:48
伊朗炮艇开火 一集装箱船严重受损 战事推高生活成本 美国内最新民调:特朗普支持率降至33%

伊朗炮艇开火 一集装箱船严重受损 战事推高生活成本 美国内最新民调:特朗普支持率降至33%

每日经济新闻
2026-04-22 18:04:51
男子吐槽公司旅游去了自己从小长大的地方,我却笑死在评论区!

男子吐槽公司旅游去了自己从小长大的地方,我却笑死在评论区!

另子维爱读史
2026-04-10 11:50:41
全球最贵电车来了

全球最贵电车来了

大象新闻
2026-04-20 10:35:05
豆芽立大功!浙科大实证:豆芽可通过菌群代谢,减少84%腹部脂肪!

豆芽立大功!浙科大实证:豆芽可通过菌群代谢,减少84%腹部脂肪!

科学认识论
2026-04-20 14:45:02
突发!马斯克要用600亿美元拿下Cursor,奥特曼的「白月光」被截胡了

突发!马斯克要用600亿美元拿下Cursor,奥特曼的「白月光」被截胡了

AppSo
2026-04-22 09:06:10
遭同行排挤打压?张雪:所有品牌都不做我们的售后 只能自己直播

遭同行排挤打压?张雪:所有品牌都不做我们的售后 只能自己直播

念洲
2026-04-21 08:52:33
剪碎国旗、帮运坦克,靠大陆赚百亿的长荣海运,如今跪都没人理?

剪碎国旗、帮运坦克,靠大陆赚百亿的长荣海运,如今跪都没人理?

王二哥老搞笑
2026-04-22 15:11:19
一张深圳园丁的工资明细单,单月合计两万六,引发网友热烈讨论!

一张深圳园丁的工资明细单,单月合计两万六,引发网友热烈讨论!

市井大实话
2026-04-22 14:00:14
“新型啃老”席卷全国:孩子不工作也不伸手要钱,3000块能活1年

“新型啃老”席卷全国:孩子不工作也不伸手要钱,3000块能活1年

凡知
2026-04-22 11:57:03
太惨!2天暴跌33%,近100天腰斩再一字跌停,13万散户踩雷退市边缘!

太惨!2天暴跌33%,近100天腰斩再一字跌停,13万散户踩雷退市边缘!

股市皆大事
2026-04-22 12:44:50
美国务院批准对德119亿美元军售

美国务院批准对德119亿美元军售

参考消息
2026-04-21 16:23:04
沉默3天,日本向中国抗议,不许在东海建新设施,解放军开始增兵

沉默3天,日本向中国抗议,不许在东海建新设施,解放军开始增兵

小影的娱乐
2026-04-22 12:30:46
穆杰塔巴话音刚落,伊朗代表团紧急出动,赴巴谈判却暗藏一个隐患

穆杰塔巴话音刚落,伊朗代表团紧急出动,赴巴谈判却暗藏一个隐患

云上乌托邦
2026-04-22 16:20:38
2026-04-22 18:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15039文章数 66798关注度
往期回顾 全部

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

头条要闻

三甲医院科主任被举报"巨额财产来源不明" 举报人发声

头条要闻

三甲医院科主任被举报"巨额财产来源不明" 举报人发声

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

科技要闻

对话梅涛:没有视频底座,具身智能走不远

态度原创

亲子
房产
旅游
教育
公开课

亲子要闻

港姐张宝儿乳腺炎痛如石,老公帮忙亦无效,另1原因为大仔办退学

房产要闻

狂抢284轮!中海海口再拿重磅宅地!

旅游要闻

跟着天气游山东|淄博·风止雨霁 邂逅一场烟火与诗

教育要闻

重磅!中招自主招生政策发布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版