网易首页 > 网易号 > 正文 申请入驻

封神!商汤绝影Sage实测94%,让座舱从“听懂”到“说到做到”

0
分享至

随着AI智能体上车越来越普遍,智能座舱也陷入新的困境:想要实现复杂的智能体能力,比如多步规划、设备联动,就必须依赖云端大模型,但云端调用不仅有明显的延迟(高速行驶时可能错过关键指令响应),还会产生高昂的Token成本,长期使用下来对车企和用户都是一笔不小的负担。

而如果坚守端侧,受限于车载设备的算力和存储,模型只能做简单的指令响应,比如“打开空调”“播放音乐”,无法处理复杂的复合指令,更谈不上主动服务。

这种两难,让智能座舱陷入了“看似智能,实则笨拙”的尴尬。商汤绝影最新发布的端侧多模态智能体基座大模型Sage,有望打破这一困局。

据介绍,Sage 采用 MoE 架构,总参数量为 32B,激活参数仅 3B ,是行业内首款在车端实现复杂智能体能力的基座大模型,目前已在英伟达 Orin X 端侧平台实现部署。

在国际权威Agent评测基准PinchBench上,Sage以94%的最佳任务完成率,力压Claude-Opus-4.6、GPT-5.4、Google-Gemini-3等一众国际主流云侧、端侧大模型。



在北京车展期间,商汤绝影将正式推出搭载Sage端侧多模态智能体基座大模型的Sage Box,为汽车迈入超级智能体时代筑牢核心根基。在AI全面进入智能体时代的今天,Sage的发布不仅是商汤绝影的一次技术突破,更可能改写整个端侧大模型与智能座舱的发展格局。端侧智能的未来,不是参数的堆砌,而是效率与能力的极致平衡。

01

实测封神,小参数干赢大模型

评判一个智能体模型的实力,不能只看宣传,要看实打实的评测。而PinchBench,正是当前最能检验智能体真实能力的“试金石”。

可能有人对PinchBench不太熟悉,它并非某家大厂推出的“自卖自夸”型榜单,而是由Kilo AI团队打造的开源评测基准,还得到了“龙虾之父”Peter Steinberger的推荐。

与传统评测不同,PinchBench不依赖固定的静态题库,而是随着真实任务库的扩充不断迭代,覆盖写作、研究、编码、日程管理、工具调用等23个真实工作场景,核心考察模型的多步推理、工具调用和任务闭环能力。

更关键的是,PinchBench的评测极其严格,不仅看任务成功率,还会综合衡量速度和成本,单任务的Token消耗就可达数十万量级,测试周期长、资源消耗高,因此能在这个榜单上拿到高分,足以证明模型在真实复杂场景中的稳定性和实用性。

Sage在这个榜单上的表现,堪称“碾压级”:94%的最佳任务完成率,超过了Claude-Opus-4.6(93.3%)、GPT-5.4(90.5%)、Google-Gemini-3(87.0%)等一众云侧旗舰。

甚至比小米MiMo-v2-Pro高出6.6个百分点——要知道,小米MiMo-v2-Pro的激活参数高达42B,总参数超1T,而Sage的激活参数仅3B,所需激活算力仅为前者的1/14,显存占用约为1/31。



这组数据背后,是Sage对行业惯性认知的颠覆。长期以来,行业内普遍认为“只有大参数量模型才能做好智能体任务”,但Sage用实际表现证明:端侧智能的核心,不是参数大小,而是技术路线的合理性。

它采用MoE架构,总参数量32B,却只激活3B参数,相当于“养了一支32人的团队,每次只派3个核心成员干活”,既保证了能力,又极大降低了算力消耗,完美解决了端侧算力不足的痛点。

更值得关注的是,Sage并非“偏科生”。在其他专业基准测试中,它同样全面领先。在MMLU Pro(跨学科专业知识)测试中,Sage获得76分,领先同级端侧模型约10%,证明端侧模型也能具备云端级的通用知识密度。



在GPQA Diamond(研究生级专业推理)测试中,77分的成绩实现了33%的提升,凸显了其复杂推理能力;而在针对座舱场景的Human Semantic Understanding测试中,91分的高分(提升32%),则体现了其对车载场景的深度适配。

最能体现其智能体能力的,是τ2-bench基准测试——这个榜单专门评估模型的工具调用和任务闭环能力,是区分“会聊天的模型”与“会办事的智能体”的关键。Sage以80分的成绩,比谷歌本月刚发布的Gemma 4(同量级端侧旗舰)提升38%,接近翻倍领先,直接印证了它作为端侧智能体基座的绝对优势。

02

让模型“学得省、做得对”,才是端侧智能的核心

Sage能在小参数下实现高性能,背后离不开商汤绝影自研的两大核心技术——SCOUT和ERL。这两项技术一“攻”一“守”,一个让模型“学得又快又省”,一个让模型“做事不出错”,共同构成了Sage的技术护城河。

先说说SCOUT(分级协同学习框架)。对于车载场景来说,很多任务都涉及空间规划、设备联动和多步决策,比如“导航到公司,避开早高峰,途中提醒我加油,到公司后自动发送‘已到岗’邮件”。如果让大模型直接试错学习这些复杂任务,不仅速度慢,还会消耗大量算力,成本高到难以承受。

SCOUT的思路很巧妙,相当于给大模型配了一组“侦察兵”——先派轻量小模型(比如小型MLPs)快速在任务中试错,把所有走得通的路径筛选出来,再把这些高价值的经验喂给大模型学习,形成“小模型探路,大模型吸收”的学习机制。

这种方式不仅让大模型能快速掌握真实用车场景的技能,还能节省约60%的GPU小时消耗,这项技术成果已上传至arXiv(论文链接:https://arxiv.org/abs/2601.21754),得到了学术界的认可。

如果说SCOUT解决的是“学习效率”问题,那么ERL(可擦除强化学习)解决的就是“执行精度”问题。在真实用车场景中,用户的复合指令往往需要多步推理和执行,只要其中一步出现错误,整个任务就会失败——比如规划路线时漏掉了“买早餐”,或者调节空调时误触了其他功能。

ERL技术就像给模型装上了“自我纠错”的能力,它能自动识别推理过程中的错误步骤,将错误内容擦除并重新生成,从源头阻断错误逻辑的扩散。这项已被机器学习顶级会议ICLR 2026收录的技术(论文链接:https://arxiv.org/abs/2510.00861),让Sage在复杂任务上的完成率提升了20%,彻底解决了车载模型“容易出错”的痛点。

这两项技术的核心价值,在于它们抓住了端侧大模型的本质需求——不是追求“参数最大”,而是追求“效率最优”。

对于车企来说,算力成本和量产可行性是首要考虑的因素,SCOUT和ERL的组合,既降低了训练和部署成本,又保证了任务执行的稳定性,这也是Sage能快速实现量产落地的关键。

03

Sage让智能“落地生根”

对于普通用户来说,再多的评测数据和技术名词,都不如真实的用车体验有说服力。Sage的真正厉害之处,在于它已经实现了量产部署,能把实验室里的性能,转化为用户能实实在在感受到的便利。

目前,Sage已经在英伟达Orin X端侧平台实现部署,这意味着它能快速上车,适配绝大多数主流车载硬件。

在实际测试中,Sage的首字响应时间(TTFT)仅约0.5秒,单Token推理延迟(TPOT)低至0.03秒,生成吞吐达到80 tk/S,平均任务时长优于主流API模型——也就是说,你喊出指令后,几乎没有延迟,模型就能快速响应并执行。

具体到用车场景,Sage的表现堪称“贴心伙伴”。它能一次性解析你的复合指令,自动联动导航、空调、影音等车载系统,完成全流程任务闭环,不用你反复唤醒、反复指令。

更智能的是,它能结合传感器对乘员状态与路况的感知,还能主动提供儿童模式、智能路线调整等服务。

这背后,离不开商汤绝影在车载场景的深厚积累。作为中国智能座舱AI软件的领头羊,商汤绝影的座舱AI软件市场份额已连续5年位列行业第一,截至2024年底,已与超30家国内外车企达成合作,覆盖130余款车型,量产交付累计突破360万辆。

而Sage的发布,更是将这种优势进一步放大——它可接入OpenClaw、Hermes等主流Agent框架,为更多车企提供核心支撑,覆盖出行、家庭等全场景。

在北京车展期间,商汤绝影还将推出搭载Sage的Sage Box,这意味着很快,我们就能在更多新车上体验到这款“端侧智能大脑”的实力,智能座舱也将正式从“基础交互”向“高阶舱驾融合智能体服务”跨越。

Sage的发布,给整个端侧大模型行业带来了一个重要启示:端侧智能的竞争,正在从“参数竞赛”转向“实用竞赛”。

过去几年,大模型行业陷入了“参数越大越好”的怪圈,动辄千亿、万亿参数的模型层出不穷,但很多模型只能停留在实验室里,无法实现量产落地,最终沦为“纸面实力”。

而Sage的成功,恰恰证明了“务实”才是端侧大模型的核心竞争力——它不追求参数规模,而是聚焦用户真实需求和车企量产痛点,用合理的技术路线,实现了能力、成本与可行性的平衡。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
五连败切尔西彻底崩盘!主帅放豪言:6年合同在手,绝不下课!

五连败切尔西彻底崩盘!主帅放豪言:6年合同在手,绝不下课!

田先生篮球
2026-04-22 06:57:15
83年李鹏当上副总理,79岁的邓颖超亲自上门叮嘱:切不可脱离群众

83年李鹏当上副总理,79岁的邓颖超亲自上门叮嘱:切不可脱离群众

我不是沃神
2026-04-12 14:35:03
超越贾巴尔,詹姆斯创NBA历史季后赛41岁以上球员单场得分新高

超越贾巴尔,詹姆斯创NBA历史季后赛41岁以上球员单场得分新高

懂球帝
2026-04-22 16:36:56
邓小平去世后,汪东兴:“两个凡是”不是我的发明,发明人已去世

邓小平去世后,汪东兴:“两个凡是”不是我的发明,发明人已去世

覃仕勇说史
2026-04-22 12:32:45
家长提问上海市教委主任:大学刚毕业,专业就不吃香了怎么办?

家长提问上海市教委主任:大学刚毕业,专业就不吃香了怎么办?

上观新闻
2026-04-22 11:30:02
被蓝莓骗了!真正的花青素大户,其实就是这5种,几元钱的东西!

被蓝莓骗了!真正的花青素大户,其实就是这5种,几元钱的东西!

椰青美食分享
2026-04-22 08:44:44
赵心童即便卫冕成功也成不了世界第1!特鲁姆普:大热必死你小心

赵心童即便卫冕成功也成不了世界第1!特鲁姆普:大热必死你小心

风过乡
2026-04-22 13:16:46
国民党少将错过最后一班飞机,被迫留在大陆,因祸得福活到102岁

国民党少将错过最后一班飞机,被迫留在大陆,因祸得福活到102岁

浩渺青史
2026-04-22 01:43:44
红绿灯倒计时取消!全国推行新规,以后过路口记住这1句话

红绿灯倒计时取消!全国推行新规,以后过路口记住这1句话

阿振观点
2026-04-22 06:00:49
4月22日中国斯诺克:传来世锦赛最新消息,丁俊晖 赵心童吴宜泽

4月22日中国斯诺克:传来世锦赛最新消息,丁俊晖 赵心童吴宜泽

曹说体育
2026-04-22 11:42:56
湖人再灭火箭全凭两点,詹姆斯带队完胜杜兰特,板凳席菜鸡互啄?

湖人再灭火箭全凭两点,詹姆斯带队完胜杜兰特,板凳席菜鸡互啄?

谢说篮球
2026-04-22 18:28:31
本想秀恩爱,没想到成笑柄,自毁体面的郭富城,证实熊黛林没说谎

本想秀恩爱,没想到成笑柄,自毁体面的郭富城,证实熊黛林没说谎

白面书誏
2026-04-22 16:18:08
歼10直飞伊朗,美以都没敢拦!谁也没想到,背后藏着一个天大的局

歼10直飞伊朗,美以都没敢拦!谁也没想到,背后藏着一个天大的局

寻墨阁
2026-04-20 18:51:46
4月21日俄乌最新:俄罗斯创造的神话

4月21日俄乌最新:俄罗斯创造的神话

西楼饮月
2026-04-21 20:24:18
股民怕不是要疯一批

股民怕不是要疯一批

刀哥复盘笔记
2026-04-22 13:01:59
姆巴佩破门造2大纪录,熊皇世界波,皇马2-1送阿拉维斯交手9连败

姆巴佩破门造2大纪录,熊皇世界波,皇马2-1送阿拉维斯交手9连败

钉钉陌上花开
2026-04-22 05:33:49
特朗普已做好开战准备?王毅曾警告:中美一旦冲突,结局只剩一个

特朗普已做好开战准备?王毅曾警告:中美一旦冲突,结局只剩一个

蜉蝣说
2026-04-21 11:23:11
51岁何润东骑自行车买早饭,妻子林姵希蹬车小腿纤细,很般配

51岁何润东骑自行车买早饭,妻子林姵希蹬车小腿纤细,很般配

娱乐圈圈圆
2026-04-22 10:45:56
女演员千万别整容!看“金像奖红毯”章子怡,舒淇同框,就懂了

女演员千万别整容!看“金像奖红毯”章子怡,舒淇同框,就懂了

观察鉴娱
2026-04-20 14:58:23
笑不活了!女孩把鸡画得圆肥被判不合格,家长把鸡的照片发给老师

笑不活了!女孩把鸡画得圆肥被判不合格,家长把鸡的照片发给老师

火山詩话
2026-04-21 09:46:21
2026-04-22 19:35:00
出行范 incentive-icons
出行范
聚焦有范儿的未来出行和汽车
483文章数 45关注度
往期回顾 全部

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

头条要闻

三甲医院科主任被举报"巨额财产来源不明" 举报人发声

头条要闻

三甲医院科主任被举报"巨额财产来源不明" 举报人发声

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

科技要闻

对话梅涛:没有视频底座,具身智能走不远

态度原创

旅游
本地
时尚
教育
公开课

旅游要闻

跟着天气游山东|淄博·风止雨霁 邂逅一场烟火与诗

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

初夏穿赫本的白裤子,清新又高级!

教育要闻

重磅!中招自主招生政策发布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版