随着AI智能体上车越来越普遍,智能座舱也陷入新的困境:想要实现复杂的智能体能力,比如多步规划、设备联动,就必须依赖云端大模型,但云端调用不仅有明显的延迟(高速行驶时可能错过关键指令响应),还会产生高昂的Token成本,长期使用下来对车企和用户都是一笔不小的负担。
而如果坚守端侧,受限于车载设备的算力和存储,模型只能做简单的指令响应,比如“打开空调”“播放音乐”,无法处理复杂的复合指令,更谈不上主动服务。
这种两难,让智能座舱陷入了“看似智能,实则笨拙”的尴尬。商汤绝影最新发布的端侧多模态智能体基座大模型Sage,有望打破这一困局。
据介绍,Sage 采用 MoE 架构,总参数量为 32B,激活参数仅 3B ,是行业内首款在车端实现复杂智能体能力的基座大模型,目前已在英伟达 Orin X 端侧平台实现部署。
在国际权威Agent评测基准PinchBench上,Sage以94%的最佳任务完成率,力压Claude-Opus-4.6、GPT-5.4、Google-Gemini-3等一众国际主流云侧、端侧大模型。
![]()
在北京车展期间,商汤绝影将正式推出搭载Sage端侧多模态智能体基座大模型的Sage Box,为汽车迈入超级智能体时代筑牢核心根基。在AI全面进入智能体时代的今天,Sage的发布不仅是商汤绝影的一次技术突破,更可能改写整个端侧大模型与智能座舱的发展格局。端侧智能的未来,不是参数的堆砌,而是效率与能力的极致平衡。
01
实测封神,小参数干赢大模型
评判一个智能体模型的实力,不能只看宣传,要看实打实的评测。而PinchBench,正是当前最能检验智能体真实能力的“试金石”。
可能有人对PinchBench不太熟悉,它并非某家大厂推出的“自卖自夸”型榜单,而是由Kilo AI团队打造的开源评测基准,还得到了“龙虾之父”Peter Steinberger的推荐。
与传统评测不同,PinchBench不依赖固定的静态题库,而是随着真实任务库的扩充不断迭代,覆盖写作、研究、编码、日程管理、工具调用等23个真实工作场景,核心考察模型的多步推理、工具调用和任务闭环能力。
更关键的是,PinchBench的评测极其严格,不仅看任务成功率,还会综合衡量速度和成本,单任务的Token消耗就可达数十万量级,测试周期长、资源消耗高,因此能在这个榜单上拿到高分,足以证明模型在真实复杂场景中的稳定性和实用性。
Sage在这个榜单上的表现,堪称“碾压级”:94%的最佳任务完成率,超过了Claude-Opus-4.6(93.3%)、GPT-5.4(90.5%)、Google-Gemini-3(87.0%)等一众云侧旗舰。
甚至比小米MiMo-v2-Pro高出6.6个百分点——要知道,小米MiMo-v2-Pro的激活参数高达42B,总参数超1T,而Sage的激活参数仅3B,所需激活算力仅为前者的1/14,显存占用约为1/31。
![]()
这组数据背后,是Sage对行业惯性认知的颠覆。长期以来,行业内普遍认为“只有大参数量模型才能做好智能体任务”,但Sage用实际表现证明:端侧智能的核心,不是参数大小,而是技术路线的合理性。
它采用MoE架构,总参数量32B,却只激活3B参数,相当于“养了一支32人的团队,每次只派3个核心成员干活”,既保证了能力,又极大降低了算力消耗,完美解决了端侧算力不足的痛点。
更值得关注的是,Sage并非“偏科生”。在其他专业基准测试中,它同样全面领先。在MMLU Pro(跨学科专业知识)测试中,Sage获得76分,领先同级端侧模型约10%,证明端侧模型也能具备云端级的通用知识密度。
![]()
在GPQA Diamond(研究生级专业推理)测试中,77分的成绩实现了33%的提升,凸显了其复杂推理能力;而在针对座舱场景的Human Semantic Understanding测试中,91分的高分(提升32%),则体现了其对车载场景的深度适配。
最能体现其智能体能力的,是τ2-bench基准测试——这个榜单专门评估模型的工具调用和任务闭环能力,是区分“会聊天的模型”与“会办事的智能体”的关键。Sage以80分的成绩,比谷歌本月刚发布的Gemma 4(同量级端侧旗舰)提升38%,接近翻倍领先,直接印证了它作为端侧智能体基座的绝对优势。
02
让模型“学得省、做得对”,才是端侧智能的核心
Sage能在小参数下实现高性能,背后离不开商汤绝影自研的两大核心技术——SCOUT和ERL。这两项技术一“攻”一“守”,一个让模型“学得又快又省”,一个让模型“做事不出错”,共同构成了Sage的技术护城河。
先说说SCOUT(分级协同学习框架)。对于车载场景来说,很多任务都涉及空间规划、设备联动和多步决策,比如“导航到公司,避开早高峰,途中提醒我加油,到公司后自动发送‘已到岗’邮件”。如果让大模型直接试错学习这些复杂任务,不仅速度慢,还会消耗大量算力,成本高到难以承受。
SCOUT的思路很巧妙,相当于给大模型配了一组“侦察兵”——先派轻量小模型(比如小型MLPs)快速在任务中试错,把所有走得通的路径筛选出来,再把这些高价值的经验喂给大模型学习,形成“小模型探路,大模型吸收”的学习机制。
这种方式不仅让大模型能快速掌握真实用车场景的技能,还能节省约60%的GPU小时消耗,这项技术成果已上传至arXiv(论文链接:https://arxiv.org/abs/2601.21754),得到了学术界的认可。
如果说SCOUT解决的是“学习效率”问题,那么ERL(可擦除强化学习)解决的就是“执行精度”问题。在真实用车场景中,用户的复合指令往往需要多步推理和执行,只要其中一步出现错误,整个任务就会失败——比如规划路线时漏掉了“买早餐”,或者调节空调时误触了其他功能。
ERL技术就像给模型装上了“自我纠错”的能力,它能自动识别推理过程中的错误步骤,将错误内容擦除并重新生成,从源头阻断错误逻辑的扩散。这项已被机器学习顶级会议ICLR 2026收录的技术(论文链接:https://arxiv.org/abs/2510.00861),让Sage在复杂任务上的完成率提升了20%,彻底解决了车载模型“容易出错”的痛点。
这两项技术的核心价值,在于它们抓住了端侧大模型的本质需求——不是追求“参数最大”,而是追求“效率最优”。
对于车企来说,算力成本和量产可行性是首要考虑的因素,SCOUT和ERL的组合,既降低了训练和部署成本,又保证了任务执行的稳定性,这也是Sage能快速实现量产落地的关键。
03
Sage让智能“落地生根”
对于普通用户来说,再多的评测数据和技术名词,都不如真实的用车体验有说服力。Sage的真正厉害之处,在于它已经实现了量产部署,能把实验室里的性能,转化为用户能实实在在感受到的便利。
目前,Sage已经在英伟达Orin X端侧平台实现部署,这意味着它能快速上车,适配绝大多数主流车载硬件。
在实际测试中,Sage的首字响应时间(TTFT)仅约0.5秒,单Token推理延迟(TPOT)低至0.03秒,生成吞吐达到80 tk/S,平均任务时长优于主流API模型——也就是说,你喊出指令后,几乎没有延迟,模型就能快速响应并执行。
具体到用车场景,Sage的表现堪称“贴心伙伴”。它能一次性解析你的复合指令,自动联动导航、空调、影音等车载系统,完成全流程任务闭环,不用你反复唤醒、反复指令。
更智能的是,它能结合传感器对乘员状态与路况的感知,还能主动提供儿童模式、智能路线调整等服务。
这背后,离不开商汤绝影在车载场景的深厚积累。作为中国智能座舱AI软件的领头羊,商汤绝影的座舱AI软件市场份额已连续5年位列行业第一,截至2024年底,已与超30家国内外车企达成合作,覆盖130余款车型,量产交付累计突破360万辆。
而Sage的发布,更是将这种优势进一步放大——它可接入OpenClaw、Hermes等主流Agent框架,为更多车企提供核心支撑,覆盖出行、家庭等全场景。
在北京车展期间,商汤绝影还将推出搭载Sage的Sage Box,这意味着很快,我们就能在更多新车上体验到这款“端侧智能大脑”的实力,智能座舱也将正式从“基础交互”向“高阶舱驾融合智能体服务”跨越。
Sage的发布,给整个端侧大模型行业带来了一个重要启示:端侧智能的竞争,正在从“参数竞赛”转向“实用竞赛”。
过去几年,大模型行业陷入了“参数越大越好”的怪圈,动辄千亿、万亿参数的模型层出不穷,但很多模型只能停留在实验室里,无法实现量产落地,最终沦为“纸面实力”。
而Sage的成功,恰恰证明了“务实”才是端侧大模型的核心竞争力——它不追求参数规模,而是聚焦用户真实需求和车企量产痛点,用合理的技术路线,实现了能力、成本与可行性的平衡。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.