封神！商汤绝影Sage实测94%，让座舱从“听懂”到“说到做到”|大模型|智能体|sage|真实场景

封神！商汤绝影Sage实测94%，让座舱从“听懂”到“说到做到”

2026-04-22 12:33:30　来源: 出行范

北京举报

分享至

随着AI智能体上车越来越普遍，智能座舱也陷入新的困境：想要实现复杂的智能体能力，比如多步规划、设备联动，就必须依赖云端大模型，但云端调用不仅有明显的延迟（高速行驶时可能错过关键指令响应），还会产生高昂的Token成本，长期使用下来对车企和用户都是一笔不小的负担。

而如果坚守端侧，受限于车载设备的算力和存储，模型只能做简单的指令响应，比如“打开空调”“播放音乐”，无法处理复杂的复合指令，更谈不上主动服务。

这种两难，让智能座舱陷入了“看似智能，实则笨拙”的尴尬。商汤绝影最新发布的端侧多模态智能体基座大模型Sage，有望打破这一困局。

据介绍，Sage 采用 MoE 架构，总参数量为 32B，激活参数仅 3B ，是行业内首款在车端实现复杂智能体能力的基座大模型，目前已在英伟达 Orin X 端侧平台实现部署。

在国际权威Agent评测基准PinchBench上，Sage以94%的最佳任务完成率，力压Claude-Opus-4.6、GPT-5.4、Google-Gemini-3等一众国际主流云侧、端侧大模型。

在北京车展期间，商汤绝影将正式推出搭载Sage端侧多模态智能体基座大模型的Sage Box，为汽车迈入超级智能体时代筑牢核心根基。在AI全面进入智能体时代的今天，Sage的发布不仅是商汤绝影的一次技术突破，更可能改写整个端侧大模型与智能座舱的发展格局。端侧智能的未来，不是参数的堆砌，而是效率与能力的极致平衡。

实测封神，小参数干赢大模型

评判一个智能体模型的实力，不能只看宣传，要看实打实的评测。而PinchBench，正是当前最能检验智能体真实能力的“试金石”。

可能有人对PinchBench不太熟悉，它并非某家大厂推出的“自卖自夸”型榜单，而是由Kilo AI团队打造的开源评测基准，还得到了“龙虾之父”Peter Steinberger的推荐。

与传统评测不同，PinchBench不依赖固定的静态题库，而是随着真实任务库的扩充不断迭代，覆盖写作、研究、编码、日程管理、工具调用等23个真实工作场景，核心考察模型的多步推理、工具调用和任务闭环能力。

更关键的是，PinchBench的评测极其严格，不仅看任务成功率，还会综合衡量速度和成本，单任务的Token消耗就可达数十万量级，测试周期长、资源消耗高，因此能在这个榜单上拿到高分，足以证明模型在真实复杂场景中的稳定性和实用性。

Sage在这个榜单上的表现，堪称“碾压级”：94%的最佳任务完成率，超过了Claude-Opus-4.6（93.3%）、GPT-5.4（90.5%）、Google-Gemini-3（87.0%）等一众云侧旗舰。

甚至比小米MiMo-v2-Pro高出6.6个百分点——要知道，小米MiMo-v2-Pro的激活参数高达42B，总参数超1T，而Sage的激活参数仅3B，所需激活算力仅为前者的1/14，显存占用约为1/31。

这组数据背后，是Sage对行业惯性认知的颠覆。长期以来，行业内普遍认为“只有大参数量模型才能做好智能体任务”，但Sage用实际表现证明：端侧智能的核心，不是参数大小，而是技术路线的合理性。

它采用MoE架构，总参数量32B，却只激活3B参数，相当于“养了一支32人的团队，每次只派3个核心成员干活”，既保证了能力，又极大降低了算力消耗，完美解决了端侧算力不足的痛点。

更值得关注的是，Sage并非“偏科生”。在其他专业基准测试中，它同样全面领先。在MMLU Pro（跨学科专业知识）测试中，Sage获得76分，领先同级端侧模型约10%，证明端侧模型也能具备云端级的通用知识密度。

在GPQA Diamond（研究生级专业推理）测试中，77分的成绩实现了33%的提升，凸显了其复杂推理能力；而在针对座舱场景的Human Semantic Understanding测试中，91分的高分（提升32%），则体现了其对车载场景的深度适配。

最能体现其智能体能力的，是τ2-bench基准测试——这个榜单专门评估模型的工具调用和任务闭环能力，是区分“会聊天的模型”与“会办事的智能体”的关键。Sage以80分的成绩，比谷歌本月刚发布的Gemma 4（同量级端侧旗舰）提升38%，接近翻倍领先，直接印证了它作为端侧智能体基座的绝对优势。

让模型“学得省、做得对”，才是端侧智能的核心

Sage能在小参数下实现高性能，背后离不开商汤绝影自研的两大核心技术——SCOUT和ERL。这两项技术一“攻”一“守”，一个让模型“学得又快又省”，一个让模型“做事不出错”，共同构成了Sage的技术护城河。

先说说SCOUT（分级协同学习框架）。对于车载场景来说，很多任务都涉及空间规划、设备联动和多步决策，比如“导航到公司，避开早高峰，途中提醒我加油，到公司后自动发送‘已到岗’邮件”。如果让大模型直接试错学习这些复杂任务，不仅速度慢，还会消耗大量算力，成本高到难以承受。

SCOUT的思路很巧妙，相当于给大模型配了一组“侦察兵”——先派轻量小模型（比如小型MLPs）快速在任务中试错，把所有走得通的路径筛选出来，再把这些高价值的经验喂给大模型学习，形成“小模型探路，大模型吸收”的学习机制。

这种方式不仅让大模型能快速掌握真实用车场景的技能，还能节省约60%的GPU小时消耗，这项技术成果已上传至arXiv（论文链接：https://arxiv.org/abs/2601.21754），得到了学术界的认可。

如果说SCOUT解决的是“学习效率”问题，那么ERL（可擦除强化学习）解决的就是“执行精度”问题。在真实用车场景中，用户的复合指令往往需要多步推理和执行，只要其中一步出现错误，整个任务就会失败——比如规划路线时漏掉了“买早餐”，或者调节空调时误触了其他功能。

ERL技术就像给模型装上了“自我纠错”的能力，它能自动识别推理过程中的错误步骤，将错误内容擦除并重新生成，从源头阻断错误逻辑的扩散。这项已被机器学习顶级会议ICLR 2026收录的技术（论文链接：https://arxiv.org/abs/2510.00861），让Sage在复杂任务上的完成率提升了20%，彻底解决了车载模型“容易出错”的痛点。

这两项技术的核心价值，在于它们抓住了端侧大模型的本质需求——不是追求“参数最大”，而是追求“效率最优”。

对于车企来说，算力成本和量产可行性是首要考虑的因素，SCOUT和ERL的组合，既降低了训练和部署成本，又保证了任务执行的稳定性，这也是Sage能快速实现量产落地的关键。

Sage让智能“落地生根”

对于普通用户来说，再多的评测数据和技术名词，都不如真实的用车体验有说服力。Sage的真正厉害之处，在于它已经实现了量产部署，能把实验室里的性能，转化为用户能实实在在感受到的便利。

目前，Sage已经在英伟达Orin X端侧平台实现部署，这意味着它能快速上车，适配绝大多数主流车载硬件。

在实际测试中，Sage的首字响应时间（TTFT）仅约0.5秒，单Token推理延迟（TPOT）低至0.03秒，生成吞吐达到80 tk/S，平均任务时长优于主流API模型——也就是说，你喊出指令后，几乎没有延迟，模型就能快速响应并执行。

具体到用车场景，Sage的表现堪称“贴心伙伴”。它能一次性解析你的复合指令，自动联动导航、空调、影音等车载系统，完成全流程任务闭环，不用你反复唤醒、反复指令。

更智能的是，它能结合传感器对乘员状态与路况的感知，还能主动提供儿童模式、智能路线调整等服务。

这背后，离不开商汤绝影在车载场景的深厚积累。作为中国智能座舱AI软件的领头羊，商汤绝影的座舱AI软件市场份额已连续5年位列行业第一，截至2024年底，已与超30家国内外车企达成合作，覆盖130余款车型，量产交付累计突破360万辆。

而Sage的发布，更是将这种优势进一步放大——它可接入OpenClaw、Hermes等主流Agent框架，为更多车企提供核心支撑，覆盖出行、家庭等全场景。

在北京车展期间，商汤绝影还将推出搭载Sage的Sage Box，这意味着很快，我们就能在更多新车上体验到这款“端侧智能大脑”的实力，智能座舱也将正式从“基础交互”向“高阶舱驾融合智能体服务”跨越。

Sage的发布，给整个端侧大模型行业带来了一个重要启示：端侧智能的竞争，正在从“参数竞赛”转向“实用竞赛”。

过去几年，大模型行业陷入了“参数越大越好”的怪圈，动辄千亿、万亿参数的模型层出不穷，但很多模型只能停留在实验室里，无法实现量产落地，最终沦为“纸面实力”。

而Sage的成功，恰恰证明了“务实”才是端侧大模型的核心竞争力——它不追求参数规模，而是聚焦用户真实需求和车企量产痛点，用合理的技术路线，实现了能力、成本与可行性的平衡。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.