曦望，死磕AI推理成本｜甲子光年|徐冰|gpu|人工智能模型

分享至

解析曦望新一代推理GPU芯片启望S3。

作者｜王艺

编辑｜王博

国产GPU又有新发布。

1月27日，国产GPU厂商曦望（Sunrise）在杭州发布新一代推理GPU芯片启望S3，并同步推出面向大模型推理的超节点方案及推理云计划。这是曦望在近一年累计完成约30亿元战略融资后的首次系统性技术亮相。

曦望是国产全栈自研人工智能算力芯片企业，前身是商汤大芯片部门，2024年底分拆独立运营，专注于高性能GPU及多模态场景推理芯片的研发与商业化。

曦望联席CEO王勇身穿皮衣、牛仔裤走上舞台，作为一位芯片技术老兵，这个场景他并不陌生。王勇曾任AMD dGPU首席架构师、昆仑芯核心架构师，2020年加入商汤科技领导大芯片部门，为曦望的前身奠定技术基础。

这一次，他和团队目标很明确——极致推理性价比。

启望S3是一款面向大模型推理深度定制的GPGPU芯片，其设计进行了系统级重构。

在算力层面，启望S3支持从FP16到FP4的多精度灵活切换。模型在保证效果的前提下，最大化释放低精度推理效率。

在存储层面，启望S3采用LPDDR6显存方案，成为国内首款采用该方案的芯片。相比HBM（高带宽内存）路线，LPDDR6更强调容量与能效比。

系统级重构，也体现在推理成本上。在DeepSeek V3/R1满血版等主流大模型推理场景中，启望S3单位Token推理成本较上一代产品下降约90%。

“当推理成为主要算力消耗场景后，GPU的商业价值不再取决于参数指标，而是单位Token的真实成本。”王勇说。

这并不是在“画饼”。「甲子光年」了解到，曦望2025年推理GPU芯片交付量已突破1万片，这说明其推理GPU路线已完成从工程验证到规模化交付的关键跨越。

而新发布的启望S3目前已完成内部研发，预计将于今年年中流片，年底回片量产。

卖芯片不是一锤子买卖，如何把算力转化为可交付的生产力，是所有国产GPU厂商都需要回答的问题。

1.死磕推理成本

硅谷早期风险投资机构Benchmark的合伙人Everett Randle在2025年底接受采访时表示，AI应用会有大量的AI推理成本计入COGS（销售成本），导致毛利率低于传统SaaS。

“人们因此认为AI应用不是一门好生意。”Everett Randle说，“但如果关注单客绝对毛利率，AI应用的绝对毛利润可以达到普通SaaS公司的四到五倍，拥有比SaaS公司大得多的潜在市场。”

以刚刚上市的智谱为例，招股书显示，智谱在2022~2024年毛利率分别为54.6%、64.6%、56.3%，2025年上半年回落至50%，这虽然高于传统项目制公司，但和传统SaaS行业相比并不突出。

就在今年的CES上，英伟达创始人&CEO黄仁勋宣布新一代Rubin平台通过“极端协同设计”整合六款芯片（GPU、CPU、NVLink 6、DPU等），这将加速agentic AI、高级推理以及大规模混合专家（MoE）模型推理，其每token成本比Blackwell平台降低了多达10倍。

黄仁勋在CES 2026演讲，图片来源：「甲子光年」拍摄

降低推理成本已逐渐成为行业共识。

在这次曦望的发布会上，曦望董事长徐冰把行业的变化概括为三句话：需求变了、场景变了、成本结构变了。AI正在从“被训出来”走向“能被用起来”的实战阶段。智能体、物理AI、3D/视频生成等场景爆发，会让推理从配角变成主力。

“谁能持续降低推理成本，谁就掌握了AI产业的成本曲线。”徐冰说。

徐冰此前是商汤集团联合创始人、执行董事及董事会秘书。去年，徐冰辞去商汤集团执行董事、董事会秘书职位。后来徐冰担任曦望董事长，开始掌舵这家国产GPU公司。

“如果我们能够让推理的成本下降90%，并且可以提供稳定的服务，那我们的竞争不是市面上的又多一个芯片选择，而是说我们可以真正重写中国AI产业的损益表，助力全行业盈利增收。”徐冰说。

但这次发布会，曦望并没有公布启望S3更为具体的性能参数，仅用一张综合性能指标表格进行了对比。

启望S3综合性能指标，图片来源：「甲子光年」拍摄

不过，「甲子光年」根据图中的信息可以解读出，启望S3的综合性能与摩尔线程的S系列智算加速卡相当，高于昇腾910B、英伟达A系列，低于昇腾910C、英伟达H系列。

对比来看，以摩尔线程大模型智算加速卡MTT S4000为例，其采用第三代MUSA架构，配备了Tensor核心，单卡支持48GB显存和768GB/s的显存带宽。

王勇在现场更多强调的是成本，启望S3的单卡成本预计在2~4万元之间，比友商更具性价比。

那么，如何降低推理成本？曦望进行了一场架构革命，王勇称之为“重新定义推理GPU”。

启望S3架构进化，图片来源：「甲子光年」拍摄

PPA是芯片设计核心指标，代表Power（功耗）、Performance（性能）、Area（面积）。王勇介绍，启望S3追求极致的PPA，在架构上扬弃了所有与训练相关的比较重且贵的技术组件，而采用了比较新的针对推理极致优化的架构和技术组件。

在IP层面，团队融合了国际主流GPU架构的最新特性，引入Warp调度优化与Tensor Memory等先进设计，并在合规前提下采用目前最先进的国际工艺节点，同时集成国际巨头的高速接口IP。

启望S3最显著的差异化在于显存方案。由于HBM与先进封装强绑定，这会大幅推高训推一体芯片的成本，在做了非常多的架构研究后，曦望发现LPDDR6才是当前推理的最优解。

如果说HBM是为训练而生，追求极限带宽，不惜成本，那么LPDDR6就是为推理而生，追求容量与能效比，极致成本控制。

因此启望S3成为国内首款采用LPDDR6方案的芯片。官方数据显示，S3的显存容量较上一代产品提升4倍，有效缓解了大模型推理中普遍存在的显存驻留与访存瓶颈。

而从本质上来看，曦望团队是在“性能-成本-功耗”的不可能三角中，针对推理负载特性（非连续计算、大容量需求、成本敏感）做出的精准取舍。

启望S3还拥有“黄金访存比”，这也是团队在研究大模型本身特点后的发现，达到访存比的“甜点”意味着不浪费每一分的算力和带宽。

最后是核心性能。王勇介绍，Flash Attention算子计算效率高达98%；GEMM算子TensorCore利用率更达99%，基于这些数据，王勇称：“曦望的研发和架构能力遥遥领先。”

2.不止芯片

围绕启望S3，曦望同步发布了面向大模型推理的寰望SC3超节点解决方案。

寰望SC3从一开始即面向千亿、万亿级参数多模态MoE推理的真实部署需求进行设计。该方案支持单域256卡一级互联，可高效支撑PD分离架构与大EP（Expert Parallelism）规模化部署，显著提升推理阶段的系统利用率与稳定性，适配长上下文、多并发、多专家并行等复杂推理场景。

在交付形态上，寰望SC3采用全液冷设计，具备极致PUE表现，并支持模块化交付与快速部署。在同等推理能力量级下，该方案可将整体系统交付成本从行业常见的亿元级，降低至千万元级，实现一个数量级的下降。

寰望SC3超节点，图片来源：「甲子光年」拍摄

除了寰望，S3的产品矩阵还包括智望系列的PCIe卡与OMS卡、辰望系列的PCIe服务器与OMS服务器，以及熙望系列的AIPC（液冷工作站）。

S3产品矩阵，图片来源：「甲子光年」拍摄

在软件层面，曦望构建了与CUDA兼容的基础软件体系，覆盖驱动、运行时API、开发工具链、算子库和通信库，降低推理应用的迁移门槛。目前，该体系已适配ModelScope平台90%以上主流大模型形态，包括DeepSeek、通义千问等。

曦望软硬协同，图片来源：「甲子光年」拍摄

此外，曦望团队在卡间互联方面也做了很多工作，支持高带宽、低延时的Scale-Up、Scale-Out互联架构，这种原生支持的互联架构可以让寰望超节点产品，不仅是256卡，也可以向下覆盖。

“这取决于我们的客户的需求，可以做到16到256卡这样的超节点产品。同时，当我们把多个超节点通过我们直出的RDMA（远程直接内存访问）连接起来的时候，我们可以做到千卡甚至几千卡的互联集群。”王勇说。

在曦望看来，推理GPU的竞争并不止于芯片本身，而在于能否将硬件能力稳定转化为可交付、可计价的推理算力。

3.曦望凭什么能站稳脚跟？

国产AI芯片已经是一个拥挤而残酷的赛道。

昇腾、摩尔线程、沐曦、寒武纪、亿铸、燧原等都已在某些层面证明了自己的实力，这意味着，目前的时间点竞争已充分激烈，对技术路线和资本竞争等关系公司战略的重大事项，决策的容错率会大大降低。

而面对国内外的竞争，曦望凭什么能站稳脚跟？

徐冰对于这个问题的回答简单而直接：“我们不是在做又一个GPU，而是从底层架构就为推理场景重新设计，彻底重写。”

在徐冰看来，启望S3彻底抛弃了传统的训推一体GPU为训练准备的那些冗余设计，不追求峰值TFLOPS这种纸面数据，“我们是把真实业务场景中的每个token的成本，每个token的能耗，还有实实在在的稳定性，作为所有设计决策的根本出发点。”

芯片设计不能纸上谈兵，必须结合真实业务场景，满足各种客户需求。2025年全球大模型token的消耗量激增，其中推理消耗占了很大一部分比例，这种结构性改变也坚定了团队研发的方向。

过去的2025年，在徐冰看来是团队“最忙的一年”，整个团队几乎是“没日没夜全速研发”。

目前曦望已拥有三百多人的团队，聚拢了行业中一批芯片研发精英，他们来自英伟达、AMD、昆仑芯、商汤等。核心的技术骨干平均有15年的行业经验。徐冰形容这是“一支真正懂芯片，懂AI能落地的特种部队”。

「甲子光年」从曦望内部了解到，公司里有这样一句话：我们不做“向上管理”，我们要“求真务实”。

团队曾经去一家AI公司调研发现，这家AI公司的GPU的峰值使用率有85%，但是日均使用率只有28%。GPU的长期空闲率达到40%，每月浪费的算力成本，可以买两台新的服务器。

一个推理集群往往由众多的服务器组成的，这些服务器在不同的推理算力的需求下会呈现出一个问题——资源利用率低，而曦望就是要解决这样的问题。

此外，还有模型适配问题，这也是行业当中很多客户都会遇到的问题。曦望团队的解法是专门做一个MaaS（Model as a Service）平台，方便模型调用和定制优化。

从成功量产启望S1和S2，到发布S3，展示S4和S5的路径图，曦望在在一步步靠近AI推理时代。过去一年，国内已经有一些厂商把大模型的推理价格做到了百万token一元甚至几毛钱，曦望的目标是在这个基础上，把成本再压一个数量级，把“百万token一分钱”变成行业新基准。

徐冰介绍曦望的目标，图片来源：「甲子光年」拍摄

如果说启望S3回答的是“推理算力如何更便宜”，那么曦望与商汤科技、第四范式等生态伙伴探索的推理云平台，则试图解决“推理算力如何更好用”。

通过GPU池化与弹性调度，曦望将底层算力整合为统一的推理算力池，并以 MaaS（Model as a Service）作为核心入口，使企业无需关注底层硬件配置与集群运维，即可按需调用大模型推理能力。这一体系也成为“百万Token一分钱”推理成本合作的重要技术基础。

「甲子光年」了解到，曦望在过去一年内顺利完成了近30亿元战略融资，投资方的阵容也很强大，包括三一集团旗下华胥基金、范式智能、杭州数据集团、正大机器人、协鑫科技、游族网络、北京利尔等产业投资方，无极资本、IDG 资本、心资本、高榕创投、中金资本、普华资本、松禾资本、易方达资本、工银投资、海通开元、越秀产业基金、银泰投资、国元基金、粤民投、华民投等国内知名VC/PE机构，同时获得诚通混改基金、杭州金投、杭州高新金投等国资背景资本的加持。

当然，推理算力价值的实现离不开协同，需要芯片设计、系统集成、软件开发到产业应用的全链条协作。曦望在生态打造、商业化等方面还有很长一段路需要走。

与各类算力厂商和芯片厂商深度合作，成为现有算力系统的推理分流是曦望的一个务实的选择。

“曦望的使命只有一个，”徐冰说，“就是把大模型推理这件事做到极致。”

（封面图来源：曦望）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.