网易首页 > 网易号 > 正文 申请入驻

曦望,死磕AI推理成本|甲子光年

0
分享至



解析曦望新一代推理GPU芯片启望S3。

作者|王艺

编辑|王博

国产GPU又有新发布。

1月27日,国产GPU厂商曦望(Sunrise)在杭州发布新一代推理GPU芯片启望S3,并同步推出面向大模型推理的超节点方案及推理云计划。这是曦望在近一年累计完成约30亿元战略融资后的首次系统性技术亮相。

曦望是国产全栈自研人工智能算力芯片企业,前身是商汤大芯片部门,2024年底分拆独立运营,专注于高性能GPU及多模态场景推理芯片的研发与商业化。

曦望联席CEO王勇身穿皮衣、牛仔裤走上舞台,作为一位芯片技术老兵,这个场景他并不陌生。王勇曾任AMD dGPU首席架构师、昆仑芯核心架构师,2020年加入商汤科技领导大芯片部门,为曦望的前身奠定技术基础。

这一次,他和团队目标很明确——极致推理性价比


启望S3是一款面向大模型推理深度定制的GPGPU芯片,其设计进行了系统级重构。

在算力层面,启望S3支持从FP16到FP4的多精度灵活切换。模型在保证效果的前提下,最大化释放低精度推理效率。

在存储层面,启望S3采用LPDDR6显存方案,成为国内首款采用该方案的芯片。相比HBM(高带宽内存)路线,LPDDR6更强调容量与能效比。

系统级重构,也体现在推理成本上。在DeepSeek V3/R1满血版等主流大模型推理场景中,启望S3单位Token推理成本较上一代产品下降约90%。

“当推理成为主要算力消耗场景后,GPU的商业价值不再取决于参数指标,而是单位Token的真实成本。”王勇说。

这并不是在“画饼”。「甲子光年」了解到,曦望2025年推理GPU芯片交付量已突破1万片,这说明其推理GPU路线已完成从工程验证到规模化交付的关键跨越。

而新发布的启望S3目前已完成内部研发,预计将于今年年中流片,年底回片量产。

卖芯片不是一锤子买卖,如何把算力转化为可交付的生产力,是所有国产GPU厂商都需要回答的问题。

1.死磕推理成本

硅谷早期风险投资机构Benchmark的合伙人Everett Randle在2025年底接受采访时表示,AI应用会有大量的AI推理成本计入COGS(销售成本),导致毛利率低于传统SaaS。

“人们因此认为AI应用不是一门好生意。”Everett Randle说,“但如果关注单客绝对毛利率,AI应用的绝对毛利润可以达到普通SaaS公司的四到五倍,拥有比SaaS公司大得多的潜在市场。”

以刚刚上市的智谱为例,招股书显示,智谱在2022~2024年毛利率分别为54.6%、64.6%、56.3%,2025年上半年回落至50%,这虽然高于传统项目制公司,但和传统SaaS行业相比并不突出。

就在今年的CES上,英伟达创始人&CEO黄仁勋宣布新一代Rubin平台通过“极端协同设计”整合六款芯片(GPU、CPU、NVLink 6、DPU等),这将加速agentic AI、高级推理以及大规模混合专家(MoE)模型推理,其每token成本比Blackwell平台降低了多达10倍。


黄仁勋在CES 2026演讲,图片来源:「甲子光年」拍摄

降低推理成本已逐渐成为行业共识。

在这次曦望的发布会上,曦望董事长徐冰把行业的变化概括为三句话:需求变了、场景变了、成本结构变了。AI正在从“被训出来”走向“能被用起来”的实战阶段。智能体、物理AI、3D/视频生成等场景爆发,会让推理从配角变成主力。

“谁能持续降低推理成本,谁就掌握了AI产业的成本曲线。”徐冰说。

徐冰此前是商汤集团联合创始人、执行董事及董事会秘书。去年,徐冰辞去商汤集团执行董事、董事会秘书职位。后来徐冰担任曦望董事长,开始掌舵这家国产GPU公司。

“如果我们能够让推理的成本下降90%,并且可以提供稳定的服务,那我们的竞争不是市面上的又多一个芯片选择,而是说我们可以真正重写中国AI产业的损益表,助力全行业盈利增收。”徐冰说。

但这次发布会,曦望并没有公布启望S3更为具体的性能参数,仅用一张综合性能指标表格进行了对比。


启望S3综合性能指标,图片来源:「甲子光年」拍摄

不过,「甲子光年」根据图中的信息可以解读出,启望S3的综合性能与摩尔线程的S系列智算加速卡相当,高于昇腾910B、英伟达A系列,低于昇腾910C、英伟达H系列。

对比来看,以摩尔线程大模型智算加速卡MTT S4000为例,其采用第三代MUSA架构,配备了Tensor核心,单卡支持48GB显存和768GB/s的显存带宽。

王勇在现场更多强调的是成本,启望S3的单卡成本预计在2~4万元之间,比友商更具性价比。

那么,如何降低推理成本?曦望进行了一场架构革命,王勇称之为“重新定义推理GPU”。


启望S3架构进化,图片来源:「甲子光年」拍摄

PPA是芯片设计核心指标,代表Power(功耗)、Performance(性能)、Area(面积)。王勇介绍,启望S3追求极致的PPA,在架构上扬弃了所有与训练相关的比较重且贵的技术组件,而采用了比较新的针对推理极致优化的架构和技术组件。

在IP层面,团队融合了国际主流GPU架构的最新特性,引入Warp调度优化与Tensor Memory等先进设计,并在合规前提下采用目前最先进的国际工艺节点,同时集成国际巨头的高速接口IP。

启望S3最显著的差异化在于显存方案。由于HBM与先进封装强绑定,这会大幅推高训推一体芯片的成本,在做了非常多的架构研究后,曦望发现LPDDR6才是当前推理的最优解。

如果说HBM是为训练而生,追求极限带宽,不惜成本,那么LPDDR6就是为推理而生,追求容量与能效比,极致成本控制。

因此启望S3成为国内首款采用LPDDR6方案的芯片。官方数据显示,S3的显存容量较上一代产品提升4倍,有效缓解了大模型推理中普遍存在的显存驻留与访存瓶颈。

而从本质上来看,曦望团队是在“性能-成本-功耗”的不可能三角中,针对推理负载特性(非连续计算、大容量需求、成本敏感)做出的精准取舍。

启望S3还拥有“黄金访存比”,这也是团队在研究大模型本身特点后的发现,达到访存比的“甜点”意味着不浪费每一分的算力和带宽。

最后是核心性能。王勇介绍,Flash Attention算子计算效率高达98%;GEMM算子TensorCore利用率更达99%,基于这些数据,王勇称:“曦望的研发和架构能力遥遥领先。”

2.不止芯片

围绕启望S3,曦望同步发布了面向大模型推理的寰望SC3超节点解决方案。

寰望SC3从一开始即面向千亿、万亿级参数多模态MoE推理的真实部署需求进行设计。该方案支持单域256卡一级互联,可高效支撑PD分离架构与大EP(Expert Parallelism)规模化部署,显著提升推理阶段的系统利用率与稳定性,适配长上下文、多并发、多专家并行等复杂推理场景。

在交付形态上,寰望SC3采用全液冷设计,具备极致PUE表现,并支持模块化交付与快速部署。在同等推理能力量级下,该方案可将整体系统交付成本从行业常见的亿元级,降低至千万元级,实现一个数量级的下降。


寰望SC3超节点,图片来源:「甲子光年」拍摄

除了寰望,S3的产品矩阵还包括智望系列的PCIe卡与OMS卡、辰望系列的PCIe服务器与OMS服务器,以及熙望系列的AIPC(液冷工作站)。


S3产品矩阵,图片来源:「甲子光年」拍摄

在软件层面,曦望构建了与CUDA兼容的基础软件体系,覆盖驱动、运行时API、开发工具链、算子库和通信库,降低推理应用的迁移门槛。目前,该体系已适配ModelScope平台90%以上主流大模型形态,包括DeepSeek、通义千问等。


曦望软硬协同,图片来源:「甲子光年」拍摄

此外,曦望团队在卡间互联方面也做了很多工作,支持高带宽、低延时的Scale-Up、Scale-Out互联架构,这种原生支持的互联架构可以让寰望超节点产品,不仅是256卡,也可以向下覆盖。

“这取决于我们的客户的需求,可以做到16到256卡这样的超节点产品。同时,当我们把多个超节点通过我们直出的RDMA(远程直接内存访问)连接起来的时候,我们可以做到千卡甚至几千卡的互联集群。”王勇说。

在曦望看来,推理GPU的竞争并不止于芯片本身,而在于能否将硬件能力稳定转化为可交付、可计价的推理算力。

3.曦望凭什么能站稳脚跟?

国产AI芯片已经是一个拥挤而残酷的赛道。

昇腾、摩尔线程、沐曦、寒武纪、亿铸、燧原等都已在某些层面证明了自己的实力,这意味着,目前的时间点竞争已充分激烈,对技术路线和资本竞争等关系公司战略的重大事项,决策的容错率会大大降低。

而面对国内外的竞争,曦望凭什么能站稳脚跟?

徐冰对于这个问题的回答简单而直接:“我们不是在做又一个GPU,而是从底层架构就为推理场景重新设计,彻底重写。

在徐冰看来,启望S3彻底抛弃了传统的训推一体GPU为训练准备的那些冗余设计,不追求峰值TFLOPS这种纸面数据,“我们是把真实业务场景中的每个token的成本,每个token的能耗,还有实实在在的稳定性,作为所有设计决策的根本出发点。”

芯片设计不能纸上谈兵,必须结合真实业务场景,满足各种客户需求。2025年全球大模型token的消耗量激增,其中推理消耗占了很大一部分比例,这种结构性改变也坚定了团队研发的方向。

过去的2025年,在徐冰看来是团队“最忙的一年”,整个团队几乎是“没日没夜全速研发”。

目前曦望已拥有三百多人的团队,聚拢了行业中一批芯片研发精英,他们来自英伟达、AMD、昆仑芯、商汤等。核心的技术骨干平均有15年的行业经验。徐冰形容这是“一支真正懂芯片,懂AI能落地的特种部队”。

「甲子光年」从曦望内部了解到,公司里有这样一句话:我们不做“向上管理”,我们要“求真务实”。

团队曾经去一家AI公司调研发现,这家AI公司的GPU的峰值使用率有85%,但是日均使用率只有28%。GPU的长期空闲率达到40%,每月浪费的算力成本,可以买两台新的服务器。

一个推理集群往往由众多的服务器组成的,这些服务器在不同的推理算力的需求下会呈现出一个问题——资源利用率低,而曦望就是要解决这样的问题。

此外,还有模型适配问题,这也是行业当中很多客户都会遇到的问题。曦望团队的解法是专门做一个MaaS(Model as a Service)平台,方便模型调用和定制优化。

从成功量产启望S1和S2,到发布S3,展示S4和S5的路径图,曦望在在一步步靠近AI推理时代。过去一年,国内已经有一些厂商把大模型的推理价格做到了百万token一元甚至几毛钱,曦望的目标是在这个基础上,把成本再压一个数量级,把“百万token一分钱”变成行业新基准。


徐冰介绍曦望的目标,图片来源:「甲子光年」拍摄

如果说启望S3回答的是“推理算力如何更便宜”,那么曦望与商汤科技、第四范式等生态伙伴探索的推理云平台,则试图解决“推理算力如何更好用”。

通过GPU池化与弹性调度,曦望将底层算力整合为统一的推理算力池,并以 MaaS(Model as a Service)作为核心入口,使企业无需关注底层硬件配置与集群运维,即可按需调用大模型推理能力。这一体系也成为“百万Token一分钱”推理成本合作的重要技术基础。

「甲子光年」了解到,曦望在过去一年内顺利完成了近30亿元战略融资,投资方的阵容也很强大,包括三一集团旗下华胥基金、范式智能、杭州数据集团、正大机器人、协鑫科技、游族网络、北京利尔等产业投资方,无极资本、IDG 资本、心资本、高榕创投、中金资本、普华资本、松禾资本、易方达资本、工银投资、海通开元、越秀产业基金、银泰投资、国元基金、粤民投、华民投等国内知名VC/PE机构,同时获得诚通混改基金、杭州金投、杭州高新金投等国资背景资本的加持。

当然,推理算力价值的实现离不开协同,需要芯片设计、系统集成、软件开发到产业应用的全链条协作。曦望在生态打造、商业化等方面还有很长一段路需要走。

与各类算力厂商和芯片厂商深度合作,成为现有算力系统的推理分流是曦望的一个务实的选择。

“曦望的使命只有一个,”徐冰说,“就是把大模型推理这件事做到极致。

(封面图来源:曦望)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
劝告大家:如果不是特有钱,就不要回农村建房,更不要回村养老

劝告大家:如果不是特有钱,就不要回农村建房,更不要回村养老

小马达情感故事
2026-01-27 12:15:03
福建前首富许世辉:痛失27岁接班人,零食帝国退市,今靠慈善念儿

福建前首富许世辉:痛失27岁接班人,零食帝国退市,今靠慈善念儿

牛牛叨史
2026-01-22 22:55:17
终于有人管管美国了!美国遇到大麻烦,美国:中美两国需要携手

终于有人管管美国了!美国遇到大麻烦,美国:中美两国需要携手

福建平子
2026-01-28 10:52:25
当不成总统了?美投票结果出来了,特朗普或被弹劾,希拉里被查

当不成总统了?美投票结果出来了,特朗普或被弹劾,希拉里被查

环球报姐
2026-01-27 13:52:50
13年烧50亿为续命!车王舒马赫苏醒,外媒却称:妻子在转移财产?

13年烧50亿为续命!车王舒马赫苏醒,外媒却称:妻子在转移财产?

壹只灰鸽子
2026-01-28 14:24:02
中印加勒万河谷肉搏战:680人八小时混战,双方到底伤亡多少人?

中印加勒万河谷肉搏战:680人八小时混战,双方到底伤亡多少人?

叹为观止易
2026-01-28 14:25:41
大众需要真相,朝廷维持现状

大众需要真相,朝廷维持现状

我是历史其实挺有趣
2026-01-27 18:48:36
伟伟道来 | 美伊对峙,2026年的第一场战争呼之欲出

伟伟道来 | 美伊对峙,2026年的第一场战争呼之欲出

经济观察报
2026-01-28 11:02:06
慈禧嘴里那颗8亿的夜明珠,下落已经查明:被宋美龄卖给一位大亨

慈禧嘴里那颗8亿的夜明珠,下落已经查明:被宋美龄卖给一位大亨

谈史论天地
2026-01-26 12:30:03
闫学晶送祝福光速复活,网友炸锅:这哪是拜年,是赤裸裸的挑衅!

闫学晶送祝福光速复活,网友炸锅:这哪是拜年,是赤裸裸的挑衅!

好贤观史记
2026-01-27 09:39:55
汪小菲接俩娃回北京,玥儿长高超像大S,打雪仗时一个动作好暖心

汪小菲接俩娃回北京,玥儿长高超像大S,打雪仗时一个动作好暖心

乐悠悠娱乐
2026-01-26 15:20:29
独家|40倍杠杆断裂!水贝一黄金预定价平台兑付困难,投资者称涉资超百亿

独家|40倍杠杆断裂!水贝一黄金预定价平台兑付困难,投资者称涉资超百亿

第一财经资讯
2026-01-28 10:28:11
唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

星辰故事屋
2026-01-23 12:14:47
男子在路上看见陌生阿姨穿着印有寓意“死亡”字母的衣服便善意提醒,男子:“我们的父母可能也不认识英文”

男子在路上看见陌生阿姨穿着印有寓意“死亡”字母的衣服便善意提醒,男子:“我们的父母可能也不认识英文”

观威海
2026-01-27 17:18:20
美智库:仁爱礁坐滩26年破军舰26年或解体!菲在舰上已扩建船中村

美智库:仁爱礁坐滩26年破军舰26年或解体!菲在舰上已扩建船中村

书纪文谭
2026-01-28 13:34:08
人一过60,永远不要在熟人面前,说以下几句话,谁说谁后悔,切记

人一过60,永远不要在熟人面前,说以下几句话,谁说谁后悔,切记

枫红染山径
2026-01-02 14:59:55
传闻:霍老爷子生前将南沙财富独留长孙霍启刚,二房三房束手无策

传闻:霍老爷子生前将南沙财富独留长孙霍启刚,二房三房束手无策

卡西莫多的故事
2026-01-26 10:32:26
大爆冷!国乒女单2:3不敌印度,资格赛再次输球,国乒15人参赛

大爆冷!国乒女单2:3不敌印度,资格赛再次输球,国乒15人参赛

国乒二三事
2026-01-28 06:44:55
美媒纷纷为杨瀚森点赞:赛季最佳一战 比朱哥还出色 适应NBA节奏

美媒纷纷为杨瀚森点赞:赛季最佳一战 比朱哥还出色 适应NBA节奏

颜小白的篮球梦
2026-01-28 18:55:59
刘强东回农村发钱,出手太阔绰

刘强东回农村发钱,出手太阔绰

电商派Pro
2026-01-27 17:37:55
2026-01-28 20:04:49
甲子光年
甲子光年
中国科技产业化前沿智库
3325文章数 9256关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

知名企业家熊海涛被留置 被指与成都主要领导违纪有关

头条要闻

知名企业家熊海涛被留置 被指与成都主要领导违纪有关

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

数码
亲子
教育
时尚
健康

数码要闻

疯了!DDR4暴涨1845%,DDR5涨465%,装机党彻底哭了

亲子要闻

宝蓝和爸爸叔叔准备了很多玩具,一起去捉昆虫,太有趣了~

教育要闻

高二上学期,期中英语80多,有没有人现身说法自己如何逆袭?

流行了100年的CP?大衣+阔腿裤,不过时的高级

耳石症分类型,症状大不同

无障碍浏览 进入关怀版