网易首页 > 网易号 > 正文 申请入驻

曦望联席CEO王勇:启望S3研发完成,年中流片年底回片量产

0
分享至



雷递网 乐天 1月28日

专注于推理 GPU 的曦望(Sunrise)昨日发布新一代推理 GPU 芯片启望S3,并披露其围绕推理场景构建的算力产品体系及共建推理云生态计划。这也是曦望在近一年累计完成约30亿元战略融资后的首次集中公开亮相。



曦望联席CEO王勇在发布会上表示,AI行业正在进入以应用落地为核心的下半场,推理逐步超越训练,成为主要算力消耗场景。相比训练阶段的一次性高投入,推理更强调长期交付能力、单位成本和系统稳定性,这也正在改变GPU的竞争逻辑。

据王勇透露,启望S3芯片内部研发基本已经完成,将于今年年中流片年底回片量产,启望S3会是一款2026年上市的极具性价比,具有十倍以上性价比提升的推理型GPU。

“按照量产一代发布一代预研一代的节奏。未来两年,我们还会推出高性能启望S4推理GPU以及安全可控启望S5-GPU芯片。”

以下是曦望联席CEO王勇演讲实录:



王勇:我觉得曦望这家公司特别让我感触很深,因为我们在商汤孕育了几年之后,又脱胎换骨成为曦望。

今天我在这里给大家带来我们启望S3以及相关产品,这将是开启推理GPU里程碑式的产品。

大家都知道大模型已经进入了下半场,就像刚才冰总讲的,最初的时候,大模型从ChatGPT的llama开始。随着去年DeepSeek,尤其是DeepSeek满血版带来特别惊艳表现的开源大模型以来,那大模型在各类垂域场景应用非常广泛。过去一年推理的token增长了100倍,也就是说,在云端,在边缘侧,在端侧,推理的业务大大超过了训练。我们曦望认为推理超越信任现在成为案例的核心驱动力。

随着最近AI agent以及飞利浦AI这一系列热门应用进一步普及。我们曦望看到,推理token仍然会以几十倍的速度去往前成长。随着这个成长,我们认为曦望 All In推理这件事儿就变得特别正确。行业在过去一年,大多数的用于推理的芯片仍然是训推一体的,那么训推一体的芯片,它面临的几个大的困境。首先芯片的成本高昂,供应不稳定。第二,使用成本也高,能耗和算力比不经济,最后它的适配和运维投入非常大。

对于曦望来说,针对这些行业的痛点,我们提出了自己前瞻性进行了布局,战略性地选择了专注于研发推理GPU。过去几年在集团孵化的过程中,我们的产品都是从真实的场景需求出发,依托对AI行业的深度洞察,在不断地满足极致的需求的过程中迭代出来的。

我们说曦望是一家更懂AI也更懂芯片的公司。我们有一群平均超过15年行业经验的芯片老兵,同时还有一群天才的大模型架构师和研究员组成。我们能够更加准确地切中行业的痛点,为行业提供曦望的解决方案。

我们拥有全栈资源的GPGU架构,覆盖从自研的指令集到GPGUIP到SOC到硬件系统。经过过去S1、S2从研发到产品的打磨,以及S3研发的打磨,显示出我们的研发团队有极强的芯片研发能力和架构迭代能力。因为更懂AI,所以贴近用户需求,我们更早提出了用大容量的DDR来替代HBM, 用高性价比的大模型推理芯片来替代训推一体芯片的概念。在战略上率先all in推理GPU市场。

接下来,我来介绍一下我们的产品路线图。从2018年开始,我们就开始着力研发第一代S1推理芯片。在2020年量产取得了上万片的场景落地。

从2020年开始,我们着力打造了启望S2高性能的GPGU架构芯片。这款芯片我们对标了当时行业最头部的GPU企业最有竞争力的产品,自定义的指令集,自研的GPGPU架构和相应的IP,这款芯片在2021年流片,在2023年取得了非常好的产品化的路径。最终在之江实验室的送测上也取得了非常好的国内一线的性能指标。尤其在去年,DeepSeek满血版的适配,显示这款芯片的技能居于国内头部的地位。

今天我们要发布的是依托我们all in推理的理念,做了一款极致性价比的GPU芯片——启望S3。这款芯片目前内部研发基本已经完成,将于今年年中流片年底回片量产,启望S3会是一款2026年上市的极具性价比,具有十倍以上性价比提升的推理型GPU。



按照量产一代发布一代预研一代的节奏。未来两年,我们还会推出高性能启望S4推理GPU以及安全可控启望S5-GPU芯片。

回望来时的路,我觉得希望走到这一步非常不容易。我个人也感同身受,从启望S1开始,我们就跟行业的算法应用一起迭代。我们拥有成熟的GPU架构,同时IP也授权给索尼和小米,分别用在索尼的AI摄像头以及小米手机上。启望S2我们对标了国际巨头当时最先进的GPU, 我们历经三年的研发和量产流程,在各种大模型的适配上性能表现优异。尤其是我们在DeepSeek满血版的适配上,达到了国际巨头80%的推理性能,在国内处于第一梯队。

在性能强悍的同时,我们在软件站上也做到了95%的扩大兼容,基本上可以做到客户的推理业务无缝迁移。在过去的一年,启望S1和S2在客户那里做到了一些业务落地和产品化的一些结果。我们拒绝做跑分党,不希望用benchmark来定义芯片,而是希望能够做到帮客户赚钱的算力。

我们有很多典型的客户,这里举几个例子,比如商汤,我们跟商汤一起适配了商汤全系列小浣熊模型,依托一体机落地行业客户取得了非常好的效果。我们跟中国电子下的长城集团一起打造了国产CPU+GPU的国产信创一体机。在很多行业客户那里取得了非常好的反馈。

同时,我们跟范式星凡星起,以及玄武智能一起拓展更多的GPU垂直应用。筑牢自主可控的推理算力,让我们在能耗降低的同时实现性价比的提升。



在过去两代芯片落地的过程中,我们对行业痛点非常清楚。所以我们提了一个问题,推理性价比还能再提高十倍吗?今天希望给出了自己的答案,就是启望S3。

启望S3依托我们打造的极致性价比的理念,针对大模型做了极致的性能优化,我们取得了十倍以上的推理性价比的提升。在这一代产品上,我们力争在整个生命周期里形成百亿级的收入。

最后,曦望能够引领中国的GPU企业进入百万Token1分钱时代。我们是怎么做到这一点的呢?一个是性能跃迁。从FP16到FP8、FP6、FP4等低精度算力非常丰富的低精度算力的支持。第二个,单芯片的第一步推理性能提升了五倍。同时我们也做到全场景适配。

因为启望S3是一个中等规模的芯片,用最先进的工艺。所以我们可以在云智算边缘服务器以及端侧设备上全面布局和适配。



我们可以看到启望S3是在研,同时支持IP8,IP4,包括NVIP4、FFXIP4等低精度算力的非常有竞争力的一款产品。那么,右边的这个表格,是一个每单位算力的价格。我们可以看到,在我们极致性价比的设计理念下,我们的单卡可以做到24万元,可以对标高一个数量级的友商的相应的卡。

随着S3芯片和卡的产业化、产品化落地,我们希望这个产品是一个革命性的颠覆性的产品。那么,想做到这些极致性价比,十倍以上的性价比提升,我们需要做大量的有关工作。我们重新定义了推理GPU,按照冰总所讲,有几个特别显著的研发的特点。

第一个,我们追求极致的PPA, 在架构上我们扬弃了所有训练相关的比较重贵的一些技术组件,采用了比较新的针对推理极致优化的一些架构和技术组件。在IP上我们follow up了最新的GPU IP的架构,把友商一些架构的特点都吸收进了这一代的GPGPUIP里,包括一些wordup, 包括一些tensor memory这些技术特点。

同时在工艺上,我们采用目前合规最先进的国际工艺节点,在第三方IP上,我们也选用了国际巨头最先进的高速接口这些IP,在显存上,我们认为是启望S3特别大的一个特点。因为HBM跟高级封装强相关,就会推高训推一体芯片的成本。所以我们做了非常多的架构的研究,发现LPDDR6才是当前推理的最优解。LPDDR6这个IP相较于LPDDR5差有一倍以上的带宽提升,但是容量上却起到极大的提升效果。显存的容量导致我们启望S3显存容量比上一代训推一体芯片提升四倍以上。所以我们也是国内首发挂的LPDDR6的GPGPU推理芯片。

这边除了算力和访存之外,我们也研究了大模型的本身特点,发现大模型有一个黄金的算力仿真比,在启望S3上,我们也遵循这一原则,在算力配比和访存容量和带宽之间,我们取得了非常好的平衡。达到了sweet point, 不浪费一分的算力和带宽。

我们的架构可以建得优秀呢,这里有一个仿真的结果,可以看到,在flash attention算子的计算效率上,我们的仿真结果显示,我们的tensor code和code code利用率高达98%。在germany算子的tensor code利用率高达99%,是目前国内最好的利用率。如果大家关注友商的产品发布,也会看到这个指标,就可以看到我们曦望的研发和架构能力是遥遥领先。除了曦望S3之外,今天我还要给大家带来我们的超级链产品依托曦望S3的超级链产品,寰望SC3-256超节点,这是一款专门针对大模型推理打造的超节点产品,它也追求极致的性价比。

我们可以看到,寰望超级点产品非常好地支持PD分离和大EP部署,可以支持千亿万亿参数的多模态MOE的单域256卡一级互联全液冷,极致的PUE可以实现模块化交付。在大EP部署的情况下,它的吞吐率相比于非大EP部署可以提高20到25倍。也就是说,在这种部署的情况下,我们就可以取得非常好地推理的效果。

同时,因为我们是一跳支持256卡,所以我们通信延迟可以从两个纽秒做到200纳秒,也是有十倍的降低。因为启望S3单芯片,单卡的成本非常低,依托256卡打造的环网超节点,是可以在千万元级别对标优商们一元的产品。所以全面地扩展替代同一个性能量级下,成本可以下降一个数量级。

除此之外,我们也在卡间互联上做了比较多的工作,支持了高带宽、低延时的scarf 、scout互联架构,这种原生支持的互联架构可以让我们的互联不仅是超节点,不仅是256卡,也可以向下覆盖。这取决于我们的客户的需求,可以做到16到256卡这样的超节点产品。同时,当我们把多个超节点通过我们直出的RDMA连接起来的时候,我们可以做到千卡甚至几千卡的互联集群。

这里是S3的产品矩阵,满足各种客户的需求,除了刚才我讲的启望S3芯片以及超节点产品之外,我们还有智望系列的PCIE和OUM卡,还有辰望系列的PCIE的服务器以及OM的服务器。这边是我们根据我们的超节点产品打造了寰望计算集群,以及我们的曦望系列。就是现在AIPC或者说AI液冷工作站,大家可以在我们前面的展台上看到相关的产品和样机。

除了硬件软件之外,我们曦望也打造了软硬协同加速大模型的推理计算。我们希望的软件有几个部分构成,包含基础软件体系、模型能力体系和曦望与合作伙伴联合开发的MAAS平台模型,应用行业解决方案。



我们曦望的全栈自研的软件体系可以全面对齐CUDA,兼容CUDA,并且支持代码的无缝迁移。

具体我们来看一下,在技术软件上,我们凭借兼容CUDA底层驱动,runtime以及开发的编译器、工具链,以及极致优化的算子和通讯能力,能够提供快速迁移的GPU应用和极致的高能效调优体验。我们在底层的CUDA运行时全面兼容。同时我们支持了多种的编译器,包括SG lung、twitter、tell long等编程语言,在调试器profile上也要做到简单易用。

最后,我们通过集合通信,通过一些支持长尾算子和极致优化的计算密集算子,以及PD分离等大模型推理通讯支持,做到了非常好地支持大模型的PD分离,大EP部署等应用。

在面对专家并行的推理和PD分离等,可以实现大模型推理的软硬化协同。这里列了一些我们已经采用在我们的软件上的一些技术点。根据这些技术点,我们可以在单卡成本降低一个数量级的情况下,接近国际主流芯片的推理性能。这里列出我们的prefer吞吐可以做到单卡4000 token每秒,decode存储可以做到Token一千多每秒。

同时在过去的一年,我们曦望公司也做了非常多的大模型的适配,适配了ModelScope 90%以上的大模型,其中包含咱们商汤的日日新模型,DeepSeek的最新版的模型千问2.5、千问3以及one 2.1、2.2,腾讯混元等模型,适配了国内外百余种大模型。有力地支持了我们的业务落地和商业化的进展。

不止于此,我们后面还要开启推理即服务的新模式。

雷递由媒体人雷建平创办,若转载请写明来源。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深夜,全线大涨!芯片,重大利好!涨价!涨价!

深夜,全线大涨!芯片,重大利好!涨价!涨价!

证券时报
2026-01-28 00:31:02
性行为竟能抗癌?华科大研究让人震惊!

性行为竟能抗癌?华科大研究让人震惊!

特约前排观众
2026-01-28 00:20:03
莫拉塔:如果尼科-帕斯再留一年,下赛季我就不拿薪水

莫拉塔:如果尼科-帕斯再留一年,下赛季我就不拿薪水

懂球帝
2026-01-28 07:22:10
光通信迎435亿元天价订单,A股概念股大涨,可川科技涨停

光通信迎435亿元天价订单,A股概念股大涨,可川科技涨停

21世纪经济报道
2026-01-28 21:22:45
央视紧急曝光!这三类毒蔬菜全国流通,买菜切记避开三样!

央视紧急曝光!这三类毒蔬菜全国流通,买菜切记避开三样!

青梅侃史啊
2026-01-28 22:44:19
人类史上首次“返老还童”人体临床试验获美国FDA批准!

人类史上首次“返老还童”人体临床试验获美国FDA批准!

徐德文科学频道
2026-01-28 21:16:22
2025全球车企销量TOP10

2025全球车企销量TOP10

大象新闻
2026-01-26 11:01:05
德国赛:斯佳辉三连鞭绝杀吉尔伯特,中国小将进16强将战世界第一

德国赛:斯佳辉三连鞭绝杀吉尔伯特,中国小将进16强将战世界第一

世界体坛观察家
2026-01-29 01:30:41
NBA总冠军逐渐清晰,雷霆渐行渐远,以下三支球队希望最大

NBA总冠军逐渐清晰,雷霆渐行渐远,以下三支球队希望最大

时光流转追梦人
2026-01-29 01:48:45
外媒:韩国国脚吴贤揆将以1000万镑的价格加盟贝西克塔斯

外媒:韩国国脚吴贤揆将以1000万镑的价格加盟贝西克塔斯

懂球帝
2026-01-28 16:10:18
两岸和统或不接受解放军驻军?郭正亮:一国两制可改一国两“治”

两岸和统或不接受解放军驻军?郭正亮:一国两制可改一国两“治”

兴史兴谈
2026-01-28 02:03:44
惊掉下巴!这 11 位曼联旧将居然还在踢球?39 岁传奇退役又复出

惊掉下巴!这 11 位曼联旧将居然还在踢球?39 岁传奇退役又复出

澜归序
2026-01-28 06:30:06
中国1胜2负!又见147,张安达5-2淘汰4冠王,世界第4爆冷止步32强

中国1胜2负!又见147,张安达5-2淘汰4冠王,世界第4爆冷止步32强

球场没跑道
2026-01-28 20:32:37
特朗普重兵包围伊朗,普京通告全球:敢动就出手!中方也有所动作

特朗普重兵包围伊朗,普京通告全球:敢动就出手!中方也有所动作

阿钊是个小小评论员
2026-01-29 02:41:19
日本选举黑马胜出,新首相对华态度成最大看点

日本选举黑马胜出,新首相对华态度成最大看点

史鹷的生活科普
2026-01-28 21:11:26
加州先跳,“加拿大进口中国电车,一整个期待住了”

加州先跳,“加拿大进口中国电车,一整个期待住了”

观察者网
2026-01-28 11:39:16
发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

LULU生活家
2026-01-11 17:53:51
流量褪去后肥娟夫妇再也赚不到钱,已经想去外面打工了

流量褪去后肥娟夫妇再也赚不到钱,已经想去外面打工了

映射生活的身影
2026-01-28 16:01:59
闪电战!皇马或压哨签约1.25亿“顶星”!两大“废柴”遭放逐

闪电战!皇马或压哨签约1.25亿“顶星”!两大“废柴”遭放逐

头狼追球
2026-01-28 11:22:04
我妈给我500万,我买了一套房,男友大发雷霆:那是我妹的救命钱

我妈给我500万,我买了一套房,男友大发雷霆:那是我妹的救命钱

纸鸢奇谭
2026-01-26 16:59:59
2026-01-29 04:52:49
雷递 incentive-icons
雷递
关注互联网大产业
25554文章数 72948关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

艺术
数码
健康
亲子
军事航空

艺术要闻

沙特醒悟,“全球最大单体建筑”停止施工!

数码要闻

荣耀平板新春版本今启推送,升级计划公布

耳石症分类型,症状大不同

亲子要闻

3个娃吃79元火锅,父亲心疼惹怒网友:你的任务是赶紧结扎!

军事要闻

伊朗竖起巨幅宣传画:一艘美军航母被炸

无障碍浏览 进入关怀版