网易首页 > 网易号 > 正文 申请入驻

国内推理 GPU 独角兽曦望再获超 10 亿元融资,重构 AI 推理

0
分享至

4月20日,国内全栈自研AI推理GPU企业曦望(Sunrise)宣布完成新一轮超10亿元人民币融资。这是2026年AI产业全面迈入“推理落地、智能体普及”时代后,国内GPU赛道诞生的最大单笔融资之一。至此,分拆独立仅一年多的曦望已累计完成七轮融资,总融资额约40亿元,成为国内首家估值超百亿的纯推理GPU独角兽。

本轮融资资金将主要用于新一代S3推理GPU的规模化量产交付、全栈软件生态建设,以及S4/S5后续芯片的研发迭代。



智能体元年,推理算力成最大产业瓶颈

2026年被行业公认为“AI智能体元年”。随着大模型从“会聊天”进化为“会思考、会执行”的数字员工,推理需求迎来爆发式增长。英伟达GTC 2026大会正式宣告AI产业全面迈入“推理落地、智能体普及”的新时代,将“每瓦Token吞吐量”定义为AI时代的核心竞争力。这与曦望自创立之初就锁定的核心战场高度契合。

“AI 算力基建的重心已彻底切换。”曦望董事长徐冰表示,“2026 年 AI 推理计算需求将达到训练需求的 4-5 倍,推理算力租赁价格半年涨幅近 40%。”

不同于行业主流的"训推一体"路线,曦望从成立第一天起就坚定All-in推理赛道,以用户真实的Token成本、单位能耗和服务稳定性为芯片设计核心。目前公司已推进三代推理GPU迭代、数万颗GPU量产落地,实现了从芯片研发、产品量产到解决方案交付的完整闭环,并保持“芯片均实现一次性流片成功、流片后性能符合设计预期”的行业一流标准。

启望S3:为Agentic AI重构的推理原生架构

2026年1月,曦望正式发布新一代旗舰产品启望S3推理GPU。这是国内首款搭载LPDDR6且兼容LPDDR5X内存的推理GPU,它没有盲目照搬高端训练GPU的HBM显存路线,而是基于Agent推理的本质需求,从AI Core计算架构到内存IO系统进行了全链路重构。

以OpenClaw为代表的智能体推理,“感知—规划—执行—反馈”高频循环,带来了对KV-cache密集访问的全新计算负载。而通用GPU面向训练优化,推理实际算力利用率往往远低于峰值——推理侧的效率瓶颈已不再是“算力不够”,而是“算力用不满”。

这正是S3所押注的结构性机会:放弃训练能力,专为大模型推理做原生深度定制。通过裁剪训练态所需的模块,将节省出的晶体管与功耗预算集中投向推理,让单位面积有效算力效率提升5倍以上。

计算层:专为推理而生的AI Core架构升级

S3通过计算层的深度定制,解决了通用GPU“算力用不满”的核心痛点,推理性能较上一代S2提升5倍,目标实现Token成本下降90%。

1.逼近物理极限的算子利用率

大语言模型推理中,GEMM与Attention算子占总计算量的90%以上,但受限于通用架构的设计约束,这两项核心算子的实际利用率通常远低于理论峰值。S3将这GEMM和Flash Attention两项核心算子的利用率分别推至约99%与98%,标称算力几乎都转化为有效吞吐,同样硬件投入可服务更多并发请求。

2.Agent原生的指令集与微架构

采用128-bit指令集+支持3D指令,指令密度领先传统SIMT架构;独立线程调度精准匹配智能体复杂控制流,消除条件跳转带来的流水线代价;通过Block cluster和Broadcast等技术实现片上数据复用,减少对外带宽依赖,大幅提升Agent多轮推理效率。

3.FP4全链路低精度,吞吐3-4倍跃升

原生支持FP16至FP4全链路低精度运算,在DeepSeek V3/R1等主流模型上实现接近无损的FP4推理,吞吐量较FP16提升3-4倍,直接转化为客户侧的毛利空间和价格弹性。



系统层:三大接口技术破解智能体核心瓶颈

S3创新性地集成了三大先进高速接口技术,从内存和IO两个推理时代最核心的瓶颈入手,解决了智能体三大核心瓶颈。

1.LPDDR6内存接口技术,解决智能体的“显存生死线”问题

大模型推理的一个核心特征是,在高并发、长上下文的主流云端推理场景中,KV Cache 的显存占比可超过 80%,且随并发用户数线性增长。S3 采用的 LPDDR6 方案,在提供足够推理带宽的同时,将显存容量上限大幅提高,且功耗降低50%,匹配推理场景“大容量、高性价比、低功耗”的核心需求。同时,LPDDR6 与 LPDDR5x 兼容的设计,让 S3 可以推出不同显存规格的产品版本,覆盖从边缘到云端的各类推理场景,无需重新设计芯片。

2.高速SerDes+SUE融合互联技术,解决智能体的“多模型协同瓶颈”

曦望践行“软件定义互联”的设计思路,对推理场景下的互联架构进行了深度优化。从超节点协议、片上互联、片间互联、交换设备、高速通信软件栈协同设计,实现TCO 与性能兼顾的推理互联系统。

Agent 时代的到来,对推理集群的互联性能提出了前所未有的要求——一个 Agent 请求会触发数十次推理调用,涉及多模型协同与海量 KV Cache 流转,如果互联带宽不足、协议割裂、延迟太高,整个系统的性能会出现超线性下降,集群规模越大,性能损失越严重。

S3 创新性地在片上原生融合了 Scale-Up 超节点与 Scale-Out 的双模互联底座。在超节点通信域,S3 搭载基于以太网的超节点互联引擎,支持 load/store 内存语义与 UVA 统一编址,任意两卡间一跳直达,为 AllReduce/AlltoAll 等集合通信提供硬件级加速;S3 选择基于以太网的超节点方案,具备双重优势:既可利旧复用标准以太网交换机节省组网成本,又可无缝接入支持超低延迟能力的增强型交换机,将端到端延迟压缩至百纳秒级,性能逼近专有互联协议。基于超节点和DeepEP实现的MoE超大模型推理系统,可以很大程度掩盖LPDDR相较于HBM的带宽劣势。另外,S3 在片上集成了 RDMA 通信引擎,专为 PD 分离架构下的超长上下文 KV Cache 传输进行优化,实现跨节点 KV Cache 的零拷贝、高吞吐传输,突破分离式架构的内存墙瓶颈。在组网上 S3 支持 32/64/128/256 弹性扩展能力,为不同算力密度的推理场景提供灵活选择。

3.PCIe Gen6接口技术,解决智能体的“资源碎片化”问题

云原生推理时代,超长上下文已成为大模型标配能力,千亿参数模型在处理数万 Token 序列时,单请求 KV Cache 占用可达数百 GB 甚至 TB 级,传统 PCIe 带宽瓶颈成为制约 KV Cache 高效管理的沉重枷锁。S3 搭载的 PCIe Gen6 接口,带宽较 Gen5 翻倍,可同时满载多路高速网卡与 NVMe 存储集群,满足云原生推理的高并发数据吞吐需求;通过 PCIe Gen6的高带宽让CPU DRAM 真正成为 S3 显存的扩展池。可构建起显存-DRAM-NVMe 三层异构 KV Cache 架构:热数据驻留显存保证低延迟的访问,温数据通过 PCIe Gen6 扩展至 CPU DRAM实现容量倍增,冷数据则下沉至 NVMe SSD 持久化存储,解决智能体的资源碎片化问题。

“推理原生”带来普惠算力基础设施

从产业周期看,训练侧格局已相对固化,而推理侧正随Agentic AI放量进入指数级增长通道——多家机构预测,未来五年推理算力市场规模将超越训练侧数倍,其中Agent类负载将贡献最主要的增量。

曦望S3同时具备三个难以共存的要素:推理原生的架构前瞻性、实现98–99%算子利用率的顶尖工程能力、以及完整的生态适配能力。

“S3不是简单的性能升级,而是一次对AI推理成本曲线的重构。”徐冰表示,“我们的目标是将推理成本降至‘百万Token一分钱’,让AI像水电一样成为普惠基础设施。”

资本助力推理赛道进入加速期

本轮融资由多家产业方战投、地方国资及头部财务机构共同参与。

杭州资本表示:“本次投资是杭州资本紧扣杭州‘296X’先进制造业集群建设战略、深耕人工智能万亿级产业赛道的重要布局。曦望‘All-in 推理’的战略选择具备行业前瞻性,其在技术创新和产品商业化方面的能力,是我们决定投资的重要原因。作为长期资本,我们更看重企业在关键技术方向上的持续投入与落地能力。”

普华资本表示,“曦望是国内少数真正理解推理场景、并能提供全栈自主可控解决方案的企业。我们看好公司'不做训推一体跟随者,只做推理赛道领跑者'的战略选择。”

聚集顶尖人才,打造中国AI工业化算力底座

曦望团队规模已增长至400人,研发人员占比超80%,汇聚了来自英伟达、AMD、华为海思等国内外顶尖芯片企业的核心人才,硕士及以上学历占比超80%。团队融合了芯片设计、高性能计算、AI 算法、软硬产品的跨行业人才。

2026年,曦望将围绕“落地、兑现、增长”核心原则,全力推进S3芯片量产交付,完成与国内外主流大模型、多模态模型和Agent框架的全面适配。同时,公司已完成S4高性能推理GPU和S5安全可控推理GPU的技术路线规划,持续加码近存计算、光电共封等前沿技术探索。

未来,曦望将继续坚守“让AI推理便宜、稳定、随处可用”的核心目标,为中国AI发展铸造坚实的算力底座。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
票房会破14亿!今年口碑第一的电影,出现了

票房会破14亿!今年口碑第一的电影,出现了

皮皮电影
2026-05-18 09:31:30
杨梅暴跌商家哭诉!一天亏30万没人买,将身份证贴杨梅上也没用

杨梅暴跌商家哭诉!一天亏30万没人买,将身份证贴杨梅上也没用

智慧生活笔记
2026-05-21 00:56:56
王传福的临门一脚,把李斌送上了神坛!

王传福的临门一脚,把李斌送上了神坛!

少数派报告Report
2026-05-18 13:35:19
笑麻了,那些外行人看来很蠢的设计,实际上却精妙无比!

笑麻了,那些外行人看来很蠢的设计,实际上却精妙无比!

另子维爱读史
2026-05-16 10:36:47
中超13轮积分榜:已无不败球队,前5不变,申花第8,2队未上双

中超13轮积分榜:已无不败球队,前5不变,申花第8,2队未上双

中超伪球迷
2026-05-20 22:08:09
湖人球迷怒了:詹姆斯可能加盟快船?概率20%

湖人球迷怒了:詹姆斯可能加盟快船?概率20%

坠入温柔晚风
2026-05-21 01:32:00
中国不再隐藏实力了,准备要给全世界上一课

中国不再隐藏实力了,准备要给全世界上一课

贱议你读史
2026-05-21 00:07:31
巨婴!孙杨采访中途突然打断主持人说到饭点了,直接拿手机点起外卖

巨婴!孙杨采访中途突然打断主持人说到饭点了,直接拿手机点起外卖

818体育
2026-05-19 17:52:24
西安一理想汽车开双闪在路口掉头车道停车超10分钟致后方拥堵,目击者:“车内无人”,交警回应:车主因违停已被传唤处罚并写下保证书

西安一理想汽车开双闪在路口掉头车道停车超10分钟致后方拥堵,目击者:“车内无人”,交警回应:车主因违停已被传唤处罚并写下保证书

大风新闻
2026-05-20 12:05:02
12个小时15项活动!普京圆满结束访华,满意离去!

12个小时15项活动!普京圆满结束访华,满意离去!

阿龙聊军事
2026-05-21 06:07:15
喜马拉雅出现狼狗杂交种:既不怕人又会猎杀

喜马拉雅出现狼狗杂交种:既不怕人又会猎杀

字节漫游指南
2026-05-18 05:09:27
蔡卓妍含泪控诉新婚丈夫出轨多人:大量私密细节曝出,知情者发声

蔡卓妍含泪控诉新婚丈夫出轨多人:大量私密细节曝出,知情者发声

老猫观点
2026-05-19 10:48:03
斯卢茨基:这可能是我执教生涯最难的阶段,今天七人无法登场

斯卢茨基:这可能是我执教生涯最难的阶段,今天七人无法登场

懂球帝
2026-05-20 22:54:28
加速高血脂恶化的行为:米饭排第5,第1名很多人都没意识到

加速高血脂恶化的行为:米饭排第5,第1名很多人都没意识到

岐黄传人孙大夫
2026-05-19 22:30:03
U17国足杀入亚洲杯决赛跟日本会师!核心将解决复出,值得期待

U17国足杀入亚洲杯决赛跟日本会师!核心将解决复出,值得期待

懂个球
2026-05-20 23:54:53
“幸运”张帅再进一步 时隔6年再进斯特拉斯堡站8强

“幸运”张帅再进一步 时隔6年再进斯特拉斯堡站8强

体坛周报
2026-05-20 23:12:39
人活多久,看喝酒就知道?寿命短的人,喝酒一般有这6个特征

人活多久,看喝酒就知道?寿命短的人,喝酒一般有这6个特征

芹姐说生活
2026-05-14 23:38:55
厉害了!美国会:美国空军在与伊朗冲突中已损失42架飞机和无人机

厉害了!美国会:美国空军在与伊朗冲突中已损失42架飞机和无人机

止戈军是我
2026-05-20 12:47:19
泰国放弃购买世界杯版权!国际足联要价3.5亿远低于中国 仍嫌太贵

泰国放弃购买世界杯版权!国际足联要价3.5亿远低于中国 仍嫌太贵

念洲
2026-05-20 10:15:50
海南一儿童吃手撕肉干碎渣掉地上,蚂蚁群啃食后短时间内集体死亡,“零食配料中有亚硝酸钠对蚂蚁来说超量”

海南一儿童吃手撕肉干碎渣掉地上,蚂蚁群啃食后短时间内集体死亡,“零食配料中有亚硝酸钠对蚂蚁来说超量”

大象新闻
2026-05-20 20:46:05
2026-05-21 06:44:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
146400文章数 2653632关注度
往期回顾 全部

财经要闻

白酒榜|汾酒营收净利双增 口子窖"造富"

头条要闻

被普京抱过的中国男孩火了 本人最新发声

头条要闻

被普京抱过的中国男孩火了 本人最新发声

体育要闻

尼克斯赢下最窒息的一场翻盘,场场都是逆天局

娱乐要闻

王菲“没事儿”,成年人学不来的松弛

科技要闻

一文看懂谷歌I/O2026:谷歌打响智能体大战

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

手机
房产
游戏
亲子
公开课

手机要闻

荣耀WIN Turbo突然定档:确认无内置风扇,5月29日发布

房产要闻

别被中介带了节奏,你的房子可能比你想的值钱

猎魂世界:bug修复后的贝贝就值得抽了?依然不太推荐的原因是啥

亲子要闻

孩子零食肉干掉地上蚂蚁吃完全死了!家长慌了:天天给娃吃的啊!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版