“我用一句话来介绍曦望,我们是一家更懂AI的GPU芯片公司,而且是国内第一家all in推理的GPU芯片公司。曦望的使命只有一个,就是把大模型推理这件事做到极致。我们要让AI推理真正变得便宜稳定,而且到处可用。”
1月27日,在首届Sunrise GPU Summit上,曦望(Sunrise)董事长徐冰用一句话,精准定义了这家脱胎于商汤科技大芯片部门的企业。据悉,这也是曦望在近一年累计完成约30亿元战略融资后的首次集中公开亮相。
![]()
据了解,曦望目前拥有三百多人的团队。负责研发的联席CEO王勇,是前AMD、昆仑芯核心架构师,拥有20年芯片研发经验。加入商汤后,他带领百人团队主导了两代芯片的研发与量产,均实现一次性成功点亮;
负责商业化的联席CEO王湛,则是百度创始团队成员及原集团副总裁,曾掌舵百度搜索8000人团队。他于2025年初加入曦望,将重点打造更有战斗力的组织文化,推动产品化与商业化落地。
![]()
徐冰在演讲中直指当下AI产业的核心痛点——成本与落地。他引用德勤报告数据指出,到2026年,推理算力占比将高达66%,且推理成本已占AI应用总成本的70%。“AI行业正从‘被训出来’走向‘被用起来’的实战阶段。”徐冰认为,谁能掌握高效、可控、可持续的推理基础设施,谁就能主导AI的落地速度。
针对市面主流的A100、H100等“训推一体”GPU,徐冰进行了犀利剖析。他指出,通用计算思路为了兼顾训练需求,往往依赖昂贵的HBM并追求峰值算力。然而,在低延迟、小Batch的推理场景中,这类芯片的算力利用率往往仅有5%到10%。
![]()
对此,曦望选择了一条“反共识”的技术路线:彻底抛弃为训练预留的冗余设计,不盲目追求纸面TFLOPS数据,而是将“单Token成本、能耗及SLA稳定性”作为架构设计的根本出发点。
这种底层架构的重构,支撑了曦望最具冲击力的商业目标——“百万Token一分钱”。徐冰表示,曦望S3芯片的发布不只是产品的迭代,更是要将行业成本基准压低一个数量级,“真正重写中国AI产业的损益表”。
现场,徐冰还透露,2025年曦望芯片交付量已突破万片。在商业模式上,徐冰强调曦望不会止步于“卖芯片”,而是围绕“芯片+系统+生态”进行全方位布局:首先,提供标准化的一体化服务器及集群方案,帮助客户快速搭建集群,少走弯路;其次,与商汤、第四范式等AI巨头及各类算力厂商深度合作,定位为现有算力系统的“推理分流层”与“成本优化层”,通过打造推理加速专区,保障服务长期稳定。
“总结下来,曦望只做三件事:让算力更便宜,让部署更简单,让生态更开放。”徐冰表示。(袁宁)
本文来自网易科技报道,更多资讯和深度内容,关注我们。
