曦望董事长徐冰：All in推理，誓将百万Token成本降至一分钱|gpu|token

曦望董事长徐冰：All in推理，誓将百万Token成本降至一分钱

2026-01-28 16:07:04　来源: 网易科技报道

北京举报

分享至

“我用一句话来介绍曦望，我们是一家更懂AI的GPU芯片公司，而且是国内第一家all in推理的GPU芯片公司。曦望的使命只有一个，就是把大模型推理这件事做到极致。我们要让AI推理真正变得便宜稳定，而且到处可用。”

1月27日，在首届Sunrise GPU Summit上，曦望（Sunrise）董事长徐冰用一句话，精准定义了这家脱胎于商汤科技大芯片部门的企业。据悉，这也是曦望在近一年累计完成约30亿元战略融资后的首次集中公开亮相。

据了解，曦望目前拥有三百多人的团队。负责研发的联席CEO王勇，是前AMD、昆仑芯核心架构师，拥有20年芯片研发经验。加入商汤后，他带领百人团队主导了两代芯片的研发与量产，均实现一次性成功点亮；

负责商业化的联席CEO王湛，则是百度创始团队成员及原集团副总裁，曾掌舵百度搜索8000人团队。他于2025年初加入曦望，将重点打造更有战斗力的组织文化，推动产品化与商业化落地。

徐冰在演讲中直指当下AI产业的核心痛点——成本与落地。他引用德勤报告数据指出，到2026年，推理算力占比将高达66%，且推理成本已占AI应用总成本的70%。“AI行业正从‘被训出来’走向‘被用起来’的实战阶段。”徐冰认为，谁能掌握高效、可控、可持续的推理基础设施，谁就能主导AI的落地速度。

针对市面主流的A100、H100等“训推一体”GPU，徐冰进行了犀利剖析。他指出，通用计算思路为了兼顾训练需求，往往依赖昂贵的HBM并追求峰值算力。然而，在低延迟、小Batch的推理场景中，这类芯片的算力利用率往往仅有5%到10%。

对此，曦望选择了一条“反共识”的技术路线：彻底抛弃为训练预留的冗余设计，不盲目追求纸面TFLOPS数据，而是将“单Token成本、能耗及SLA稳定性”作为架构设计的根本出发点。

这种底层架构的重构，支撑了曦望最具冲击力的商业目标——“百万Token一分钱”。徐冰表示，曦望S3芯片的发布不只是产品的迭代，更是要将行业成本基准压低一个数量级，“真正重写中国AI产业的损益表”。

现场，徐冰还透露，2025年曦望芯片交付量已突破万片。在商业模式上，徐冰强调曦望不会止步于“卖芯片”，而是围绕“芯片+系统+生态”进行全方位布局：首先，提供标准化的一体化服务器及集群方案，帮助客户快速搭建集群，少走弯路；其次，与商汤、第四范式等AI巨头及各类算力厂商深度合作，定位为现有算力系统的“推理分流层”与“成本优化层”，通过打造推理加速专区，保障服务长期稳定。

“总结下来，曦望只做三件事：让算力更便宜，让部署更简单，让生态更开放。”徐冰表示。（袁宁）

本文来自网易科技报道，更多资讯和深度内容，关注我们。