![]()
![]()
性价比之王!
国内首款LPDDR6:推理GPU启望S3发布!
曦望GPU路线图公布:“百万 token 一分钱”!
1月27日,杭州GPU创企曦望举办发布会,披露三年产品路线图,发布启望S3推理GPU芯片、寰望SC3超节点方案及推理云计划。
S3芯片作为国内首款LPDDR6显存GPGPU,推理性价比提升10倍以上,单位token成本降90%。发布会同步启动“百万Token一分钱”合作,联动多家伙伴布局生态,彰显其深耕推理赛道、重构AI算力成本的决心。
![]()
![]()
一、启望S3芯片,以极致设计重塑推理性价比
2026年1月27日,曦望在杭州披露三年产品路线图,发布专为大模型推理定制的启望S3芯片。徐冰指出,为追求极致性价比,曦望“抛弃了传统训推一体GPU为训练准备的冗余设计,不追求峰值TFLOPS这种纸面数据,把真实业务场景中每个token的成本、能耗以及SLA稳定性作为所有设计决策的根本出发点”,并强调这三大指标“直接决定了最终的业务毛利率,直接影响了终端客户群体的用户体验”。
![]()
启望S3有三大核心亮点:一是极致PPA,摒弃训练冗余组件,采用推理优化架构及先进第三方高速接口IP;二是采用合规先进国际工艺节点;三是作为国内首款LPDDR6显存GPGPU芯片,带宽较LPDDR5提升1倍以上,显存容量较上一代提升4倍,经论证为当前推理最优解。
曦望精准把控大模型黄金算力访存比,避免资源浪费,芯片支持FP16至FP4多精度切换,适配MoE及长上下文模型需求。据王勇分享,启望S3“取得了10倍以上的推理性价比提升”,单芯片性能较前代提升5倍,单位token成本下降约90%,力争生命周期内实现百亿级收入,将于今年上市。
![]()
二、系统方案:寰望SC3超节点,构建高效推理基础设施
同步发布的寰望SC3超节点方案,聚焦千亿级以上参数多模态MoE推理需求,支持单域256卡一级互联,适配PD分离、大EP部署,提升系统利用率与稳定性,可应对长上下文、多并发等复杂场景。
该方案采用全液冷设计,PUE表现优异,支持模块化快速交付。王勇介绍,大EP部署下吞吐率提升20~25倍,“在同等推理能力量级下,该方案可将整体系统交付成本从行业常见的亿元级降低至千万元级,实现1个数量级的下降”。通过RDMA连接,可扩展为千卡级集群,满足大规模部署需求。
![]()
软件层面,其自研体系覆盖驱动、算子库等全链路,95%兼容CUDA,降低迁移门槛,已适配DeepSeek、通义千问等百余种大模型,兼容ModelScope平台90%以上主流模型形态。
![]()
三、生态布局:推理云计划,迈向“百万token一分钱”目标
曦望以“芯片+系统+生态”布局,启动推理云计划,与商汤、范式共建“百万Token一分钱”合作,联动杭钢数字等平台落地浙江、辐射全国,同时与三一、协鑫等十余家伙伴签约,将推理能力嵌入制造、能源等多场景。
![]()
联席CEO王湛表示,新一代AI原生智算平台为核心支撑,具备四大优势:软硬件深度协同,自研内核与通信库,量化压缩技术实现250%+性能提升且精度损失极小;资源弹性调度,通过GPU池化等技术按需供给;开箱即用,集成模型市场与工具;稳定可靠,具备高可用及智能运维能力。
基于该平台,曦望以“推理即服务”升级商业模式,构建“芯片+云基建”双轮驱动,通过GPU池化整合算力,以MaaS为入口,为客户提供零门槛一体化服务,成为“百万Token一分钱”合作的技术核心。
王勇补充,“百万token一分钱”目标将在S3至S5迭代中逐步达成。据炜烨智算测算,目前曦望每百万token价格约0.57元,远低于行业7~14元水平。未来将以“token as a service”为核心,提供多元服务,输出高性价比绿色算力。
四、产品路线图:三代迭代规划,完善全链路产品矩阵
曦望遵循“量产一代、发布一代、预研一代”节奏,明确三年路线:2026年推启望S3,2027年发布S4高性能芯片,2028年推出S5安全可控芯片,以每年一迭代巩固赛道优势,迈向极致推理成本目标。
围绕启望S3,曦望构建了覆盖计算卡、服务器、AI集群、终端设备的全链路产品矩阵,形成完整生态,为各行业提供一体化推理方案,强化“更懂AI的推理GPU厂商”定位,助力降低国内AI推理成本。
![]()
五、企业根基:脱胎商汤,汇聚顶尖力量深耕推理赛道
曦望成立于2020年5月,前身为商汤科技大芯片部门,是国内首家All in推理的GPU芯片公司。董事长徐冰明确表示:“我们是一家更懂AI的GPU芯片公司,而且是国内第一家All in推理的GPU芯片公司。” 其使命是“把大模型推理做到极致,要让AI推理真正变得便宜稳定,而且随处可用”。
![]()
公司核心团队超300人,多来自英伟达、AMD、昆仑芯等头部企业,核心骨干平均拥有15年行业经验,采用“双引擎”架构:研发端联席CEO王勇,曾任AMD、昆仑芯核心架构师,拥有20年芯片研发经验,2020年加入商汤后带领团队实现两代芯片一次性研发量产成功;商业化端联席CEO王湛,为百度创始团队成员、前集团副总裁,曾执掌百度搜索8000人团队,2025年初加入,负责产品化、商业化及组织文化建设。
过去8年,曦望累计研发投入20亿元,坚持GPU每年一迭代,成功量产启望S1、S2。2025年,其推理GPU交付量突破1万片,斩获多个头部订单,收入大增;同年完成约30亿元战略融资,股东涵盖商汤、三一、杭州数据集团等龙头及多家国资、顶尖风投。王勇强调:“我们拒绝做跑分党,不希望用benchmark来定义芯片,而是希望能够做到帮客户赚钱的算力。”
曦望拥有全栈GPGPU架构,率先提出用大容量DDR替代HBM、以高性价比推理芯片替代训推一体芯片的理念。启望S1于2018年研发、2020年量产,IP已授权索尼、小米,应用于AI摄像头及手机;启望S2对标国际旗舰,2021年流片、2023年产品化,在DeepSeek满血版适配中达国际巨头80%推理性能,稳居国内第一梯队。软件栈实现95%CUDA兼容,已适配商汤全系列小浣熊模型,与长城集团打造国产信创一体机,拓展多元垂直应用。
—— 深科技 ——
深科技是聚焦人工智能与机器人领域的新兴专业科技媒体,凭借敏锐行业洞察力深耕技术创新与产业落地。业务覆盖前沿动态报道、核心技术解析及应用场景深度分析,重点聚焦人形机器人、AI 算力等热点赛道。以兼具深度与时效性的内容矩阵为核心,为行业从业者、投资者提供精准资讯与专业洞察,助力用户快速把握行业趋势与技术风口,是 AI 与机器人领域极具潜力的新兴信息服务平台。
1、
2、
3、
4、
5、
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.