刚刚！国内首款：GPU新王诞生！10倍性价比！|推理|gpu|amd

刚刚！国内首款：GPU新王诞生！10倍性价比！

2026-01-28 21:59:13　来源: 芯榜

广东举报

分享至

性价比之王！

国内首款LPDDR6：推理GPU启望S3发布！
曦望GPU路线图公布：“百万 token 一分钱”！

1月27日，杭州GPU创企曦望举办发布会，披露三年产品路线图，发布启望S3推理GPU芯片、寰望SC3超节点方案及推理云计划。

S3芯片作为国内首款LPDDR6显存GPGPU，推理性价比提升10倍以上，单位token成本降90%。发布会同步启动“百万Token一分钱”合作，联动多家伙伴布局生态，彰显其深耕推理赛道、重构AI算力成本的决心。

一、启望S3芯片，以极致设计重塑推理性价比

2026年1月27日，曦望在杭州披露三年产品路线图，发布专为大模型推理定制的启望S3芯片。徐冰指出，为追求极致性价比，曦望“抛弃了传统训推一体GPU为训练准备的冗余设计，不追求峰值TFLOPS这种纸面数据，把真实业务场景中每个token的成本、能耗以及SLA稳定性作为所有设计决策的根本出发点”，并强调这三大指标“直接决定了最终的业务毛利率，直接影响了终端客户群体的用户体验”。

启望S3有三大核心亮点：一是极致PPA，摒弃训练冗余组件，采用推理优化架构及先进第三方高速接口IP；二是采用合规先进国际工艺节点；三是作为国内首款LPDDR6显存GPGPU芯片，带宽较LPDDR5提升1倍以上，显存容量较上一代提升4倍，经论证为当前推理最优解。

曦望精准把控大模型黄金算力访存比，避免资源浪费，芯片支持FP16至FP4多精度切换，适配MoE及长上下文模型需求。据王勇分享，启望S3“取得了10倍以上的推理性价比提升”，单芯片性能较前代提升5倍，单位token成本下降约90%，力争生命周期内实现百亿级收入，将于今年上市。

二、系统方案：寰望SC3超节点，构建高效推理基础设施

同步发布的寰望SC3超节点方案，聚焦千亿级以上参数多模态MoE推理需求，支持单域256卡一级互联，适配PD分离、大EP部署，提升系统利用率与稳定性，可应对长上下文、多并发等复杂场景。

该方案采用全液冷设计，PUE表现优异，支持模块化快速交付。王勇介绍，大EP部署下吞吐率提升20~25倍，“在同等推理能力量级下，该方案可将整体系统交付成本从行业常见的亿元级降低至千万元级，实现1个数量级的下降”。通过RDMA连接，可扩展为千卡级集群，满足大规模部署需求。

软件层面，其自研体系覆盖驱动、算子库等全链路，95%兼容CUDA，降低迁移门槛，已适配DeepSeek、通义千问等百余种大模型，兼容ModelScope平台90%以上主流模型形态。

三、生态布局：推理云计划，迈向“百万token一分钱”目标

曦望以“芯片+系统+生态”布局，启动推理云计划，与商汤、范式共建“百万Token一分钱”合作，联动杭钢数字等平台落地浙江、辐射全国，同时与三一、协鑫等十余家伙伴签约，将推理能力嵌入制造、能源等多场景。

联席CEO王湛表示，新一代AI原生智算平台为核心支撑，具备四大优势：软硬件深度协同，自研内核与通信库，量化压缩技术实现250%+性能提升且精度损失极小；资源弹性调度，通过GPU池化等技术按需供给；开箱即用，集成模型市场与工具；稳定可靠，具备高可用及智能运维能力。

基于该平台，曦望以“推理即服务”升级商业模式，构建“芯片+云基建”双轮驱动，通过GPU池化整合算力，以MaaS为入口，为客户提供零门槛一体化服务，成为“百万Token一分钱”合作的技术核心。

王勇补充，“百万token一分钱”目标将在S3至S5迭代中逐步达成。据炜烨智算测算，目前曦望每百万token价格约0.57元，远低于行业7~14元水平。未来将以“token as a service”为核心，提供多元服务，输出高性价比绿色算力。

四、产品路线图：三代迭代规划，完善全链路产品矩阵

曦望遵循“量产一代、发布一代、预研一代”节奏，明确三年路线：2026年推启望S3，2027年发布S4高性能芯片，2028年推出S5安全可控芯片，以每年一迭代巩固赛道优势，迈向极致推理成本目标。

围绕启望S3，曦望构建了覆盖计算卡、服务器、AI集群、终端设备的全链路产品矩阵，形成完整生态，为各行业提供一体化推理方案，强化“更懂AI的推理GPU厂商”定位，助力降低国内AI推理成本。

五、企业根基：脱胎商汤，汇聚顶尖力量深耕推理赛道

曦望成立于2020年5月，前身为商汤科技大芯片部门，是国内首家All in推理的GPU芯片公司。董事长徐冰明确表示：“我们是一家更懂AI的GPU芯片公司，而且是国内第一家All in推理的GPU芯片公司。” 其使命是“把大模型推理做到极致，要让AI推理真正变得便宜稳定，而且随处可用”。

公司核心团队超300人，多来自英伟达、AMD、昆仑芯等头部企业，核心骨干平均拥有15年行业经验，采用“双引擎”架构：研发端联席CEO王勇，曾任AMD、昆仑芯核心架构师，拥有20年芯片研发经验，2020年加入商汤后带领团队实现两代芯片一次性研发量产成功；商业化端联席CEO王湛，为百度创始团队成员、前集团副总裁，曾执掌百度搜索8000人团队，2025年初加入，负责产品化、商业化及组织文化建设。

过去8年，曦望累计研发投入20亿元，坚持GPU每年一迭代，成功量产启望S1、S2。2025年，其推理GPU交付量突破1万片，斩获多个头部订单，收入大增；同年完成约30亿元战略融资，股东涵盖商汤、三一、杭州数据集团等龙头及多家国资、顶尖风投。王勇强调：“我们拒绝做跑分党，不希望用benchmark来定义芯片，而是希望能够做到帮客户赚钱的算力。”

曦望拥有全栈GPGPU架构，率先提出用大容量DDR替代HBM、以高性价比推理芯片替代训推一体芯片的理念。启望S1于2018年研发、2020年量产，IP已授权索尼、小米，应用于AI摄像头及手机；启望S2对标国际旗舰，2021年流片、2023年产品化，在DeepSeek满血版适配中达国际巨头80%推理性能，稳居国内第一梯队。软件栈实现95%CUDA兼容，已适配商汤全系列小浣熊模型，与长城集团打造国产信创一体机，拓展多元垂直应用。

—— 深科技 ——

深科技是聚焦人工智能与机器人领域的新兴专业科技媒体，凭借敏锐行业洞察力深耕技术创新与产业落地。业务覆盖前沿动态报道、核心技术解析及应用场景深度分析，重点聚焦人形机器人、AI 算力等热点赛道。以兼具深度与时效性的内容矩阵为核心，为行业从业者、投资者提供精准资讯与专业洞察，助力用户快速把握行业趋势与技术风口，是 AI 与机器人领域极具潜力的新兴信息服务平台。

1、

2、

3、

4、

5、

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.