
![]()
“真武亮相只是起点,「通云哥」协同质变才是核心。”
作者丨刘伊伦
编辑丨包永刚
“在当前的AI竞赛中,不论是多模态还是基模厂商,一旦选定深耕赛道,其必然会走的道路便是设计极致适配自身业务的芯片底座。”芯片专家方志讲到。
站在通用芯片厂商的视角,GPU的设计初衷,是为适配多元业务场景。全面兼容的代价,是大量冗余的逻辑单元与高度复杂的通用硬件架构。
为“泛用性”做出的架构取舍,使得通用化设计面临天然妥协:计算阵列无法为特定AI任务做深度定制与极致调优,多芯片组网存在显著的互联通信开销,每一项都直接影响整体效率。
对于效率的“不满足”,让云厂商开始自研芯片,摆脱英伟达的统治。
凭借场景与研发的闭环优势,云厂商通过真实业务负载与模型运行数据,反向定义芯片设计,将AI高频算子与核心计算逻辑直接固化为硬件电路,用硬件执行取代高级语言代码,从根源上砍掉冗余开销,实现效率最大化。
TPU和Gemini是海外实践样版,PPU和Qwen则是国产标杆方案。1月29日,平头哥半导体公布PPU真身,“真武810E”高端AI芯片正式亮相。
雷峰网了解到,平头哥早在2020年便秘密启动了“真武810E”的研发,并于2022年底、2023年初,完成了研发和场景验证,在此期间,其研发和验证几乎始终处在“只对内部开放”的状态。
随着真武810E正式亮相,阿里全栈自研的双重闭环浮出水面。平头哥实现了芯片从计算到存储的覆盖:从镇岳510 SSD、倚天710 CPU到真武810E,底层算力芯片全面自研;而平头哥、阿里云、通义实验室的紧密耦合,形成“通云哥”黄金三角,抢占行业领先身位。
但双重闭环只是起点,协同质变才是核心。
芯片、云平台与模型如何产生“1+1+1>3”的协同效应?从底层硬件到上层应用的全栈自研体系,又将如何重构阿里的资本市场估值逻辑?
01
真武810E,懂AI云的芯片
“芯片厂商的业务,云厂商都有能力覆盖;而云厂商却能够依托自身海量业务场景,率先发现系统痛点并给出解决方案,因此在架构创新上,头部云厂商将始终走在行业前列。”云行业专家张峰分析到。
当下,MaaS 已然成为云厂商角逐的核心战场,采用 “From cloud to chip”(从云到芯) 思路搭建自研算力基座,成为行业主流选择。云厂商从自身业务场景出发定义芯片,让最终解决方案天生具备大规模组网、集群调度、云上原生适配的先天优势。
真武810E的大内存以及高速互联,都展现了阿里自研芯片的优势,其配备的96GB HBM2e高带宽内存,可承载千亿参数大模型训推与长序列任务,3D堆叠设计更让功耗、散热表现良好,实现高频稳定运行。
700GB/s片间互联基于自研ICN链路与7个独立ICN端口,集群加速比高、多卡扩展灵活,带宽超越A800,配合平头哥自研互联加速库,实现多卡协同工作,从而高效支撑模型训推需求。
多卡互联作为大模型时代高性能芯片的刚需,真武810E的PCIe 5.0×16接口带来单向63GB/s、双向128GB/s带宽,是PCIe 4.0的2倍,能够完美适配大模型海量数据吞吐,降低主卡间数据传输瓶颈。
功耗也日益成为高性能芯片绕不过的难题,真武810E的400W低功耗可实现更密集机柜部署,提高能效比,降低了数据中心运营成本与PUE,并通过冷板式液冷实现稳定控温。
从核心参数来看,真武810E的综合性能达到国际领先水平。据媒体报道,真武 PPU 累计出货量已达数十万片,超过寒武纪,在国产 GPU 厂商中属于第一梯队。
这种领先优势,是“From cloud to chip” 路线的直接体现。依托芯片与业务场景的协同设计,真武810E从架构层面就与阿里生态深度绑定,规避了芯片与云平台跨架构适配带来的指令翻译额外性能损耗,让算力在最低损耗下释放,成为“最懂”AI云的芯片。
雷峰网了解到,当前推理算力需求已占据AI应用企业70%的成本权重,在推理需求爆发的场景之下,算力好用的另一个重要体现是具备足够的性价比。
真武810E通过搭载超大带宽、高容量HBM2e内存,打破内存墙的限制,解决大模型推理场景下的内存瓶颈与带宽压力,让大规模、高性价比的商业化推理业务进程加速。
完善的编译器与算子优化能力,支持从底层硬件到上层大模型的全链路调优。开发者可针对实际业务场景,实现精细化算子适配与调度优化,进一步放大算力的效率优势。
综合以上强大性能,真武810E此次亮相,阿里“芯片、云平台、模型”AI全栈自研生态的最新版图呈现在所有人眼前。这套闭环体系所构筑的技术壁垒与商业价值,也让阿里在全球 AI 算力竞争中的生态位优势愈发清晰。
02
业务架构「双闭环」,
“co-design”让阿里占据领先身位
“阿里正用极其清晰的战略规划,让具备强耦合特性的架构闭环集中爆发,飞轮效应正式奏效。”一位行业人士点评道。
真武810E的公开,让平头哥“存储-计算”芯片闭环与阿里全栈AI生态闭环正式显现。
平头哥,构建了“镇岳510 SSD主控芯片+倚天710 CPU+真武810E”的协同闭环,打造了性能领先的国产自研算力体系。
全栈自研方案的首要价值在于实现供应链安全自主。以缓存场景为例,随着Intel傲腾(Optane)逐步停产,市场面临核心缓存介质供应断档的难题。而依托平头哥自研芯片组合,搭配PSLC NAND闪存,可实现傲腾产品的国产化平替,用通用NAND闪存替代专属新型存储介质,应对供应风险与安全隐患。
另一项红利,是硬件深度协同优势。
自研CPU可根据业务需求,灵活选用RISC‑V、ARMv9等合适指令集,甚至采用自主架构;GPU、SSD主控的通信协议、数据通路与缓存策略,均可与CPU进行统一设计与深度适配。一方面能够缩短CPU与GPU间的PCIe传输延迟,优化异构算力调度效率,另一方面可让SSD主控逻辑直接匹配CPU内存控制器与IO调度策略,降低读写放大,显著提升4K随机读写性能。
在阿里全景架构下,则实现了“平头哥+阿里云+千问模型”黄金三角的闭环。
“以DeepSeek推出大型MoE模型为例,其本质便是在云端集群场景下实现了极致的模型与硬件的co-design,以此最大化释放算力性能,而阿里的全栈自研将是更‘激进’的原生适配方案。”推理框架优化专家张涛解析到。
黄金三角闭环直接带来的是阿里原生的紧耦合协同架构,这与过去一段时间英伟达+甲骨文+OpenAI的组合引领生AI发展的方式不同,跨企业的协同会带来效率的损失,阿里则是和近来引发广泛关注的谷歌一样,在企业内部实现了三个环节的深度耦合。
底层算力层面,平头哥在保证自研芯片高兼容性、广场景覆盖需求的前提下,团队可紧密贴合阿里云智算集群的网络拓扑、虚拟化架构与调度策略,开展芯片架构、IO通路、功耗控制等层面的定制化协同优化。
雷峰网了解到,真武810E已经在阿里云实现多个万卡集群部署,这意味着阿里云为平头哥系列芯片产品的规模化部署提供了领先一步的验证平台,能更高效地指导芯片产品的迭代与协同。
对通义大模型团队而言,在自研芯片与阿里云的双重加持下,千问模型的训推效率实现了阶梯式提升,能为企业客户提供更稳定、更高效、更低TCO的云端推理服务。
其中,真武810E芯片针对Qwen3等主流MoE架构模型,完成了算子深度优化、张量并行调度、显存智能调度等专项适配,可高效支撑千亿乃至万亿参数大模型的分布式训练与高并发推理,充分满足千问系列在大规模计算场景下的性能需求。
对阿里云而言,在全球AI算力持续紧缺、算力成本高企、供应不稳定的行业背景下,自研芯片从供给侧实现核心硬件自主可控,并降低了算力基础设施的建设成本,还能为企业客户提供更差异化的算力和模型服务选择,进一步提升阿里云的市场竞争力。
据悉,真武GPU已成为出货量最高的国产GPU之一、千问在中国企业级大模型调用市场中位居第一、阿里云季度营收达398.24亿元,同比增长34%。
全景视角下,阿里已具备对标“英伟达+甲骨文+OpenAI”组合的生态化能力,在全球AI竞争中处于领先身位,这也重构了阿里的估值逻辑。
03
“通云哥”浮出水面,
「AI工厂」重构阿里估值逻辑
长期以来,资本市场对阿里的认知,一直被“电商平台”、“互联网巨头”等标签所固化。这种单一化的刻板印象,简化了对其价值的分析框架,也容易因忽视公司内部正在发生的深度业务变革,造成投资判断上的偏差。
一个不容忽视的事实是:当行业内多数企业还在探索AI布局路径时,阿里已凭借一系列前瞻性决策与精准卡位,完成全栈AI能力的构建,跻身全球顶级科技企业行列。
在全球科技巨头的共识中,成为“AI工厂”就意味着掌握AI时代的“水电煤”。但设想与现实,存在巨大的落地鸿沟,阿里生态的闭环,绝非一日之功。
2018年,当绝大多数企业还沉浸在互联网业务红利时,阿里便已开启了其面向AI的战略布局:当年4月,阿里出手全资收购中天微;9月,整合中天微与达摩院芯片团队,平头哥半导体应运而生,业务布局前瞻性全面领先于当前备受关注的国产GPU四小龙。
大规模的芯片研发投入之下,阿里云不是只顾短期收益,投入大量资金研发HPN 7.0智算集群网络架构,成为SIGCOMM历史上首个AI智算集群网络架构成果,支撑通义千问2.5版本中文性能成为世界顶尖模型。
2019 年,通义实验室正式启动大模型研发,阿里AI生态的“软件攻坚”帷幕正式拉开。2021年,全球首个十万亿级参数大模型M6成功落地,如今,通义实验室发布的千问大模型家族,已然跻身全球第一梯队开源模型。
技术的深度,并非困在“自嗨式”的研发闭环里。
资深芯片专家徐东向雷峰网讲述真武810E时,罕见地使用“好用”二字对一款国产芯片进行评价。
雷峰网了解到,真武810E重点拓展大型车企及金融行业。
这是基于行业顶层视角的战略研判。互联网赛道外,车企已成为云业务需求最旺盛的核心群体,绝大多数车企选择“上云”而非“建云”。
另一方面,车企对于AI训练的性能要求基本介于L20与H20之间的算力水平,而真武810E恰好精准匹配这一市场痛点,成为车企算力采购中的优选方案。
金融场景作为数据密集型行业,对算力的核心诉求在于“安全可控、低时延、高稳定”,同样是国产芯片厂商打造“标杆案例”的优选领域。
雷峰网获悉,广西某银行项目发布了数十台算力服务器的招标需求,基于产品性能及业务适配性,对投标的国产芯片厂商进行测试,多家头部国产芯片厂商投标,最终真武810E脱颖而出。
“这个案例没有任何水分,真武810E确实有很强的竞争力。”一位全程参与项目实施的业内人士直言。
依托完整的AI全栈技术体系,阿里相关解决方案已在多个行业实现规模化落地验证:服务小鹏汽车、国家电网、中科院、新浪微博等400余家行业标杆客户。
从底层芯片研发到顶层场景应用,阿里始终坚持长期主义,锚定技术可行、商业可用的核心方向做出关键决策。凭借硬核技术对标能力与规模化落地成效,其技术版图与商业价值已形成清晰佐证。
“重估阿里”不是口号,而是对其技术价值的“理性回归”。
注:文中方志、张峰、张涛、徐东皆为化名。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.