
作者 | Tina、褚杏娟
2025 年,是双十一的第 17 个年头。
从外部看,这依旧是一场年度消费盛典;对阿里工程师而言,它不只是购物节,更是一次全链路的年度考试。
10 月,双 11 刚拉开序幕,阿里就为这次大促定下了新的基调:“这是第一个淘宝闪购全面参与的双十一,也是第一个 AI 全面落地的双十一。”这一句定调,也标志着阿里底层技术体系已经从“全面上云”迈向了“全面 AI 化”的阶段。
1 变量之一:闪购合并,两大 App 打通
今年双十一的最大变量之一,来自闪购业务的合并。
这是淘宝历史上第一次将“闪购”与主站彻底融合——原本独立的“淘宝闪购”App 与主淘宝端完成打通:即买即达、即时零售,外卖、奶茶、住宿、机票、服饰等商品都统一出现在淘宝的同一入口里。
在这次整合中,包括详情页,以及商品库存系统,都在淘宝 App 上再重新做一遍,完成原生化整合,这对底层技术栈带来了新的挑战。
新的“闪购”以分钟级交付著称,对网络容量、链路调度、数据库一致性天然要求更严。当它首次融入淘宝主站,与飞猪、菜鸟等业务在同一架构上协同,整个系统的规模和复杂度被推到了极限。因此,表面看是业务整合,技术上几乎等同一次“系统重启”:过去各业务架构相对独立、互访有限;合并后,所有服务需在统一网络空间内完成调用与数据交互。
阿里云双 11 基础设施技术负责人吴明见证了历年技术演进:2013 年首次参与双 11 时,团队还在为支付峰值手动扩容;2019 年阿里全面上云,核心交易链路迁入云平台;到 2022 年,淘系支付、物流、交易链路实现 100% 上云,系统稳定性上了新台阶。去年,阿里云启用了超 100 万核弹性算力,同时成本节省超 25%。
“但今年不一样。”吴明说,“这是第一次在全栈 AI 架构下跑完一场双 11。闪购的加入让业务边界被彻底打通,底座也必须被重新定义。”
这种“重新定义”很快在 8 月的一次巡检中具象为危机:虚拟专有网络服务 VPC 容量逼近 200 万上限。
VPC 是云上的虚拟局域网,每个网元对应一台逻辑主机。
当围绕淘宝闪购业务,饿了么、飞猪、菜鸟等业务模块深度融入,节点激增、互访增多,同时,因为闪购的订单量飞速增长,对云基础设施 VPC 内的转发网关(XGW)承载量急剧上升,容量告急。这几乎已经触及业界已知的最大生产级 VPC 规模上限,成为系统中的瓶颈。吴明形容:“就像春节高速公路突然多了几万辆车,所有数据流都要从一个口子过,随时可能拥塞。”
一开始大家觉得这个问题还是比较棘手。
吴明补充说:“算力的问题都好解决,某种程度上来说就是加机器就行。但网络是毛细血管,所有算力的通信、互访、调用都要经过它。一旦它不通,整个系统都会‘堵车’。”
按常规做法,这种问题应通过“VPC 拆分”解决——将淘宝、高德、阿里国际等业务迁入各自独立的 VPC,降低单 VPC 压力。但距离双十一仅剩两个月,业务快速推进的情况下做这种大的调整不太现实,太晚了。
组建攻坚小组后,团队迅速把命题从“要不要拆”转为“在不拆的前提下如何扩容”。最终从软件角度,提出了“云网关级联方案”:在不影响现有业务的前提下,基于软硬协同技术,通过在网关层扩展多级流表、打通超大 VPC 的逻辑互联,使网络容量实现横向扩张。
结果是在双十一前成功缓解了“撞墙”风险:整体容量提升约 30%,顺利越过 200 万阈值,完成了对生产级 VPC 规模上限的再定义。
2 变量之二:AI 全面落地,灵骏万卡集群的大规模检验
如果说“闪购并入”考验的是通算体系的极限,那么“AI 全面落地”则标志着智算体系第一次大规模承担阿里内部多个 AI 应用的推理任务。
此前,阿里搜推智能事业部总裁凯夫解释了 AI 应用的三个核心场景:消费者导购、商家经营、推荐广告。例如,淘宝将大模型与传统搜索推荐模型融合,构建 Hybrid 技术架构,以“合适的技术解决合适的问题”——针对不同类型的用户搜索词,系统会自动调用最匹配的模型进行处理。至此,AI 不再仅是单点试验,而是成为贯穿业务链路的默认能力。
阿里云为此构建了一种双算力体系:“通算”+“智算”。通算以 CPU 为核心,承载电商、物流、外卖等传统工作负载;智算以 GPU 为核心,为推荐、广告、搜索、客服、BI 分析和跨境翻译提供推理支持。
闪购、饿了么、飞猪这些业务整合后,主要是通算算力会随着业务规模增大,需求也会增多。而基于 Qwen 模型的应用,如生意管家、店小蜜、AI 搜索、出海翻译等,主要运行在智算集群上。
智算体系的核心是灵骏万卡集群。这次也是万卡集群第一次受到“双十一”的检验。
在架构层面,它依托阿里云高性能 HPN 网络和高性能存储 CPFS,通过“多级亲和性 + 拓扑感知调度”,将任务按业务关联和物理拓扑进行最优分布。
亲和性调度确保需要协同的任务能在同机部署,反亲和性机制防止单点故障;拓扑感知让系统理解数据中心的物理布局——机柜、交换机、楼宇、可用区(AZ)——从而缩短卡间通信路径、提升带宽利用率。
面向 Agent 类应用“生命周期长、算力需求突发”的特征,灵骏还支持 PD 分离(Profiling / Decode 分离):把计算密集与显存带宽敏感的阶段拆开运行,显著提升推理效率和 GPU 利用率。
基于资源池化和统一调度,双 11 期间灵骏以多租形态为淘系动态供给智算资源;峰值过后,算力池快速回收并对外开放,实现跨业务场景的算力复用与资源效率的统一。
对阿里云而言,“考”的不只是 GPU 利用率,还有 GPU 卡时在线率——这是业内衡量算力服务成熟度的关键指标:一方面要把硬件故障对业务的影响降到最低,另一方面也要避免因调度不当导致显卡空闲。为此,阿里云搭建了 AI 可观测体系,能按卡型监测运行状态、区分硬件 / 软件问题,并支持单卡隔离、整机不停,把在线率尽可能维持在高位。
“从底层云基础设施,到大模型以及模型服务。”阿里云团队总结道,“今年双十一,正是这套全栈 AI 技术能力在淘宝电商场景的首次全面探索与落地。”
![]()
3 第十七年,系统已经很稳定了
今年阿里双十一在技术方向上,最显著的两个变化在于:一方面是闪购等业务整合带来的规模扩张,另一方面则是云基础设施底座完成了重构,实现了从单纯能力堆叠到系统性红利释放的关键跨越。
这也是阿里的第十七个双十一。尽管底层发生了这些变化,对技术团队而言,双十一已不再是一场需要“严防死守”的硬仗。早期“救火式”的应急响应已成为历史,取而代之的是一套流程标准、体系成熟的运行机制。
“我们这套机制已经非常成熟,用了很多年,”吴明表示。全面上云后,资源池与调度层实现统一,即便业务流量激增,也只需在统一池子内完成调度,“靠技术调度,而不是搬机器”。
虽然系统架构趋于稳健,但阿里依旧保持严格的战备节奏。传统环节——全链路压测、技术指挥部、风险月报等——仍被完整保留。今年由于大促节奏前移(从 11 月 1 日提前至 10 月 20 日),备战同步提早两周。9 月底,来自云、淘天、爱橙等核心技术体系的专家便已集结,担任各领域“技术大队长”,统一进入“联合作战”模式,覆盖压测、验收到峰值补测等全流程。
“从 2019 年至今,我们已经连续六年实现 零 P1 / P2 故障。”吴明介绍,今年的目标同样明确:保障业务丝般顺滑无卡顿、零 P1/P2 无故障、全链路压测一次性通过稳定运行。
在他看来,稳定性工程不是临时性任务,“就像修堤坝,不是等洪水来了才修。”全年大家会进行日常巡检,以月报形式持续跟踪潜在风险,并根据风险等级判断是否要升级汇报。今年 8 月识别出的 VPC 容量隐患,正是通过这套机制在双十一前化解。
指挥部的新成员:通义队长
在成熟的技术保障体系中,今年出现了一个新变化——指挥部里多了一位“通义队长”。
“往年没有大模型的时候,这个队长角色是不存在的。今年我们新设了通义队长,专门负责拉通大模型领域的技术协同。”
在今年的双十一技术指挥部中,通义团队与指挥部其他成员一起,确保大模型在灵骏万卡集群上高效、稳定运行。
这一协作并非为双十一临时组建,从上半年就开始针对新一代模型的推理性能、稳定性和调度效率做持续优化;进入双十一阶段,流量放大后,工作重心转向算力供给是否充足、万卡集群能否按时交付并稳定承载。
从职责划分上看,通义负责基模型的质量与迭代,云基础设施负责算力调度与系统稳定,而业务方则基于模型进行应用层创新。
“这是一个典型的三层系统工程。”技术团队成员解释道,“基模层由通义保障质量;平台层负责让模型‘跑得快、跑得稳’;而应用层,比如广告、商家经营、推荐系统等,会利用这些能力做后训练和场景化优化。”
这种全栈协同的结果,是Qwen 系列模型首次在双十一中大规模实战落地。
在出海业务中,通义 Qwen-MT 等模型系统支持了亿级商品的图片、评价、商品详情等翻译任务,单日调用量超 14 亿次;在商家经营场景,淘宝基于 Qwen3 等多款模型打造和升级了生意管家、店小蜜等应用,大幅提升商家的分析、决策和客服效率。
展望未来,技术团队预期 AI 在双十一中的应用将更加深入。“今年 AI 应用的落地只是刚刚开始,未来 AI 将在电商各领域无处不在,”技术负责人表示。这种深度渗透将推动算力需求持续增长,特别是推理算力。基础设施团队面临的挑战,是在保障算力供给的同时,与通义等团队协同实现低成本、高效率的规模化服务。
在这条演进线上,“扛流量洪峰”已不再是最大的技术挑战。技术团队的关注点正从单一的峰值应对,转向“创造全新体验,这势必给业务带来巨大的想象空间。”
声明:本文为 InfoQ 原创,不代表平台观点,未经许可禁止转载。
2025 技术年度盘点,由你来决定!
2025 年的科技浪潮令人应接不暇。技术变化密集、层级交叠,让人眼花缭乱。临近年终,为了把有限的篇幅用在大家最关心的领域,我们今年希望借助投票的方式,选出数个关键领域进行趋势盘点。大家可以勾选出你最想看到的 3 个方向(可多选)。
除此之外,你还想看哪个方向的盘点? 有什么现象或争议点你希望我们“深扒”一下?哪些趋势你觉得太迷,需要专家带你看懂?对于年终盘点,大家有任何想法,都非常欢迎在评论区留言告诉我们!
InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!
后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.