网易首页 > 网易号 > 正文 申请入驻

全栈 AI 首考、闪购并入:阿里的第 17 个双十一故事

0
分享至


作者 | Tina、褚杏娟

2025 年,是双十一的第 17 个年头。

从外部看,这依旧是一场年度消费盛典;对阿里工程师而言,它不只是购物节,更是一次全链路的年度考试。

10 月,双 11 刚拉开序幕,阿里就为这次大促定下了新的基调:“这是第一个淘宝闪购全面参与的双十一,也是第一个 AI 全面落地的双十一。”这一句定调,也标志着阿里底层技术体系已经从“全面上云”迈向了“全面 AI 化”的阶段。

1 变量之一:闪购合并,两大 App 打通

今年双十一的最大变量之一,来自闪购业务的合并。

这是淘宝历史上第一次将“闪购”与主站彻底融合——原本独立的“淘宝闪购”App 与主淘宝端完成打通:即买即达、即时零售,外卖、奶茶、住宿、机票、服饰等商品都统一出现在淘宝的同一入口里。

在这次整合中,包括详情页,以及商品库存系统,都在淘宝 App 上再重新做一遍,完成原生化整合,这对底层技术栈带来了新的挑战。

新的“闪购”以分钟级交付著称,对网络容量、链路调度、数据库一致性天然要求更严。当它首次融入淘宝主站,与飞猪、菜鸟等业务在同一架构上协同,整个系统的规模和复杂度被推到了极限。因此,表面看是业务整合,技术上几乎等同一次“系统重启”:过去各业务架构相对独立、互访有限;合并后,所有服务需在统一网络空间内完成调用与数据交互。

阿里云双 11 基础设施技术负责人吴明见证了历年技术演进:2013 年首次参与双 11 时,团队还在为支付峰值手动扩容;2019 年阿里全面上云,核心交易链路迁入云平台;到 2022 年,淘系支付、物流、交易链路实现 100% 上云,系统稳定性上了新台阶。去年,阿里云启用了超 100 万核弹性算力,同时成本节省超 25%。

“但今年不一样。”吴明说,“这是第一次在全栈 AI 架构下跑完一场双 11。闪购的加入让业务边界被彻底打通,底座也必须被重新定义。”

这种“重新定义”很快在 8 月的一次巡检中具象为危机:虚拟专有网络服务 VPC 容量逼近 200 万上限。

VPC 是云上的虚拟局域网,每个网元对应一台逻辑主机。

当围绕淘宝闪购业务,饿了么、飞猪、菜鸟等业务模块深度融入,节点激增、互访增多,同时,因为闪购的订单量飞速增长,对云基础设施 VPC 内的转发网关(XGW)承载量急剧上升,容量告急。这几乎已经触及业界已知的最大生产级 VPC 规模上限,成为系统中的瓶颈。吴明形容:“就像春节高速公路突然多了几万辆车,所有数据流都要从一个口子过,随时可能拥塞。”

一开始大家觉得这个问题还是比较棘手。

吴明补充说:“算力的问题都好解决,某种程度上来说就是加机器就行。但网络是毛细血管,所有算力的通信、互访、调用都要经过它。一旦它不通,整个系统都会‘堵车’。”

按常规做法,这种问题应通过“VPC 拆分”解决——将淘宝、高德、阿里国际等业务迁入各自独立的 VPC,降低单 VPC 压力。但距离双十一仅剩两个月,业务快速推进的情况下做这种大的调整不太现实,太晚了。

组建攻坚小组后,团队迅速把命题从“要不要拆”转为“在不拆的前提下如何扩容”。最终从软件角度,提出了“云网关级联方案”:在不影响现有业务的前提下,基于软硬协同技术,通过在网关层扩展多级流表、打通超大 VPC 的逻辑互联,使网络容量实现横向扩张。

结果是在双十一前成功缓解了“撞墙”风险:整体容量提升约 30%,顺利越过 200 万阈值,完成了对生产级 VPC 规模上限的再定义。

2 变量之二:AI 全面落地,灵骏万卡集群的大规模检验

如果说“闪购并入”考验的是通算体系的极限,那么“AI 全面落地”则标志着智算体系第一次大规模承担阿里内部多个 AI 应用的推理任务。

此前,阿里搜推智能事业部总裁凯夫解释了 AI 应用的三个核心场景:消费者导购、商家经营、推荐广告。例如,淘宝将大模型与传统搜索推荐模型融合,构建 Hybrid 技术架构,以“合适的技术解决合适的问题”——针对不同类型的用户搜索词,系统会自动调用最匹配的模型进行处理。至此,AI 不再仅是单点试验,而是成为贯穿业务链路的默认能力。

阿里云为此构建了一种双算力体系:“通算”+“智算”。通算以 CPU 为核心,承载电商、物流、外卖等传统工作负载;智算以 GPU 为核心,为推荐、广告、搜索、客服、BI 分析和跨境翻译提供推理支持。

闪购、饿了么、飞猪这些业务整合后,主要是通算算力会随着业务规模增大,需求也会增多。而基于 Qwen 模型的应用,如生意管家、店小蜜、AI 搜索、出海翻译等,主要运行在智算集群上。

智算体系的核心是灵骏万卡集群。这次也是万卡集群第一次受到“双十一”的检验。

在架构层面,它依托阿里云高性能 HPN 网络和高性能存储 CPFS,通过“多级亲和性 + 拓扑感知调度”,将任务按业务关联和物理拓扑进行最优分布。

亲和性调度确保需要协同的任务能在同机部署,反亲和性机制防止单点故障;拓扑感知让系统理解数据中心的物理布局——机柜、交换机、楼宇、可用区(AZ)——从而缩短卡间通信路径、提升带宽利用率。

面向 Agent 类应用“生命周期长、算力需求突发”的特征,灵骏还支持 PD 分离(Profiling / Decode 分离):把计算密集与显存带宽敏感的阶段拆开运行,显著提升推理效率和 GPU 利用率。

基于资源池化和统一调度,双 11 期间灵骏以多租形态为淘系动态供给智算资源;峰值过后,算力池快速回收并对外开放,实现跨业务场景的算力复用与资源效率的统一。

对阿里云而言,“考”的不只是 GPU 利用率,还有 GPU 卡时在线率——这是业内衡量算力服务成熟度的关键指标:一方面要把硬件故障对业务的影响降到最低,另一方面也要避免因调度不当导致显卡空闲。为此,阿里云搭建了 AI 可观测体系,能按卡型监测运行状态、区分硬件 / 软件问题,并支持单卡隔离、整机不停,把在线率尽可能维持在高位。

“从底层云基础设施,到大模型以及模型服务。”阿里云团队总结道,“今年双十一,正是这套全栈 AI 技术能力在淘宝电商场景的首次全面探索与落地。”


3 第十七年,系统已经很稳定了

今年阿里双十一在技术方向上,最显著的两个变化在于:一方面是闪购等业务整合带来的规模扩张,另一方面则是云基础设施底座完成了重构,实现了从单纯能力堆叠到系统性红利释放的关键跨越。

这也是阿里的第十七个双十一。尽管底层发生了这些变化,对技术团队而言,双十一已不再是一场需要“严防死守”的硬仗。早期“救火式”的应急响应已成为历史,取而代之的是一套流程标准、体系成熟的运行机制。

“我们这套机制已经非常成熟,用了很多年,”吴明表示。全面上云后,资源池与调度层实现统一,即便业务流量激增,也只需在统一池子内完成调度,“靠技术调度,而不是搬机器”。

虽然系统架构趋于稳健,但阿里依旧保持严格的战备节奏。传统环节——全链路压测、技术指挥部、风险月报等——仍被完整保留。今年由于大促节奏前移(从 11 月 1 日提前至 10 月 20 日),备战同步提早两周。9 月底,来自云、淘天、爱橙等核心技术体系的专家便已集结,担任各领域“技术大队长”,统一进入“联合作战”模式,覆盖压测、验收到峰值补测等全流程。

“从 2019 年至今,我们已经连续六年实现 零 P1 / P2 故障。”吴明介绍,今年的目标同样明确:保障业务丝般顺滑无卡顿、零 P1/P2 无故障、全链路压测一次性通过稳定运行。

在他看来,稳定性工程不是临时性任务,“就像修堤坝,不是等洪水来了才修。”全年大家会进行日常巡检,以月报形式持续跟踪潜在风险,并根据风险等级判断是否要升级汇报。今年 8 月识别出的 VPC 容量隐患,正是通过这套机制在双十一前化解。

指挥部的新成员:通义队长

在成熟的技术保障体系中,今年出现了一个新变化——指挥部里多了一位“通义队长”。

“往年没有大模型的时候,这个队长角色是不存在的。今年我们新设了通义队长,专门负责拉通大模型领域的技术协同。”

在今年的双十一技术指挥部中,通义团队与指挥部其他成员一起,确保大模型在灵骏万卡集群上高效、稳定运行。

这一协作并非为双十一临时组建,从上半年就开始针对新一代模型的推理性能、稳定性和调度效率做持续优化;进入双十一阶段,流量放大后,工作重心转向算力供给是否充足、万卡集群能否按时交付并稳定承载。

从职责划分上看,通义负责基模型的质量与迭代,云基础设施负责算力调度与系统稳定,而业务方则基于模型进行应用层创新。

“这是一个典型的三层系统工程。”技术团队成员解释道,“基模层由通义保障质量;平台层负责让模型‘跑得快、跑得稳’;而应用层,比如广告、商家经营、推荐系统等,会利用这些能力做后训练和场景化优化。”

这种全栈协同的结果,是Qwen 系列模型首次在双十一中大规模实战落地

在出海业务中,通义 Qwen-MT 等模型系统支持了亿级商品的图片、评价、商品详情等翻译任务,单日调用量超 14 亿次;在商家经营场景,淘宝基于 Qwen3 等多款模型打造和升级了生意管家、店小蜜等应用,大幅提升商家的分析、决策和客服效率。

展望未来,技术团队预期 AI 在双十一中的应用将更加深入。“今年 AI 应用的落地只是刚刚开始,未来 AI 将在电商各领域无处不在,”技术负责人表示。这种深度渗透将推动算力需求持续增长,特别是推理算力。基础设施团队面临的挑战,是在保障算力供给的同时,与通义等团队协同实现低成本、高效率的规模化服务。

在这条演进线上,“扛流量洪峰”已不再是最大的技术挑战。技术团队的关注点正从单一的峰值应对,转向“创造全新体验,这势必给业务带来巨大的想象空间。”

声明:本文为 InfoQ 原创,不代表平台观点,未经许可禁止转载。

2025 技术年度盘点,由你来决定!

2025 年的科技浪潮令人应接不暇。技术变化密集、层级交叠,让人眼花缭乱。临近年终,为了把有限的篇幅用在大家最关心的领域,我们今年希望借助投票的方式,选出数个关键领域进行趋势盘点。大家可以勾选出你最想看到的 3 个方向(可多选)。

除此之外,你还想看哪个方向的盘点? 有什么现象或争议点你希望我们“深扒”一下?哪些趋势你觉得太迷,需要专家带你看懂?对于年终盘点,大家有任何想法,都非常欢迎在评论区留言告诉我们!

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅!“未来之城”青岛城市副中心规划终于出炉

重磅!“未来之城”青岛城市副中心规划终于出炉

冬天来旅游
2025-11-14 14:52:24
风向变了!大陆对台军改了称呼,岛内传来投降声,张亚中一语道破

风向变了!大陆对台军改了称呼,岛内传来投降声,张亚中一语道破

李博世财经
2025-11-14 10:29:32
国家统计局:受高关税影响,10月我国对美进出口下降,但对东盟、欧盟等进出口增速加快

国家统计局:受高关税影响,10月我国对美进出口下降,但对东盟、欧盟等进出口增速加快

红星新闻
2025-11-14 11:30:46
刘若英懵了!爷爷凭《沉默的荣耀》爆火,这波祖上荣光藏多少硬气

刘若英懵了!爷爷凭《沉默的荣耀》爆火,这波祖上荣光藏多少硬气

东方不败然多多
2025-11-03 11:42:09
中美两国局势反转?历时25年,美国终于突破中国“卡脖子”技术!

中美两国局势反转?历时25年,美国终于突破中国“卡脖子”技术!

霁寒飘雪
2025-11-14 19:51:30
邵佳一备胎?足协接触亚洲名帅,或加入国足教练组,谈判正在进行

邵佳一备胎?足协接触亚洲名帅,或加入国足教练组,谈判正在进行

国足风云
2025-11-14 09:04:25
你做过最疯狂的事是什么?网友:在公园亲了一小时

你做过最疯狂的事是什么?网友:在公园亲了一小时

解读热点事件
2025-10-11 00:20:03
高市早苗嚣张几天,中方还没出手,普京先摊牌:禁止日本公民入境

高市早苗嚣张几天,中方还没出手,普京先摊牌:禁止日本公民入境

通文知史
2025-11-13 21:20:03
俄军凌晨发动大规模夜袭,基辅响起剧烈爆炸声,袭击现场惨不忍睹

俄军凌晨发动大规模夜袭,基辅响起剧烈爆炸声,袭击现场惨不忍睹

林子说事
2025-11-15 05:45:54
王晓晨身材前凸后翘,大白兔饱满,笑容可爱,超级吸引人,超爱了

王晓晨身材前凸后翘,大白兔饱满,笑容可爱,超级吸引人,超爱了

手工制作阿歼
2025-11-15 02:04:49
A股:全体股民准备,主力已经摊牌,下周还将迎来暴风雨的洗礼?

A股:全体股民准备,主力已经摊牌,下周还将迎来暴风雨的洗礼?

云鹏叙事
2025-11-15 00:00:04
上海校花,172cm身段45kg,貌美如花,倾国倾城,这也太迷人了

上海校花,172cm身段45kg,貌美如花,倾国倾城,这也太迷人了

陈意小可爱
2025-11-10 10:09:52
婆婆当众说我是二手货,我笑着看向公公:你确定你儿子是你的吗?

婆婆当众说我是二手货,我笑着看向公公:你确定你儿子是你的吗?

张道陵秘话
2025-11-12 22:06:08
四川一对夫妻冷战不说话,男子深夜加班回家见妻子没留饭失望回房,谁料,下秒妻子的举动让人泪目

四川一对夫妻冷战不说话,男子深夜加班回家见妻子没留饭失望回房,谁料,下秒妻子的举动让人泪目

品读时刻
2025-11-12 09:05:52
马英九提两项统一条件,岛内大概率认可,其中一项已基本具备了

马英九提两项统一条件,岛内大概率认可,其中一项已基本具备了

小鬼头体育
2025-11-15 03:09:02
当看到63岁的岳红和张凯丽同框,才明白穿着得体的含金量有多高

当看到63岁的岳红和张凯丽同框,才明白穿着得体的含金量有多高

花心电影
2025-11-12 22:36:34
那英和老公孟桐在伦敦牵手逛街,穿着一身名牌货,看起来岁月静好

那英和老公孟桐在伦敦牵手逛街,穿着一身名牌货,看起来岁月静好

乡野小珥
2025-11-14 12:16:49
张家界荒野求生赛事方解释“冷美人”退赛:她出现呕吐、四肢僵硬等应激反应,诊断为营养不良

张家界荒野求生赛事方解释“冷美人”退赛:她出现呕吐、四肢僵硬等应激反应,诊断为营养不良

极目新闻
2025-11-14 16:30:13
55岁婶子酒后吐实言:男人过了40岁,对女人就只剩一个作用

55岁婶子酒后吐实言:男人过了40岁,对女人就只剩一个作用

雅俗共赏1
2025-08-29 11:48:45
湖南省纪委监委驻湖南建设投资集团纪检监察组副组长雷海标被查

湖南省纪委监委驻湖南建设投资集团纪检监察组副组长雷海标被查

三湘都市报
2025-11-14 10:51:01
2025-11-15 06:59:00
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
11692文章数 51549关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

中方连发六张双语海报@高市早苗 媒体:总该看懂了吧

头条要闻

中方连发六张双语海报@高市早苗 媒体:总该看懂了吧

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

旅游
本地
手机
房产
公开课

旅游要闻

文旅消费转型!景区不收割,真诚才是必杀技

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

手机要闻

双11霸榜后再爆!iPhone17激活破1000万,Pro Max凭新造型占近4成

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版