![]()
作者|石孝钢
编辑|Kitty
策划|QCon 全球软件开发大会
本文整理自 QCon 全球软件开发大会·2026(北京站)明星讲师石孝钢带来的演讲分享。
以下是演讲实录。
大家上午好!我是来自京东零售 - 产研中心 - 智能零售 AIGC 视觉应用部的产品经理石孝钢,今天咱们这个分会场是 AIGC 的产业级应用,现场应该既有做技术的朋友,也有做应用的朋友,我今天会站在一个偏应用的视角来分享一下我们京东零售在 AIGC 大规模供给落地的一些经验和分享。
行业中很多时候将 AIGC 等同于文案、图片、视频的生产工具,认为“能生成 = 能落地”。
更多的关注和讨论都在哪个模型更强,Prompt 一敲,极其逼真的图像瞬间就能生成。很多人,甚至包括我们很多业务线的老板看完后,第一反应都是:“太强了!既然模型这么厉害,我们是不是直接接个 API,电商的素材生成问题就彻底解决了?”这是我们团队被问得最多的一个问题。
但我们认为真正应该被问出来被解答,也是我们每天追问自己团队的这几个问题:生成量多大?成功率多少?可用率多高?总成本扛得住吗?它对真实的商家对京东的生意,有帮助吗?
![]()
在京东,我们面对的是百亿级的动销商品,每个商品对应十余种不同规格和调性的素材,还要应对周粒度的高频促销活动。
我们调研过的很多商家店铺平均会有 4000+ 在售 sku,京东自营采销人均负责 10,000+sku,如果这些素材都外包生产,10~20 元 / 图的成本 叠加 sku 数 * N 个版本* 每周一次的频率,这个成本投入在越来越卷的竞争压力面前是绝对不现实的,所以目前被运营的素材,占整体素材量的也就是 10-20%,大量的素材处于放养状态。
因此,我们得出了第一个现实的观察:电商 AIGC 的应用落地,绝对不只是一个“生成问题”。
![]()
首先生成问题是整个系统基础构建的基础,每一次底层大模型能力的跃迁(从文本到图,到视频生成),都打破内容供给天花板,创造全新的可能性。
但光有上限不够,电商购物是一个非常重体验的场景,平台频道有规则,品牌有规范,品类有目标人群和竞争知识,这所需要的美学指引与通用美学标准有非常大的不同。
这些不同的需求的满足,就是控制问题,商品一致性,合规,卖点促销真实不幻想,在安全的基础上进行创作。
最后回到电商的本质,这还是个生意问题,哪怕图生得再美,可用率再高,如果我们不能回答‘能提效吗?对业务有增量吗?ROI 算得过来吗?’,那它就只是个实验室里的玩具。
为了更好的为平台商家提供服务,我们团队构建了一套代号为Oxygen Vision的统一落地系统。这套系统的核心哲学,我总结为六个字:艺术、技术、算术。
艺术决定做什么 - Doing right things,对齐电商审美需求
技术解决怎么做 - Doing things right,交付确定性结果
算术解答值得吗 - Worth doing:在 ROI 视角下,精算每一分 Token 的经济学。
接下来的 40 分钟,我就沿着这“三术”,带大家深入了解京东 AIGC 的百亿素材供给实践的探索。
![]()
首先,我们聊聊“艺术”。通用 AIGC 和电商 AIGC 的训练目标是不完全重合的。通用大模型在努力让自己成为‘艺术家’,画好看的人像、绚丽的风景;但电商 AIGC 不需要做艺术家,它是一个‘超级导购’,它的第一天职是‘设计服务商业’。我们不能用‘这图好不好看’这种感性、难以量化的标准来验收。
![]()
传统 IAA(Image aesthetics assessment) 工作的打分训练,也更多是与艺术方向对齐的单一或多维分数,我们测试下来比较明显的感觉是适合用于劣质图片的识别,但很难真的选出购物语境下的好图,以这个冲锋衣商品举例,纯白底图、带卖点文字的图片通常会受到模型审美偏好的负向影响得到低分,但这些图片往往在电商领域会有更好的点击率转化率表现。
同时,电商在不同的素材展示位置,对素材的需求是随着平台要求和用户意图有显著区别的。在首页、活动页,一般会使用商品白底图,突出统一的平台调性、活动氛围。在推荐场域,用户是随便看看,逛一逛的这种弱需求,一般会使用少文字,突出使用场景的图片,通过场景感激发用户的兴趣。在搜索场域,用户有明确且强烈的购物意图时,图片素材通常会八仙过海,各尽所能地吸引用户点击,有展示外观的、有使用场景的,大概率也有突出的卖点显示。到了商详场域,这个时候进入了商品领域,图片的使命就是激发用户转化,在这个场景下的图片中除了了核心卖点外,通常会有高强度的促销、赠品,信息等等。
![]()
我们做的第一个动作就是放弃追求美学评价,转为探索电商务实的设计维度。他们把电商素材设计维度分成了 5 个主维度,包括:商品、场景、情绪、信息和促销。
商品维度:核心聚焦产品的面积占比强度,在此基础上延伸出多个细节子维度,包括拍摄视角、商品呈现方式、是否采用多商品组合展示、是否带有产品包装等,核心目标是确保商品的核心特征能够清晰、突出地呈现,让用户快速捕捉商品本身的关键信息。
场景维度:重点关注与用户使用需求的关联程度,覆盖从纯白底(适配平台首页、活动页等场景)到真实使用场景的全范围,同时包含道具搭配、打光效果、画面色调、背景虚化程度等子维度,可根据不同展示场域的需求,灵活调整场景呈现形式,适配多样化展示需求。
情绪维度:涵盖从客观呈现商品规格参数的纯理性,到传递情感共鸣的纯感性氛围,在此维度下延伸出目标人群、购物动机(如是否用于送礼、日常自用等)等子维度,核心是贴合用户心理需求,让素材能够传递出契合用户期望的情绪价值,提升用户共鸣感。
信息维度:核心关注画面中文案与营销图案的面积占比,在此基础上延伸出文案风格等子维度,重点确保信息传递的精准性和高效性,既避免文案过多杂乱影响观感,也保证核心营销信息能够清晰传递给用户。
促销维度:聚焦信息中价促类型的占比,延伸出促销类型、视觉强度等子维度,核心目标是突出促销亮点,通过合理的视觉设计和内容配比,让用户快速捕捉促销信息,助力提升商品转化效率。
通过这五大维度的系统分解,我们能够快速定位不同场域偏好的素材构图框架,并在此基础上开展针对性的优化探索,让素材设计更贴合电商场景的商业需求。
![]()
与此同时,我们也做出了关键取舍:将常规生成质量评测中,商品一致性、人物崩坏、黄暴恐政等非设计方案层面的参数进行解耦,将其放到后续可控生成阶段进行专门的控制和质检,有效避免了不同维度的混淆,让美学探索能够聚焦于设计方案本身,提升素材设计的效率与精准度。
![]()
这套方法我们没起名字,就叫他数据驱动的学习探索,但放在当前这个时点,可能叫Harness Design更应景一些。这套方法在落地过程里,为避免随机探索对业务的负向影响,对好图的探索也不能像纯深度学习那样从 0 开始,我们的做法是提取场域 x 品类维度的好图设计特征作为探索冷启动起点,并通过模仿、变异等多样性策略产出实验素材,通过持续的 AB 实验投放和数据的结果表现,迭代知识和策略,通过持续的观察 - 思考 - 行动的循环,追求目标回报率的最大化,这个回报率也是可以分场域和品类定向设置的,点击率、多次点击率、加购率等等。
![]()
这套美学探索系统的落地形态,成为了我们的任务规划引擎,类似于大脑,决定一个任务来了做什么。
他同时具有快慢思考 2 个系统,系统一(快思考 / 肌肉记忆):当遇到“商品白底图生成”、“仅仅改个价格标签”这种意图极其明确的简单任务,或者在前期多轮实验中取得了明确有效的生成策略结论时,直接命中规则,瞬间下发的执行指令。毫秒级响应,0 算力浪费。系统二(慢思考 / 深度推理):当我们遇到模糊指令,比如优化商品点击率、优化排名、生成千人千面素材等探索任务时,系统二被唤醒。它会按照未收敛任务的观察 - 思考 - 行动模式,结合品类、场域知识,进行深度的意图理解与提示词强化(PE),生成策略性的探索方案。
同时还有一类情况,当一个任务从执行侧返回为多次尝试最好的模型没有通过时,规划系统会降低设计蓝图的复杂程度,保证任务的交付(兜底)。
做什么定了,下面我们来聊聊怎么做。
![]()
首先,能生成和能交付,完全是 2 个难度等级的任务。我们刚开始训练模型的时候,抽卡 10 次里抽出 1 次惊艳的 Good Case,就是非常值得开心的 aha 时刻。但在京东的 APP 的实际曝光素材里,100 次里有 1 次(Bad Case),商品变形、人物畸形、信息错误,就有可能引起客诉,索赔等损失造成事故。所以确定性、合规性是我们在技术落地阶段的红线要求,这部分会在质检端严格把控。
![]()
另外在生成模型的路线选择上,像屏幕上展示的,我们试图用一个端到端的大模型,叠加上 MOE(混合专家)架构,来搞定所有的生成任务。你需要参考图生成?我接入 ReferenceNet;你需要固定商品高频特征细节?我接入 ControlNet;你需要去背景?我也用这个模型直接端到端输出白底图。
从运维的角度想,这简直完美,一个统一的模型,全集群无差别重复部署,彻底消除了不同任务之间的负载不均,任务的通用性拉满。
但这真的是最优解吗?我们在探索中发现了一个残酷的真相:在我们的日常任务里,有超过 3 成的任务,其实只是要求把一张商品图精准地变成‘白底图’!
如果我们为了追求所谓的‘架构统一’,用 12B DiT 模型去干这个活,与 0.1B 的抠图模型,就算使用 MoE 控制激活参数量,也还是会存在算力消耗* 设备性能差距导致的高达 400 倍的成本差。
所以,这也是我想和大家分享的核心观点: 第一,端到端,绝不等于商业上的最优解。第二,MOE(混合专家)架构,也不是掩盖算力浪费的万能药。第三,在极端的工业级并发下,精细化的工程编排,远远大于盲目追求单一的万能模型。
![]()
我们目前正在尝试的做法,是尝试用分层模型矩阵 + 智能调度的全新架构探索更优的解决方案。
这套架构运转主要分为两步:
第一步,构建分层模型矩阵,也就是打好我们的‘算力底座’。我们将原本耦合的核心执行过程,切分为四个标准化环节:前处理、生成、后处理、质检。 通过规范这四个环节之间的出入参协议构建一个支持‘热插拔’的系统。
在每一层里,我们部署了 N 个能力、成本各异的模型。这里面既有几十亿参数的满血版大模型,也有专门做过 INT4、FP8 极限压缩的量化版本,还有最传统的 CPU 算法小模型。
大家注意看图上这些白色的节点方块。在我们的系统里,每一个节点都不再是一个冷冰冰的 API,它是一个带有‘实时动态简历’的实体。它需要时刻向中央汇报自己的四个关键信息:
能力定义(你擅长什么?做不了什么?)
实时负载(你现在排队挤不挤?)
I/O 成本(调用你一次的单位 Token 花多少钱?)
SLA 时延(你最快几秒钟能把结果吐给我?)
第二步,也就是这套系统的灵魂——中间的这个‘智能调度网络’。在物理形态上,它是一个极轻量级的多模态强化学习调度网络。在视觉提取上,我们采用了轻量级的Swin Transformer架构。用极低的算力开销,瞬间扫出这张原图的‘物理难度’,网络把提取到的‘图像难度’,和上层传下来的‘文本指令’以及‘当前的系统负载率’揉在一起。面对 4 个执行阶段交织成的 DAG 行动空间,在强化学习的预训练下,它会通过多头分类器输出一条当前负载下质检通过率最高、且算力账单最便宜的组合路径。
![]()
当我们将系统重构为这种动态 DAG 路由后,极其令人兴奋的事情发生了——系统开始自发“涌现”出高级的微观运维能力!
现象一:TooBad! (质量击穿)。系统发现某个廉价节点几乎没流量了。为什么?因为调度网络发现,只要走到那,就会因为产出废片被后置的质量防线疯狂扣分。这相当于系统发出的红色警报,提示算法团队:这个模型根本省不了钱,必须马上重新微调!
现象二:GoodEnough! (性能溢出)。反过来,某高端模型空闲,而大量任务走廉价节点依然保持了高通过率。这说明廉价模型已经“足够好”了,工程团队就可以放心地将珍贵的高端 GPU 资源降配回收,同时算法团队可以考虑在同样的算力消耗预算下,是不是有效果大幅优化挑战更高质检标准的优质模型。
现象三:CatchAll! (柔性容灾)。当某个节点突然不可用时。调度网络在分钟级的路径失败内发现流向该节点的任务通过率暴跌,瞬间将流量平滑泄洪到同层级的备用或降级节点,给工程修复争取了宝贵的时间并能避免业务损失。
现象四:Skip! (架构折叠)。当新一代端到端大模型引入后,网络发现直接生成比“扣图 + 合成”效率更高。于是冗长的前置节点被自动切断,系统拓扑自己完成了折叠进化!
现象五:TooHard!(知难而退)。当上游来的需求多次经过每层最好的节点仍无法通过时,系统会向美学大脑反馈规划的设计蓝图过于复杂,上层可简化设计后重新下发任务。
![]()
通过工程实现的算力资源的有效利用率监控,我们还顺手理顺了一个内部合作的默契契约:产品跟踪各类任务通过率与实际业务的效果数据,并持续迭代质检评测集;算法有的放矢,针对质量差的模型改善效果,在质量范围内探索模型的降本提速。
接下来,到了算账的时候了。
![]()
不谈算力成本的 AIGC,都是耍流氓,我们面对的“不可能三角”是——效果、成本、吞吐。
而在实际业务中,三种倾向的任务也是同时存在的,追求极致效果的精细化运营,需要天花板级效果的素材做 AB 实验验证业务假设,实时工具箱需要低时延高并发的吞吐能力,才能在高峰时段保障用户体验;而大量业务治理类的动作,擦除牛皮藓等,需要使用最低的成本大量产出。所有技术决策本质上是 Q-T-C 的博弈。
![]()
以终为始看这个博弈的目标,回到生意层面还是为了投入产出的最大化,简单来说就是业务回报减掉生产成本的最大化,我们在做这部分评估用的奖励函数分 3 个部分,红色部分代表生成素材的算力资源消耗,蓝色部分代表设计方案预期产生相对品类的业务增益指标,业务乘数是增益放大器,因为 aigc 素材还是以曝光作为转化漏斗的起点的,所以我们实际使用的时候我们用的是曝光获取能力。
看着有点复杂,实际还是比较简单的,高流量商品或者展示点位的任务,受到业务乘数的放大,有更充足的算力预算使用更高级的模型做生成交付,并在高峰时段享有更充足的算力保障,同时,当系统闲时识别到高等级模型存在空闲且有机会提升业务指标时,也会慷慨的开放更好的生成能力给腰尾部任务。
前面就把我们这套 OxygenVision 系统 - 艺术,技术,算术的核心哲学讲完了,接下来是我们基于这套系统,落地到业务系统的产品矩阵。
它包括 2 层产品体系:
上层是“探索引擎”。这是一个独立可交互的“设计智能体”,为京东商家和采销提供高效高质量的设计服务,并在这里收集极端业务 Case,沉淀品牌知识,不断优化我们的美学系统大脑。
下层是“增长引擎”。这是一个嵌入到全站工作流中的“生成微服务”。它默默地在后台执行极限的算力运筹和分发。
![]()
首先通过一个短片了解一下我们的设计智能体:oxygenvision(可在官网查看短片:https://ai.jd.com/)。
![]()
短片中展示的就是一个商品主图优化的模糊需求,通过美学大脑进行商品素材分析、品类竞品中 TOP 优质素材抓取、竞争策略推理,基于五维体系生成方案并输出结果进行 ab 实验投放验证的全流程,目前我们也实现了一个 sku 多轮实验的分析和迭代能力,帮助商家持续提升优化。
我们以这个智能体作为载体,收集商家和采销的真实素材需求,并通过持续的观察 - 思考 - 行动迭代,发现可固化为肌肉记忆的标准流程,也能识别当前使用行业 sota 模型也很难做到可用的 hardcase 用于后续升级模型的重点测试集。
![]()
如果说智能体是帮我们‘探索上限’的实验室,那么我们的第二个产品形态——‘嵌入式生成微服务’,就是帮我们‘做大规模’的工业流水线。他以 ai 生成功能能力,嵌入系统工作台中的所有环节,可提供单点、批量的素材诊断生成等需求,并可承接业务方的验证需求,定向批量生成素材并进入系统级 AB 实验并回收效果数据。
我们把 AIGC 能力拆解成微服务,像水和电一样,悄无声息地接入到商家和运营每天在用的工作台里。在这里,不强调炫酷的聊天界面,没有情绪价值,只强调批量、稳定、自动化。正是这个形态,真正把 AIGC 从一个只能发朋友圈炫技的‘Demo’,变成了一台轰鸣的‘业务增长引擎’!
从艺术的美学量化探索,到技术的 DAG 智能调度,再到算术的 Token 经济学博弈。Oxygen Vision 帮京东零售扛过了百亿素材供给的考验。目前,Oxygen Vision 支撑的 AIGC 素材日供给量已经稳定突破 1000 万 +。 我们服务的商家数量超过了 100 万家。 最让我们骄傲的是,在极其严苛的线上 A/B 真实流量实验中,AIGC 供给素材在实验商品的 AB 实验中带来的核心XTR 综合提升达到了 +29%!
最后,我想分享两点我们近期的观察和思考。
![]()
第一点是:行业卷模型,业务卷 ROI。
这三天的 QCon 大会,大家肯定听到了大量关于 OpenClaw、Hermes 这些前沿自主 Agent 的讨论。作为技术人,我们承认,这些“大龙虾”概念非常前沿、非常性感。
但作为一个背负着真实业务指标的落地系统产品经理,我们必须保持冷静:以终为始的商业 ROI,永远大于盲目追新的技术形式。在流水线上,那些几百毫秒就能跑完、成本极低、稳扎稳打的“务实小模型们”依然非常可爱。
技术潮流会不断更迭,今天火的是 MMDiT,明天可能又是新的架构。但如何站在生意的视角,把不同能力、不同成本的节点编排好,精算每一笔算力账单——这种对系统极限效能的运筹和组织能力,才是不受时代周期影响的,真正属于我们自己的护城河。
第二点是:素材供给,正在从“面向人”走向“面向 Agent”。
说到这里,我们依然绕不开刚才那些性感的“龙虾们”。大家有没有想过一个问题:当未来的 C 端用户,开始大量依赖各种 AI 购物助手和自主 Agent 来提供购买建议时,我们电商素材的“消费者”变了。
除了人类的眼睛,我们的素材多了一种全新的消费群体:VLM(多模态视觉大模型)。
VLM 观察世界、理解图片、提取关键信息的方式,和人类对“美”的感知是截然不同的。由于我们部门同时也承接着京东集团内部“视觉理解”的能力供给,我们最近正在探索一个极其前沿的命题:
未来的电商好图,到底长什么样?它不能仅仅是让人类觉得“审美高级”,它还必须具备极高的Agent 识别效率(Machine-Readability)。如何在满足人类情绪价值的同时,让大模型在极短的时间内、最精准地抓取到商品的卖点特征?平衡“人类审美”与“机器可读性”的新一代设计范式,将是我们下一个要攻克的新领域。
最后,希望今天的分享,能为各位同行在 AIGC 的工业化落地中,提供一些新的视角与启发。
号外:2026 年 10 月 22-24 日将召开 QCon 全球软件开发大会·上海站,内容覆盖 AI + 软件研发的方方面面,敬请期待。
作者介绍
石孝钢,现任京东零售视觉与 AIGC 部,京东 AIGC 内容生成平台 -“京点点”产品经理,推动 AIGC 技术在电商多场景的应用落地。此前曾任京东家电家居事业群商品规划部 C2M 产品经理、联想商用事业部打印业务产品经理,深耕软硬件与互联网行业 18 年,兼具技术理解与产品化能力,主导并打造过多款行业爆款产品,具备从需求洞察、产品规划到规模化落地的全链路经验。
会议推荐
测完 MBTI,快来解锁技术人专属 AITI !前沿探索家、大模型工程师、Agent 实战拆解师、行业赋能师… 你是哪一种?6.26-27 # AICon 上海站等你面基同频人!世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构等 14 大专题全面开启,诚挚邀请你登台分享实战经验。AICon 2026,期待与你同行。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.