技术·艺术· 算术：京东零售 AIGC 百亿素材供给实践|算法|维度|智能体|新论文|京东集团|知名企业

分享至

作者｜石孝钢

编辑｜Kitty

策划｜QCon 全球软件开发大会

本文整理自 QCon 全球软件开发大会·2026（北京站）明星讲师石孝钢带来的演讲分享。

以下是演讲实录。

大家上午好！我是来自京东零售 - 产研中心 - 智能零售 AIGC 视觉应用部的产品经理石孝钢，今天咱们这个分会场是 AIGC 的产业级应用，现场应该既有做技术的朋友，也有做应用的朋友，我今天会站在一个偏应用的视角来分享一下我们京东零售在 AIGC 大规模供给落地的一些经验和分享。

行业中很多时候将 AIGC 等同于文案、图片、视频的生产工具，认为“能生成 = 能落地”。

更多的关注和讨论都在哪个模型更强，Prompt 一敲，极其逼真的图像瞬间就能生成。很多人，甚至包括我们很多业务线的老板看完后，第一反应都是：“太强了！既然模型这么厉害，我们是不是直接接个 API，电商的素材生成问题就彻底解决了？”这是我们团队被问得最多的一个问题。

但我们认为真正应该被问出来被解答，也是我们每天追问自己团队的这几个问题：生成量多大？成功率多少？可用率多高？总成本扛得住吗？它对真实的商家对京东的生意，有帮助吗？

在京东，我们面对的是百亿级的动销商品，每个商品对应十余种不同规格和调性的素材，还要应对周粒度的高频促销活动。

我们调研过的很多商家店铺平均会有 4000+ 在售 sku，京东自营采销人均负责 10,000+sku，如果这些素材都外包生产，10~20 元 / 图的成本叠加 sku 数 * N 个版本* 每周一次的频率，这个成本投入在越来越卷的竞争压力面前是绝对不现实的，所以目前被运营的素材，占整体素材量的也就是 10-20%，大量的素材处于放养状态。

因此，我们得出了第一个现实的观察：电商 AIGC 的应用落地，绝对不只是一个“生成问题”。

首先生成问题是整个系统基础构建的基础，每一次底层大模型能力的跃迁（从文本到图，到视频生成），都打破内容供给天花板，创造全新的可能性。

但光有上限不够，电商购物是一个非常重体验的场景，平台频道有规则，品牌有规范，品类有目标人群和竞争知识，这所需要的美学指引与通用美学标准有非常大的不同。

这些不同的需求的满足，就是控制问题，商品一致性，合规，卖点促销真实不幻想，在安全的基础上进行创作。

最后回到电商的本质，这还是个生意问题，哪怕图生得再美，可用率再高，如果我们不能回答‘能提效吗？对业务有增量吗？ROI 算得过来吗？’，那它就只是个实验室里的玩具。

为了更好的为平台商家提供服务，我们团队构建了一套代号为Oxygen Vision的统一落地系统。这套系统的核心哲学，我总结为六个字：艺术、技术、算术。

艺术决定做什么 - Doing right things，对齐电商审美需求
技术解决怎么做 - Doing things right，交付确定性结果
算术解答值得吗 - Worth doing：在 ROI 视角下，精算每一分 Token 的经济学。

接下来的 40 分钟，我就沿着这“三术”，带大家深入了解京东 AIGC 的百亿素材供给实践的探索。

首先，我们聊聊“艺术”。通用 AIGC 和电商 AIGC 的训练目标是不完全重合的。通用大模型在努力让自己成为‘艺术家’，画好看的人像、绚丽的风景；但电商 AIGC 不需要做艺术家，它是一个‘超级导购’，它的第一天职是‘设计服务商业’。我们不能用‘这图好不好看’这种感性、难以量化的标准来验收。

传统 IAA(Image aesthetics assessment) 工作的打分训练，也更多是与艺术方向对齐的单一或多维分数，我们测试下来比较明显的感觉是适合用于劣质图片的识别，但很难真的选出购物语境下的好图，以这个冲锋衣商品举例，纯白底图、带卖点文字的图片通常会受到模型审美偏好的负向影响得到低分，但这些图片往往在电商领域会有更好的点击率转化率表现。

同时，电商在不同的素材展示位置，对素材的需求是随着平台要求和用户意图有显著区别的。在首页、活动页，一般会使用商品白底图，突出统一的平台调性、活动氛围。在推荐场域，用户是随便看看，逛一逛的这种弱需求，一般会使用少文字，突出使用场景的图片，通过场景感激发用户的兴趣。在搜索场域，用户有明确且强烈的购物意图时，图片素材通常会八仙过海，各尽所能地吸引用户点击，有展示外观的、有使用场景的，大概率也有突出的卖点显示。到了商详场域，这个时候进入了商品领域，图片的使命就是激发用户转化，在这个场景下的图片中除了了核心卖点外，通常会有高强度的促销、赠品，信息等等。

我们做的第一个动作就是放弃追求美学评价，转为探索电商务实的设计维度。他们把电商素材设计维度分成了 5 个主维度，包括：商品、场景、情绪、信息和促销。

商品维度：核心聚焦产品的面积占比强度，在此基础上延伸出多个细节子维度，包括拍摄视角、商品呈现方式、是否采用多商品组合展示、是否带有产品包装等，核心目标是确保商品的核心特征能够清晰、突出地呈现，让用户快速捕捉商品本身的关键信息。
场景维度：重点关注与用户使用需求的关联程度，覆盖从纯白底（适配平台首页、活动页等场景）到真实使用场景的全范围，同时包含道具搭配、打光效果、画面色调、背景虚化程度等子维度，可根据不同展示场域的需求，灵活调整场景呈现形式，适配多样化展示需求。
情绪维度：涵盖从客观呈现商品规格参数的纯理性，到传递情感共鸣的纯感性氛围，在此维度下延伸出目标人群、购物动机（如是否用于送礼、日常自用等）等子维度，核心是贴合用户心理需求，让素材能够传递出契合用户期望的情绪价值，提升用户共鸣感。
信息维度：核心关注画面中文案与营销图案的面积占比，在此基础上延伸出文案风格等子维度，重点确保信息传递的精准性和高效性，既避免文案过多杂乱影响观感，也保证核心营销信息能够清晰传递给用户。
促销维度：聚焦信息中价促类型的占比，延伸出促销类型、视觉强度等子维度，核心目标是突出促销亮点，通过合理的视觉设计和内容配比，让用户快速捕捉促销信息，助力提升商品转化效率。

通过这五大维度的系统分解，我们能够快速定位不同场域偏好的素材构图框架，并在此基础上开展针对性的优化探索，让素材设计更贴合电商场景的商业需求。

与此同时，我们也做出了关键取舍：将常规生成质量评测中，商品一致性、人物崩坏、黄暴恐政等非设计方案层面的参数进行解耦，将其放到后续可控生成阶段进行专门的控制和质检，有效避免了不同维度的混淆，让美学探索能够聚焦于设计方案本身，提升素材设计的效率与精准度。

这套方法我们没起名字，就叫他数据驱动的学习探索，但放在当前这个时点，可能叫Harness Design更应景一些。这套方法在落地过程里，为避免随机探索对业务的负向影响，对好图的探索也不能像纯深度学习那样从 0 开始，我们的做法是提取场域 x 品类维度的好图设计特征作为探索冷启动起点，并通过模仿、变异等多样性策略产出实验素材，通过持续的 AB 实验投放和数据的结果表现，迭代知识和策略，通过持续的观察 - 思考 - 行动的循环，追求目标回报率的最大化，这个回报率也是可以分场域和品类定向设置的，点击率、多次点击率、加购率等等。

这套美学探索系统的落地形态，成为了我们的任务规划引擎，类似于大脑，决定一个任务来了做什么。

他同时具有快慢思考 2 个系统，系统一（快思考 / 肌肉记忆）：当遇到“商品白底图生成”、“仅仅改个价格标签”这种意图极其明确的简单任务，或者在前期多轮实验中取得了明确有效的生成策略结论时，直接命中规则，瞬间下发的执行指令。毫秒级响应，0 算力浪费。系统二（慢思考 / 深度推理）：当我们遇到模糊指令，比如优化商品点击率、优化排名、生成千人千面素材等探索任务时，系统二被唤醒。它会按照未收敛任务的观察 - 思考 - 行动模式，结合品类、场域知识，进行深度的意图理解与提示词强化（PE），生成策略性的探索方案。

同时还有一类情况，当一个任务从执行侧返回为多次尝试最好的模型没有通过时，规划系统会降低设计蓝图的复杂程度，保证任务的交付（兜底）。

做什么定了，下面我们来聊聊怎么做。

首先，能生成和能交付，完全是 2 个难度等级的任务。我们刚开始训练模型的时候，抽卡 10 次里抽出 1 次惊艳的 Good Case，就是非常值得开心的 aha 时刻。但在京东的 APP 的实际曝光素材里，100 次里有 1 次（Bad Case），商品变形、人物畸形、信息错误，就有可能引起客诉，索赔等损失造成事故。所以确定性、合规性是我们在技术落地阶段的红线要求，这部分会在质检端严格把控。

另外在生成模型的路线选择上，像屏幕上展示的，我们试图用一个端到端的大模型，叠加上 MOE（混合专家）架构，来搞定所有的生成任务。你需要参考图生成？我接入 ReferenceNet；你需要固定商品高频特征细节？我接入 ControlNet；你需要去背景？我也用这个模型直接端到端输出白底图。

从运维的角度想，这简直完美，一个统一的模型，全集群无差别重复部署，彻底消除了不同任务之间的负载不均，任务的通用性拉满。

但这真的是最优解吗？我们在探索中发现了一个残酷的真相：在我们的日常任务里，有超过 3 成的任务，其实只是要求把一张商品图精准地变成‘白底图’！

如果我们为了追求所谓的‘架构统一’，用 12B DiT 模型去干这个活，与 0.1B 的抠图模型，就算使用 MoE 控制激活参数量，也还是会存在算力消耗* 设备性能差距导致的高达 400 倍的成本差。

所以，这也是我想和大家分享的核心观点：第一，端到端，绝不等于商业上的最优解。第二，MOE（混合专家）架构，也不是掩盖算力浪费的万能药。第三，在极端的工业级并发下，精细化的工程编排，远远大于盲目追求单一的万能模型。

我们目前正在尝试的做法，是尝试用分层模型矩阵 + 智能调度的全新架构探索更优的解决方案。

这套架构运转主要分为两步：

第一步，构建分层模型矩阵，也就是打好我们的‘算力底座’。我们将原本耦合的核心执行过程，切分为四个标准化环节：前处理、生成、后处理、质检。通过规范这四个环节之间的出入参协议构建一个支持‘热插拔’的系统。

在每一层里，我们部署了 N 个能力、成本各异的模型。这里面既有几十亿参数的满血版大模型，也有专门做过 INT4、FP8 极限压缩的量化版本，还有最传统的 CPU 算法小模型。

大家注意看图上这些白色的节点方块。在我们的系统里，每一个节点都不再是一个冷冰冰的 API，它是一个带有‘实时动态简历’的实体。它需要时刻向中央汇报自己的四个关键信息：

能力定义（你擅长什么？做不了什么？）
实时负载（你现在排队挤不挤？）
I/O 成本（调用你一次的单位 Token 花多少钱？）
SLA 时延（你最快几秒钟能把结果吐给我？）

第二步，也就是这套系统的灵魂——中间的这个‘智能调度网络’。在物理形态上，它是一个极轻量级的多模态强化学习调度网络。在视觉提取上，我们采用了轻量级的Swin Transformer架构。用极低的算力开销，瞬间扫出这张原图的‘物理难度’，网络把提取到的‘图像难度’，和上层传下来的‘文本指令’以及‘当前的系统负载率’揉在一起。面对 4 个执行阶段交织成的 DAG 行动空间，在强化学习的预训练下，它会通过多头分类器输出一条当前负载下质检通过率最高、且算力账单最便宜的组合路径。

当我们将系统重构为这种动态 DAG 路由后，极其令人兴奋的事情发生了——系统开始自发“涌现”出高级的微观运维能力！

现象一：TooBad! (质量击穿)。系统发现某个廉价节点几乎没流量了。为什么？因为调度网络发现，只要走到那，就会因为产出废片被后置的质量防线疯狂扣分。这相当于系统发出的红色警报，提示算法团队：这个模型根本省不了钱，必须马上重新微调！
现象二：GoodEnough! (性能溢出)。反过来，某高端模型空闲，而大量任务走廉价节点依然保持了高通过率。这说明廉价模型已经“足够好”了，工程团队就可以放心地将珍贵的高端 GPU 资源降配回收，同时算法团队可以考虑在同样的算力消耗预算下，是不是有效果大幅优化挑战更高质检标准的优质模型。
现象三：CatchAll! (柔性容灾)。当某个节点突然不可用时。调度网络在分钟级的路径失败内发现流向该节点的任务通过率暴跌，瞬间将流量平滑泄洪到同层级的备用或降级节点，给工程修复争取了宝贵的时间并能避免业务损失。
现象四：Skip! (架构折叠)。当新一代端到端大模型引入后，网络发现直接生成比“扣图 + 合成”效率更高。于是冗长的前置节点被自动切断，系统拓扑自己完成了折叠进化！
现象五：TooHard!（知难而退）。当上游来的需求多次经过每层最好的节点仍无法通过时，系统会向美学大脑反馈规划的设计蓝图过于复杂，上层可简化设计后重新下发任务。

通过工程实现的算力资源的有效利用率监控，我们还顺手理顺了一个内部合作的默契契约：产品跟踪各类任务通过率与实际业务的效果数据，并持续迭代质检评测集；算法有的放矢，针对质量差的模型改善效果，在质量范围内探索模型的降本提速。

接下来，到了算账的时候了。

不谈算力成本的 AIGC，都是耍流氓，我们面对的“不可能三角”是——效果、成本、吞吐。

而在实际业务中，三种倾向的任务也是同时存在的，追求极致效果的精细化运营，需要天花板级效果的素材做 AB 实验验证业务假设，实时工具箱需要低时延高并发的吞吐能力，才能在高峰时段保障用户体验；而大量业务治理类的动作，擦除牛皮藓等，需要使用最低的成本大量产出。所有技术决策本质上是 Q-T-C 的博弈。

以终为始看这个博弈的目标，回到生意层面还是为了投入产出的最大化，简单来说就是业务回报减掉生产成本的最大化，我们在做这部分评估用的奖励函数分 3 个部分，红色部分代表生成素材的算力资源消耗，蓝色部分代表设计方案预期产生相对品类的业务增益指标，业务乘数是增益放大器，因为 aigc 素材还是以曝光作为转化漏斗的起点的，所以我们实际使用的时候我们用的是曝光获取能力。

看着有点复杂，实际还是比较简单的，高流量商品或者展示点位的任务，受到业务乘数的放大，有更充足的算力预算使用更高级的模型做生成交付，并在高峰时段享有更充足的算力保障，同时，当系统闲时识别到高等级模型存在空闲且有机会提升业务指标时，也会慷慨的开放更好的生成能力给腰尾部任务。

前面就把我们这套 OxygenVision 系统 - 艺术，技术，算术的核心哲学讲完了，接下来是我们基于这套系统，落地到业务系统的产品矩阵。

它包括 2 层产品体系：

上层是“探索引擎”。这是一个独立可交互的“设计智能体”，为京东商家和采销提供高效高质量的设计服务，并在这里收集极端业务 Case，沉淀品牌知识，不断优化我们的美学系统大脑。
下层是“增长引擎”。这是一个嵌入到全站工作流中的“生成微服务”。它默默地在后台执行极限的算力运筹和分发。

首先通过一个短片了解一下我们的设计智能体：oxygenvision（可在官网查看短片：https://ai.jd.com/）。

短片中展示的就是一个商品主图优化的模糊需求，通过美学大脑进行商品素材分析、品类竞品中 TOP 优质素材抓取、竞争策略推理，基于五维体系生成方案并输出结果进行 ab 实验投放验证的全流程，目前我们也实现了一个 sku 多轮实验的分析和迭代能力，帮助商家持续提升优化。

我们以这个智能体作为载体，收集商家和采销的真实素材需求，并通过持续的观察 - 思考 - 行动迭代，发现可固化为肌肉记忆的标准流程，也能识别当前使用行业 sota 模型也很难做到可用的 hardcase 用于后续升级模型的重点测试集。

如果说智能体是帮我们‘探索上限’的实验室，那么我们的第二个产品形态——‘嵌入式生成微服务’，就是帮我们‘做大规模’的工业流水线。他以 ai 生成功能能力，嵌入系统工作台中的所有环节，可提供单点、批量的素材诊断生成等需求，并可承接业务方的验证需求，定向批量生成素材并进入系统级 AB 实验并回收效果数据。

我们把 AIGC 能力拆解成微服务，像水和电一样，悄无声息地接入到商家和运营每天在用的工作台里。在这里，不强调炫酷的聊天界面，没有情绪价值，只强调批量、稳定、自动化。正是这个形态，真正把 AIGC 从一个只能发朋友圈炫技的‘Demo’，变成了一台轰鸣的‘业务增长引擎’！

从艺术的美学量化探索，到技术的 DAG 智能调度，再到算术的 Token 经济学博弈。Oxygen Vision 帮京东零售扛过了百亿素材供给的考验。目前，Oxygen Vision 支撑的 AIGC 素材日供给量已经稳定突破 1000 万 +。我们服务的商家数量超过了 100 万家。最让我们骄傲的是，在极其严苛的线上 A/B 真实流量实验中，AIGC 供给素材在实验商品的 AB 实验中带来的核心XTR 综合提升达到了 +29%！

最后，我想分享两点我们近期的观察和思考。

第一点是：行业卷模型，业务卷 ROI。

这三天的 QCon 大会，大家肯定听到了大量关于 OpenClaw、Hermes 这些前沿自主 Agent 的讨论。作为技术人，我们承认，这些“大龙虾”概念非常前沿、非常性感。

但作为一个背负着真实业务指标的落地系统产品经理，我们必须保持冷静：以终为始的商业 ROI，永远大于盲目追新的技术形式。在流水线上，那些几百毫秒就能跑完、成本极低、稳扎稳打的“务实小模型们”依然非常可爱。

技术潮流会不断更迭，今天火的是 MMDiT，明天可能又是新的架构。但如何站在生意的视角，把不同能力、不同成本的节点编排好，精算每一笔算力账单——这种对系统极限效能的运筹和组织能力，才是不受时代周期影响的，真正属于我们自己的护城河。

第二点是：素材供给，正在从“面向人”走向“面向 Agent”。

说到这里，我们依然绕不开刚才那些性感的“龙虾们”。大家有没有想过一个问题：当未来的 C 端用户，开始大量依赖各种 AI 购物助手和自主 Agent 来提供购买建议时，我们电商素材的“消费者”变了。

除了人类的眼睛，我们的素材多了一种全新的消费群体：VLM（多模态视觉大模型）。

VLM 观察世界、理解图片、提取关键信息的方式，和人类对“美”的感知是截然不同的。由于我们部门同时也承接着京东集团内部“视觉理解”的能力供给，我们最近正在探索一个极其前沿的命题：

未来的电商好图，到底长什么样？它不能仅仅是让人类觉得“审美高级”，它还必须具备极高的Agent 识别效率（Machine-Readability）。如何在满足人类情绪价值的同时，让大模型在极短的时间内、最精准地抓取到商品的卖点特征？平衡“人类审美”与“机器可读性”的新一代设计范式，将是我们下一个要攻克的新领域。

最后，希望今天的分享，能为各位同行在 AIGC 的工业化落地中，提供一些新的视角与启发。

号外：2026 年 10 月 22-24 日将召开 QCon 全球软件开发大会·上海站，内容覆盖 AI + 软件研发的方方面面，敬请期待。

作者介绍

石孝钢，现任京东零售视觉与 AIGC 部，京东 AIGC 内容生成平台 -“京点点”产品经理，推动 AIGC 技术在电商多场景的应用落地。此前曾任京东家电家居事业群商品规划部 C2M 产品经理、联想商用事业部打印业务产品经理，深耕软硬件与互联网行业 18 年，兼具技术理解与产品化能力，主导并打造过多款行业爆款产品，具备从需求洞察、产品规划到规模化落地的全链路经验。

会议推荐

测完 MBTI，快来解锁技术人专属 AITI ！前沿探索家、大模型工程师、Agent 实战拆解师、行业赋能师… 你是哪一种？6.26-27 # AICon 上海站等你面基同频人！世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构等 14 大专题全面开启，诚挚邀请你登台分享实战经验。AICon 2026，期待与你同行。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.