字节Seed最新论文，解决了AI改图的核心难点|路由|文生|seed

字节Seed最新论文，解决了AI改图的核心难点

2026-06-30 21:28:42　来源: AI唱反调

北京举报

分享至

今年的火山引擎FORCE原动力大会上，字节又把图像和视频两条模型线刷新了一遍。图像端是Seedream 5.0 Pro，能交互式精准编辑、把画面拆成多图层，直接产出可编辑的分层设计图；视频端Seedance 2.5首次亮相，单段原生时长拉到30秒、一次支持50个素材联合参考。

往前数一年多，这条线几乎按月更新——真正关键的一步落在2025年9月的Seedream 4.0，它头一回把"按文字生成图片"和"修改已有图片"塞进了同一个模型。

把多种能力装进一个模型，听上去是加法，做起来常是减法。

加了局部编辑，文生图的基本功掉一截；再叠上全局改写，局部编辑又跟着乱。模型实际操作的时候就像好几个人抢方向盘，结果就是方向乱七八糟。

大会落幕第二天，字节Seed团队联合新加坡国立大学（NUS）等几家高校，把一篇冲着这道题去的论文挂上arXiv，名字叫DanceOPD。末位作者是NUS资深教授Tat-Seng Chua，典型的工业界主导、学术界背书。论文挂出几天，在模型社区Hugging作者亲自下场答疑。

HuggingFace 论文页截图

说白了，DanceOPD想替字节的生图模型解决一件事：不停往上加新能力，又不影响原有能力。

这不光是学术层面的探究，而是能和用户实际行为匹配。即梦（字节的AI创作工具，Seedream、Seedance的主要落地入口）里，用户的动作通常连成一串：先一句话生成一张图，再在图上改背景、换风格、扩画幅、局部重绘。理想是这一串背后只有一个模型在响应，但现实里每多一种编辑，要么后台多挂一个专用模型，要么硬塞进主模型、把文生图质量拖下水。DanceOPD给的是第三条路：把一个练好的"编辑专家"当成冻结老师，用蒸馏把它的本事搬进主模型，而且只更新一小块轻量参数（论文用的是LoRA，一种只训练少量附加参数的微调方式），不动主模型的地基。

对应到产品逻辑，这是"增量加能力"。字节这条线几乎按月更新，Seedream从4.0、4.5走到5.0，每次都往主模型上添新本事。

传统做法是重训或权重融合，风险是新能力提升、但老能力坍塌。在论文的实测结果里里weight merge，文生图分数基本保留、但图片编辑能力直接归零，就是原有模式的具象化提醒那。换成硬路由蒸馏，理论上能加一项编辑能力而不碰已有的，迭代成本和翻车概率都低一截。

还有两个非常具体的问题：其一，论文把CFG（无分类器引导，推理时让画面更贴提示词的常用手段）也当成一个能力场吸收进权重，等于把那次额外计算省掉——对即梦这种扛海量C端请求的产品，每张图省一次计算就是真实的成本降低。其二，Seedream 5.0主打的精致纹理、SeedEdit主打的"非编辑区域保持不动"，在DanceOPD框架里分别对应"写实场吸收"和"保留型局部编辑场"，都是它点名支持的能力类型。

不过，论文没讲这套机制已经进了哪一版Seedream，它还停在研究产出这一步，离写进产品有距离。但它瞄的问题、用的底座（计划支持SD3.5、Z-Image这类开源流匹配模型），和字节自家的产品路线是同一个方向。

能力之间会互相拖累

要了解这篇论文到底降了身，得先交代一个概念。当下主流生图模型走的是流匹配（flow matching）这条路：把"从一团随机噪声变成一张清晰图片"的过程，拆成无数个微小位移，每一步都有一个箭头，告诉这团数据该朝哪挪、挪多远。把空间里每个位置的箭头汇起来，就是一个"速度场"。文生图是一个速度场，局部编辑是另一个，全局改写又是一个。

麻烦在于这几个速度场各说各话，互相拉扯。同一个位置，文生图的箭头指东，编辑的箭头指西。最省事的做法是把它们平均一下，两个箭头取个中间方向。结果哪个目标都到不了，生成的图既不像规整的文生图，也不像干净的编辑，糊在中间。论文给这种丢失起了个名字：capability identity，能力的身份缺失。

业界之前试过几条路，论文都拿来做了对照。把多种能力的数据混在一起重训（joint training），编辑能力被稀释；把分别训好的模型权重做加权融合（weight merge），文生图保住了、编辑直接塌掉；相当于让学生模型去模仿老师模型、并且直接复制老师的路径（off-policy蒸馏，即在非学生轨迹的局面上教），但结果就是，训练时见的局面和部署时遇的局面对不上。现有几条方向的共同点是，几个能力还是会打架，按下葫芦起了瓢。

DanceOPD 的三招

DanceOPD的用了一套全新的解法，相当于给了模型一套索引，问题具体指向了"在哪问、问谁、怎么问"。

方法概览：每个样本硬路由到一个能力场

第一招是硬路由（hard route）。不再把多个老师的模型的结论平均，每个训练样本只认一个老师：如果做文生图，就只问文生图那个场；下一步做图片编辑，就只问编辑场。能力的身份不会被平均糊掉。

第二招是名字里那个OP，on-policy。教学生的地点，选在学生自己实际会走到的状态上，而不是老师走过、或数据里现成的状态上。

一个不那么严谨的类比：教练纠动作，得根据学生真实动作进行纠正，而不是在教练自己的标准姿势上纠，否则学员永远学不会。具体做法是，让当前学生模型先自己跑一遍生成轨迹，在这条轨迹上挑一个点，再把对应老师请过来，在这个点给出正确的箭头。

查询构造：在学生轨迹的低噪声点，向选中的老师场做一次速度对齐

第三招是挑哪个点、怎么对齐。论文只挑一个点（K=1），而且挑低噪声端，也就是接近成品、图像语义已经比较清晰的那一段。对齐用最朴素的方式：学生的箭头和老师的箭头做一次均方误差（MSE），没有奖励模型，没有对抗判别器。消融数据摆得很直接：硬路由配单点MSE拿到5.751，换成软融合掉到4.994；查询点从1个加到16个，分数反而从5.751跌到5.127。少即是多，在这里是字面意义上的。

三招合起来，同一个学生模型在图像编辑评测GEditBench上、文生图加编辑的组合拿到5.347，比最强的同类蒸馏基线高8.1%；在更拧巴的局部编辑加全局编辑组合上5.498，比最强对照高16.1%；与此同时，衡量文生图基本功的GenEval不降反升。加法这次没再变成减法。前面说的CFG，在这里也被当成另一个速度场，一并吸收了进来。

论文定性效果：一个模型支持多种编辑，同时保住原有文生图能力

几十行代码能看见的差别

DanceOPD的官方代码还没放出来，GitHub上标着"等待批准发布"，计划支持SD3.5、Z-Image等开源底座；论文用的Seedream、SeedEdit教师模型也不开源。严格说，这篇论文的图像级结果眼下没法在外部复现。

但它最核心的机制——硬路由加on-policy远好于软融合——不需要大模型也能看见。几十行Python、一个二维玩具就能跑出来，几秒就能出结果。

构造很简单：两个目标分布代替两种能力，一个圆环当"文生图"，四个角的四簇点当"编辑"，各配一个冻结的老师速度场。然后用三种策略训同一个小网络，让它同时还原这两个分布。

软融合那组，把两个老师的箭头平均着教。跑完一看，让它生成圆环时，它给出的是四个角的点簇——文生图的能力被编辑带串了味，正好对上论文开篇那句"editing degrades T2I"。换成DanceOPD的硬路由加on-policy，圆环是圆环、四簇是四簇，两个能力都干干净净。量化上，到目标分布的平均偏差从软融合的0.239降到0.028，降了约88%。

软融合把两个能力糊成一团，DanceOPD 两个都保住越接近左列越好

对字节这种已经把多能力生图做成产品的玩家，这条机制的价值不抽象。Seedream 4.0把生图和编辑统一进一个架构，工程上要按住的"互相拖累"，DanceOPD在研究层面给了一个干净的答法。也给AI生成图片的直接修改，提供了一个高效的路径。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.