![]()
今年的火山引擎FORCE原动力大会上,字节又把图像和视频两条模型线刷新了一遍。图像端是Seedream 5.0 Pro,能交互式精准编辑、把画面拆成多图层,直接产出可编辑的分层设计图;视频端Seedance 2.5首次亮相,单段原生时长拉到30秒、一次支持50个素材联合参考。
往前数一年多,这条线几乎按月更新——真正关键的一步落在2025年9月的Seedream 4.0,它头一回把"按文字生成图片"和"修改已有图片"塞进了同一个模型。
把多种能力装进一个模型,听上去是加法,做起来常是减法。
加了局部编辑,文生图的基本功掉一截;再叠上全局改写,局部编辑又跟着乱。模型实际操作的时候就像好几个人抢方向盘,结果就是方向乱七八糟。
大会落幕第二天,字节Seed团队联合新加坡国立大学(NUS)等几家高校,把一篇冲着这道题去的论文挂上arXiv,名字叫DanceOPD。末位作者是NUS资深教授Tat-Seng Chua,典型的工业界主导、学术界背书。论文挂出几天,在模型社区Hugging作者亲自下场答疑。
![]()
HuggingFace 论文页截图
说白了,DanceOPD想替字节的生图模型解决一件事:不停往上加新能力,又不影响原有能力。
这不光是学术层面的探究,而是能和用户实际行为匹配。即梦(字节的AI创作工具,Seedream、Seedance的主要落地入口)里,用户的动作通常连成一串:先一句话生成一张图,再在图上改背景、换风格、扩画幅、局部重绘。理想是这一串背后只有一个模型在响应,但现实里每多一种编辑,要么后台多挂一个专用模型,要么硬塞进主模型、把文生图质量拖下水。DanceOPD给的是第三条路:把一个练好的"编辑专家"当成冻结老师,用蒸馏把它的本事搬进主模型,而且只更新一小块轻量参数(论文用的是LoRA,一种只训练少量附加参数的微调方式),不动主模型的地基。
对应到产品逻辑,这是"增量加能力"。字节这条线几乎按月更新,Seedream从4.0、4.5走到5.0,每次都往主模型上添新本事。
传统做法是重训或权重融合,风险是新能力提升、但老能力坍塌。在论文的实测结果里里weight merge,文生图分数基本保留、但图片编辑能力直接归零,就是原有模式的具象化提醒那。换成硬路由蒸馏,理论上能加一项编辑能力而不碰已有的,迭代成本和翻车概率都低一截。
还有两个非常具体的问题:其一,论文把CFG(无分类器引导,推理时让画面更贴提示词的常用手段)也当成一个能力场吸收进权重,等于把那次额外计算省掉——对即梦这种扛海量C端请求的产品,每张图省一次计算就是真实的成本降低。其二,Seedream 5.0主打的精致纹理、SeedEdit主打的"非编辑区域保持不动",在DanceOPD框架里分别对应"写实场吸收"和"保留型局部编辑场",都是它点名支持的能力类型。
不过,论文没讲这套机制已经进了哪一版Seedream,它还停在研究产出这一步,离写进产品有距离。但它瞄的问题、用的底座(计划支持SD3.5、Z-Image这类开源流匹配模型),和字节自家的产品路线是同一个方向。
能力之间会互相拖累
要了解这篇论文到底降了身,得先交代一个概念。当下主流生图模型走的是流匹配(flow matching)这条路:把"从一团随机噪声变成一张清晰图片"的过程,拆成无数个微小位移,每一步都有一个箭头,告诉这团数据该朝哪挪、挪多远。把空间里每个位置的箭头汇起来,就是一个"速度场"。文生图是一个速度场,局部编辑是另一个,全局改写又是一个。
麻烦在于这几个速度场各说各话,互相拉扯。同一个位置,文生图的箭头指东,编辑的箭头指西。最省事的做法是把它们平均一下,两个箭头取个中间方向。结果哪个目标都到不了,生成的图既不像规整的文生图,也不像干净的编辑,糊在中间。论文给这种丢失起了个名字:capability identity,能力的身份缺失。
业界之前试过几条路,论文都拿来做了对照。把多种能力的数据混在一起重训(joint training),编辑能力被稀释;把分别训好的模型权重做加权融合(weight merge),文生图保住了、编辑直接塌掉;相当于让学生模型去模仿老师模型、并且直接复制老师的路径(off-policy蒸馏,即在非学生轨迹的局面上教),但结果就是,训练时见的局面和部署时遇的局面对不上。现有几条方向的共同点是,几个能力还是会打架,按下葫芦起了瓢。
DanceOPD 的三招
DanceOPD的用了一套全新的解法,相当于给了模型一套索引,问题具体指向了"在哪问、问谁、怎么问"。
![]()
方法概览:每个样本硬路由到一个能力场
第一招是硬路由(hard route)。不再把多个老师的模型的结论平均,每个训练样本只认一个老师:如果做文生图,就只问文生图那个场;下一步做图片编辑,就只问编辑场。能力的身份不会被平均糊掉。
第二招是名字里那个OP,on-policy。教学生的地点,选在学生自己实际会走到的状态上,而不是老师走过、或数据里现成的状态上。
一个不那么严谨的类比:教练纠动作,得根据学生真实动作进行纠正,而不是在教练自己的标准姿势上纠,否则学员永远学不会。具体做法是,让当前学生模型先自己跑一遍生成轨迹,在这条轨迹上挑一个点,再把对应老师请过来,在这个点给出正确的箭头。
![]()
查询构造:在学生轨迹的低噪声点,向选中的老师场做一次速度对齐
第三招是挑哪个点、怎么对齐。论文只挑一个点(K=1),而且挑低噪声端,也就是接近成品、图像语义已经比较清晰的那一段。对齐用最朴素的方式:学生的箭头和老师的箭头做一次均方误差(MSE),没有奖励模型,没有对抗判别器。消融数据摆得很直接:硬路由配单点MSE拿到5.751,换成软融合掉到4.994;查询点从1个加到16个,分数反而从5.751跌到5.127。少即是多,在这里是字面意义上的。
三招合起来,同一个学生模型在图像编辑评测GEditBench上、文生图加编辑的组合拿到5.347,比最强的同类蒸馏基线高8.1%;在更拧巴的局部编辑加全局编辑组合上5.498,比最强对照高16.1%;与此同时,衡量文生图基本功的GenEval不降反升。加法这次没再变成减法。前面说的CFG,在这里也被当成另一个速度场,一并吸收了进来。
![]()
论文定性效果:一个模型支持多种编辑,同时保住原有文生图能力
几十行代码能看见的差别
DanceOPD的官方代码还没放出来,GitHub上标着"等待批准发布",计划支持SD3.5、Z-Image等开源底座;论文用的Seedream、SeedEdit教师模型也不开源。严格说,这篇论文的图像级结果眼下没法在外部复现。
但它最核心的机制——硬路由加on-policy远好于软融合——不需要大模型也能看见。几十行Python、一个二维玩具就能跑出来,几秒就能出结果。
构造很简单:两个目标分布代替两种能力,一个圆环当"文生图",四个角的四簇点当"编辑",各配一个冻结的老师速度场。然后用三种策略训同一个小网络,让它同时还原这两个分布。
软融合那组,把两个老师的箭头平均着教。跑完一看,让它生成圆环时,它给出的是四个角的点簇——文生图的能力被编辑带串了味,正好对上论文开篇那句"editing degrades T2I"。换成DanceOPD的硬路由加on-policy,圆环是圆环、四簇是四簇,两个能力都干干净净。量化上,到目标分布的平均偏差从软融合的0.239降到0.028,降了约88%。
![]()
软融合把两个能力糊成一团,DanceOPD 两个都保住 越接近左列越好
对字节这种已经把多能力生图做成产品的玩家,这条机制的价值不抽象。Seedream 4.0把生图和编辑统一进一个架构,工程上要按住的"互相拖累",DanceOPD在研究层面给了一个干净的答法。也给AI生成图片的直接修改,提供了一个高效的路径。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.