网易首页 > 网易号 > 正文 申请入驻

字节Seed最新论文,解决了AI改图的核心难点

0
分享至



今年的火山引擎FORCE原动力大会上,字节又把图像和视频两条模型线刷新了一遍。图像端是Seedream 5.0 Pro,能交互式精准编辑、把画面拆成多图层,直接产出可编辑的分层设计图;视频端Seedance 2.5首次亮相,单段原生时长拉到30秒、一次支持50个素材联合参考。

往前数一年多,这条线几乎按月更新——真正关键的一步落在2025年9月的Seedream 4.0,它头一回把"按文字生成图片"和"修改已有图片"塞进了同一个模型。

把多种能力装进一个模型,听上去是加法,做起来常是减法。

加了局部编辑,文生图的基本功掉一截;再叠上全局改写,局部编辑又跟着乱。模型实际操作的时候就像好几个人抢方向盘,结果就是方向乱七八糟。

大会落幕第二天,字节Seed团队联合新加坡国立大学(NUS)等几家高校,把一篇冲着这道题去的论文挂上arXiv,名字叫DanceOPD。末位作者是NUS资深教授Tat-Seng Chua,典型的工业界主导、学术界背书。论文挂出几天,在模型社区Hugging作者亲自下场答疑。


HuggingFace 论文页截图

说白了,DanceOPD想替字节的生图模型解决一件事:不停往上加新能力,又不影响原有能力。

这不光是学术层面的探究,而是能和用户实际行为匹配。即梦(字节的AI创作工具,Seedream、Seedance的主要落地入口)里,用户的动作通常连成一串:先一句话生成一张图,再在图上改背景、换风格、扩画幅、局部重绘。理想是这一串背后只有一个模型在响应,但现实里每多一种编辑,要么后台多挂一个专用模型,要么硬塞进主模型、把文生图质量拖下水。DanceOPD给的是第三条路:把一个练好的"编辑专家"当成冻结老师,用蒸馏把它的本事搬进主模型,而且只更新一小块轻量参数(论文用的是LoRA,一种只训练少量附加参数的微调方式),不动主模型的地基。

对应到产品逻辑,这是"增量加能力"。字节这条线几乎按月更新,Seedream从4.0、4.5走到5.0,每次都往主模型上添新本事。

传统做法是重训或权重融合,风险是新能力提升、但老能力坍塌。在论文的实测结果里里weight merge,文生图分数基本保留、但图片编辑能力直接归零,就是原有模式的具象化提醒那。换成硬路由蒸馏,理论上能加一项编辑能力而不碰已有的,迭代成本和翻车概率都低一截。

还有两个非常具体的问题:其一,论文把CFG(无分类器引导,推理时让画面更贴提示词的常用手段)也当成一个能力场吸收进权重,等于把那次额外计算省掉——对即梦这种扛海量C端请求的产品,每张图省一次计算就是真实的成本降低。其二,Seedream 5.0主打的精致纹理、SeedEdit主打的"非编辑区域保持不动",在DanceOPD框架里分别对应"写实场吸收"和"保留型局部编辑场",都是它点名支持的能力类型。

不过,论文没讲这套机制已经进了哪一版Seedream,它还停在研究产出这一步,离写进产品有距离。但它瞄的问题、用的底座(计划支持SD3.5、Z-Image这类开源流匹配模型),和字节自家的产品路线是同一个方向。

能力之间会互相拖累

要了解这篇论文到底降了身,得先交代一个概念。当下主流生图模型走的是流匹配(flow matching)这条路:把"从一团随机噪声变成一张清晰图片"的过程,拆成无数个微小位移,每一步都有一个箭头,告诉这团数据该朝哪挪、挪多远。把空间里每个位置的箭头汇起来,就是一个"速度场"。文生图是一个速度场,局部编辑是另一个,全局改写又是一个。

麻烦在于这几个速度场各说各话,互相拉扯。同一个位置,文生图的箭头指东,编辑的箭头指西。最省事的做法是把它们平均一下,两个箭头取个中间方向。结果哪个目标都到不了,生成的图既不像规整的文生图,也不像干净的编辑,糊在中间。论文给这种丢失起了个名字:capability identity,能力的身份缺失。

业界之前试过几条路,论文都拿来做了对照。把多种能力的数据混在一起重训(joint training),编辑能力被稀释;把分别训好的模型权重做加权融合(weight merge),文生图保住了、编辑直接塌掉;相当于让学生模型去模仿老师模型、并且直接复制老师的路径(off-policy蒸馏,即在非学生轨迹的局面上教),但结果就是,训练时见的局面和部署时遇的局面对不上。现有几条方向的共同点是,几个能力还是会打架,按下葫芦起了瓢。

DanceOPD 的三招

DanceOPD的用了一套全新的解法,相当于给了模型一套索引,问题具体指向了"在哪问、问谁、怎么问"。


方法概览:每个样本硬路由到一个能力场

第一招是硬路由(hard route)。不再把多个老师的模型的结论平均,每个训练样本只认一个老师:如果做文生图,就只问文生图那个场;下一步做图片编辑,就只问编辑场。能力的身份不会被平均糊掉。

第二招是名字里那个OP,on-policy。教学生的地点,选在学生自己实际会走到的状态上,而不是老师走过、或数据里现成的状态上。

一个不那么严谨的类比:教练纠动作,得根据学生真实动作进行纠正,而不是在教练自己的标准姿势上纠,否则学员永远学不会。具体做法是,让当前学生模型先自己跑一遍生成轨迹,在这条轨迹上挑一个点,再把对应老师请过来,在这个点给出正确的箭头。


查询构造:在学生轨迹的低噪声点,向选中的老师场做一次速度对齐

第三招是挑哪个点、怎么对齐。论文只挑一个点(K=1),而且挑低噪声端,也就是接近成品、图像语义已经比较清晰的那一段。对齐用最朴素的方式:学生的箭头和老师的箭头做一次均方误差(MSE),没有奖励模型,没有对抗判别器。消融数据摆得很直接:硬路由配单点MSE拿到5.751,换成软融合掉到4.994;查询点从1个加到16个,分数反而从5.751跌到5.127。少即是多,在这里是字面意义上的。

三招合起来,同一个学生模型在图像编辑评测GEditBench上、文生图加编辑的组合拿到5.347,比最强的同类蒸馏基线高8.1%;在更拧巴的局部编辑加全局编辑组合上5.498,比最强对照高16.1%;与此同时,衡量文生图基本功的GenEval不降反升。加法这次没再变成减法。前面说的CFG,在这里也被当成另一个速度场,一并吸收了进来。


论文定性效果:一个模型支持多种编辑,同时保住原有文生图能力

几十行代码能看见的差别

DanceOPD的官方代码还没放出来,GitHub上标着"等待批准发布",计划支持SD3.5、Z-Image等开源底座;论文用的Seedream、SeedEdit教师模型也不开源。严格说,这篇论文的图像级结果眼下没法在外部复现。

但它最核心的机制——硬路由加on-policy远好于软融合——不需要大模型也能看见。几十行Python、一个二维玩具就能跑出来,几秒就能出结果。

构造很简单:两个目标分布代替两种能力,一个圆环当"文生图",四个角的四簇点当"编辑",各配一个冻结的老师速度场。然后用三种策略训同一个小网络,让它同时还原这两个分布。

软融合那组,把两个老师的箭头平均着教。跑完一看,让它生成圆环时,它给出的是四个角的点簇——文生图的能力被编辑带串了味,正好对上论文开篇那句"editing degrades T2I"。换成DanceOPD的硬路由加on-policy,圆环是圆环、四簇是四簇,两个能力都干干净净。量化上,到目标分布的平均偏差从软融合的0.239降到0.028,降了约88%。


软融合把两个能力糊成一团,DanceOPD 两个都保住 越接近左列越好

对字节这种已经把多能力生图做成产品的玩家,这条机制的价值不抽象。Seedream 4.0把生图和编辑统一进一个架构,工程上要按住的"互相拖累",DanceOPD在研究层面给了一个干净的答法。也给AI生成图片的直接修改,提供了一个高效的路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6月9日俄乌最新:三路齐发攻击莫斯科

6月9日俄乌最新:三路齐发攻击莫斯科

西楼饮月
2025-06-09 17:50:48
男孩喝下一整瓶碘伏后,胃镜和CT都没找到病因,腹痛却越来越重!这种病差点被漏诊丨医起推理吧

男孩喝下一整瓶碘伏后,胃镜和CT都没找到病因,腹痛却越来越重!这种病差点被漏诊丨医起推理吧

医脉通
2026-06-28 18:07:27
100%国产化!中国拿下"人造太阳"核心部件

100%国产化!中国拿下"人造太阳"核心部件

环球零碳
2026-06-30 01:35:59
63岁句号近况曝光!二婚娶小11岁丫蛋低调生女,如今幸福圆满

63岁句号近况曝光!二婚娶小11岁丫蛋低调生女,如今幸福圆满

落雪听梅a
2026-06-29 20:03:38
世界杯|这份榜单上两人对阵德国时进球,04一代“60大新星”混得如何

世界杯|这份榜单上两人对阵德国时进球,04一代“60大新星”混得如何

上观新闻
2026-06-30 07:33:41
张柏芝早年和粉丝合影,素颜比化了妆还精致,真不愧是骨相大美人

张柏芝早年和粉丝合影,素颜比化了妆还精致,真不愧是骨相大美人

木子爱娱乐大号
2026-06-25 17:39:00
定居台湾的姑姑回大陆,显摆自己住150平豪宅,我:去我家看看

定居台湾的姑姑回大陆,显摆自己住150平豪宅,我:去我家看看

红豆讲堂
2025-06-27 10:54:06
已经宣布独立建国,但中国拒不承认的10个国家!

已经宣布独立建国,但中国拒不承认的10个国家!

老达子
2026-06-12 06:35:04
半导体连续上涨,要不要减仓做个T?

半导体连续上涨,要不要减仓做个T?

风风顺
2026-07-01 03:05:03
云南一县医院给30岁男患者输液,输成55岁女性患者的药;男患者:到第二瓶才发现,幸亏药是一样的,否则我就没命了

云南一县医院给30岁男患者输液,输成55岁女性患者的药;男患者:到第二瓶才发现,幸亏药是一样的,否则我就没命了

大风新闻
2026-06-30 18:04:03
震惊!网传一退休返聘老教授,连续20分钟坐着讲课被处分,引热议

震惊!网传一退休返聘老教授,连续20分钟坐着讲课被处分,引热议

火山詩话
2026-06-29 12:05:32
日媒:日本队1-2憾负巴西后,田中碧遭社媒网暴!

日媒:日本队1-2憾负巴西后,田中碧遭社媒网暴!

随波荡漾的漂流瓶
2026-06-30 16:50:01
当00后开始杀入相亲场,择偶标准大改!80、90后大龄剩女出路在哪

当00后开始杀入相亲场,择偶标准大改!80、90后大龄剩女出路在哪

王二哥老搞笑
2026-06-19 10:44:04
为什么今年没人提“消费降级”了?

为什么今年没人提“消费降级”了?

黯泉
2026-05-20 17:47:21
papi酱自曝曾因“21天减肥法”致肠梗阻!休养两三年,如今每天只吃两餐

papi酱自曝曾因“21天减肥法”致肠梗阻!休养两三年,如今每天只吃两餐

草莓解说体育
2026-06-30 11:00:42
老杜和威断舍离了!

老杜和威断舍离了!

蜻蜓世音
2026-06-30 10:18:36
霸气,巴特勒的经纪人谈詹姆斯和戴维斯可能加盟勇士队的传闻

霸气,巴特勒的经纪人谈詹姆斯和戴维斯可能加盟勇士队的传闻

好火子
2026-06-30 04:34:20
肺癌半数是治死的?医生直言:肺癌发现后不治,身体或有5种变化

肺癌半数是治死的?医生直言:肺癌发现后不治,身体或有5种变化

医学原创故事会
2026-05-21 00:10:04
18年前,四川女警“揭衣露乳”哺育婴儿,连升四级别后,如今怎样

18年前,四川女警“揭衣露乳”哺育婴儿,连升四级别后,如今怎样

诺诺谈史
2026-06-30 05:46:03
曾谄媚美国空气香甜的杨舒平,当年父母台下坐,如今改名全家搬走

曾谄媚美国空气香甜的杨舒平,当年父母台下坐,如今改名全家搬走

人生录
2026-06-21 20:28:31
2026-07-01 03:59:00
AI唱反调 incentive-icons
AI唱反调
在这里,听见不一样的 AI 声音。
36文章数 0关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

艺术
数码
旅游
本地
公开课

艺术要闻

18幅 现当代著名画家作品

数码要闻

曝微软停产Surface Go与Surface Laptop Go,无后续机型研发计划

旅游要闻

云南这条山沟,为啥敢叫潇湘?看过山水才懂古人浪漫!

本地新闻

贵州小城的新目标:举办“村超”世界杯!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版