![]()
这项由清华大学与腾讯混元联合开展的研究,以预印本形式于2026年4月28日发布在arXiv平台,论文编号为arXiv:2604.25636。有兴趣深入了解的读者可通过该编号检索完整论文。
当你用语言告诉一位画家"请画三张长椅排成一排",但他交出的作品里只有两张椅子,或者椅子摆放得歪歪扭扭,你会怎么办?你可以告诉他"这里缺一张椅子",让他在原画上修改;也可以干脆把画收起来,给他看一眼草稿,然后说"按照我的要求重新画一幅"。这两种方式听起来差别不大,但这项研究证明,第二种方式产生的效果要好得多——而且好出人意料地多。
这就是这篇论文的核心故事。研究团队发现,目前主流的AI图像"修图"方式走错了路,并提出了一种名为"通过重新生成来精炼"(Refinement via Regeneration,简称RvR)的新框架,把AI的图文匹配得分从0.78一路拉升到0.91(在Geneval基准测试上),并在其他多个评测中也取得了显著进步。
一、为什么AI生成的图片有时和你说的对不上?
现代AI绘图系统已经能够生成令人叹为观止的高清图像,但它们有一个顽固的弱点:一旦你的要求稍微复杂一点,比如"一只没有尾巴、全身由透明玻璃构成、带着蝴蝶翅膀的猫,背景简洁",它就很容易在某个细节上栽跟头——可能猫有尾巴,可能背景很复杂,可能翅膀不见了。这类问题在涉及多个物体、复杂空间关系、特殊属性(比如"没有"、"由……构成")时尤为突出。
研究人员把这类AI绘图工具称为"统一多模态模型",英文缩写UMM。所谓"统一",是指这些模型同时具备看图理解、文字生成、图像创作三种能力,就像一位既能读稿、又能构思、还能动笔的全能画家。这种全能性带来了一个新的可能:让AI在画完一张图之后,自己回头检查,发现哪里画错了,然后修正。这个"自我检查与修正"的过程就叫做图像精炼(image refinement)。
二、现有的"修图"方式究竟哪里出了问题?
目前学术界和工业界最常见的做法,是让AI分两步走:第一步,让AI看着自己画的图和原始文字要求,生成一段"修改指令",比如"图中应该再加一张椅子";第二步,AI按照这段指令,在原图上做局部修改。研究团队把这种路径称为"通过编辑来精炼"(Refinement via Editing,简称RvE)。
听起来合情合理,但这种做法有两个根本性的缺陷,就像一位画家被强制要求"只改局部、不动其余部分",最终受到了这个规矩的拖累。
第一个缺陷是,AI在第一步生成的"修改指令"往往不够完整。还是以三张长椅为例,AI可能只发现了"少一张椅子"这个问题,却忽略了原图中扶手太多、椅子排列不自然这些同样需要修正的问题。就好比请一位学生批改作文,他只标出了错别字,却没有指出逻辑混乱的句子——后续只按这张批改单修改,作文依然不合格。
第二个缺陷更为根本:编辑模式要求AI在改动某些区域的同时,把其余区域保持像素级别的不变。这个"不改就是不改"的规矩对于图像编辑任务(比如"把红色的花改成蓝色")是合理的,但对于图像精炼任务来说却是个不必要的束缚。假如原图中有一扇巨大的窗户占据了一半画面,而正确答案需要在那里放一张沙发,编辑模式的AI会尽力在窗户旁边塞进一张变形缩小的沙发,结果反而更难看。因为它不被允许动那扇窗户。
研究团队把这个问题概括为:编辑模式不必要地缩小了"可修改空间",让AI的手脚被绑住了,自然达不到最好的效果。
三、"重新生成"的思路:给画家更大的自由度
清华与腾讯的研究团队提出的RvR框架,选择了一条完全不同的路。他们不再要求AI生成修改指令,也不再要求AI对原图进行局部修改。取而代之的是,AI在看完原图和文字要求之后,从头生成一张新图——但这个"从头"并不是完全遗忘,而是带着原图的"语义记忆"重新出发。
具体来说,这个框架只保留了原图经过一个视觉理解网络(ViT,一种专门提取图像高层语义信息的网络)处理后得到的"语义令牌"。你可以把这些令牌理解为AI对原图内容的高层理解——比如"这张图里有一个公园场景,有树、有草坪、有长椅"——而不是原图的像素数据。AI拿着这份"语义摘要"和用户的文字要求,重新生成一张新图。
这种做法有两个关键优势。其一,AI直接对照用户的原始要求来创作,不依赖中间那段可能残缺的修改指令,避免了错误的叠加传递。其二,AI不再被像素级别的一致性所束缚——如果整体构图需要大改,它就可以大改,只要最终结果符合用户要求即可。就像那位全能画家,在了解了你想要什么之后,参考了一下草稿的整体风格,然后干脆利落地重新画了一幅,而不是在草稿上磕磕绊绊地打补丁。
四、训练数据怎么准备?一条更简洁的流水线
有了新思路,还需要用合适的数据来训练AI。RvE方法的训练数据需要三要素组成的三元组:原图、按照指令修改后的图、修改指令本身。要构建这样的数据,必须确保修改图与原图在未改区域像素高度一致,这个要求极大地增加了数据构建的难度和成本。
RvR的训练数据构建则简单得多,分为三个步骤。第一步是生成多样化的文字提示(prompt)。研究团队请一个大型语言模型(具体使用了Gemini)充当出题员,每次随机抽取一到五个语义维度(比如风格、世界知识、数量关系、属性描述等),然后生成一段同时包含这些维度的文字提示,确保题目足够多样和有挑战性。
第二步是让多个不同的AI绘图系统(研究团队使用了BAGEL和GPT-4o)独立根据这段提示各自画一张图。这里的关键在于,两个系统画出的图之间没有任何像素级别的对应关系,完全是各自独立创作的结果。这种独立性正是RvR所需要的——训练数据不再强迫AI去记忆"从这个像素变成那个像素",而是学习"从这种语义状态升级到那种语义状态"。
第三步是请一个视觉语言模型(同样使用Gemini)当评委,判断每张图和原始提示的匹配程度,把它标记为"对齐"或"不对齐"。最终,每道题对应一个三元组:一张不够对齐的图(作为"输入草稿")、一张高度对齐的图(作为"目标成品")、以及那段文字提示。整个流程不需要人工标注修改指令,也不需要保证两张图在内容上有对应关系,因此可以大规模、低成本地自动化生成。
五、训练和推理:AI如何学会"看着草稿重新画"
在训练阶段,AI拿到四样东西:一段系统提示(类似于"分析图与要求的差距,然后重新生成一张完全符合要求的图")、原始不对齐图的语义令牌、用户的文字要求、以及目标对齐图加上噪声之后的版本。AI的任务是从这些输入出发,预测如何一步步去除噪声、还原出目标图像。整个训练过程采用了一种叫做"流匹配"的技术,类似于教AI学会在一堆雪花(噪声)中逐步雕刻出清晰的图像。
值得注意的是,与RvE的训练相比,RvR在训练过程中特意去掉了一样东西:原图的像素级VAE特征(VAE是另一种专门提取图像低层像素信息的网络)。RvE之所以需要这些低层像素特征,是因为它要求AI输出结果与输入图像在像素上高度吻合。但RvR不需要这种约束,保留这些特征反而会让AI倾向于"抄近路",照着原图的像素依样画葫芦,而不是真正按照用户要求重新创作。实验结果也印证了这一点:去掉低层像素特征后,模型性能反而更好。
在推理阶段,流程极为简洁:给AI看一张待改进的图和用户的文字要求,AI在语义令牌的引导下从纯噪声出发,经过50步去噪,生成一张新图。全程不需要中间的修改指令,不需要对原图做局部遮盖,也不需要指定哪些区域应该修改、哪些区域应该保留。
六、实验数据说明了什么?
研究团队在三个主流的图文匹配评测基准上进行了验证:Geneval(专注于短句中的物体组合关系)、DPGBench(测试密集语义提示的匹配程度)以及UniGenBench++(覆盖更广泛的语义维度)。这三个基准可以理解为三种不同难度和侧重的考试——有的侧重"数数题"(图里有几个物体),有的侧重"理解题"(物体之间的复杂关系),有的则是综合卷。
以底座模型BAGEL作为基准,RvR的提升幅度相当显著。在Geneval上,得分从0.78提升到0.91;在DPGBench上,从84.02提升到87.21;在UniGenBench++上,从61.53跃升到77.41。横向对比来看,RvR也明显超过了同样基于BAGEL的RvE方法:在Geneval上,最强的RvE方法得分约为0.85,而RvR达到了0.91;在UniGenBench++上,最强RvE方法约为69.86,RvR则为77.41。
在Geneval的细分维度上,RvR在"数数"(counting)这个维度上的提升尤为突出,从原始的0.78提升到0.91,而位置关系(position)维度的得分也从0.50大幅提升到0.86。这两个维度恰恰是AI绘图最容易出错的地方,也是RvE方法最难以彻底修正的地方——因为纠正数量或位置关系往往需要对整体构图进行较大调整,而不是局部补丁。
对比其他非统一模型系统(如FLUX.1-dev和SD3-Medium),RvR加持后的BAGEL也达到了当前最先进的水平,这意味着通过精炼机制,一个统一多模态模型可以在文图匹配质量上追平甚至超越专门的图像生成系统。
七、多轮精炼:一遍不够,就再来一遍
RvR框架天然支持多轮迭代。第一轮精炼之后,如果有些语义问题仍未解决,可以把精炼后的图再次送入RvR,进行第二轮精炼。研究团队通过实验验证了这种迭代的有效性:在某些案例中,第一轮精炼后橘子的颜色仍然不完全正确,经过第二轮精炼后,颜色偏差被进一步纠正。同样地,某张图中出现了本不应有的"背景土星",第一轮未能清除,第二轮则成功去掉。
另一方面,研究团队也担心过度精炼会"改坏"已经正确的内容。实验结果表明,这种担心是多余的:对于第一轮精炼后已经完全对齐的图像,强行进行第二轮精炼不会破坏正确的语义内容,有时甚至会进一步优化一些细节(比如把只有一个扶手的长椅改成了更自然的无扶手设计)。
八、RvR究竟是在参考原图,还是在无中生有?
有一个合理的疑问:RvR既然号称是"重新生成",那它和直接忽略原图、重新文字生成一张图有什么区别?为了回答这个问题,研究团队设计了一个刻意刁难的实验——给RvR提供一张和目标语义完全不同的图(比如你想要"鲨鱼在海里游泳",但给它看的初始图是一片草地和树林),然后观察它的行为。
结果很有启发性。当初始图的内容与目标语义相容时(比如你想要"狗在打滚",初始图虽然是另一只狗在草地上,草地这个背景并无违和感),RvR会智能地把草地、树木等相容元素保留在新生成的图中,只把不符合要求的部分重新创作。这说明它确实在参考原图的语义,而不是完全无视它。
相反,当初始图的内容与目标语义强烈冲突时(比如你想要"一只在海里游泳的鲨鱼",初始图却是草地和树木——海洋与陆地完全矛盾),RvR会果断放弃原图的语义,生成一张全新的、符合要求的图。这种"能复用就复用,必须放弃就果断放弃"的灵活性,正是RvR相比RvE更高效的原因之一:它既不像RvE那样死守原图像素,也不会因为原图语义太差而无所适从,而是根据实际情况做出最合理的选择。
九、消融实验:哪些设计真正起了作用?
研究团队通过一系列对比实验,验证了RvR各个设计决策的必要性。
首先是精炼训练本身的价值。为了验证RvR的性能提升是来自精炼机制还是仅仅来自高质量的微调数据,研究团队做了一个对照:把RvR训练数据中的"不对齐图"丢掉,只保留"对齐图和文字对",然后用这些数据对BAGEL做普通的监督微调(SFT)。结果DPGBench得分从84.02只提升到84.62——几乎没有进步。这说明RvR的性能提升主要来自精炼机制本身,而不是来自数据的质量提升。
其次是编辑数据的影响。研究团队尝试把常见的图像编辑数据(即那些"原图+编辑图+编辑指令"的三元组,其中编辑图与原图在未改区域像素高度一致)加入RvR的训练中,结果DPGBench得分从87.21下降到85.70。这印证了核心论点:像素级一致性的数据会让AI重新学回"抄原图"的倾向,从而压缩可修改空间,降低精炼效果。
最后是低层VAE像素特征的影响。如前所述,在推理阶段引入原图的低层VAE特征会导致性能从87.21小幅下降到86.41,同样说明这些特征对于语义精炼任务来说是多余的负担。
说到底,这项研究告诉我们一个非常反直觉的事实:当你想让AI把一张图改得更好时,给它更多的约束("必须保留原图的像素"、"必须先写出修改指令")不但没有帮助,反而会成为拖累。放开束缚,让AI在高层语义的引导下自由发挥,结果反而更好。
这对我们理解AI系统的设计有着重要的启示。我们习惯于认为"约束越多、越精确,结果越可控",但在某些任务中,过度的约束恰恰会阻止AI找到真正好的解答路径。RvR的成功,本质上是一次对任务定义的重新审视——把"修改"变成"重建",把"遵守原图"变成"参考原图",思路转变的收益远超技术细节上的打磨。
当然,这套方法目前还需要额外的推理开销(多跑一轮生成),在追求极致速度的场景下可能有所限制。但随着AI硬件和推理效率的持续提升,这个代价将会越来越小。未来,AI绘图系统或许会把"先画一遍、再精炼一遍"作为标准流程,就像人类画家起稿之后再精修一样,成为理所当然的工作方式。有兴趣深入研究这套框架细节的读者,可通过arXiv编号2604.25636查阅完整论文。
Q&A
Q1:RvR和普通AI重新生成一张图有什么区别?
A:RvR不是完全从零开始生成,而是把原图通过视觉理解网络转化为"语义摘要"(ViT令牌),然后结合用户的文字要求重新生成。这意味着AI会参考原图中与目标相容的内容(比如背景风格、场景元素),同时对不符合要求的部分自由修改,不受原图像素的束缚。普通重新生成则完全忽视原图,结果可能和原图在风格或场景上差异很大。
Q2:RvR精炼之后还能再精炼吗?效果会不会越来越差?
A:可以多轮精炼,而且实验表明第二轮精炼确实能进一步纠正第一轮遗留的问题。对于已经对齐正确的内容,额外的精炼轮次不会破坏它,有时还能改善细节。不过研究目前主要验证了两轮的情况,极多轮次后的行为还有待进一步研究。
Q3:RvR的训练数据如何保证质量?
A:训练数据通过三步自动化流水线构建:先用大语言模型生成覆盖多种语义维度的文字提示,再用多个不同的AI绘图系统独立生成候选图像,最后用视觉语言模型(Gemini)评判每张图与提示的匹配程度,自动筛选出"对齐"与"不对齐"的图像配对。整个过程不需要人工标注,可以大规模自动化执行。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.