网易首页 > 网易号 > 正文 申请入驻

达姆施塔特工业大学等机构揭示图像生成模型的多目标生成困境

0
分享至


这项由德国达姆施塔特工业大学与黑森AI研究中心、德国图宾根大学、英国牛津大学视觉几何研究组以及韩国科学技术院联合开展的研究,以预印本形式于2026年4月30日发布,论文编号为arXiv:2605.00273v1。

你有没有试过让AI图像生成工具画出"三只猫坐在沙发上",结果得到的却是一只猫、或者四只猫、甚至猫和沙发奇怪地叠在一起的画面?这种令人哭笑不得的情形背后,藏着一个现代AI系统至今仍未完全解决的核心难题。

近年来,以Stable Diffusion、DALL-E等为代表的文字生成图像技术飞速发展,它们能够根据一句描述生成令人叹为观止的照片级画面。然而,当你要求这些系统同时处理多个物体时,它们的表现往往让人大跌眼镜。研究团队的测试显示,这类模型在生成单个物体时准确率超过80%,但一旦涉及多个物体的组合场景,准确率常常跌破50%。简单来说,让AI画一只红苹果,基本没问题;让它画"一只红苹果和一个蓝杯子放在桌子左边",事情就开始失控了。

这究竟是为什么?研究团队决定像一名侦探一样,系统地追查这个问题的根源。他们的核心怀疑对象是训练数据本身——也就是AI学习的"教科书"。为了验证这个猜想,他们设计了一套精密的实验框架,专门用来控制和观察不同数据条件对AI能力的影响。这套框架被命名为MOSAIC,代表多目标空间关系、属性归因与计数,这三个维度正是多物体生成任务中最常见、也最容易出错的能力类型。

一、从"教科书"说起:训练数据到底藏着什么秘密

要理解AI为什么会在多物体场景中犯错,首先需要搞清楚AI是怎么学习的。这些图像生成模型靠的是海量的"图文配对"数据来训练——也就是大量带有文字描述的图片。模型通过反复观察"这张图片对应这段描述",逐渐学会如何根据文字指令生成对应的图像。

研究团队首先去检查了目前最主流的训练数据集LAION-2B——这是一个包含约20亿图文配对的巨型数据库,很多主流AI图像生成系统都用它训练过。他们发现了一个很有意思的现象:在这个数据集里,描述"一个物体"的文字配对数量远多于描述"两个物体"的,而"两个"又多于"三个",以此类推。也就是说,AI在学习过程中见过无数次"一只狗",但见过"六只狗排成一排"的次数少得可怜。更进一步,他们把LAION-2B中不同数量词出现的频率,与Stable Diffusion 3(一款当前最先进的生成模型)在计数任务上的准确率做了对比,发现两者之间存在明显的相关性——某个数字在训练数据里出现得越少,模型生成那个数量物体时就越容易犯错。

这个发现给了研究团队一个重要线索:数据分布的不均衡,也就是"有些概念出现得多,有些出现得少",可能是导致AI在多物体生成上表现不佳的原因之一。但仅仅是这一个原因吗?还是说还有其他更深层的机制在作怪?带着这个问题,他们设计了两个核心研究方向:第一,当AI已经在训练中见过所有相关概念,但有些概念见得多、有些见得少时,它的表现会如何?第二,当AI从未见过某些概念的特定组合时,它能不能自己"推理"出来?

二、MOSAIC:为AI设计的"标准化考场"

为了公平、可控地回答这两个问题,研究团队建造了一套专门的实验平台,就像一个专为检测AI能力而设计的标准化考场。MOSAIC框架通过3D渲染技术生成了大量精心设计的图像,每张图像都经过严格的参数控制,确保研究人员能够准确地知道"变量"是什么,从而得出可靠的结论。

这套考场一共设有三个不同的考试科目。第一个科目叫做"属性归因",考查的是AI能否把颜色属性正确地匹配到对应的物体上。具体做法是:图中有一个球和一个正方体,它们各自有独立的颜色,AI需要根据文字描述正确生成。比如,描述说"黑色的球和蓝色的正方体",AI生成的图里球就必须是黑色,正方体就必须是蓝色,不能搞反。研究团队使用了10种不同颜色,这意味着球和正方体的颜色组合共有100种可能性,是个相当有挑战性的测试。

第二个科目叫做"空间关系",考查AI能否准确理解并表现物体之间的位置关系。具体做法是:图中有一个固定的棕色球作为参照物,另一个彩色球被放在参照物的不同方向上——研究团队把360度的圆圈均匀分成10个区域,每个区域对应一种空间关系类别。AI需要根据描述的角度,把第二个球放在正确的位置上。

第三个科目叫做"计数",也是三个科目里被证明最困难的一个,它考查的是AI能否生成指定数量的物体。图中只有蓝色的球,数量从1个变化到10个,AI需要准确生成被要求数量的球,不多不少。

这三个科目的巧妙之处在于,它们被设计成尽可能排除干扰因素:背景颜色固定,相机角度固定,物体大小固定,唯一在变化的就是被测试的那一个变量。这就好比给一个学生做减法测验,不把他放在嘈杂的操场上,而是在安静的考室里,确保他的分数只反映他的减法能力,而不是受环境干扰。

三、教数据"偏心"究竟影响有多大?

第一个大实验考查的是概念泛化能力——也就是"AI能不能可靠地学会每一个单独的概念"。研究团队准备了两种不同的训练数据分布:一种是"均匀分布",每种颜色、每个数量、每种角度的训练样本数量都一样多;另一种是"偏斜分布",模拟真实数据集里的不均衡现象,比如计数任务中数字1和2的样本最多,随着数字增大样本越来越少。此外,他们还用了2千张、1万张、5万张和10万张四种不同规模的训练数据进行实验。

实验结果给出了一个出人意料的答案。对于属性归因和空间关系这两个科目,无论是均匀分布还是偏斜分布,无论数据量是2千还是10万,AI的表现都相当稳定,准确率基本保持在90%以上。也就是说,数据不均衡对这两类任务的影响非常有限,只要AI见过某种颜色或某个角度,它就能学会。

然而,计数任务的情况截然不同。研究人员发现了一个奇特的"V形陷阱":当训练数据只有2000张时,模型准确率接近完美,这是因为样本太少,模型其实只是在死记硬背,就像学生把答案背下来而不是真正理解了题目;当数据增加到1万张和5万张时,准确率反而大幅下降,跌到了60%-80%左右;只有当数据量达到10万张时,准确率才重新攀升回较高水平。这个倒V形的怪异曲线意味着,在数据量中等的阶段,模型处于一种"死记背不过来,真正理解又没达到"的尴尬中间地带。

四、"记背"与"真懂"之间的危险地带

为了深入理解这个奇特的计数困境,研究团队进一步检查了模型在训练过程中的详细行为,就像一位教师不只看期末考试成绩,还要分析学生平时是靠理解还是靠背题来应付。

他们引入了一个"记忆化率"的指标,用来衡量模型生成的图片和训练图片有多相似——如果一张生成的图片和某张训练图片在像素级别上非常接近,说明模型只是在"复读",而不是真正学会了如何生成。结果显示,在数据量很少(2000张)时,三个科目的记忆化率都接近100%,这证实了此时的高准确率是靠死记硬背撑起来的。随着数据量增加,记忆化率逐渐下降。但关键的差异在于:对于属性归因和空间关系,当记忆化率下降时,真正的泛化能力接替了记忆化,准确率保持稳定;而对于计数,记忆化能力消退了,但真正的理解能力还没有建立起来,准确率就掉进了这个"真空地带"。

研究团队还观察了训练过程中每一步的准确率变化曲线,这就好比给学生做了全程追踪的学习记录。对于属性归因和空间关系,准确率曲线很快上升并稳定下来;但对于计数,曲线会先升到一个峰值,然后随着训练继续进行而不断下降——即使训练损失(AI自己衡量自己表现的指标)在持续降低,准确率却在恶化。这说明AI在优化一些与"数对了多少个物体"无关的其他方面,而逐渐忘掉了数数这件事。

更细致的分析还揭示了"哪些数字最先崩溃":在10000张训练数据的条件下,生成1个物体的准确率是100%,生成2-3个物体还勉强可以,但生成6-10个物体的准确率急剧下滑,最低跌到44%。也就是说,越多的物体,越难学会。

五、为什么计数比颜色匹配难那么多?

发现了计数任务的独特困难之后,研究团队开始追问:这到底是计数本身的概念太难,还是因为要生成许多物体时场景本身变得复杂了?这是两个不同的问题,就好比问一个孩子不会做算术,是因为他不理解加减法的概念,还是因为题目太长、他注意力散了?

为了区分这两种可能性,研究团队为属性归因和空间关系任务设计了"复杂版本"——原本这两个任务的图中只有2个物体,研究人员把物体数量增加到最多10个,让场景复杂程度与计数任务相当。结果非常清晰:当场景复杂度增加后,属性归因和空间关系的准确率也出现了明显下降,尽管下降幅度没有计数任务那么剧烈。这证明了"场景复杂度"本身就是一个独立的挑战因素,而不是计数任务的专属难题。

接着,他们又做了一个反向实验:为计数任务设计了"简化版本",通过在场景中引入一个隐形的"格子",把每个物体应该放在哪里提前规定好,减少物体位置的随机性,降低场景的空间复杂度。结果同样非常有说服力:引入格子之后,计数准确率在各种数据量和数据分布条件下都大幅提升。这说明计数之所以难,很大程度上是因为当物体数量增加时,如何在空间中合理安排它们变成了一个巨大的挑战,而不仅仅是"记住要画几个"那么简单。

研究团队还深挖了一个有趣的现象:为什么模型的训练损失在下降,但计数准确率反而在恶化?他们检查了模型内部负责处理"条件指令"的嵌入向量——可以把这些向量理解成模型对"要生成几个球"这个指令的内部记忆痕迹。结果发现,当数据量只有1万张时,代表不同数量(1到10)的向量在空间中彼此挤在一起,难以区分,就像一堆密密麻麻的点标在地图上同一个位置;而当数据量达到5万和10万时,这些向量才逐渐分散开来,形成清晰的区分。模型"混淆了"不同数量之间的区别,自然就无法准确生成了。

六、当"从没见过的搭配"出现时,AI能自己推理吗?

研究的第二个大方向考查的是组合泛化能力。这是一个更接近人类直觉的问题:如果你知道"红色"是什么,也知道"苹果"是什么,那么即使你从来没见过"红苹果",你也能理解并想象出来。AI能做到这一点吗?

研究团队设计了一个精妙的实验结构,利用一个二维的"概念组合矩阵"来控制哪些组合是AI在训练中见过的,哪些是完全陌生的。以计数任务为例,横轴是物体颜色(10种颜色),纵轴是物体数量(1到10个),矩阵中的每个格子代表一种颜色-数量组合。他们的实验策略是"去掉对角线"——比如去掉第一条对角线,意味着(红色-数量1)、(绿色-数量2)……(黑色-数量10)这十种组合在训练时完全没有出现过。去掉的对角线越多,训练中没见过的组合就越多,对AI的挑战就越大。

实验结果揭示了一个令人沮丧的规律:随着越来越多的组合从训练数据中被移除,AI在这些"未见过的组合"上的准确率快速下滑。即使把数据量从1万增加到10万,下滑的趋势依然存在,只是幅度略有减缓。当去掉一半以上的组合(8条对角线)时,AI几乎完全失去了在未见过组合上的表现能力。

不同任务之间,这种崩溃的速度也有所差异。属性归因任务(颜色-颜色组合)的抗崩溃能力最强,因为颜色这个概念相对简单,而且颜色与颜色之间有一定的感知相似性,模型更容易从相邻的已见组合中推理。计数任务居中。而空间关系任务则是最脆弱的——一旦某些角度-颜色的组合没有出现在训练中,模型对那些角度的理解就会全面崩溃,预测结果呈现出杂乱无章的分布,没有任何规律可循。

研究团队还尝试了一个有趣的补救措施:把模型内部处理"指令理解"的部分替换成一个经过专门优化、能够清晰区分不同概念的版本。按照某些理论,如果AI的"理解指令"部分更清晰,组合泛化能力应该会提升。然而实验结果表明,这种替换只带来了边际性的微小改善,组合泛化能力并没有实质性恢复。这说明问题不在于AI"听不懂指令",而在于AI的图像生成过程本身缺乏把两个概念独立、灵活地组合在一起的机制。

七、这些发现在更真实的场景下还成立吗?

为了确认在高度受控的实验室环境下得出的结论不是"纸上谈兵",研究团队做了两组额外的验证实验,把实验环境推向更接近真实世界的复杂条件。

第一组实验是在Stable Diffusion 3这款成熟的商用级别生成模型上做微调测试。他们使用了SPEC基准数据集——这是一个包含真实照片的数据集,图片中有各种真实物体、复杂背景和遮挡关系,和MOSAIC的卡通风格3D场景大相径庭。他们用1500对图文数据对SD3进行了微调训练,并观察训练过程中计数和空间关系这两项能力的变化。结果和MOSAIC实验的结论高度一致:随着微调训练的进行,空间关系识别能力稳步提升,生成的图像越来越能正确反映描述中的位置关系;但计数能力在微调过程中持续恶化,生成的图像中物体数量越来越不准确,尽管图片本身看起来很真实。换句话说,让AI"看更多真实照片"对于提高空间关系表达有帮助,但对于计数能力反而起到了反效果。

第二组实验是在"物体共现"场景下测试组合泛化能力。这次,研究团队构建了一个更开放的场景:从10类真实物体(自行车、沙发、椅子、狗、床、笔记本电脑等)中选出两个,生成一张包含这两个物体的图片。训练时,某些物体对从来没有在同一张图中同时出现过,就像你从来没见过"笔记本电脑和马"同框,测试时却要求AI生成这个组合。结果表明,训练时见过的组合生成准确率保持较高,但对于从未见过的组合,准确率随着被移除的组合数量增加而快速下滑,与MOSAIC实验的结论完全吻合。许多时候,AI面对陌生组合时会"选择放弃",只生成其中一个物体,或者生成一个错误的次要物体来凑数。

八、这告诉我们什么,以及研究的边界在哪里

归根结底,这项研究揭示了当前AI图像生成模型在多目标场景下失败的两个深层原因。其一,场景复杂度本身就是一个巨大挑战,当画面中物体数量增加时,模型需要同时处理的信息呈指数级增长,而它的学习机制并不擅长应对这种情况,除非有足够多的训练样本来"暴力覆盖"所有可能性。其二,组合泛化能力是一种更根本的缺失:模型无法像人类那样把"知道红色"和"知道苹果"这两件事灵活拼起来,去理解从没见过的"红苹果"。

这两个发现共同指向一个结论:仅靠堆更多数据或调整数据分布,并不足以彻底解决多目标生成的失败问题。模型本身的结构需要进行更深层的改变,比如引入能够强制模型学习独立概念的"归纳偏置",或者在训练时加入专门鼓励组合推理的机制。

当然,这项研究也有它的局限性。实验主要在受控的合成数据集上进行,虽然有部分延伸实验验证了结论的普适性,但和真实世界的海量真实图片场景相比,仍然存在一定的简化。此外,研究聚焦于数据因素,并没有深入探讨模型架构本身的变化对这些问题的影响。研究团队也坦承,他们的目标是找出问题的根源,而不是直接提供一个"解决方案",如何利用这些发现来改进模型还需要后续工作来回答。

就这项研究来说,它更像是一份详细的"病理报告",告诉我们AI图像生成在多目标场景下到底病在哪里、病得多重。这份报告本身就已经很有价值——毕竟,只有搞清楚病因,才能开出对症的药方。对于使用AI生成工具的普通用户而言,这意味着下次你发现AI画错了物体数量或颜色归属,不必太惊讶,因为这是它骨子里的学习机制决定的,而不是偶然的失误。而对于研究者而言,这项工作明确指出了一个方向:未来的模型需要在结构层面引入更强的组合推理能力,才能真正征服复杂的多物体场景。如果你对这项研究的细节感兴趣,可以通过arXiv编号2605.00273查阅完整论文。

Q&A

Q1:扩散模型在多目标图像生成中最难学会的是哪种能力?

A:在三类多目标能力中,计数任务被证明是最难学会的。扩散模型在计数上会出现一种奇特的"中间地带崩溃"现象:数据量少时靠死记硬背能应付,数据量大时能真正学会,但在中等数据量阶段,记忆化失效而真正理解未建立,准确率会大幅下降。空间关系任务则在组合泛化场景下最为脆弱,一旦训练数据中缺少某些颜色与角度的组合,模型的表现会毫无规律地崩溃。

Q2:增加训练数据量能解决扩散模型的多目标生成问题吗?

A:仅靠增加数据量并不能根本解决问题。实验表明,数据量增加确实能在一定程度上提升准确率,但对于组合泛化问题(即生成训练中从未出现过的概念组合),即使将数据量从1万增加到10万,准确率的下滑趋势依然存在。当超过一半的概念组合未被观察到时,模型几乎完全失去泛化能力。研究团队认为,模型结构本身需要引入更强的组合推理机制,而不能仅靠堆数据来解决。

Q3:简化空间结构能帮助扩散模型学会计数吗?

A:有明显帮助,但并不能完全解决组合泛化问题。研究团队为计数任务引入了一种"网格布局",预先规定每个物体的大致位置区域,减少了位置的随机性。在这种设置下,计数准确率在各种数据量条件下都大幅提升,证明空间复杂度是计数困难的重要因素之一。然而,在组合泛化实验中,引入网格布局虽然对计数和空间关系准确率有所改善,但同时导致颜色识别准确率下降,整体表现并未显著优于无网格的设置。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

德鲁克博雅管理
2026-04-28 17:04:30
一句“我妈有两个老公”冲上热搜,OPPO紧急删文案并道歉

一句“我妈有两个老公”冲上热搜,OPPO紧急删文案并道歉

财视传播
2026-05-08 18:24:34
悲催!杭州一女子嫌国企丈夫没本事,携42万存款离婚,鸡飞蛋打了

悲催!杭州一女子嫌国企丈夫没本事,携42万存款离婚,鸡飞蛋打了

火山詩话
2026-04-27 06:40:09
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
特朗普:俄乌9日起停火三天 互换千名战俘

特朗普:俄乌9日起停火三天 互换千名战俘

新华社
2026-05-09 03:06:04
美草根兄弟伪装中东王子诈骗中国投资客上亿?租劳斯莱斯+私人飞机演全套,细节巨荒诞!

美草根兄弟伪装中东王子诈骗中国投资客上亿?租劳斯莱斯+私人飞机演全套,细节巨荒诞!

英国报姐
2026-05-08 21:13:26
全网吵炸!北京女大学生青海自驾游,幸存女孩一审被判4年,冤吗

全网吵炸!北京女大学生青海自驾游,幸存女孩一审被判4年,冤吗

一盅情怀
2026-05-08 09:07:58
新疆伊宁一青年投资500万元,在当地自建FIFA标准足球场

新疆伊宁一青年投资500万元,在当地自建FIFA标准足球场

懂球帝
2026-05-08 23:06:11
浙江女孩在意大利酒吧,遭流浪汉杀害,只因索要10欧元饭钱

浙江女孩在意大利酒吧,遭流浪汉杀害,只因索要10欧元饭钱

情感艺术家
2026-05-06 04:58:30
约合人民币22.1万元起,2026款丰田埃尔法入门车型发布,织物座椅

约合人民币22.1万元起,2026款丰田埃尔法入门车型发布,织物座椅

番外行
2026-05-09 08:36:55
黄子佼获缓刑4年,无需入狱服刑,他偷笑着走出法庭

黄子佼获缓刑4年,无需入狱服刑,他偷笑着走出法庭

素素娱乐
2026-05-08 09:01:53
张萌穿成这样去海边还让不让人玩了?

张萌穿成这样去海边还让不让人玩了?

时间巡查
2026-04-23 15:30:25
175年玻璃老厂翻身,靠光纤拿下英伟达超级订单

175年玻璃老厂翻身,靠光纤拿下英伟达超级订单

DeepTech深科技
2026-05-08 10:39:17
美意开打!两天内,全世界见证:美国的蠢,伊朗的精,中俄的绝

美意开打!两天内,全世界见证:美国的蠢,伊朗的精,中俄的绝

跳跳历史
2026-05-09 04:58:16
俄外交部:铭记历史 警惕日本“再军事化”威胁

俄外交部:铭记历史 警惕日本“再军事化”威胁

环球网资讯
2026-05-08 10:07:27
日本特务“特高课”,借尸还魂?

日本特务“特高课”,借尸还魂?

补壹刀
2026-05-08 08:59:46
伊朗没料到,打了一仗,没灭掉以色列,反在自家门口造出个更狠的

伊朗没料到,打了一仗,没灭掉以色列,反在自家门口造出个更狠的

晰知
2026-05-09 05:20:57
女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

蝴蝶花雨话教育
2026-05-07 00:05:04
iOS 26.5下周正式推送,一口气上线五大新功能

iOS 26.5下周正式推送,一口气上线五大新功能

环球网资讯
2026-05-08 10:49:06
A股突发!688496,将强制退市

A股突发!688496,将强制退市

中国基金报
2026-05-08 21:33:50
2026-05-09 09:27:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8282文章数 563关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

媒体:特朗普若顺利来华 将是美总统时隔十年再访中国

头条要闻

媒体:特朗普若顺利来华 将是美总统时隔十年再访中国

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

白宫:特朗普计划5月14日至15日访问中国

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

本地
艺术
家居
游戏
健康

本地新闻

用苏绣的方式,打开江西婺源

艺术要闻

清风拂面,心旷神怡

家居要闻

流动的尺度 打破家的形式主义

《生化危机9》为何不做极致恐怖 卡普空道出了原因

干细胞能让人“返老还童”吗

无障碍浏览 进入关怀版