Meta发布UniT：让AI像人类一样一步步思考和改进图像生成|算法|新论文|meta|unit

分享至

这项由斯坦福大学和Meta超级智能实验室联合开展的研究发表于2026年2月，论文编号为arXiv:2602.12279v1。对于想要深入了解技术细节的读者，可以通过该编号查询完整论文。这项突破性研究首次让AI模型具备了像人类一样进行多轮思考和自我改进的能力，就像一个学生在考试时会检查答案、发现错误并进行修正一样。

当你画一幅画时，很少会一笔画成完美作品。通常你会先画个草图，然后仔细审视，发现哪里不对劲，比如比例不协调或颜色搭配不好，接着你会擦掉重画，或者在原有基础上修改。这个反复琢磨、不断完善的过程，正是人类创作的精髓。然而，现有的AI图像生成系统却像是"一次性画笔"——它们只能一口气生成图像，无法像人类那样回头审视、思考改进。

这就是研究团队要解决的核心问题。他们开发了一个名为UniT的系统，让AI模型获得了三种关键的认知能力。第一种是验证能力，就像一个严格的质检员，能够仔细检查生成的图像是否符合要求。第二种是子目标分解能力，面对复杂任务时能够将其拆分成一系列简单步骤，就像做菜时会先备料、再炒制、最后调味一样。第三种是内容记忆能力，能够记住之前每一轮的修改内容，确保改进过程不会前功尽弃。

研究团队通过一个巧妙的训练策略让AI学会了这种多轮思考模式。他们让不同的AI模型扮演不同角色：一个负责生成图像，一个负责批评和检查，一个负责根据建议进行修改。这个过程会持续循环，直到生成满意的结果。通过观察这个过程，研究人员收集了大约12000个完整的思考轨迹，用来训练最终的UniT模型。

最令人惊喜的是，这个系统展现出了一种"举一反三"的能力。训练时它只看过平均3.6轮的思考过程，但在实际应用中，它能够自主进行平均4.7轮的深度思考，就像学生学会了解题方法后，能够解决比练习题更复杂的问题一样。

在多项测试中，UniT都表现出色。在图像生成质量评测中，相比一次性生成，它提升了10.34%的效果。在多轮图像编辑任务中，改进幅度更是高达225.19%。在视觉推理测试中，它的准确率提高了53.33%。这些数字背后反映的是AI思维方式的根本性转变——从"一锤定音"转向"深思熟虑"。

更重要的是，研究团队发现了一个令人鼓舞的现象：相比于同时生成多个候选答案然后选择最佳结果的传统方法，这种逐步思考改进的方式不仅效果更好，而且计算效率更高。具体来说，同样的计算资源下，逐步改进方法比并行生成方法的效果要好2.5倍。这就像是一个熟练工匠用心雕琢一件作品，比流水线批量生产出来再挑选的方式更加高效。

**一、AI如何学会像人一样思考和改进**

要让AI学会多轮思考，首先需要解决一个根本问题：如何获得高质量的思考过程数据。研究团队设计了一个精巧的数据生成系统，让三个不同的AI模型协作演出一场"思考大戏"。

在这个系统中，第一个AI扮演"画家"角色，负责根据用户描述生成初始图像。比如当用户要求"一个没有书只有相框的书架"时，这个AI画家会先画出一个草图。然而，这个初始版本往往不够完美，可能既有书又有相框，或者比例不对。

接下来轮到第二个AI出场，它扮演"批评家"角色。这个AI会仔细审视画家的作品，就像一个挑剔的艺术评论员。它会详细分析图像中的每个元素：有几本书、几个相框、它们的位置关系如何、颜色搭配是否合理等等。更重要的是，它会将发现的问题与用户的原始需求进行对比，明确指出哪些地方需要修改。

批评家AI不会简单地说"这不对"，而是会进行深入的思考推理。它会在内心默默分析："用户要求是没有书只有相框，但现在图像里既有书又有相框。首先需要把所有书籍移除，然后确保每个书架层都有相框。"这种思考过程会被完整记录下来，形成宝贵的训练数据。

第三个AI则是"修图师"，它会根据批评家的具体建议对图像进行修改。比如它会移除所有书籍，然后在适当位置添加相框。修改完成后，批评家会再次审视新图像，如果还有不满意的地方，就会继续提出改进建议，形成一个持续优化的循环。

这个过程的精妙之处在于，每一轮的思考都被详细记录下来。批评家AI会明确说明自己的判断依据，比如"第一张图像有相框但也有书，第二张图像移除了书但没有相框，第三张图像既没有书又有相框，完美符合要求"。这种对比分析体现了内容记忆能力——AI能够记住并比较不同版本的差异。

通过让这三个AI反复协作，研究团队收集了大约12000个完整的多轮思考轨迹。每个轨迹都包含了完整的推理过程：发现问题、分析原因、制定改进方案、执行修改、验证结果。这些数据就像是给AI上的一门"思维训练课"，教它如何进行有条理的思考和改进。

为了确保训练数据的质量，研究团队还设置了严格的筛选标准。他们会剔除那些没有实质改进的轨迹，保留那些确实展现了有效思考过程的样本。同时，他们还会确保每一轮修改都产生了可观察的视觉变化，避免AI学会无效的"空转"行为。

**二、三种关键思维能力的培养**

UniT系统最核心的突破在于培养了AI的三种关键认知能力，这些能力让它能够像人类一样进行复杂的问题解决。

首先是验证能力，这就像培养一个严格的质检员。在传统的AI系统中，模型生成结果后就"交差了事"，无法判断自己的输出是否真正满足要求。但UniT学会了自我审视的技能。当它生成一张图像后，会像一个挑剔的检查员一样仔细审视每个细节。

以生成"两只猫玩一个球"的场景为例，验证过程会是这样的：AI首先会数数图像中有几只猫、几个球，然后检查猫的动作是否符合"玩耍"的描述。如果发现只有一只猫，或者猫没有和球互动，它就会标记这些问题，为下一轮改进提供明确方向。这种能力让AI不再是"盲目自信"，而是具备了自我反思的智慧。

第二种是子目标分解能力，这就像教AI学会做复杂菜谱的技巧。面对复杂的图像生成任务时，AI学会了将其拆分成一系列简单步骤，而不是试图一次性解决所有问题。

比如用户要求"移除鞋子，在滑板上加个头盔，把背景换成室外滑板公园"，这个复杂任务涉及三个不同的修改。UniT会将其分解为三个独立的子任务：第一步专注于移除鞋子，第二步专注于添加头盔，第三步专注于更换背景。这种分步骤的方法不仅降低了出错概率，还确保了每个细节都能得到充分关注。

分解过程体现了AI的规划智慧。它会分析哪些修改可能相互影响，确定合适的执行顺序。比如如果既要换背景又要调整主体物件的位置，AI会先调整物件位置，再更换背景，避免重复劳动。

第三种是内容记忆能力，这让AI具备了"前后连贯"的思维特质。在多轮编辑过程中，AI需要清楚记住每一轮都做了什么改动，当前版本相比之前有什么变化。这就像一个作家在修改文章时，需要记住之前已经修改过的段落，避免重复或矛盾的修改。

这种记忆能力的价值在多轮编辑任务中表现得尤为明显。比如用户先要求"把面包换成烤鲑鱼"，AI完成后，用户又要求"在鲑鱼上加照烧酱"，最后又要求"把鲑鱼换成牛排"。在这个过程中，AI需要清楚记住当前图像中已经有了照烧酱，在换成牛排时需要将酱料一起转移，而不是生成一块无调料的牛排。

研究团队通过对比实验验证了这三种能力的重要性。当移除验证能力时，AI容易产生与需求不符的结果却浑然不觉。当移除子目标分解能力时，AI在处理复杂任务时经常顾此失彼。当移除内容记忆能力时，多轮编辑的效果会显著下降，因为AI无法维持编辑过程的连贯性。

**三、从短期训练到长期思考的奇妙跨越**

UniT系统展现出的最令人惊叹的能力之一，就是它能够在实际应用中进行比训练时更长、更深入的思考。这种现象被研究人员称为"超越训练分布的泛化能力"，简单来说就是AI学会了举一反三。

在训练阶段，AI观察到的思考轨迹平均只有3.6轮。这就像一个学生只做过相对简单的练习题，大部分题目三四步就能解决。然而，当面临更复杂的实际问题时，经过训练的AI能够自主进行平均4.7轮的深入思考，就像学生掌握了解题方法后，能够处理需要更多步骤的难题。

这种能力的出现并非偶然，而是AI真正理解了思考过程的内在逻辑。在训练过程中，AI不仅学会了具体的操作步骤，更重要的是领悟了何时需要继续思考、何时可以停止的判断标准。它学会了识别问题的复杂程度，并相应调整自己的思考深度。

以一个具体例子来说明这种能力：训练时AI可能只见过"把花瓶里的红玫瑰换成黄玫瑰"这种相对简单的任务，需要三轮思考就能完成。但在实际应用中，当面对"把花瓶里的红玫瑰换成黄玫瑰，同时调整花瓶位置，并在背景添加窗帘"这种复杂任务时，AI能够识别出这需要更多轮次的细致处理，并自主扩展到五六轮思考。

这种自主扩展思考的能力体现在多个层面。首先，AI学会了动态评估任务复杂度。当遇到涉及多个对象或多种修改类型的任务时，它会自动预期需要更多轮次的处理。其次，AI掌握了灵活的思考节奏控制。在某些轮次中，它可能发现一次修改没有达到预期效果，会主动延长思考过程以确保质量。

更有趣的是，AI还展现出了"思考深度自适应"的特征。对于简单任务，它仍然能够快速完成，不会无谓地延长处理时间。但对于复杂任务，它会毫不犹豫地投入更多轮次的深入思考。这种智能化的计算资源分配体现了真正的问题解决智慧。

研究团队通过大量实验验证了这种泛化能力的稳定性。他们发现，无论是在图像生成、编辑还是视觉推理任务中，AI都能够根据任务需求自主调整思考深度。这种能力的出现标志着AI从简单的模式匹配转向了真正的推理能力。

这种超越训练边界的思考能力为AI的未来发展指明了方向。它表明AI系统可以通过理解基本原理，在面临新情况时表现出创造性和适应性，而不仅仅是机械地重复训练时见过的模式。

**四、逐步改进VS并行选择：谁是效率之王**

在解决复杂问题时，存在两种截然不同的策略思路。一种是"广撒网"策略：同时尝试多种方案，然后从中挑选最好的结果。另一种是"精耕细作"策略：专注于一个方案，通过反复改进使其臻于完美。UniT的研究为这个经典问题提供了明确答案：在AI图像生成领域，逐步改进的效率远超并行选择。

传统的并行策略就像是一个画家同时画十张草图，然后挑选出最满意的一张作为最终作品。这种方法的优势是可以探索多种可能性，降低"一次选择错误"的风险。但缺点也很明显：每张草图都是独立完成的，无法相互借鉴和改进，而且需要消耗大量的计算资源。

而UniT采用的逐步改进策略则像是一个画家专注于一张画布，通过反复观察、思考和修改，让作品逐步完善。第一遍可能只是粗糙的轮廓，第二遍添加细节，第三遍调整色彩，每一遍都在前一遍的基础上继续改进。这种方法的精妙之处在于，每一轮的经验都会积累下来，指导下一轮的改进。

研究团队进行了全面的对比实验来验证这两种策略的效果。他们控制了相同的计算资源消耗：无论是生成10张独立图像进行选择，还是对一张图像进行10轮改进，所需的计算量基本相当。结果显示，在所有测试的任务中，逐步改进的效果都明显优于并行选择。

具体的数字更能说明问题。在图像生成质量评测中，当使用相同计算资源时，逐步改进策略比并行选择策略的效果高出4.85%。在复杂的图像编辑任务中，这个优势更加明显，达到了71.77%的提升。在视觉推理任务中，逐步改进的准确率比并行选择高出33.72%。

这种效率优势的根源在于学习和积累效应。在并行策略中，每个独立生成的结果都是"从零开始"，无法利用其他尝试中的有用信息。而在逐步改进策略中，每一轮的思考和修改都是有针对性的，基于对前一轮结果的深入分析。这就像是一个学生在解题时，每次尝试都能从之前的错误中吸取经验，而不是每次都重新开始摸索。

另一个重要发现是逐步改进策略具有更好的可扩展性。随着思考轮次的增加，逐步改进的效果持续提升，而并行选择的效果很快就会达到平台期。这表明当我们愿意投入更多计算资源时，逐步改进能够带来更大的回报。

不过，研究团队也承认两种策略各有适用场景。并行选择的优势在于速度：如果时间紧迫，同时生成多个候选答案可能是更好的选择。但如果追求最高质量的结果，并且愿意投入足够的计算时间，逐步改进无疑是更明智的策略。

这个发现对整个AI领域都有重要启示。它表明在很多复杂任务中，深度的迭代思考可能比广度的并行搜索更有效。这种"专注胜过分散"的原理不仅适用于图像生成，很可能在文本生成、决策制定等其他AI应用中也同样有效。

**五、认知能力模块化研究的深层发现**

为了深入理解UniT系统成功的关键因素，研究团队进行了一系列精密的"拆解实验"。他们分别移除验证、子目标分解和内容记忆三种认知能力中的一种，观察系统性能的变化。这种方法就像是汽车工程师逐个移除引擎的不同部件，来理解每个部件的具体作用。

当研究人员移除验证能力后，AI就像一个没有镜子的化妆师，无法检查自己的工作质量。在这种情况下，AI会盲目地进行修改，却不知道修改是否真的改善了结果。实验数据显示，缺乏验证能力的系统在所有任务上的表现都有所下降，尤其是在视觉推理任务中，准确率下降了1.9%。这个结果证实了自我检查能力的重要性——不能评判自己工作质量的AI，就无法进行有效的迭代改进。

子目标分解能力的移除带来了更加明显的影响，特别是在处理复杂组合任务时。没有这种能力的AI就像一个想要同时做十件事的人，结果往往是顾此失彼。在图像生成任务中，系统表现下降了3.8%，在图像编辑任务中下降了2.5%。这个发现揭示了一个重要原理：复杂问题需要分解成简单子问题，逐个击破的策略远比试图一次解决所有问题更有效。

最戏剧性的影响来自内容记忆能力的缺失。当AI无法记住之前的修改内容时，多轮编辑任务的表现出现了灾难性的下降，效果降低了42.5%。这就像一个健忘症患者试图编辑一篇文章，每次修改时都忘记了之前已经做过的改动，结果可能会重复修改同样的地方，或者产生前后矛盾的内容。

有趣的是，这三种能力的重要性在不同任务中表现出了明显的差异化特征。对于单轮图像生成任务，验证能力是最关键的，因为需要确保结果符合要求。对于复杂的组合任务，子目标分解能力显得更加重要，它帮助AI有条不紊地处理多个相互关联的需求。而对于多轮交互任务，内容记忆能力则是不可或缺的核心。

这种差异化的重要性分布为AI系统的设计提供了重要指导。在实际应用中，可以根据具体任务类型来调整不同认知能力的权重和训练强度。比如，专门用于复杂创作任务的AI可以加强子目标分解能力的训练，而用于多轮对话和编辑的AI则应该更加重视内容记忆能力的培养。

研究团队还发现了一个令人惊讶的现象：这三种认知能力之间存在着微妙的协同效应。当三种能力同时存在时，系统的整体表现往往超出了各项能力独立贡献的简单加和。这表明认知能力之间不是简单的并列关系，而是相互促进、协同工作的有机整体。

验证能力为子目标分解提供反馈，帮助AI判断分解策略是否有效。内容记忆能力为验证过程提供历史对比信息，让AI能够更准确地判断当前结果的质量。子目标分解能力则为内容记忆提供结构化的信息组织方式，让记忆更加高效准确。

这种认知能力的模块化分析不仅帮助我们理解了UniT的工作机制，也为未来AI系统的设计提供了清晰的架构指导。它表明，构建真正智能的AI系统需要综合考虑多种认知能力的协调配合，而不是专注于单一能力的极致优化。

**六、数据质量筛选的精密工艺**

高质量的训练数据是AI系统成功的基石，而UniT的研发过程中，数据质量控制更是被提升到了工艺品制作的精细程度。研究团队没有简单地收集大量数据就开始训练，而是设计了一套严格的多层次筛选系统，就像珠宝商在挑选宝石时会使用多种检测手段一样。

最基础的筛选标准是轨迹长度控制。研究团队发现，过长的思考轨迹往往包含无效的重复思考或陷入死循环的错误推理。因此，他们设定了8轮的上限，剔除那些思考过程冗长却没有实质进展的样本。这就像编辑会删除文章中的啰嗦段落，保留简洁有力的表达。

第二层筛选针对的是质量回退问题。有些AI在思考过程中会越改越糟，最终结果反而不如初始版本。研究团队设计了一套自动检测机制，会比较每个轨迹中前三个版本和最终版本的质量。如果最终版本的质量明显低于前期版本，这个轨迹就会被标记为"负面样本"并剔除。这种做法确保AI学到的都是正向的改进经验，避免学习错误的思考模式。

第三层筛选关注的是思考内容的相关性。在多轮思考过程中，AI有时会偏离主题，开始进行与原始任务无关的修改。比如用户要求调整图像中的颜色，但AI却开始修改物体的形状。研究团队使用语义相似度检测技术，自动识别和移除这些偏题的思考轨迹。这就像老师批改作文时会标出跑题的段落，确保学生的思路始终围绕中心主题。

最精细的筛选标准是视觉变化的有效性检测。研究团队发现，有些修改在语义上听起来合理，但在视觉上几乎没有产生任何可观察的变化。他们使用专门的图像相似度算法，计算相邻轮次图像之间的差异程度。如果某一轮的修改导致的视觉变化小于设定阈值，这一轮就被认为是无效修改并被移除。这种精确的视觉变化检测确保AI学到的每一个修改动作都是有意义的。

为了防止训练数据与评测数据产生重叠，研究团队还实施了严格的去重措施。他们使用文本相似度算法，检查训练样本中的用户需求描述是否与评测基准中的样本过于相似。任何可能导致数据泄漏的样本都会被严格剔除，确保评测结果的公正性和可信度。

经过这套多层筛选流程，原始收集的海量数据被精炼为约12000个高质量训练轨迹。每个保留下来的轨迹都经过了严格的质量检验，确保它展现了有效的思考过程、产生了实质性的改进效果、并且始终围绕任务主题。

为了验证这套筛选策略的有效性，研究团队进行了对比实验。他们分别使用筛选前后的数据训练模型，结果显示筛选后数据训练出的模型在所有任务上都表现得更好。这证明了数据质量控制的重要性——在AI训练中，精选的少量高质量数据往往比大量低质量数据更有价值。

这套数据筛选工艺的价值不仅在于提升了UniT的性能，更在于为整个AI训练领域提供了可借鉴的质量控制方法。它表明，在追求训练数据规模的同时，不能忽视质量控制的重要性。只有既大又好的数据，才能培养出真正优秀的AI系统。

**七、实际应用场景中的出色表现**

UniT系统在各种实际应用场景中都展现了令人印象深刻的能力提升，这些改进不仅体现在冰冷的数字上，更重要的是在真实使用体验中的质的飞跃。

在图像生成任务中，UniT展现出了对复杂组合需求的精准理解和执行能力。传统的一次性生成方法经常在处理包含多个对象和复杂空间关系的场景时出现错误，比如要求"两只猫玩一个球"时，可能生成三只猫或者两个球。而UniT通过多轮思考，能够精确控制每个元素的数量和相互关系。它会在第一轮生成基础场景，然后在后续轮次中仔细检查和调整，确保最终结果完全符合用户需求。

在复杂的图像编辑任务中，UniT的表现更加出色。当面对需要同时进行多项修改的复杂指令时，比如"移除草地上的熊前面的草，在右下角添加黄色花朵，并将整体风格改为卡通风格"，UniT会智能地将这个复杂任务分解为三个子任务，依次执行。更重要的是，它能够在执行过程中保持主体对象的一致性，确保修改后的熊仍然是同一只熊，只是风格发生了变化。

多轮编辑任务是UniT最能展现其独特优势的场景。在传统系统中，每次新的编辑指令都可能导致之前的修改被覆盖或产生冲突。但UniT具备完整的上下文记忆，能够理解整个编辑历史。当用户先要求"把面包换成烤鲑鱼"，然后要求"加照烧酱"，最后又要求"换成牛排"时，UniT会智能地将照烧酱保留并转移到牛排上，而不是生成一块没有调料的牛排。

在视觉推理任务中，UniT展现了类似人类的逐步分析能力。面对几何拼图或逻辑推理题时，它不会急于给出答案，而是会先仔细观察题目，识别关键特征，然后逐步推理得出结论。比如在处理"哪块拼图能填补缺失部分"这类题目时，它会先放大缺失部分，分析其形状特征，然后逐个比较候选拼图块，最终选出正确答案。

特别值得一提的是UniT在错误修正方面的能力。在传统系统中，一旦生成了错误结果，通常需要用户重新输入指令才能纠正。但UniT能够主动识别自己的错误并进行修正。比如在生成"一只戴项圈的狗安静地坐着，另一只没戴项圈的狗疯狂奔跑"的场景时，如果第一轮结果中两只狗都戴着项圈，AI会在验证阶段发现这个问题，并在下一轮中专门移除其中一只狗的项圈。

从用户体验角度来看，UniT带来的最大改善是结果的可预测性和可靠性显著提升。用户不再需要反复尝试不同的提示词组合来获得满意结果，因为AI能够通过多轮思考自主优化输出质量。这种改善在专业创作场景中尤为重要，设计师和艺术家可以更加信任AI的输出，减少人工后期修正的工作量。

研究团队还观察到了一个有趣的现象：UniT在处理边缘案例时的表现特别出色。那些传统方法经常失败的困难场景，比如复杂的空间关系、微妙的颜色要求、或者需要保持多个对象协调的场景，在UniT的多轮思考下往往能够得到令人满意的解决。这种能力的提升为AI图像生成技术走向真正的实用化奠定了坚实基础。

说到底，这项由斯坦福大学和Meta超级智能实验室共同完成的研究，为我们展示了AI思维方式的一次革命性转变。从"一锤定音"到"深思熟虑"，从"盲目执行"到"自我反思"，UniT让我们看到了AI系统向真正智能迈进的可能性。

这种转变的意义远不止于技术层面的改进。它代表着AI系统开始具备了人类最宝贵的认知特质之一：通过反思和迭代不断完善自己工作的能力。就像一个优秀的工匠会反复打磨作品直至完美，或者一个认真的学生会检查答案并修正错误一样，AI现在也能够进行这种高阶的认知活动。

从实用角度看，这项技术的成熟将大大降低普通用户使用AI工具的门槛。以前，要获得满意的AI生成结果往往需要用户具备丰富的提示词编写经验，需要反复尝试不同的描述方式。而UniT的多轮思考能力意味着，用户只需要用自然语言描述自己的需求，AI就能通过自我优化达到满意的效果。

当然，这种技术进步也带来了新的思考。当AI具备了自我反思和持续改进的能力后，它与人类智能的边界变得更加模糊。这种发展既令人兴奋，也提醒我们需要更加审慎地考虑AI技术的发展方向和应用边界。

对于普通用户而言，这项技术的普及将带来创作工具的革命性变化。无论是社交媒体内容创作、商业广告设计，还是个人艺术创作，都将变得更加简单和高效。当AI能够像一个耐心的助手一样，通过多轮对话和反复修改来理解并实现用户的创意想法时，创作的门槛将大大降低，更多人将能够表达自己的创意和想象。

这项研究还为我们揭示了一个重要的发展趋势：未来的AI系统将不再是简单的输入输出工具，而是具备学习、反思和自我改进能力的智能伙伴。这种转变不仅将重塑我们与技术的交互方式，也将深刻影响教育、创意产业、科学研究等多个领域的工作模式。

有兴趣深入了解这项技术细节的读者，可以通过论文编号arXiv:2602.12279v1查询完整的研究报告，其中包含了更多技术实现细节和实验数据。

Q&A

Q1：UniT的三种认知能力具体是什么？

A：UniT具备三种关键认知能力。首先是验证能力，就像一个质检员能够检查生成的图像是否符合要求。其次是子目标分解能力，能将复杂任务拆分成简单步骤逐个完成。第三是内容记忆能力，在多轮编辑中记住之前的修改内容，保持前后一致性。

Q2：UniT的多轮思考模式比传统方法好在哪里？

A：传统AI只能一次性生成结果，无法检查和改进。UniT能像人类一样进行多轮思考，先生成初版，然后检查发现问题，接着针对性改进，如此反复直到满意。实验显示这种方法比一次性生成的效果提升了10-53%，而且比同时生成多个候选方案的效率高2.5倍。

Q3：普通用户什么时候能用上UniT技术？

A：目前UniT还处于研究阶段，由斯坦福大学和Meta联合开发。虽然论文已于2026年2月发布，但要成为普通用户可以直接使用的产品，还需要进一步的工程化开发和优化。预计这种多轮思考的图像生成技术会逐步集成到各类创作工具中。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.