KAIST突破：AI绘画实现提示词迭代优化|验证器|深度思考按钮

分享至

这项由韩国科学技术院（KAIST）金秀彬团队领导，联合浦项工科大学、Adobe公司和Meta公司共同完成的突破性研究，于2024年12月发表在计算机视觉顶级会议上。有兴趣深入了解的读者可以通过论文编号arXiv:2512.03534v1查询完整论文。

当我们用AI生成图片或视频时，经常遇到这样的困扰：明明给了很详细的提示词，但AI生成的内容总是缺胳膊少腿，或者完全理解错了我们的意思。比如你让它画"一只没有鞋带的鞋子独自站立"，结果AI画出来的鞋子还是有鞋带。传统的解决方法就是不断地重新生成，希望能撞大运得到满意的结果。但这就像闭着眼睛射箭一样，既浪费时间又效率低下。

KAIST的研究团队提出了一个全新的思路，他们开发了一个叫做PRIS（Prompt Redesign for Inference-time Scaling，推理时提示词重新设计）的系统。这个系统就像一个会反思的艺术家，当它发现自己画错了什么，不会盲目地继续画下去，而是停下来分析问题出在哪里，然后调整画笔和颜料（也就是提示词），再重新创作。

研究团队还设计了一个精密的"质检员"——元素级事实纠正验证器（EFC）。这个验证器能够像专业的美术评委一样，仔细检查生成的图片或视频是否真正符合要求。它不会简单地给出"好"或"不好"的评价，而是会具体指出哪些部分画对了，哪些部分画错了。

在大量实验中，这套系统在文本到图像生成任务上提升了7%的效果，在文本到视频生成任务上更是达到了惊人的15%提升。这就好比原本十次生成只能成功六次，现在能成功七到八次，大大提高了AI创作的成功率和用户体验。

一、传统AI创作的盲点：为什么总是画不对

在传统的AI图像和视频生成过程中，就像让一个从未见过世面的学徒按照食谱做菜一样。你给了他一份详细的食谱（提示词），比如"做一道没有胡萝卜的炖菜"，但这个学徒理解能力有限，经常会按照自己的习惯和经验来操作，结果端上来的菜里还是有胡萝卜。

当我们发现结果不对时，传统的做法就是让这个学徒重新做一遍，但问题是我们给的还是同样的食谱，学徒的理解方式也没有改变，所以很可能还是会犯同样的错误。这就是为什么即使我们反复生成很多次，AI还是会在同样的地方出错。

更要命的是，随着生成次数的增加，效果提升会越来越小，就像撞大运一样，前几次可能还能碰到一两个稍微好一点的结果，但后面就完全是浪费算力了。研究团队发现，传统方法在生成更多样本时，质量会快速达到一个瓶颈，再怎么增加数量也无法突破。

问题的根源在于，传统方法把所有注意力都放在了"多做几次"上，却忽略了最关键的一点：食谱（提示词）本身可能需要调整。就像如果你想让学徒不放胡萝卜，与其反复强调"不要放胡萝卜"，不如直接说"用土豆、洋葱和牛肉，确保没有任何橙色的蔬菜"。

二、会反思的AI助手：PRIS系统的工作原理

PRIS系统的工作方式就像一个经验丰富的艺术导师。当学生（AI生成器）交上来一堆作品后，这个导师不会简单地说"重画"，而是会仔细分析这些作品，找出学生经常犯的错误模式，然后调整教学方法和指导语言。

具体来说，PRIS的工作分为四个步骤，就像一个完整的教学循环。首先，它会让AI按照原始提示词生成一批作品，比如生成20张图片。然后，质检员（EFC验证器）会像专业评委一样，仔细检查每张图片，标记出哪些部分符合要求，哪些部分有问题。

接着，PRIS会从这些作品中挑选出最好的几张，通常是表现最优秀的四分之一。这就像老师从学生作业中选出相对较好的几份来分析。关键的是，PRIS不只是看这些作品哪里做得好，更重要的是找出即使在最好的作品中也反复出现的错误。

比如说，如果你要求AI画"一只没有鞋带的鞋子"，结果发现即使在最好的几张图里，鞋子上仍然有鞋带，那么PRIS就会意识到这是一个系统性的理解问题。于是它会重新设计提示词，可能改成"一只光滑表面的无系带运动鞋，完全没有任何系带或绑带装置"这样更明确的描述。

最后，PRIS会用这个改进的提示词，结合之前表现较好的图片的"种子"（可以理解为创作的起点），重新生成一批图片。这样既保留了前面成功的元素，又针对性地改进了问题所在。

三、精准的质检员：EFC验证器如何工作

EFC验证器就像一个极其细致的质量检查员，它不会简单地给出"合格"或"不合格"的判断，而是会逐一检查每个细节是否符合要求。

传统的验证方法就像问一个人："这张图片画得好吗？"然后得到一个简单的"好"或"不好"的答案。但这种方式有很多问题，就像你问别人"这道菜做得怎么样"，得到"还行"这样的回答，你根本不知道是盐放多了，还是火候不够，或者是配菜有问题。

EFC的做法完全不同。它首先会把复杂的要求分解成一个个具体的检查项目。比如对于"一只没有鞋带的鞋子独自站立"这个要求，它会分解成：第一，画面中有一只鞋子；第二，这只鞋子没有鞋带；第三，鞋子是独自站立的，没有配对出现。

然后，EFC会为每个检查项目制定具体的验证方法。它不会直接问AI"这只鞋子有鞋带吗？"因为AI可能会受到提示的影响而给出不准确的答案。相反，EFC会先让AI描述图片内容，然后分析这个描述是否与要求相符。

这就像让一个人在不知道正确答案的情况下，客观地描述他看到的内容，然后再与标准答案对比，这样能避免"投其所好"的偏见。如果描述中提到了"鞋带"或"系带"，那显然就不符合"没有鞋带"的要求。

对于那些描述不够清楚的项目，EFC还会进行第二轮检查。它会提出开放性的问题，比如"这只鞋子是通过什么方式固定在脚上的？"然后根据回答来判断是否符合要求。

四、实战效果：数字说话的改进程度

研究团队在多个标准测试平台上验证了PRIS系统的效果，结果让人印象深刻。在文本到图像生成任务中，PRIS在GenAI-Bench测试平台上的表现比传统方法提升了7%。这个数字看起来不大，但在AI领域，这已经是相当显著的改进了，就像马拉松选手的成绩提升几个百分点就可能意味着从第十名跃升到前三名。

更令人惊讶的是在文本到视频生成任务上的表现。在VBench2.0这个更具挑战性的测试平台上，PRIS实现了15%的提升。要知道，视频生成比图片生成复杂得多，因为它不仅要考虑每一帧的内容是否正确，还要确保时间序列上的逻辑关系合理。

举个具体的例子，当要求AI生成"一个人正在打开桌灯"的视频时，传统方法经常会出现这样的问题：要么灯从一开始就是亮的，要么人的动作和灯的亮起没有对应关系，要么整个过程缺乏合理的时间顺序。

但使用PRIS后，系统能够识别出这些常见问题，然后将提示词改进为更具体的描述："一个年轻人轻轻地将手放在桌灯底座上，扭动开关，温暖的灯光逐渐照亮空间，从黑暗到光明的过渡突出了灯泡点亮的平静效果"。这样的描述能够引导AI更准确地理解和生成符合要求的视频内容。

在控制能力和创造性两个重要维度上，PRIS分别实现了13.88%和15.19%的提升。控制能力指的是AI能否准确按照用户要求生成内容，而创造性则关注生成内容的丰富性和想象力。这表明PRIS不仅能让AI更好地理解用户意图，还能激发它的创作潜力。

特别值得注意的是，PRIS在处理复杂的时间序列和因果关系方面表现突出。比如在"动态属性理解"和"动作顺序理解"这两个最具挑战性的任务上，PRIS的表现远超传统方法。这些任务要求AI不仅要理解"什么"，还要理解"何时"和"为什么"，就像理解一个完整故事的情节发展一样。

五、技术创新：突破传统思维局限

PRIS系统最大的创新在于打破了传统AI生成中的固化思维。过去，研究者们总是专注于如何让AI生成更多样本，如何优化生成算法，如何调整模型参数，但很少有人想到要在生成过程中动态调整输入的提示词。

这就像传统的思路是不断更换更好的画笔和颜料，或者让画家画更多幅作品，但从来没想过要改进画家的理解方式和作画指导。PRIS的方法相当于在作画过程中持续提供更精准的指导，让画家能够逐步纠正理解偏差。

另一个重要创新是EFC验证器的设计。传统的验证方法通常依赖于简单的问答形式，比如直接问AI"这张图片是否符合要求？"但这种方法容易产生确认偏差，AI可能会倾向于给出积极的回答。

EFC采用的文本对比方法就像让两个独立的专家分别描述同一件事，然后比较他们的描述是否一致。一个专家（AI生成器）负责生成图片，另一个专家（AI描述器）负责客观描述图片内容，然后通过比较描述内容与原始要求的一致性来判断生成质量。这种方法大大减少了偏见，提高了评判的准确性。

研究团队还发现了一个有趣现象：经过PRIS改进的提示词不仅在原始的AI模型上效果更好，在其他不同的AI模型上也表现出色。这说明PRIS找到的改进方向具有普遍性，就像找到了一种更通用的"说话方式"，让不同的AI都能更好地理解人类的意图。

这种跨模型的效果还暗示了一个重要的应用前景：可以开发专门的提示词优化工具，帮助普通用户更好地与各种AI系统交流。就像有了更好的翻译工具，不同语言背景的人可以更顺畅地沟通一样。

六、实际应用：改变创作者的工作方式

PRIS系统的出现可能会根本性地改变数字内容创作者的工作流程。对于设计师、视频制作者、艺术家等专业人士来说，这意味着他们可以花更少的时间在重复试验上，把更多精力投入到创意构思和细节完善上。

以往，一个设计师可能需要尝试几十个不同的提示词，生成上百张图片，才能得到一个基本满意的结果。现在，通过PRIS系统的智能反馈和提示词优化，可能只需要几轮迭代就能达到期望效果。这就像从手工制作改为使用智能工具，大大提高了生产效率。

对于普通用户来说，PRIS降低了使用AI生成工具的门槛。很多人之前觉得AI生成工具"不听话"，总是理解错意思，现在有了智能的"翻译员"，普通人也能更容易地表达自己的创意想法。

在教育领域，PRIS也显示出巨大潜力。教师可以使用这个系统来生成更准确的教学素材，学生也可以通过与AI的互动学习如何更准确地表达想法。这种反馈循环本身就是一种有价值的学习过程。

商业应用方面，广告公司、游戏开发商、影视制作公司都可能从中受益。他们可以更快速、更经济地制作原型和概念图，加速创意的迭代和验证过程。这对于需要大量视觉素材的行业来说，是一个显著的成本节约。

七、技术挑战与未来发展

虽然PRIS系统表现出色，但研究团队也诚实地指出了当前的一些局限性。最主要的挑战是计算成本。每次验证和提示词优化都需要额外的计算资源，目前EFC验证器的运行时间大约相当于生成三张额外图片的时间。

不过，这个问题并非无解。研究团队表示，他们使用的是通用的大型语言模型，没有针对特定任务进行优化。如果专门为提示词优化任务训练模型，计算效率可以显著提升。就像专业工具总是比通用工具更高效一样。

另一个挑战是如何处理更加复杂和抽象的创作需求。目前PRIS在处理具体、可验证的要求方面表现很好，但对于涉及情感、氛围、风格等主观因素的要求，仍然需要进一步改进。这就像教AI理解"画一幅让人感到温暖的图"这样的抽象要求。

研究团队正在探索将PRIS的思路扩展到其他类型的AI应用中。比如在自然语言生成、音乐创作、甚至代码编写等领域，都可能借鉴这种"生成-反馈-优化"的循环模式。

未来的发展方向还包括开发更智能的用户界面，让普通用户能够直观地看到提示词优化的过程，理解为什么某些表达方式更有效。这样不仅能改善AI的表现，还能帮助用户学会更好地与AI交流。

说到底，PRIS系统展示了一个重要的理念：人工智能不应该是一个黑箱式的工具，而应该是一个能够学习和改进的伙伴。通过不断的反馈和调整，AI可以越来越好地理解和满足人类的需求。这种协作式的人机交互模式，可能是未来AI发展的重要方向。

这项研究的意义不仅在于技术层面的改进，更在于它提供了一种新的思考方式：当我们遇到AI不能理解我们的时候，与其责怪AI不够智能，不如思考如何改进我们与AI的交流方式。毕竟，好的沟通从来都是双向的努力。有兴趣深入了解技术细节的读者，可以查阅KAIST团队发表的完整论文，论文编号为arXiv:2512.03534v1。

Q&A

Q1：PRIS系统跟传统的AI图片生成有什么区别？

A：传统方法就像一直用同样的食谱让厨师重复做菜，即使做出来不合口味也不改食谱。PRIS系统则像一个会学习的厨师，当发现菜品有问题时，会分析原因并调整食谱，然后重新制作，所以能越做越好。

Q2：普通人能用到PRIS技术吗？

A：目前PRIS还是研究阶段的技术，但它的理念很可能会被集成到未来的AI创作工具中。到时候普通用户使用AI生成图片或视频时，就能享受到这种智能优化带来的更好体验，不需要反复调试提示词了。

Q3：PRIS系统生成一张图片需要多长时间？

A：目前生成一张图片大约需要13秒，而验证和优化过程需要额外41秒，相当于再生成3张图片的时间。不过研究团队表示，通过专门优化可以大幅缩短这个时间，而且考虑到效果的显著提升，这个时间投入是值得的。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.