网易首页 > 网易号 > 正文 申请入驻

香港中文大学团队首次让AI绘画也能像人类一样"边画边思考"

0
分享至

这项由香港中文大学郭子宇、张任瑞等研究人员联合北京大学、上海人工智能实验室等机构开展的突破性研究,于2025年1月发表在arXiv预印本平台,论文编号arXiv:2501.13926v2。有兴趣深入了解的读者可以通过https://github.com/ZiyuGuo99/Image-Generation-CoT访问完整论文和代码。

想象一下,你让AI画一张"红苹果放在椭圆盘子上"的图片。传统的AI就像一个闷头苦干的画师,拿起笔就开始画,经常画出奇怪的结果——比如苹果是绿的,或者盘子变成了正方形。而现在,研究团队教会了AI像人类画家一样"边画边思考":先想想"我要画什么?""这一笔画得对吗?""需要修改什么?"然后再继续画下去。

这种让AI"思考着画画"的方法,就是从OpenAI的o1模型那里借鉴来的"链式思维推理"技术。就好比教孩子做数学题时,不是直接给答案,而是教他们一步步分析:"第一步要做什么?""第二步呢?""这样做对不对?"现在,研究团队把同样的思路应用到了AI绘画上,让机器也能像人一样有条不紊地创作。

研究团队发现了一个有趣的现象:现在主流的AI绘画模型大多采用"扩散模型"技术,就像在一张模糊的画布上逐渐清晰化图像。但还有另一类模型叫"自回归生成模型",它们的工作方式更像人类画画——一个区域一个区域地逐步完成,每画一笔都要考虑前面已经画好的部分。这种特性让它们天然适合"边画边思考"的训练方式。

研究团队以Show-o模型为基础,就像选择了一个有潜力的学徒画师,然后通过三种巧妙的训练方法来提升它的绘画水平。第一种方法叫"测试时验证",就像给画师配了一个严格的评审员,画完每一步都要检查:"这一笔画得怎么样?"如果不满意就重新画。第二种方法是"偏好对齐训练",相当于让画师多看优秀作品和糟糕作品的对比,逐渐培养出好的审美品味。第三种方法是把前两种结合起来,既有严格的评审,又有不断的品味培养。

在"测试时验证"的探索中,研究团队发现了一个关键问题:传统的评判标准不太适用于绘画过程。就像评价一个厨师,你不能只看最后的菜品,还要看整个烹饪过程中的每个步骤。对于绘画AI来说,早期的画面往往很模糊,就像素描的初稿,很难判断好坏;而后期的画面虽然清晰,但不同路径画出的结果往往很相似,也难以区分优劣。

为了解决这个问题,研究团队开发了一个专门的"潜力评估奖励模型"(PARM),就像培训了一个既懂绘画技法又有长远眼光的艺术老师。这个老师不仅能看出现在的画面质量,还能预测"这样画下去最终会是什么效果"。更厉害的是,PARM还知道什么时候该开始认真评价——太早了画面还太模糊没法判断,太晚了已经定型没法修改,只有在恰当的时机才给出指导意见。

PARM的工作方式分为三个步骤,就像一个经验丰富的绘画导师。首先是"清晰度判断":它会观察当前的画面,判断是否已经足够清晰到可以进行评价。如果画面还太模糊,就耐心等待;如果已经比较清晰了,就进入下一步。然后是"潜力评估":它会分析这个画面继续画下去是否有希望达到理想效果,就像一个老师看学生的草图时能预判最终作品的质量。最后是"最终选择":从所有被判定为"有潜力"的画作中挑出最好的一个作为最终结果。

研究团队还开发了PARM++,这相当于给AI画师增加了"自我反思"的能力。当PARM++觉得画作还不够好时,它会具体指出哪里有问题,比如"物体颜色不对"或"位置关系错误",然后引导AI重新修改。这就像一个画家画完后自己审视作品,发现问题后主动修正,而不是被动接受批评。

在实际测试中,研究成果表现令人惊喜。在GenEval这个专业的图像生成评测基准上,经过"思维训练"的AI比原来的基础模型提高了24%,甚至比著名的Stable Diffusion 3模型还要高出15%。这就好比一个原本中等水平的画师,经过系统训练后不仅大幅提升了自己的水平,还超越了一些知名画家。

研究团队特别关注那些最考验AI绘画能力的场景,比如画多个物体、数数、准确表达颜色、描述空间位置关系等等。传统的AI在这些方面经常出错,比如让它画"三个红苹果",结果画成了两个绿苹果;让它画"蓝色杯子在红色书本左边",结果位置关系完全颠倒。而经过"思维训练"的AI在这些方面都有了显著改善,就像一个原本粗心的学生变得细致认真了。

从技术角度来看,这项研究的创新之处在于首次系统性地将"链式思维推理"应用到了自回归图像生成领域。研究团队不是简单地照搬文本领域的方法,而是深入分析了图像生成的特殊性,设计了专门适合的训练和评估策略。他们发现,相比于传统的奖励模型,PARM能够更好地处理图像生成过程中的模糊性和渐进性特征。

值得注意的是,这种方法不仅适用于Show-o模型,研究团队还在LlamaGen和Janus-Pro等其他自回归生成模型上进行了验证,都取得了一致的改善效果。这说明"让AI思考着画画"这个思路具有很好的普适性,就像一套好的教学方法可以应用到不同的学生身上。

研究过程中也暴露了一些有趣的现象。比如,单纯的"测试时验证"效果不如"偏好对齐训练",这说明让AI通过对比学习来提升品味,比单纯的反复检查更有效。但是当两种方法结合使用时,效果会进一步提升,这证实了不同训练策略的互补性。

从实际应用的角度来看,这项技术可能会改变我们与AI绘画工具的交互方式。目前的AI绘画工具往往需要用户不断调整提示词、反复生成,直到得到满意的结果。而具备"思维能力"的AI可能会更加智能,能够理解复杂的描述,自主处理细节问题,减少用户的试错成本。

研究团队还发现,让AI进行"自我反思"虽然会带来额外的计算开销,但能够显著提升最终结果的质量。这就像让画家多花一些时间思考和修改,虽然效率略有下降,但作品质量会大幅提升。在实际应用中,用户可以根据需求选择是要快速生成还是高质量生成。

这项研究的意义不仅限于技术层面,它还为AI创作领域提供了新的思路。传统上,我们往往把AI看作是一个"黑盒子",输入需求就输出结果。而这项研究展示了让AI具备"元认知"能力的可能性——不仅知道如何做,还知道如何检查自己做得对不对,如何改进。

当然,这项技术也有其局限性。目前的方法主要针对自回归生成模型,对于占据主流地位的扩散模型还需要进一步的适配和优化。此外,增加的"思维"过程会带来一定的计算开销,在资源受限的环境下可能会影响使用体验。研究团队在论文中诚实地讨论了这些限制,并提出了未来的改进方向。

从更广阔的视角来看,这项研究是AI能力演进的一个重要里程碑。它不仅仅是让机器画画画得更好,更重要的是探索了让机器具备"自我意识"和"反思能力"的路径。这种"会思考的AI"可能会在更多领域发挥作用,从写作、编程到科学研究,都可能受益于这种"边做边思考"的智能模式。

总的来说,香港中文大学团队的这项研究为AI绘画领域带来了新的突破,不仅在技术上实现了显著的性能提升,更在理念上展示了"思考型AI"的巨大潜力。随着这项技术的进一步发展和优化,我们可能会看到更加智能、更加可靠的AI创作工具,它们不仅能够理解我们的需求,还能像人类创作者一样进行思考、判断和自我完善。

Q&A

Q1:PARM是什么?它跟传统的AI绘画评判方法有什么不同?

A:PARM是"潜力评估奖励模型"的简称,是专门为AI绘画设计的智能评判系统。传统方法要么只看最终结果,要么对每个步骤都强行评判,而PARM更聪明——它知道什么时候该开始评价(画面足够清晰时),能预测画作的发展潜力,就像一个经验丰富的绘画老师既能看出学生草图的问题,又能预判最终效果。

Q2:这种让AI"边画边思考"的方法会让绘画速度变慢吗?

A:确实会增加一些计算时间,因为AI需要额外的"思考"过程来评估和调整。但研究团队发现这种时间投入是值得的——虽然单次生成稍慢一些,但画出好作品的成功率大大提高,用户不需要反复重新生成,总体效率反而可能更高。就像画家多花时间思考构图,虽然慢一点但能避免返工。

Q3:这项技术什么时候能在日常的AI绘画工具中使用?

A:目前研究团队已经在GitHub上开源了相关代码(https://github.com/ZiyuGuo99/Image-Generation-CoT),技术开发者可以基于此进行开发。但要集成到像Midjourney、Stable Diffusion这样的主流工具中,还需要进一步的工程优化和适配工作。预计在未来1-2年内,我们可能会在一些新的AI绘画产品中看到类似的"思考型"功能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李丽婧泪别丈夫张雪峰:相识45天闪婚,你一辈子都在为别人活

李丽婧泪别丈夫张雪峰:相识45天闪婚,你一辈子都在为别人活

细品名人
2026-03-31 07:39:25
已有惨剧发生!张雪机车再回应禁止新手购买820RR:希望少死几个人

已有惨剧发生!张雪机车再回应禁止新手购买820RR:希望少死几个人

快科技
2026-03-31 10:54:10
张雪:我以前挺喜欢雷军,挖孔机盖事件我会给消费者两个选择

张雪:我以前挺喜欢雷军,挖孔机盖事件我会给消费者两个选择

金融界
2026-03-30 17:38:20
全红婵哽咽谈体重减不下来:饿到不行,希望大家不要再骂我了!

全红婵哽咽谈体重减不下来:饿到不行,希望大家不要再骂我了!

新民周刊
2026-03-30 15:38:07
伊朗最大岛屿遭美以袭击,致8人死亡,位于霍尔木兹海峡北侧

伊朗最大岛屿遭美以袭击,致8人死亡,位于霍尔木兹海峡北侧

鲁中晨报
2026-03-31 09:57:01
被骗160万,中国老板把日本公司挂闲鱼!被7万人围观后,对方慌了

被骗160万,中国老板把日本公司挂闲鱼!被7万人围观后,对方慌了

行者聊官
2026-03-30 12:46:28
苹果在中国意外推出Apple Intelligence 已紧急移除

苹果在中国意外推出Apple Intelligence 已紧急移除

CNMO科技
2026-03-31 07:15:16
38岁韩德君现状:退役拒当教练,弃百万年薪进编制,每天准点下班

38岁韩德君现状:退役拒当教练,弃百万年薪进编制,每天准点下班

以茶带书
2026-03-30 20:05:38
单依纯演唱会武汉、郑州场次开启48小时限时自愿免责退票流程,此前5场演唱会门票均已售罄;深夜道歉承认侵权,李荣浩回应不需要赔偿

单依纯演唱会武汉、郑州场次开启48小时限时自愿免责退票流程,此前5场演唱会门票均已售罄;深夜道歉承认侵权,李荣浩回应不需要赔偿

大象新闻
2026-03-31 00:53:02
美国华盛顿特区撞机事故画面曝光:67人遇难,无人生还

美国华盛顿特区撞机事故画面曝光:67人遇难,无人生还

IT之家
2026-03-30 21:58:15
又一男星塌房!宋宁峰婚内出轨,妻子威胁小三:敢爆料就曝你裸照

又一男星塌房!宋宁峰婚内出轨,妻子威胁小三:敢爆料就曝你裸照

萌神木木
2026-03-31 12:00:19
霍尔木兹海峡收费法案落地,伊朗将与阿曼合作制定法律框架

霍尔木兹海峡收费法案落地,伊朗将与阿曼合作制定法律框架

界面新闻
2026-03-31 08:03:48
铜质文创第一股,用三个行李箱敲开IPO大门

铜质文创第一股,用三个行李箱敲开IPO大门

金错刀
2026-03-31 13:14:41
国足被打懵!8分钟连丢2球,颜骏凌不满,媒体人:怎么这么菜

国足被打懵!8分钟连丢2球,颜骏凌不满,媒体人:怎么这么菜

奥拜尔
2026-03-31 14:19:49
它是“菜中人参”春天遇到我从不手软,买20斤囤起来,从春吃到夏

它是“菜中人参”春天遇到我从不手软,买20斤囤起来,从春吃到夏

阿龙美食记
2026-03-29 13:17:58
释放维护两岸和平坚定信号,回应台湾主流民意殷殷期盼,大陆宣布国民党主席4月来访

释放维护两岸和平坚定信号,回应台湾主流民意殷殷期盼,大陆宣布国民党主席4月来访

环球网资讯
2026-03-31 07:12:04
外卖竞争进入尾声,美团争做本地生活的“AI超级入口”

外卖竞争进入尾声,美团争做本地生活的“AI超级入口”

中国家电网
2026-03-31 10:44:00
福特航母战斗群5700官兵被扣押,接受调查

福特航母战斗群5700官兵被扣押,接受调查

远方青木
2026-03-30 23:59:08
直辖市人口分化!上海大逆转,重庆净流入第一,北京唯一人口净流出

直辖市人口分化!上海大逆转,重庆净流入第一,北京唯一人口净流出

城市财经
2026-03-31 11:51:37
“中年人的泡泡玛特”铜师傅上市首日股价开盘一度大跌超36% 创始人俞光登台敲锣

“中年人的泡泡玛特”铜师傅上市首日股价开盘一度大跌超36% 创始人俞光登台敲锣

每日经济新闻
2026-03-31 10:56:59
2026-03-31 14:59:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7805文章数 556关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

游戏
教育
数码
亲子
公开课

在武林风云中成为一代宗师——《宗门起源》现已登陆 Steam!

教育要闻

别让生病拖垮成绩!春季流感+超短学期,聪明家长都在这样追进度

数码要闻

炬芯端侧AI ATS3231单芯片高端游戏耳机方案西伯利亚重磅首发!

亲子要闻

辛苦考上幼师,幼儿园没了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版