网易首页 > 网易号 > 正文 申请入驻

香港中文大学团队首次让AI绘画也能像人类一样"边画边思考"

0
分享至


这项由香港中文大学郭子宇、张任瑞等研究人员联合北京大学、上海人工智能实验室等机构开展的突破性研究,于2025年1月发表在arXiv预印本平台,论文编号arXiv:2501.13926v2。有兴趣深入了解的读者可以通过https://github.com/ZiyuGuo99/Image-Generation-CoT访问完整论文和代码。

想象一下,你让AI画一张"红苹果放在椭圆盘子上"的图片。传统的AI就像一个闷头苦干的画师,拿起笔就开始画,经常画出奇怪的结果——比如苹果是绿的,或者盘子变成了正方形。而现在,研究团队教会了AI像人类画家一样"边画边思考":先想想"我要画什么?""这一笔画得对吗?""需要修改什么?"然后再继续画下去。

这种让AI"思考着画画"的方法,就是从OpenAI的o1模型那里借鉴来的"链式思维推理"技术。就好比教孩子做数学题时,不是直接给答案,而是教他们一步步分析:"第一步要做什么?""第二步呢?""这样做对不对?"现在,研究团队把同样的思路应用到了AI绘画上,让机器也能像人一样有条不紊地创作。

研究团队发现了一个有趣的现象:现在主流的AI绘画模型大多采用"扩散模型"技术,就像在一张模糊的画布上逐渐清晰化图像。但还有另一类模型叫"自回归生成模型",它们的工作方式更像人类画画——一个区域一个区域地逐步完成,每画一笔都要考虑前面已经画好的部分。这种特性让它们天然适合"边画边思考"的训练方式。

研究团队以Show-o模型为基础,就像选择了一个有潜力的学徒画师,然后通过三种巧妙的训练方法来提升它的绘画水平。第一种方法叫"测试时验证",就像给画师配了一个严格的评审员,画完每一步都要检查:"这一笔画得怎么样?"如果不满意就重新画。第二种方法是"偏好对齐训练",相当于让画师多看优秀作品和糟糕作品的对比,逐渐培养出好的审美品味。第三种方法是把前两种结合起来,既有严格的评审,又有不断的品味培养。

在"测试时验证"的探索中,研究团队发现了一个关键问题:传统的评判标准不太适用于绘画过程。就像评价一个厨师,你不能只看最后的菜品,还要看整个烹饪过程中的每个步骤。对于绘画AI来说,早期的画面往往很模糊,就像素描的初稿,很难判断好坏;而后期的画面虽然清晰,但不同路径画出的结果往往很相似,也难以区分优劣。

为了解决这个问题,研究团队开发了一个专门的"潜力评估奖励模型"(PARM),就像培训了一个既懂绘画技法又有长远眼光的艺术老师。这个老师不仅能看出现在的画面质量,还能预测"这样画下去最终会是什么效果"。更厉害的是,PARM还知道什么时候该开始认真评价——太早了画面还太模糊没法判断,太晚了已经定型没法修改,只有在恰当的时机才给出指导意见。

PARM的工作方式分为三个步骤,就像一个经验丰富的绘画导师。首先是"清晰度判断":它会观察当前的画面,判断是否已经足够清晰到可以进行评价。如果画面还太模糊,就耐心等待;如果已经比较清晰了,就进入下一步。然后是"潜力评估":它会分析这个画面继续画下去是否有希望达到理想效果,就像一个老师看学生的草图时能预判最终作品的质量。最后是"最终选择":从所有被判定为"有潜力"的画作中挑出最好的一个作为最终结果。

研究团队还开发了PARM++,这相当于给AI画师增加了"自我反思"的能力。当PARM++觉得画作还不够好时,它会具体指出哪里有问题,比如"物体颜色不对"或"位置关系错误",然后引导AI重新修改。这就像一个画家画完后自己审视作品,发现问题后主动修正,而不是被动接受批评。

在实际测试中,研究成果表现令人惊喜。在GenEval这个专业的图像生成评测基准上,经过"思维训练"的AI比原来的基础模型提高了24%,甚至比著名的Stable Diffusion 3模型还要高出15%。这就好比一个原本中等水平的画师,经过系统训练后不仅大幅提升了自己的水平,还超越了一些知名画家。

研究团队特别关注那些最考验AI绘画能力的场景,比如画多个物体、数数、准确表达颜色、描述空间位置关系等等。传统的AI在这些方面经常出错,比如让它画"三个红苹果",结果画成了两个绿苹果;让它画"蓝色杯子在红色书本左边",结果位置关系完全颠倒。而经过"思维训练"的AI在这些方面都有了显著改善,就像一个原本粗心的学生变得细致认真了。

从技术角度来看,这项研究的创新之处在于首次系统性地将"链式思维推理"应用到了自回归图像生成领域。研究团队不是简单地照搬文本领域的方法,而是深入分析了图像生成的特殊性,设计了专门适合的训练和评估策略。他们发现,相比于传统的奖励模型,PARM能够更好地处理图像生成过程中的模糊性和渐进性特征。

值得注意的是,这种方法不仅适用于Show-o模型,研究团队还在LlamaGen和Janus-Pro等其他自回归生成模型上进行了验证,都取得了一致的改善效果。这说明"让AI思考着画画"这个思路具有很好的普适性,就像一套好的教学方法可以应用到不同的学生身上。

研究过程中也暴露了一些有趣的现象。比如,单纯的"测试时验证"效果不如"偏好对齐训练",这说明让AI通过对比学习来提升品味,比单纯的反复检查更有效。但是当两种方法结合使用时,效果会进一步提升,这证实了不同训练策略的互补性。

从实际应用的角度来看,这项技术可能会改变我们与AI绘画工具的交互方式。目前的AI绘画工具往往需要用户不断调整提示词、反复生成,直到得到满意的结果。而具备"思维能力"的AI可能会更加智能,能够理解复杂的描述,自主处理细节问题,减少用户的试错成本。

研究团队还发现,让AI进行"自我反思"虽然会带来额外的计算开销,但能够显著提升最终结果的质量。这就像让画家多花一些时间思考和修改,虽然效率略有下降,但作品质量会大幅提升。在实际应用中,用户可以根据需求选择是要快速生成还是高质量生成。

这项研究的意义不仅限于技术层面,它还为AI创作领域提供了新的思路。传统上,我们往往把AI看作是一个"黑盒子",输入需求就输出结果。而这项研究展示了让AI具备"元认知"能力的可能性——不仅知道如何做,还知道如何检查自己做得对不对,如何改进。

当然,这项技术也有其局限性。目前的方法主要针对自回归生成模型,对于占据主流地位的扩散模型还需要进一步的适配和优化。此外,增加的"思维"过程会带来一定的计算开销,在资源受限的环境下可能会影响使用体验。研究团队在论文中诚实地讨论了这些限制,并提出了未来的改进方向。

从更广阔的视角来看,这项研究是AI能力演进的一个重要里程碑。它不仅仅是让机器画画画得更好,更重要的是探索了让机器具备"自我意识"和"反思能力"的路径。这种"会思考的AI"可能会在更多领域发挥作用,从写作、编程到科学研究,都可能受益于这种"边做边思考"的智能模式。

总的来说,香港中文大学团队的这项研究为AI绘画领域带来了新的突破,不仅在技术上实现了显著的性能提升,更在理念上展示了"思考型AI"的巨大潜力。随着这项技术的进一步发展和优化,我们可能会看到更加智能、更加可靠的AI创作工具,它们不仅能够理解我们的需求,还能像人类创作者一样进行思考、判断和自我完善。

Q&A

Q1:PARM是什么?它跟传统的AI绘画评判方法有什么不同?

A:PARM是"潜力评估奖励模型"的简称,是专门为AI绘画设计的智能评判系统。传统方法要么只看最终结果,要么对每个步骤都强行评判,而PARM更聪明——它知道什么时候该开始评价(画面足够清晰时),能预测画作的发展潜力,就像一个经验丰富的绘画老师既能看出学生草图的问题,又能预判最终效果。

Q2:这种让AI"边画边思考"的方法会让绘画速度变慢吗?

A:确实会增加一些计算时间,因为AI需要额外的"思考"过程来评估和调整。但研究团队发现这种时间投入是值得的——虽然单次生成稍慢一些,但画出好作品的成功率大大提高,用户不需要反复重新生成,总体效率反而可能更高。就像画家多花时间思考构图,虽然慢一点但能避免返工。

Q3:这项技术什么时候能在日常的AI绘画工具中使用?

A:目前研究团队已经在GitHub上开源了相关代码(https://github.com/ZiyuGuo99/Image-Generation-CoT),技术开发者可以基于此进行开发。但要集成到像Midjourney、Stable Diffusion这样的主流工具中,还需要进一步的工程优化和适配工作。预计在未来1-2年内,我们可能会在一些新的AI绘画产品中看到类似的"思考型"功能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国米冬窗因国脚中场不投英超而被动 拒2500万报价留他真因曝光

国米冬窗因国脚中场不投英超而被动 拒2500万报价留他真因曝光

国际足球冷雪
2026-02-03 06:42:24
大毒枭坤沙:从不向中国贩毒,手握六个师兵力,美国:可怕的敌人

大毒枭坤沙:从不向中国贩毒,手握六个师兵力,美国:可怕的敌人

芊芊子吟
2026-02-02 16:40:07
大国掐架,李嘉诚这次认栽了

大国掐架,李嘉诚这次认栽了

法经社
2026-02-02 09:03:22
天津一家三口掉进冰窟后续:脱衣救人大哥已找到,被救一家反威胁

天津一家三口掉进冰窟后续:脱衣救人大哥已找到,被救一家反威胁

离离言几许
2026-02-02 23:59:38
死的也不能捞! 2023年浙江渔民捞一只卖了1300元, 专家鉴定值15万

死的也不能捞! 2023年浙江渔民捞一只卖了1300元, 专家鉴定值15万

万象硬核本尊
2026-02-01 18:44:54
爱泼斯坦档案曝光,特朗普是傀儡,大女婿是总统,伊万卡是肉票?

爱泼斯坦档案曝光,特朗普是傀儡,大女婿是总统,伊万卡是肉票?

头条爆料007
2026-02-02 20:45:16
就喝了三天!骨头缝里的寒气被“连根拔起”!老寒腿自己就热了!

就喝了三天!骨头缝里的寒气被“连根拔起”!老寒腿自己就热了!

江江食研社
2026-02-02 12:30:06
狂飙!暴跌17℃、8级大风!江苏天气又乱了!

狂飙!暴跌17℃、8级大风!江苏天气又乱了!

江南晚报
2026-02-03 03:35:15
湖北要大发了,这5个地方被国家选中,即将腾飞!有你家乡吗

湖北要大发了,这5个地方被国家选中,即将腾飞!有你家乡吗

爱下厨的阿椅
2026-02-02 17:39:45
比张灵甫还狂的师长:被四野围困后不向杜聿明求救,非要自己突围

比张灵甫还狂的师长:被四野围困后不向杜聿明求救,非要自己突围

大运河时空
2026-02-02 07:10:03
张一鸣以693亿美元登顶福布斯中国富豪榜,钟睒睒其实早已让位

张一鸣以693亿美元登顶福布斯中国富豪榜,钟睒睒其实早已让位

财视传播
2026-02-02 14:37:07
就在今天!2月3日凌晨,亚洲杯传来雨果、松岛辉空、林诗栋新消息

就在今天!2月3日凌晨,亚洲杯传来雨果、松岛辉空、林诗栋新消息

皮皮观天下
2026-02-03 04:35:28
90后产妇生娃时遇上"生理需求",男医生:见怪不怪,现场解决

90后产妇生娃时遇上"生理需求",男医生:见怪不怪,现场解决

大果小果妈妈
2026-01-15 20:13:44
发现邻居套我车牌,我默默开车进藏,回来他拿着29万罚单砸我家门

发现邻居套我车牌,我默默开车进藏,回来他拿着29万罚单砸我家门

晓艾故事汇
2026-02-02 08:14:38
“太空挖矿”过于科幻?中国动真格了

“太空挖矿”过于科幻?中国动真格了

观察者网
2026-02-02 08:28:06
理论坐牢高达175年!谷歌前工程师丁林葳窃密案一审判了!网友:尊湃案判6年

理论坐牢高达175年!谷歌前工程师丁林葳窃密案一审判了!网友:尊湃案判6年

大白聊IT
2026-02-01 11:11:02
正式离队,朱婷返回国内?尘埃落定,和队友争论,谁注意队友反应

正式离队,朱婷返回国内?尘埃落定,和队友争论,谁注意队友反应

卿子书
2026-02-02 10:30:38
很多年轻人已经快揭不开锅了!

很多年轻人已经快揭不开锅了!

黯泉
2026-02-02 22:48:22
高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

右右细毛和爸妈
2026-01-31 21:17:02
全程频繁捂嘴,台词含糊不清,视帝佟大为坐镇都带不动这个拖油瓶

全程频繁捂嘴,台词含糊不清,视帝佟大为坐镇都带不动这个拖油瓶

流云随风去远方
2026-01-31 13:12:51
2026-02-03 07:43:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7098文章数 548关注度
往期回顾 全部

科技要闻

马斯克官宣,SpaceX并购xAI,打造天基算力

头条要闻

河北72岁老太牙疼去医院治疗不到一小时死亡 医院回应

头条要闻

河北72岁老太牙疼去医院治疗不到一小时死亡 医院回应

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

游戏
艺术
旅游
公开课
军事航空

LPL两大超级强队晋级!Bin哥归队BLG强势反弹,今年S赛还得看他们

艺术要闻

曾经的年画,难得一见!

旅游要闻

春节期间将有近140万内地旅客访港

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版