网易首页 > 网易号 > 正文 申请入驻

阿里巴巴推出Visual-CoG:AI绘画终于学会"分步思考"了

0
分享至


这项由阿里巴巴集团的李亚琪、陈鹏、韩明阳等研究团队开发的Visual-CoG(视觉引导链)技术发表于2025年8月,论文题为《Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation》。有兴趣深入了解的读者可以通过arXiv:2508.18032v1访问完整论文。

当你对AI说"画一个穿着红裙子的小女孩站在蓝色汽车左边"时,你可能会发现AI经常会搞砸一些细节:要么裙子变成了绿色,要么小女孩跑到了汽车右边,要么干脆画出了两个小女孩。这就像是一个很聪明但有点心不在焉的画家,总体能力不错,但在处理复杂要求时容易丢三落四。

为什么会出现这种情况呢?当前的AI绘画系统就像是一个着急的学生,拿到题目后立马就开始画,画完了才发现理解错了要求。更要命的是,即使最终作品有问题,它也不知道到底是在哪个环节出了错:是一开始就理解错了你的意思,还是在绘画过程中走偏了,还是最后的细节处理有问题。

阿里巴巴的研究团队注意到了这个问题,他们发现现有的AI绘画系统有两大短板。首先是面对复杂描述时容易犯糊涂,比如当你要求"画出法国最著名的大教堂,要有两扇彩色玻璃窗"时,AI可能不知道你说的是巴黎圣母院,或者虽然画出了教堂,但玻璃窗的数量不对。其次是现有的训练方式有问题,就像只在考试结束后才告诉学生哪道题做错了,而不在做题过程中给出提示,这样的反馈来得太晚,效果自然不好。

为了解决这些问题,研究团队开发了一套名为Visual-CoG的新方法。这个方法最大的特点是把AI绘画变成了一个三步走的过程,就像一个专业画家的创作流程一样。

第一步是"语义推理"阶段。在这个阶段,AI不急着动笔,而是先仔细思考你的要求到底是什么意思。比如当你说"画出雨果小说中出现的法国大教堂"时,AI会先推理出"雨果最著名的小说是《巴黎圣母院》,所以用户要的是巴黎圣母院"。然后它会把原始要求改写得更具体:"一座法国哥特式大教堂,有飞扶壁,两扇彩色玻璃窗,营造温暖祥和的氛围"。这就像是一个细心的翻译,把模糊的指令翻译成清晰的行动方案。

第二步是"过程优化"阶段。在实际绘画过程中,AI不再是一口气画完,而是边画边检查。这就像是一个画家会不时停下来审视自己的作品,看看哪里需要调整。技术上,研究团队设计了一个巧妙的机制:让AI在绘画的每个中间步骤都尝试重建图像的某些部分,如果重建效果不好,说明这一步的绘画质量有问题,需要调整。

第三步是"结果评估"阶段。画作完成后,AI会对最终结果进行全面检查,就像是一个严格的美术老师在批改作业。它会检查颜色是否正确、物体数量是否准确、空间位置是否合理,甚至整体的美感如何。比如检查"红裙子"是不是真的是红色的,"两扇窗户"是不是确实有两扇,"左边"是不是真的在左边。

这三个阶段最重要的创新在于,每个阶段都会给AI即时的反馈信息,告诉它这一步做得好不好。这就像是一个耐心的老师,不仅在考试结束后给分数,还在学生做题的每个关键步骤都给出指导意见。

为了训练这套系统,研究团队使用了一种叫做"强化学习"的方法。简单来说,就是通过奖励和惩罚来引导AI学习。当AI在某个阶段表现好时,就给它正面奖励;表现不好时,就给负面反馈。与传统方法不同的是,Visual-CoG在三个阶段都提供反馈,而不是只在最后给个总分。

在语义推理阶段,奖励机制是这样工作的:AI用原始指令和改写后的指令分别画一幅图,然后比较两幅图的质量。如果改写后的指令能产生更好的图画,说明语义推理做得好,就给正奖励;反之则给负奖励。这就像是通过对比考试来检验学生是否真正理解了题目。

在过程优化阶段,系统引入了一个"老师模型"的概念。可以把它想象成一个经验丰富的画家导师,它知道在每个绘画步骤应该如何处理。学生AI需要尽量模仿这个老师的绘画过程,越接近老师的标准,奖励越高。这种方法确保了AI在绘画的中间过程就能得到指导,而不是画完才知道对错。

在结果评估阶段,研究团队设计了一套全面的评分标准,包括空间关系、数量准确性、颜色正确性和整体美感。比如对于"三个人"这样的要求,系统会自动数一下画中确实有几个人,如果数量不对就扣分。对于"红色汽车在蓝色房子左边"这样的要求,系统会检查汽车是否确实在房子的左边,颜色是否正确。

为了验证Visual-CoG的效果,研究团队进行了大量的测试。他们不仅在现有的标准测试集上进行了评估,还专门创建了一个新的测试集叫做VisCog-Bench(视觉认知基准),专门用来测试AI处理复杂和需要推理的绘画要求的能力。

这个新测试集包括四类特别有挑战性的任务。第一类是"异常位置"任务,比如要求画"紫色的狗和黑色的餐桌",考验AI能否正确处理不常见的颜色搭配。第二类是"异常组合"任务,要求把平时不太会放在一起的物品画在同一幅图中。第三类是"异常颜色"任务,要求给物品涂上不寻常的颜色。第四类是"推理"任务,就像前面提到的"雨果小说中的大教堂"那样,需要AI通过常识推理才能知道具体要画什么。

测试结果显示,Visual-CoG在各项指标上都有显著提升。在GenEval这个标准测试集上,总体性能比基准方法提升了15%,在一些具体指标上提升更为明显:计数准确性提升了14.69%,位置准确性提升了47.97%,颜色准确性提升了15.36%。在另一个测试集T2I-CompBench上,Visual-CoG在颜色处理方面达到了78.92%的准确率,在空间关系处理方面达到了43.71%的准确率,都是目前最好的成绩。

更令人惊喜的是在新创建的VisCog-Bench测试集上的表现。对于那些需要推理的复杂任务,Visual-CoG的成功率高达77.5%,相比之下,没有语义推理功能的版本只有49.75%的成功率。这说明"先思考再动笔"的策略确实有效。

研究团队还专门分析了三个阶段各自的贡献。他们发现,语义推理阶段主要帮助提升位置关系的准确性,提升了6.99个百分点;过程优化阶段主要改善了计数准确性,提升了7.96个百分点;结果评估阶段则主要提升了颜色准确性,提升了9.53个百分点。这就像是一个团队合作,每个成员都有自己的专长,合在一起效果更好。

从实际的画作效果来看,Visual-CoG生成的图像确实更加精确和丰富。比如在处理"一张蛋糕和一只斑马的照片"这样的要求时,基础版本可能只会画出两个互不相干的物品,而Visual-CoG会创造出一个合理的场景,比如斑马在生日派对上准备享用蛋糕。在处理"三个人"这样的计数要求时,基础版本经常画错人数,而Visual-CoG几乎总是能准确画出三个人。

这种改进不仅体现在准确性上,还体现在画面的丰富度和艺术性上。通过语义推理,AI能够理解用户的真实意图,创造出更有意义的场景。通过过程优化,绘画的每个细节都更加精致。通过结果评估,整体画面的协调性和美感都得到了提升。

Visual-CoG的意义不仅仅在于技术上的突破,更在于它代表了AI绘画发展的一个重要方向:从简单的图像生成转向智能的创意理解和表达。就像人类画家需要理解、构思、创作和完善这样一个完整的创作过程,AI也需要学会这样的系统性思维。

对于普通用户来说,这意味着与AI的交流可以更加自然和高效。你不再需要绞尽脑汁地用标准化的描述来迁就AI,而是可以用更接近自然语言的方式表达你的创意想法,AI能够理解你的意图并创造出符合期望的作品。

当然,这项技术也还有进一步改进的空间。目前的语义推理主要依赖于预训练的语言模型的知识,对于一些非常专业或者非常新颖的概念可能还会有理解偏差。过程优化阶段虽然能够改善绘画质量,但计算成本相对较高,需要在效果和效率之间找到更好的平衡点。结果评估阶段虽然全面,但主要还是基于规则的评判,对于艺术性和创意性的判断还有待完善。

尽管如此,Visual-CoG仍然代表了AI绘画领域的一个重要进步,它证明了通过模仿人类的创作思维过程,AI可以在理解复杂指令和生成高质量图像方面取得显著提升。随着技术的不断完善,我们有理由相信,未来的AI绘画工具将会变得更加智能、更加贴近人类的创作需求,真正成为创意工作者的得力助手。

Q&A

Q1:Visual-CoG和普通的AI绘画工具有什么不同?

A:普通AI绘画工具就像一个着急的学生,拿到描述就直接开始画,经常会搞错细节。而Visual-CoG就像一个专业画家,会先仔细理解你的要求(语义推理),然后边画边检查(过程优化),最后全面检查作品质量(结果评估)。这种三步走的方式让AI能更准确地理解复杂指令,画出更符合要求的图片。

Q2:Visual-CoG在哪些方面的表现提升最明显?

A:Visual-CoG在处理复杂描述时表现尤其出色。比如在计数准确性上提升了14.69%,位置关系准确性提升了47.97%,颜色准确性提升了15.36%。特别是对于需要推理的任务,比如"画出雨果小说中的大教堂"这样的要求,成功率高达77.5%,而普通方法只有49.75%。

Q3:普通人现在可以使用Visual-CoG技术吗?

A:目前Visual-CoG还主要是一项研究成果,阿里巴巴团队计划很快会公开相关资源。不过这项技术代表的"分步思考"理念已经开始影响AI绘画工具的发展方向,未来会有更多融合类似技术的产品面向普通用户,让AI绘画变得更智能、更准确。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
在安禄山被杀的前夜,召小妾段氏服侍,段氏提醒:陛下可要小心了

在安禄山被杀的前夜,召小妾段氏服侍,段氏提醒:陛下可要小心了

墨兰史书
2025-11-11 04:35:02
荷兰经济大臣11月7日表示:接管安世半导体的行动超出了必要范围

荷兰经济大臣11月7日表示:接管安世半导体的行动超出了必要范围

李博世财经
2025-11-11 10:02:33
不是36万亿而是230万亿?美专家:美国已经破产,美元成“假钞”

不是36万亿而是230万亿?美专家:美国已经破产,美元成“假钞”

小莜读史
2025-11-10 20:22:21
十女配一男都不够,成为世界上最缺男人的国家,美女多到嫁不出去

十女配一男都不够,成为世界上最缺男人的国家,美女多到嫁不出去

素衣读史
2025-11-10 17:32:56
沈阳山姆超市三文鱼冷柜出现针头,工作人员称已将涉事商品封存,警方:为药物针头,无毒物嫌疑

沈阳山姆超市三文鱼冷柜出现针头,工作人员称已将涉事商品封存,警方:为药物针头,无毒物嫌疑

极目新闻
2025-11-11 16:37:20
35分10板11助!哈登燃尽自己,NBA神级纪录诞生,快船迎魔鬼赛程

35分10板11助!哈登燃尽自己,NBA神级纪录诞生,快船迎魔鬼赛程

世界体育圈
2025-11-11 15:48:21
英媒:中国富人为何逃离新加坡?中国不给脸,新加坡也就是个县了

英媒:中国富人为何逃离新加坡?中国不给脸,新加坡也就是个县了

亿通电子游戏
2025-11-11 11:07:28
地表最难乒乓球赛!全运会卫冕冠军王曼昱差点输了比赛

地表最难乒乓球赛!全运会卫冕冠军王曼昱差点输了比赛

澎湃新闻
2025-11-11 14:02:29
解放军进台海,不到24小时,马英九开始追责,郑丽文摊牌两岸关系

解放军进台海,不到24小时,马英九开始追责,郑丽文摊牌两岸关系

时时有聊
2025-11-08 17:32:09
去了巴黎才发现:没人穿黑裤、阔腿裤了,满街都是这3种“冬裤”

去了巴黎才发现:没人穿黑裤、阔腿裤了,满街都是这3种“冬裤”

时尚穿搭生活馆
2025-11-10 15:01:02
有钱也没用!火炬传递霍震霆、何超琼都来了,李嘉诚家无一人出席

有钱也没用!火炬传递霍震霆、何超琼都来了,李嘉诚家无一人出席

书雁飞史oh
2025-11-10 19:25:51
真实的座山雕有多可怕,比电影残暴百倍,连日本人都拿他没办法!

真实的座山雕有多可怕,比电影残暴百倍,连日本人都拿他没办法!

诗意世界
2025-11-10 15:48:11
离世爱猫托梦已投胎,主人发帖寻新主人,与“转世”小猫奇迹重逢

离世爱猫托梦已投胎,主人发帖寻新主人,与“转世”小猫奇迹重逢

Magic宠物社
2025-11-09 21:35:04
博主:王钰栋月底大概率去U21联赛支援,目标是冲乙

博主:王钰栋月底大概率去U21联赛支援,目标是冲乙

懂球帝
2025-11-11 15:23:06
中国有权在日本驻军,高市早苗闯了大祸,日方意识到大事不妙!

中国有权在日本驻军,高市早苗闯了大祸,日方意识到大事不妙!

安珈使者啊
2025-11-11 14:21:13
医生提醒:步入老年,宁可多吃油条腊肉,也别总吃这3种粗粮

医生提醒:步入老年,宁可多吃油条腊肉,也别总吃这3种粗粮

周哥一影视
2025-11-11 13:09:53
电诈大佬、赌王佘智江90天内将引渡回国,赌资2.77万亿专坑中国人

电诈大佬、赌王佘智江90天内将引渡回国,赌资2.77万亿专坑中国人

潘幸知
2025-11-11 16:58:13
发力了!曝沙特基金准备以700亿美元全现金收购华纳

发力了!曝沙特基金准备以700亿美元全现金收购华纳

游民星空
2025-11-10 20:11:25
为中小学教师减负!教育部发布8条措施:不得要求教师上街执勤;无学生在校期间,原则上不安排专任教师值班值守

为中小学教师减负!教育部发布8条措施:不得要求教师上街执勤;无学生在校期间,原则上不安排专任教师值班值守

每日经济新闻
2025-11-10 14:08:19
为秦昊怀3胎拼儿子!56岁伊能静怀孕,5个月是男孩,将在美国生产

为秦昊怀3胎拼儿子!56岁伊能静怀孕,5个月是男孩,将在美国生产

八星人
2025-11-11 10:24:52
2025-11-11 17:40:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6176文章数 541关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

12岁女孩手脚遭绑关厕所17天被虐亡 继母二审维持死刑

头条要闻

12岁女孩手脚遭绑关厕所17天被虐亡 继母二审维持死刑

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

房产
手机
家居
公开课
军事航空

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

手机要闻

消息称三星Galaxy S26 Ultra将支持25W无线充电,充电速度提升40%

家居要闻

国美学子 打造筑梦空间

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

空军发布重磅视频 多款新型战机亮相

无障碍浏览 进入关怀版