网易首页 > 网易号 > 正文 申请入驻

阿里巴巴推出Visual-CoG:AI绘画终于学会"分步思考"了

0
分享至


这项由阿里巴巴集团的李亚琪、陈鹏、韩明阳等研究团队开发的Visual-CoG(视觉引导链)技术发表于2025年8月,论文题为《Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation》。有兴趣深入了解的读者可以通过arXiv:2508.18032v1访问完整论文。

当你对AI说"画一个穿着红裙子的小女孩站在蓝色汽车左边"时,你可能会发现AI经常会搞砸一些细节:要么裙子变成了绿色,要么小女孩跑到了汽车右边,要么干脆画出了两个小女孩。这就像是一个很聪明但有点心不在焉的画家,总体能力不错,但在处理复杂要求时容易丢三落四。

为什么会出现这种情况呢?当前的AI绘画系统就像是一个着急的学生,拿到题目后立马就开始画,画完了才发现理解错了要求。更要命的是,即使最终作品有问题,它也不知道到底是在哪个环节出了错:是一开始就理解错了你的意思,还是在绘画过程中走偏了,还是最后的细节处理有问题。

阿里巴巴的研究团队注意到了这个问题,他们发现现有的AI绘画系统有两大短板。首先是面对复杂描述时容易犯糊涂,比如当你要求"画出法国最著名的大教堂,要有两扇彩色玻璃窗"时,AI可能不知道你说的是巴黎圣母院,或者虽然画出了教堂,但玻璃窗的数量不对。其次是现有的训练方式有问题,就像只在考试结束后才告诉学生哪道题做错了,而不在做题过程中给出提示,这样的反馈来得太晚,效果自然不好。

为了解决这些问题,研究团队开发了一套名为Visual-CoG的新方法。这个方法最大的特点是把AI绘画变成了一个三步走的过程,就像一个专业画家的创作流程一样。

第一步是"语义推理"阶段。在这个阶段,AI不急着动笔,而是先仔细思考你的要求到底是什么意思。比如当你说"画出雨果小说中出现的法国大教堂"时,AI会先推理出"雨果最著名的小说是《巴黎圣母院》,所以用户要的是巴黎圣母院"。然后它会把原始要求改写得更具体:"一座法国哥特式大教堂,有飞扶壁,两扇彩色玻璃窗,营造温暖祥和的氛围"。这就像是一个细心的翻译,把模糊的指令翻译成清晰的行动方案。

第二步是"过程优化"阶段。在实际绘画过程中,AI不再是一口气画完,而是边画边检查。这就像是一个画家会不时停下来审视自己的作品,看看哪里需要调整。技术上,研究团队设计了一个巧妙的机制:让AI在绘画的每个中间步骤都尝试重建图像的某些部分,如果重建效果不好,说明这一步的绘画质量有问题,需要调整。

第三步是"结果评估"阶段。画作完成后,AI会对最终结果进行全面检查,就像是一个严格的美术老师在批改作业。它会检查颜色是否正确、物体数量是否准确、空间位置是否合理,甚至整体的美感如何。比如检查"红裙子"是不是真的是红色的,"两扇窗户"是不是确实有两扇,"左边"是不是真的在左边。

这三个阶段最重要的创新在于,每个阶段都会给AI即时的反馈信息,告诉它这一步做得好不好。这就像是一个耐心的老师,不仅在考试结束后给分数,还在学生做题的每个关键步骤都给出指导意见。

为了训练这套系统,研究团队使用了一种叫做"强化学习"的方法。简单来说,就是通过奖励和惩罚来引导AI学习。当AI在某个阶段表现好时,就给它正面奖励;表现不好时,就给负面反馈。与传统方法不同的是,Visual-CoG在三个阶段都提供反馈,而不是只在最后给个总分。

在语义推理阶段,奖励机制是这样工作的:AI用原始指令和改写后的指令分别画一幅图,然后比较两幅图的质量。如果改写后的指令能产生更好的图画,说明语义推理做得好,就给正奖励;反之则给负奖励。这就像是通过对比考试来检验学生是否真正理解了题目。

在过程优化阶段,系统引入了一个"老师模型"的概念。可以把它想象成一个经验丰富的画家导师,它知道在每个绘画步骤应该如何处理。学生AI需要尽量模仿这个老师的绘画过程,越接近老师的标准,奖励越高。这种方法确保了AI在绘画的中间过程就能得到指导,而不是画完才知道对错。

在结果评估阶段,研究团队设计了一套全面的评分标准,包括空间关系、数量准确性、颜色正确性和整体美感。比如对于"三个人"这样的要求,系统会自动数一下画中确实有几个人,如果数量不对就扣分。对于"红色汽车在蓝色房子左边"这样的要求,系统会检查汽车是否确实在房子的左边,颜色是否正确。

为了验证Visual-CoG的效果,研究团队进行了大量的测试。他们不仅在现有的标准测试集上进行了评估,还专门创建了一个新的测试集叫做VisCog-Bench(视觉认知基准),专门用来测试AI处理复杂和需要推理的绘画要求的能力。

这个新测试集包括四类特别有挑战性的任务。第一类是"异常位置"任务,比如要求画"紫色的狗和黑色的餐桌",考验AI能否正确处理不常见的颜色搭配。第二类是"异常组合"任务,要求把平时不太会放在一起的物品画在同一幅图中。第三类是"异常颜色"任务,要求给物品涂上不寻常的颜色。第四类是"推理"任务,就像前面提到的"雨果小说中的大教堂"那样,需要AI通过常识推理才能知道具体要画什么。

测试结果显示,Visual-CoG在各项指标上都有显著提升。在GenEval这个标准测试集上,总体性能比基准方法提升了15%,在一些具体指标上提升更为明显:计数准确性提升了14.69%,位置准确性提升了47.97%,颜色准确性提升了15.36%。在另一个测试集T2I-CompBench上,Visual-CoG在颜色处理方面达到了78.92%的准确率,在空间关系处理方面达到了43.71%的准确率,都是目前最好的成绩。

更令人惊喜的是在新创建的VisCog-Bench测试集上的表现。对于那些需要推理的复杂任务,Visual-CoG的成功率高达77.5%,相比之下,没有语义推理功能的版本只有49.75%的成功率。这说明"先思考再动笔"的策略确实有效。

研究团队还专门分析了三个阶段各自的贡献。他们发现,语义推理阶段主要帮助提升位置关系的准确性,提升了6.99个百分点;过程优化阶段主要改善了计数准确性,提升了7.96个百分点;结果评估阶段则主要提升了颜色准确性,提升了9.53个百分点。这就像是一个团队合作,每个成员都有自己的专长,合在一起效果更好。

从实际的画作效果来看,Visual-CoG生成的图像确实更加精确和丰富。比如在处理"一张蛋糕和一只斑马的照片"这样的要求时,基础版本可能只会画出两个互不相干的物品,而Visual-CoG会创造出一个合理的场景,比如斑马在生日派对上准备享用蛋糕。在处理"三个人"这样的计数要求时,基础版本经常画错人数,而Visual-CoG几乎总是能准确画出三个人。

这种改进不仅体现在准确性上,还体现在画面的丰富度和艺术性上。通过语义推理,AI能够理解用户的真实意图,创造出更有意义的场景。通过过程优化,绘画的每个细节都更加精致。通过结果评估,整体画面的协调性和美感都得到了提升。

Visual-CoG的意义不仅仅在于技术上的突破,更在于它代表了AI绘画发展的一个重要方向:从简单的图像生成转向智能的创意理解和表达。就像人类画家需要理解、构思、创作和完善这样一个完整的创作过程,AI也需要学会这样的系统性思维。

对于普通用户来说,这意味着与AI的交流可以更加自然和高效。你不再需要绞尽脑汁地用标准化的描述来迁就AI,而是可以用更接近自然语言的方式表达你的创意想法,AI能够理解你的意图并创造出符合期望的作品。

当然,这项技术也还有进一步改进的空间。目前的语义推理主要依赖于预训练的语言模型的知识,对于一些非常专业或者非常新颖的概念可能还会有理解偏差。过程优化阶段虽然能够改善绘画质量,但计算成本相对较高,需要在效果和效率之间找到更好的平衡点。结果评估阶段虽然全面,但主要还是基于规则的评判,对于艺术性和创意性的判断还有待完善。

尽管如此,Visual-CoG仍然代表了AI绘画领域的一个重要进步,它证明了通过模仿人类的创作思维过程,AI可以在理解复杂指令和生成高质量图像方面取得显著提升。随着技术的不断完善,我们有理由相信,未来的AI绘画工具将会变得更加智能、更加贴近人类的创作需求,真正成为创意工作者的得力助手。

Q&A

Q1:Visual-CoG和普通的AI绘画工具有什么不同?

A:普通AI绘画工具就像一个着急的学生,拿到描述就直接开始画,经常会搞错细节。而Visual-CoG就像一个专业画家,会先仔细理解你的要求(语义推理),然后边画边检查(过程优化),最后全面检查作品质量(结果评估)。这种三步走的方式让AI能更准确地理解复杂指令,画出更符合要求的图片。

Q2:Visual-CoG在哪些方面的表现提升最明显?

A:Visual-CoG在处理复杂描述时表现尤其出色。比如在计数准确性上提升了14.69%,位置关系准确性提升了47.97%,颜色准确性提升了15.36%。特别是对于需要推理的任务,比如"画出雨果小说中的大教堂"这样的要求,成功率高达77.5%,而普通方法只有49.75%。

Q3:普通人现在可以使用Visual-CoG技术吗?

A:目前Visual-CoG还主要是一项研究成果,阿里巴巴团队计划很快会公开相关资源。不过这项技术代表的"分步思考"理念已经开始影响AI绘画工具的发展方向,未来会有更多融合类似技术的产品面向普通用户,让AI绘画变得更智能、更准确。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘宇宁新剧《玫瑰丛生》首播4集,口碑出炉,观众的评价一针见血

刘宇宁新剧《玫瑰丛生》首播4集,口碑出炉,观众的评价一针见血

小猫追剧
2026-02-26 22:07:43
杨紫真的已经瘦到天赋上限了,这也太牛了…

杨紫真的已经瘦到天赋上限了,这也太牛了…

科学发掘
2026-02-22 18:51:06
与董洁牵手同框仅1个月,50岁陈坤现状曝光,网友:一点都不意外

与董洁牵手同框仅1个月,50岁陈坤现状曝光,网友:一点都不意外

白面书誏
2026-02-27 17:22:09
涉嫌严重违纪违法,王启卫被查

涉嫌严重违纪违法,王启卫被查

吉刻新闻
2026-02-27 20:31:51
忍了34年终离婚!玉女掌门人的清醒,来得太晚却太酷

忍了34年终离婚!玉女掌门人的清醒,来得太晚却太酷

大眼妹妹
2026-02-26 19:32:55
头对头击败司美格鲁肽!《柳叶刀》重磅:3期临床证实,新型口服药降糖、减重效果优于司美

头对头击败司美格鲁肽!《柳叶刀》重磅:3期临床证实,新型口服药降糖、减重效果优于司美

医诺维
2026-02-27 17:08:46
67岁倪萍近照脸又变了,让人没想到的是,她教育儿子是真有一手

67岁倪萍近照脸又变了,让人没想到的是,她教育儿子是真有一手

小椰的奶奶
2026-02-28 00:36:36
40岁网红凤姐又发文了!称这辈子太不容易,撑到现在全靠不甘心

40岁网红凤姐又发文了!称这辈子太不容易,撑到现在全靠不甘心

谈史论天地
2026-02-27 12:41:53
连续7个涨停板!股民:排了一天都排不进去!

连续7个涨停板!股民:排了一天都排不进去!

数据挖掘分析
2026-02-27 15:12:17
钱再多有啥用?56岁李富真走路东倒西歪、瘦成皮包骨,真不忍直视

钱再多有啥用?56岁李富真走路东倒西歪、瘦成皮包骨,真不忍直视

洲洲影视娱评
2026-02-27 15:07:49
1985年,19岁的苏菲·玛索在东京街头,英气十足

1985年,19岁的苏菲·玛索在东京街头,英气十足

娱你同欢
2026-02-15 10:12:04
中华人民共和国正式向全世界宣告两件大事:

中华人民共和国正式向全世界宣告两件大事:

百态人间
2026-02-05 15:32:53
有没有人装B正好撞到你擅长的领域上?网友:停顿一下,继续补刀

有没有人装B正好撞到你擅长的领域上?网友:停顿一下,继续补刀

夜深爱杂谈
2026-02-27 22:43:52
野野浦暖:从“一亿人美少女”到蚊香社顶梁柱的六年蜕变

野野浦暖:从“一亿人美少女”到蚊香社顶梁柱的六年蜕变

管鲍老四级
2026-02-27 00:17:55
不要捧杀!《体坛周报》记者:邝兆镭对中超联赛是降维打击

不要捧杀!《体坛周报》记者:邝兆镭对中超联赛是降维打击

吴蛛旅行ing
2026-02-27 10:37:27
非常喜欢中国的韩国演员哥被目击在物流中心打工…

非常喜欢中国的韩国演员哥被目击在物流中心打工…

奋斗在韩国
2026-02-27 14:45:11
广州城投,为冲动拿地买单

广州城投,为冲动拿地买单

地产K线官方
2026-02-27 13:54:12
副部级添新职!国务院部委管理的国家局,新任党组书记明确

副部级添新职!国务院部委管理的国家局,新任党组书记明确

上观新闻
2026-02-27 14:46:23
广东宏远忽然官宣4大外援,这次是真的要夺冠还是另有打算?

广东宏远忽然官宣4大外援,这次是真的要夺冠还是另有打算?

kio鱼
2026-02-27 16:58:04
欧冠淘汰赛迎历史巨变:阿森纳、拜仁喜提“双重主场”优势

欧冠淘汰赛迎历史巨变:阿森纳、拜仁喜提“双重主场”优势

星耀国际足坛
2026-02-27 23:13:19
2026-02-28 01:24:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7369文章数 553关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

时尚
房产
教育
公开课
军事航空

舒淇最爱穿的裙子搭配,真的很适合春天!

房产要闻

重磅!海南“十五五”规划出炉!未来五年,方向定了!

教育要闻

扩招+报考降温!考研历年报录比趋势分析

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版