网易首页 > 网易号 > 正文 申请入驻

香港中文大学DraCo让机器学会"打草稿再完善"的创作方式

0
分享至


这项由香港中文大学MMLab实验室的姜东志、张人瑞等研究团队开发的技术发表于2025年12月,论文编号为arXiv:2512.05112v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们人类画画时,通常会先画一个粗糙的草图,然后不断修改完善,最终得到满意的作品。但现在的AI绘画系统却像是闭着眼睛一次性画完整幅画,经常会出现各种错误,比如画出橙色的苹果却说成是白色的,或者把左右位置搞反了。香港中文大学的研究团队想到一个绝妙的主意:为什么不让AI也学会人类这种"先打草稿,再修改完善"的创作方式呢?

这个想法催生了一项名为DraCo(Draft-as-CoT)的突破性技术。DraCo的工作原理就像一位认真的画家:首先快速画出一幅低分辨率的草图,然后仔细观察这幅草图是否符合要求,发现问题后进行针对性的修改,最终输出高质量的完整作品。这种方法不仅大大提高了AI绘画的准确性,还特别擅长创作那些在现实中很少见的奇特组合,比如白色的橙子或者紫色的椅子。

研究团队发现,传统的AI绘画系统面临两个核心难题。第一个难题是规划过于抽象。传统系统只能通过文字来理解和规划要画的内容,这就像让一个从未见过汽车的人仅凭文字描述来画汽车,结果往往差强人意。第二个难题是罕见组合的生成困难。由于训练数据中很少出现"白色的橙子"这样的奇特组合,AI系统往往会固执地画出常见的橙色橙子,而忽视用户的特殊要求。

一、技术原理:三步走的创作流程

DraCo的工作流程可以比作一个三阶段的绘画过程。在第一阶段"草图绘制"中,系统根据用户的文字描述快速生成一幅384×384像素的低分辨率草图。这个阶段的重点不是细节,而是确保基本的构图和主要元素都能体现出来,就像画家先用铅笔快速勾勒出大致轮廓。

第二阶段是"草图验证",这是DraCo最独特的创新点。系统会像一位挑剔的艺术评论家一样,仔细观察自己画的草图,将其与原始要求进行对比。如果发现草图中的橙子是橙色的,但用户要求的是白色,系统就会明确指出:"需要将橙子的颜色从橙色改为白色。"这个过程完全依靠系统自身的视觉理解能力,不需要外部的评判标准。

第三阶段是"修正完善",系统根据第二阶段的分析结果,对草图进行针对性的修改,同时将分辨率提升到1024×1024像素,生成最终的高质量图像。这个过程既保持了草图中正确的部分,又精确修正了存在问题的地方,还增加了丰富的细节。

二、技术创新:专门的引导机制

为了让这套三步流程更好地工作,研究团队开发了一种名为DraCo-CFG的专门引导机制。传统的AI绘画系统在生成图像时,通常只考虑用户的文字描述这一个条件。但DraCo需要同时考虑多个条件:原始的文字描述、草图的视觉信息,以及修改指令。

DraCo-CFG巧妙地将这些不同的条件分层处理。它设计了三种不同的生成模式:无条件生成(完全随机)、仅基于草图的生成(保持草图的基本结构)、以及完全条件生成(综合考虑所有信息)。通过数学上的精确组合,系统能够既保持草图的正确部分,又根据修改指令进行精准调整。

这种设计的妙处在于避免了条件之间的相互干扰。就像调音台上的不同频道,每个条件都有自己独立的"音量控制",技术人员可以根据需要调高某个条件的影响力,而不会意外地影响其他条件。

三、训练数据:DraCo-240K数据集的构建

为了让AI学会这种草图修改的能力,研究团队精心构建了一个包含24万个训练样本的数据集,称为DraCo-240K。这个数据集的建设过程就像开办一所专门的"AI绘画修改学校",需要提供大量的"修改前后对比案例"。

数据集涵盖三大类修改能力。第一类是"一般修正",包括替换物体、改变背景、调整颜色等基本操作,就像教学生如何把画中的苹果改成梨,或者把蓝天改成夕阳。第二类是"实例操控",专门训练系统处理同类物体的精确控制,比如画面中有五只猫,用户要求只保留三只,系统需要准确识别并删除指定的两只。第三类是"布局重组",训练系统理解和调整物体之间的空间关系,比如将原本在左边的椅子移到右边。

数据集的制作过程高度自动化。研究团队使用了多种AI工具的组合:利用强大的视觉模型来检测和分割图像中的物体,使用编辑模型来进行精确的图像修改,然后用语言模型来生成相应的文字描述和修改指令。这种自动化流程确保了数据集的规模和质量,同时避免了人工标注的巨大成本。

四、实验验证:显著的性能提升

研究团队在多个权威测试平台上验证了DraCo的效果,结果相当令人兴奋。在GenEval这个综合性评测中,DraCo相比基础模型取得了8%的显著提升,达到了86%的整体准确率。更重要的是,在最具挑战性的"颜色属性"任务中,DraCo的表现特别突出,准确率达到76%,远超其他方法。

在专门测试罕见组合生成能力的ImagineBench上,DraCo同样表现优异,相比基础模型提升了0.91分,相比纯文本规划方法提升了0.18分。这些数字背后代表的是AI在理解和生成非常规图像内容方面的重大进步。

更有说服力的是定性分析结果。研究团队展示了大量的对比案例,DraCo生成的图像不仅在视觉质量上更加清晰细腻,在内容准确性方面也明显优于其他方法。特别是在处理复杂的空间关系、精确的物体计数、以及罕见的颜色组合时,DraCo展现出了其他方法难以匹敌的优势。

五、技术细节:关键设计选择的智慧

研究过程中的一些技术细节选择体现了团队的深思熟虑。比如草图分辨率的选择,团队测试了128×128、384×384和1024×1024三种分辨率。128×128太小,无法表达足够的语义信息,系统连基本的物体都难以识别;1024×1024太大,不仅增加了计算负担,还失去了"草图快速预览"的初衷。384×384恰好平衡了表达能力和效率。

另一个关键选择是在验证阶段只使用视觉特征而不使用低级图像特征。传统的图像编辑系统会保留所有的图像细节信息,但DraCo deliberately选择忽略这些细节,专注于高层次的语义理解。这种设计让系统能够进行更大胆的修改,不会被草图中的小瑕疵所束缚。

训练过程中的数据组织也很有讲究。系统不仅学习如何进行修改,还学习什么时候不需要修改。当草图已经完美匹配用户要求时,系统会明确说明"无需修改",然后直接进行超分辨率处理。这种正负样本的平衡训练让系统学会了更准确的判断能力。

六、应用前景:从实验室到现实世界

DraCo技术的意义远超纯粹的技术突破,它为AI绘画领域带来了全新的思路。这种"计划-验证-修正"的范式可能会成为未来AI创作系统的标准流程,不仅适用于图像生成,也可能扩展到视频、3D模型等其他创作领域。

对于普通用户而言,DraCo意味着AI绘画工具将变得更加可靠和精确。用户不再需要反复尝试不同的描述来获得满意的结果,系统能够更好地理解和实现用户的创意想法,特别是那些独特或非常规的创意。

从商业角度来看,这项技术有望推动AI绘画应用在更多专业领域的普及,比如广告设计、产品展示、教育插图等。当AI能够可靠地生成用户要求的精确内容时,它就能真正成为创作者的得力助手,而不仅仅是一个需要"运气"的创意工具。

研究团队也坦诚地指出了当前技术的局限性。DraCo目前专门针对静态图像设计,要扩展到视频或3D内容还需要额外的技术发展。而且,虽然系统在大多数情况下表现优秀,但在处理极其复杂或抽象的创作要求时仍有提升空间。

说到底,DraCo代表了AI绘画技术发展的一个重要里程碑。它证明了让AI模仿人类创作思维的可行性和有效性,也为这个快速发展的领域指明了新的方向。随着技术的不断完善,我们有理由期待AI创作工具能够真正理解和实现人类的创意想法,成为每个人都能使用的强大创作伙伴。

Q&A

Q1:DraCo技术是如何工作的?

A:DraCo采用三步创作流程:先生成低分辨率草图,然后分析草图与要求的差异,最后进行针对性修改并提升分辨率。这种方式模仿了人类画家的创作过程,能够更准确地生成用户想要的图像。

Q2:DraCo相比传统AI绘画有什么优势?

A:DraCo在生成准确性上有显著提升,特别擅长创作罕见的颜色组合和处理复杂的空间关系。在权威测试中,它比基础模型提升了8%的准确率,在颜色属性任务中表现尤为出色。

Q3:普通用户什么时候能用上DraCo技术?

A:目前DraCo还处于研究阶段,论文已于2025年12月发布。虽然研究团队在GitHub上提供了项目信息,但要成为普通用户可以直接使用的商业产品还需要一段时间的开发和优化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个都跑不掉!华为600万年薪高管,带13人偷芯片,如今下场解气

一个都跑不掉!华为600万年薪高管,带13人偷芯片,如今下场解气

涵豆说娱
2025-11-07 17:47:01
超级大国的最后遗产!美媒:中国获得3架顶级战机,成就超俄赶美

超级大国的最后遗产!美媒:中国获得3架顶级战机,成就超俄赶美

墨兰史书
2025-12-06 16:55:04
懂王威胁“让我不开心后果很严重”,莫迪最糟心的还不是这事?

懂王威胁“让我不开心后果很严重”,莫迪最糟心的还不是这事?

乌鸦校尉
2026-01-08 18:58:32
原来她早已去世10年!登春晚爆红却在异国离世 死前透露一生遗憾

原来她早已去世10年!登春晚爆红却在异国离世 死前透露一生遗憾

白面书誏
2026-01-05 23:10:04
美国解密档案:中国在中越战争的收获瞒过全世界,到底赚到了什么

美国解密档案:中国在中越战争的收获瞒过全世界,到底赚到了什么

科普启示录小强哥
2025-11-17 10:19:45
如果你身边的宜家闭店,你要小心了!

如果你身边的宜家闭店,你要小心了!

滨海房叔
2026-01-08 09:29:21
合口味深圳地铁广告引争议!企业致歉:涉事广告已调整更换

合口味深圳地铁广告引争议!企业致歉:涉事广告已调整更换

南方都市报
2026-01-07 16:34:20
能打爆广东队?辽宁“新王炸”确认到位,杨鸣为他放弃布朗!

能打爆广东队?辽宁“新王炸”确认到位,杨鸣为他放弃布朗!

绯雨儿
2026-01-08 16:19:44
反转,索肖回归遇阻碍!高层再次乱干预,不讲感情,穆帅或成备选

反转,索肖回归遇阻碍!高层再次乱干预,不讲感情,穆帅或成备选

阿泰希特
2026-01-08 11:37:40
芬兰总统:“没有任何讨论空间”!特朗普政府:包括军事选项!五国联合声明

芬兰总统:“没有任何讨论空间”!特朗普政府:包括军事选项!五国联合声明

每日经济新闻
2026-01-07 09:43:05
隐婚生子真相大白4个月,43岁房祖名真实现状曝光,成龙没说谎

隐婚生子真相大白4个月,43岁房祖名真实现状曝光,成龙没说谎

揽星河的笔记
2025-12-29 20:12:01
杨绛:选亲家时,要留意对方家庭的3个细节,才是真的为儿女着想

杨绛:选亲家时,要留意对方家庭的3个细节,才是真的为儿女着想

诗词中国
2026-01-03 18:16:35
很多人不懂!结婚后女方如果不将户口迁到男方,会有什么样影响?

很多人不懂!结婚后女方如果不将户口迁到男方,会有什么样影响?

白色得季节
2026-01-06 11:35:16
1条也不行!2021年,广西男子捞一条卖76元,罚款6000还判刑

1条也不行!2021年,广西男子捞一条卖76元,罚款6000还判刑

万象硬核本尊
2026-01-08 17:36:03
和府捞面被曝仅有面条是现煮,客服:中央厨房制作不算预制菜

和府捞面被曝仅有面条是现煮,客服:中央厨房制作不算预制菜

映射生活的身影
2026-01-07 12:14:32
功夫巨星献祭女儿!

功夫巨星献祭女儿!

八卦疯叔
2026-01-08 13:26:35
带娃上厕所被嫂子网暴后续:宝妈“底裤”被扒,更恶心的还在后面

带娃上厕所被嫂子网暴后续:宝妈“底裤”被扒,更恶心的还在后面

游者走天下
2026-01-07 14:19:47
美国防长点名中国后,他代表特朗普当众宣布,大国竞争进入新时代

美国防长点名中国后,他代表特朗普当众宣布,大国竞争进入新时代

健身狂人
2026-01-08 05:38:59
湖北荆门“无证牛肉”调查:濒死病牛被连夜屠宰跨市销售,屠宰工因宰杀“病牛”染病抢救

湖北荆门“无证牛肉”调查:濒死病牛被连夜屠宰跨市销售,屠宰工因宰杀“病牛”染病抢救

封面新闻
2026-01-08 18:57:05
机床限制就算了,连个减速机都要出口限制了?日本公司也太小气了

机床限制就算了,连个减速机都要出口限制了?日本公司也太小气了

喜爱的CAD
2026-01-05 07:00:03
2026-01-08 19:32:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6819文章数 546关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

陈志被押解回国 太子银行进入清算程序贷款人仍需还款

头条要闻

陈志被押解回国 太子银行进入清算程序贷款人仍需还款

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

游戏
亲子
艺术
旅游
公开课

“很多士兵会死” 制作人透露《绝地潜兵2》重大更新

亲子要闻

汪小菲老婆孕晚期拍孕妇照,大肚光滑没长纹,一顿五菜三汤被娇养

艺术要闻

颐和园金光穿洞

旅游要闻

喜讯!临沂“沂蒙四季好时光”入选全国文旅营销创新案例

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版