网易首页 > 网易号 > 正文 申请入驻

香港中文大学DraCo让机器学会"打草稿再完善"的创作方式

0
分享至


这项由香港中文大学MMLab实验室的姜东志、张人瑞等研究团队开发的技术发表于2025年12月,论文编号为arXiv:2512.05112v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们人类画画时,通常会先画一个粗糙的草图,然后不断修改完善,最终得到满意的作品。但现在的AI绘画系统却像是闭着眼睛一次性画完整幅画,经常会出现各种错误,比如画出橙色的苹果却说成是白色的,或者把左右位置搞反了。香港中文大学的研究团队想到一个绝妙的主意:为什么不让AI也学会人类这种"先打草稿,再修改完善"的创作方式呢?

这个想法催生了一项名为DraCo(Draft-as-CoT)的突破性技术。DraCo的工作原理就像一位认真的画家:首先快速画出一幅低分辨率的草图,然后仔细观察这幅草图是否符合要求,发现问题后进行针对性的修改,最终输出高质量的完整作品。这种方法不仅大大提高了AI绘画的准确性,还特别擅长创作那些在现实中很少见的奇特组合,比如白色的橙子或者紫色的椅子。

研究团队发现,传统的AI绘画系统面临两个核心难题。第一个难题是规划过于抽象。传统系统只能通过文字来理解和规划要画的内容,这就像让一个从未见过汽车的人仅凭文字描述来画汽车,结果往往差强人意。第二个难题是罕见组合的生成困难。由于训练数据中很少出现"白色的橙子"这样的奇特组合,AI系统往往会固执地画出常见的橙色橙子,而忽视用户的特殊要求。

一、技术原理:三步走的创作流程

DraCo的工作流程可以比作一个三阶段的绘画过程。在第一阶段"草图绘制"中,系统根据用户的文字描述快速生成一幅384×384像素的低分辨率草图。这个阶段的重点不是细节,而是确保基本的构图和主要元素都能体现出来,就像画家先用铅笔快速勾勒出大致轮廓。

第二阶段是"草图验证",这是DraCo最独特的创新点。系统会像一位挑剔的艺术评论家一样,仔细观察自己画的草图,将其与原始要求进行对比。如果发现草图中的橙子是橙色的,但用户要求的是白色,系统就会明确指出:"需要将橙子的颜色从橙色改为白色。"这个过程完全依靠系统自身的视觉理解能力,不需要外部的评判标准。

第三阶段是"修正完善",系统根据第二阶段的分析结果,对草图进行针对性的修改,同时将分辨率提升到1024×1024像素,生成最终的高质量图像。这个过程既保持了草图中正确的部分,又精确修正了存在问题的地方,还增加了丰富的细节。

二、技术创新:专门的引导机制

为了让这套三步流程更好地工作,研究团队开发了一种名为DraCo-CFG的专门引导机制。传统的AI绘画系统在生成图像时,通常只考虑用户的文字描述这一个条件。但DraCo需要同时考虑多个条件:原始的文字描述、草图的视觉信息,以及修改指令。

DraCo-CFG巧妙地将这些不同的条件分层处理。它设计了三种不同的生成模式:无条件生成(完全随机)、仅基于草图的生成(保持草图的基本结构)、以及完全条件生成(综合考虑所有信息)。通过数学上的精确组合,系统能够既保持草图的正确部分,又根据修改指令进行精准调整。

这种设计的妙处在于避免了条件之间的相互干扰。就像调音台上的不同频道,每个条件都有自己独立的"音量控制",技术人员可以根据需要调高某个条件的影响力,而不会意外地影响其他条件。

三、训练数据:DraCo-240K数据集的构建

为了让AI学会这种草图修改的能力,研究团队精心构建了一个包含24万个训练样本的数据集,称为DraCo-240K。这个数据集的建设过程就像开办一所专门的"AI绘画修改学校",需要提供大量的"修改前后对比案例"。

数据集涵盖三大类修改能力。第一类是"一般修正",包括替换物体、改变背景、调整颜色等基本操作,就像教学生如何把画中的苹果改成梨,或者把蓝天改成夕阳。第二类是"实例操控",专门训练系统处理同类物体的精确控制,比如画面中有五只猫,用户要求只保留三只,系统需要准确识别并删除指定的两只。第三类是"布局重组",训练系统理解和调整物体之间的空间关系,比如将原本在左边的椅子移到右边。

数据集的制作过程高度自动化。研究团队使用了多种AI工具的组合:利用强大的视觉模型来检测和分割图像中的物体,使用编辑模型来进行精确的图像修改,然后用语言模型来生成相应的文字描述和修改指令。这种自动化流程确保了数据集的规模和质量,同时避免了人工标注的巨大成本。

四、实验验证:显著的性能提升

研究团队在多个权威测试平台上验证了DraCo的效果,结果相当令人兴奋。在GenEval这个综合性评测中,DraCo相比基础模型取得了8%的显著提升,达到了86%的整体准确率。更重要的是,在最具挑战性的"颜色属性"任务中,DraCo的表现特别突出,准确率达到76%,远超其他方法。

在专门测试罕见组合生成能力的ImagineBench上,DraCo同样表现优异,相比基础模型提升了0.91分,相比纯文本规划方法提升了0.18分。这些数字背后代表的是AI在理解和生成非常规图像内容方面的重大进步。

更有说服力的是定性分析结果。研究团队展示了大量的对比案例,DraCo生成的图像不仅在视觉质量上更加清晰细腻,在内容准确性方面也明显优于其他方法。特别是在处理复杂的空间关系、精确的物体计数、以及罕见的颜色组合时,DraCo展现出了其他方法难以匹敌的优势。

五、技术细节:关键设计选择的智慧

研究过程中的一些技术细节选择体现了团队的深思熟虑。比如草图分辨率的选择,团队测试了128×128、384×384和1024×1024三种分辨率。128×128太小,无法表达足够的语义信息,系统连基本的物体都难以识别;1024×1024太大,不仅增加了计算负担,还失去了"草图快速预览"的初衷。384×384恰好平衡了表达能力和效率。

另一个关键选择是在验证阶段只使用视觉特征而不使用低级图像特征。传统的图像编辑系统会保留所有的图像细节信息,但DraCo deliberately选择忽略这些细节,专注于高层次的语义理解。这种设计让系统能够进行更大胆的修改,不会被草图中的小瑕疵所束缚。

训练过程中的数据组织也很有讲究。系统不仅学习如何进行修改,还学习什么时候不需要修改。当草图已经完美匹配用户要求时,系统会明确说明"无需修改",然后直接进行超分辨率处理。这种正负样本的平衡训练让系统学会了更准确的判断能力。

六、应用前景:从实验室到现实世界

DraCo技术的意义远超纯粹的技术突破,它为AI绘画领域带来了全新的思路。这种"计划-验证-修正"的范式可能会成为未来AI创作系统的标准流程,不仅适用于图像生成,也可能扩展到视频、3D模型等其他创作领域。

对于普通用户而言,DraCo意味着AI绘画工具将变得更加可靠和精确。用户不再需要反复尝试不同的描述来获得满意的结果,系统能够更好地理解和实现用户的创意想法,特别是那些独特或非常规的创意。

从商业角度来看,这项技术有望推动AI绘画应用在更多专业领域的普及,比如广告设计、产品展示、教育插图等。当AI能够可靠地生成用户要求的精确内容时,它就能真正成为创作者的得力助手,而不仅仅是一个需要"运气"的创意工具。

研究团队也坦诚地指出了当前技术的局限性。DraCo目前专门针对静态图像设计,要扩展到视频或3D内容还需要额外的技术发展。而且,虽然系统在大多数情况下表现优秀,但在处理极其复杂或抽象的创作要求时仍有提升空间。

说到底,DraCo代表了AI绘画技术发展的一个重要里程碑。它证明了让AI模仿人类创作思维的可行性和有效性,也为这个快速发展的领域指明了新的方向。随着技术的不断完善,我们有理由期待AI创作工具能够真正理解和实现人类的创意想法,成为每个人都能使用的强大创作伙伴。

Q&A

Q1:DraCo技术是如何工作的?

A:DraCo采用三步创作流程:先生成低分辨率草图,然后分析草图与要求的差异,最后进行针对性修改并提升分辨率。这种方式模仿了人类画家的创作过程,能够更准确地生成用户想要的图像。

Q2:DraCo相比传统AI绘画有什么优势?

A:DraCo在生成准确性上有显著提升,特别擅长创作罕见的颜色组合和处理复杂的空间关系。在权威测试中,它比基础模型提升了8%的准确率,在颜色属性任务中表现尤为出色。

Q3:普通用户什么时候能用上DraCo技术?

A:目前DraCo还处于研究阶段,论文已于2025年12月发布。虽然研究团队在GitHub上提供了项目信息,但要成为普通用户可以直接使用的商业产品还需要一段时间的开发和优化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

上观新闻
2026-03-26 14:45:10
张雪峰的影响力,被严重低估了

张雪峰的影响力,被严重低估了

黔有虎
2026-03-26 14:32:34
4.0 英寸 4050mAh 还有实体键盘!这绝对是今年最酷的新机了

4.0 英寸 4050mAh 还有实体键盘!这绝对是今年最酷的新机了

科技狐
2026-03-25 22:34:58
网友莫斯科遇见58岁伊能静与47岁秦昊,女方脸型紧致比男方还年轻

网友莫斯科遇见58岁伊能静与47岁秦昊,女方脸型紧致比男方还年轻

明星私服穿搭daily
2026-03-21 14:25:06
装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

泠泠说史
2026-03-20 18:31:09
山西太原一学校职工举报自己吃空饷6年,多方回应

山西太原一学校职工举报自己吃空饷6年,多方回应

大风新闻
2026-03-26 15:41:15
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
“重大转变”!外媒:特朗普改变立场,将接受民主党提议重启美国土安全部部分部门

“重大转变”!外媒:特朗普改变立场,将接受民主党提议重启美国土安全部部分部门

环球网资讯
2026-03-25 23:13:02
49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

查尔菲的笔记
2026-03-16 19:12:07
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

阅识
2026-03-26 17:33:54
从欧尔班行为,看北约当年拒绝俄罗斯的远见

从欧尔班行为,看北约当年拒绝俄罗斯的远见

民间胡扯老哥
2026-03-23 18:53:38
放弃阿隆索!利物浦新帅目标敲定,他是下一个克洛普

放弃阿隆索!利物浦新帅目标敲定,他是下一个克洛普

奶盖熊本熊
2026-03-26 04:28:59
加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

篮球资讯达人
2026-03-26 15:28:40
2大势力联手、布局围剿郑丽文,恐遭灭顶之灾,“内鬼”已经露馅

2大势力联手、布局围剿郑丽文,恐遭灭顶之灾,“内鬼”已经露馅

忠于法纪
2026-03-26 13:28:20
白宫不装了,承认伊朗拒绝谈判,特朗普准备“释放地狱”

白宫不装了,承认伊朗拒绝谈判,特朗普准备“释放地狱”

书纪文谭
2026-03-26 16:28:13
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
哪一年退休的人员,享有退休金补发?赶紧看看你符合条件吗?

哪一年退休的人员,享有退休金补发?赶紧看看你符合条件吗?

娱乐洞察点点
2026-03-26 16:11:56
吃相难看!张雪峰去世不到24小时,恶心的事情发生,官方出手整治

吃相难看!张雪峰去世不到24小时,恶心的事情发生,官方出手整治

阿凫爱吐槽
2026-03-25 18:57:39
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

红豆讲堂
2024-09-13 09:35:43
2026-03-26 20:39:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7746文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
亲子
艺术
健康
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

孩子模仿这种行为,容易被坏人盯上!

艺术要闻

哪一座桥不是风景?

转头就晕的耳石症,能开车上班吗?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版