网易首页 > 网易号 > 正文 申请入驻

MIT团队开发AI文生图Agent,模拟人类素描,还可人机交互创作

0
分享至

当你试图交流或理解某些想法时,语言往往力有不逮。有时更高效的方式是绘制简单的概念草图——比如用电路图来解析系统运作原理。

但若人工智能能协助我们探索这种可视化表达呢?

当前,多数 AI 系统虽擅长创作写实油画或卡通插画,却难以把握素描的精髓:那种逐笔勾勒、反复迭代的过程,正是人类借以头脑风暴并修正创意表达的关键。

近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)与斯坦福大学联合开发的新型绘图系统“SketchAgent”改变了这一现状。该系统采用多模态语言模型,可在数秒内将自然语言指令转化为草图。无论是独立创作还是人机协作,它都能完成绘制,既可以配合人类共同作画,也能根据分段文字描述逐步构建草图

该论文第一作者、CSAIL 博士后研究员 Yael Vinker 指出,这一系统开创了人机交互的更自然方式。“人们往往没有意识到自己日常绘制了多少草图。人类会用速写来梳理思路或研讨创意,我们的工具旨在模拟这一过程,让多模态语言模型能更有效地辅助人类实现视觉化表达。”

虽然像 DALL-E 3 这样的文本转图像模型可以创作出引人入胜的绘画,但它们缺少素描的一个关键要素:自发的、富有创意的过程,在这个过程中,每一笔都可能影响整体设计。SketchAgent 的绘画则被建模为一系列笔触,看起来更自然流畅,就像人类的素描一样。

先前的研究依赖人类绘制数据集进行模型训练,其规模与多样性往往受限。SketchAgent 则另辟蹊径,直接调用预训练语言模型——这些模型虽掌握海量概念,却不懂如何素描。当研究者教会语言模型这种笔触序列创作法后,SketchAgent 开始绘制它从未明确训练过的各种概念。

SketchAgent 通过独创的“素描语言”教会 AI 模型逐笔作画——无需依赖训练数据,而是将草图转化为网格上带编号的笔触序列。研究人员以房屋为例演示绘制过程:每道笔触都标注对应元素,使模型能够举一反三理解新概念。

作为一种冻结参数的多模态大语言模型,SketchAgent 接收三类输入:包含素描语言规范的系统提示;带有具体任务指令的用户提示(如“画一条鲨鱼”);空白绘图画布。根据任务要求,该系统会生成代表笔触序列的文本响应。这些笔触数据经处理转化为矢量图形后呈现在画布上。画布可被循环利用于两种场景:配合更新后的提示重新输入模型,用于执行新增任务或修改草图;供人类用户调取以实现协作绘图。

Vinker 团队也验证了 SketchAgent 究竟是与人类协同创作,还是在独立创作。他们在协作模式下测试了该系统:人类与 AI 需合力完成特定概念的绘制。移除 AI 贡献的笔触后,团队发现这些笔触对最终成图至关重要。例如删除代表桅杆的人工笔触后,整幅帆船草图便难以辨认。

也就是说,通过研究人员设计的基于 Web 的协作式草图绘制环境,用户可以和 SketchAgent 轮流在共享画布上绘制,根据给定的文本概念创作出可识别的草图。参与者以两种模式绘制概念:单人模式(各自独立绘制)和协作模式(用户和 SketchAgent 协作绘制,每次添加一笔,直到双方都对最终效果满意为止)。绿色表示用户绘制的笔触,粉色表示 SketchAgent 绘制的笔触 。

用户还可以通过聊天对话反复编辑他们的草图。研究团队演示了该系统创作的各种概念草图:机器人、蝴蝶、DNA双螺旋、流程图,甚至悉尼歌剧院等抽象图案。未来,该工具或可发展为互动艺术游戏,既能辅助教师和研究者图解复杂概念,也能为用户提供快速绘画教学。

此外,用户还可以使用 SketchAgent 将草图变为动图。

在另一个实验中,研究者为 SketchAgent 接入不同多模态语言模型进行测评。结果发现,Claude 3.5 Sonnet 生成的矢量图形(可转换为高清图像的文本文件)最具人类特质,表现优于 GPT-4o 和 Claude 3 Opus 等模型。“这一结果暗示该模型处理视觉信息的方式与众不同。”合著者 Tamar Rott Shaham 指出。

她补充道,SketchAgent 可能成为超越文本交互的新型人机协作界面:“随着模型理解草图等多元模态的能力提升,用户将获得更直觉化、类人的表达方式,这能显著丰富交互体验,提升 AI 的易用性与适应性。”

尽管 SketchAgent 展现出巨大的潜力,目前仍无法完成专业素描。它能用简笔画呈现基础概念,但对徽标、句子、独角兽等复杂生物及特定人物形象的绘制仍力不从心。协作过程中,模型偶现理解偏差——例如画出双头兔。Vinker 解释,这可能源于其“思维链”推理机制:当模型将绘图任务分解为多个步骤时,可能误解人类对哪部分草图做出贡献。研究者考虑通过扩散模型合成数据来优化这些绘图技能。

此外,该系统常需多轮提示才能生成拟人涂鸦。未来团队计划优化交互界面,简化与多模态语言模型的协作绘图流程。但该工具已证明:通过人机逐步协作,AI 有望以人类思维方式绘制多元概念,最终实现更契合设计意图的成果。

1.https://yael-vinker.github.io/sketch-agent/

2.https://news.mit.edu/2025/teaching-ai-models-to-sketch-more-like-humans-0602

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江西安源路桥集团有限公司党支部书记、董事长王东被查

江西安源路桥集团有限公司党支部书记、董事长王东被查

潇湘晨报
2026-03-25 16:16:44
上将被查、院士被除名,这背后释放的信号,比你想的更不简单

上将被查、院士被除名,这背后释放的信号,比你想的更不简单

李昕言温度空间
2026-03-19 22:56:18
挂断中国通话后,伊朗向全球发出“照会”,沙特王储紧急发声解释

挂断中国通话后,伊朗向全球发出“照会”,沙特王储紧急发声解释

宋垀搞笑配音
2026-03-26 23:56:50
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

环球网资讯
2026-03-26 20:44:05
“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

今日养生之道
2026-03-23 11:46:39
很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

岐黄传人孙大夫
2026-03-26 20:45:03
蓝白合作捍卫陆配李贞秀,立法机构上演59票对抗,黄捷吴思瑶现场失控

蓝白合作捍卫陆配李贞秀,立法机构上演59票对抗,黄捷吴思瑶现场失控

娱乐小可爱蛙
2026-03-27 00:05:03
A股:市场要开始准备了!明天(3月27日)的市场会这样走

A股:市场要开始准备了!明天(3月27日)的市场会这样走

风风顺
2026-03-27 00:00:04
张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

极目新闻
2026-03-26 20:56:20
上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

错过美好
2026-03-24 23:41:07
原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

证券时报e公司
2026-03-26 22:23:23
15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

锅子篮球
2026-03-26 11:25:55
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
A股:紧急提醒3亿股民股民,主力已摊牌,周五,将迎来狂风暴雨

A股:紧急提醒3亿股民股民,主力已摊牌,周五,将迎来狂风暴雨

云鹏叙事
2026-03-27 00:00:07
山姆曲奇礼盒紧急下架!监管部门:已立案

山姆曲奇礼盒紧急下架!监管部门:已立案

中国品牌
2026-03-26 19:00:21
张少康辞去广东省人民政府副省长职务

张少康辞去广东省人民政府副省长职务

新快报新闻
2026-03-26 11:50:03
只剩6天!医保全国统一,41-61岁抓紧办这几件事,否则就晚了!

只剩6天!医保全国统一,41-61岁抓紧办这几件事,否则就晚了!

另子维爱读史
2026-03-25 22:09:07
101枚导弹砸向美国航母:伊朗打出了开战以来最强一拳

101枚导弹砸向美国航母:伊朗打出了开战以来最强一拳

闻识
2026-03-27 01:19:31
太解气了,中美武器交锋,巴基斯坦拿着中国武器反击立威,厉害了

太解气了,中美武器交锋,巴基斯坦拿着中国武器反击立威,厉害了

凡人侃史
2026-03-27 00:10:40
2026-03-27 02:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514798关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
时尚
亲子
本地
军事航空

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

400万人爱过的女孩,被黄谣网暴180天后

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版