网易首页 > 网易号 > 正文 申请入驻

DeepMind联合MIT开发Fluid,让自回归模型实现文生图的大规模扩展

0
分享至

在视觉领域,扩散模型(diffusion model)已然成为图像生成的新范式。我们熟知的 Stable Diffusion、DALL-E 和 Imagen 等文生图工具都以扩散模型为基础。

而在语言模型领域,自回归模型(autoregressive model)则占据主导位置,大名鼎鼎的 ChatGPT 就使用了此类模型来生成回复。所谓的扩展法则(Scaling Law)在以自回归模型为基础的大模型身上展现出了强大的力量,可以有效的提升性能。

不过,如果回到视觉领域(比如文本生成图像),扩展自回归模型并未像在大语言模型中那样显著有效。许多研究人员正在努力搞清楚原因,并且想办法弥合自回归模型在视觉模型与语言模型之间的性能差距。

近日,来自谷歌 DeepMind 和美国麻省理工学院的研究人员发表了一篇预印本论文,介绍了他们在“提升自回归文生图模型性能”方面的最新进展。

该研究团队开发的新模型 Fluid,通过采用连续 Token 和随机顺序策略,成功实现了自回归模型在文生图任务上的大规模扩展,不仅在多项基准测试中达到了领先水平,还提出了关于自回归模型的新见解。

自回归模型在自然语言处理领域取得了巨大成功,但在计算机视觉特别是文生图任务中的表现一直不如扩散模型。

为了探究背后的原因,研究团队对自回归图像生成模型的两个关键设计因素进行了系统性的研究:Token(离散或连续)和生成顺序(光栅顺序或随机顺序)。

研究发现,采用连续 Token 的模型在视觉质量和评估指标上都显著优于使用离散 Token 的模型。这主要是因为离散 Token 化过程会导致大量信息丢失,即使增加模型参数也无法弥补这一缺陷。

例如,在生成著名的蒙娜丽莎画像时,基于离散 Token 的模型即使扩展到 30 亿参数,也无法准确还原画像细节。相比之下,基于连续 Token 的模型可以生成更高质量、更符合文本描述的图像。

在生成顺序方面,研究表明随机顺序模型在生成多个对象和复杂场景时表现更佳。这可能是因为随机顺序允许模型在每个预测步骤中调整图像的全局结构,而光栅顺序模型则缺乏这种灵活性。这一发现对提高文本到图像的对齐度具有重要意义。

基于这些新发现,研究团队开发了 Fluid 模型。Fluid 采用连续 Token 和随机顺序生成策略,在可扩展性和生成质量上都表现出色。

实验结果显示,Fluid 模型的验证损失、FID(Fréchet Inception Distance,是用于衡量两个多元正态分布之间距离的评价指标)评分和 GenEval 得分都随着模型参数规模的增加而持续改善。

值得注意的是,仅有 3.69 亿参数的小型 Fluid 模型就达到了 7.23 的零样本 FID 得分,还在 GenEval 基准测试中达到了 0.62,与拥有 200 亿参数的 Parti 模型(谷歌开发的自回归文生图模型)持平。

受到这一趋势的启发,研究团队将 Fluid 模型进一步扩展到 105 亿参数。该模型在 MS-COCO 数据集上实现了 6.16 的零样本 FID 得分,在 GenEval 基准测试中的综合得分达到 0.69,超越了 DALL-E 3 和 Stable Diffusion 3 等多个使用扩散模型的文生图系统。

Fluid 模型的成功不仅体现在量化指标上,在视觉质量方面也有显著提升。

研究人员展示了 Fluid 模型在各种复杂场景下的生成结果,使用了如“一只愤怒的鸭子在健身房举重”“冬天的蒙娜丽莎”“办公室里三只穿西装的泰迪熊为朋友庆祝生日”等提示。

这些生成的图像不仅细节丰富,而且准确反映了文本描述的内容和情感,展现出模型对文本和图像之间复杂关系的深入理解。

研究团队的实验还揭示了一个现象,即验证损失与评估指标(如 FID 和 GenEval 得分)之间存在强相关性。这意味着通过简单地监测验证损失,就可以在一定程度上预测模型在下游任务中的表现。

此外,研究还发现与语言模型类似的是,增加训练步数和计算量可以持续提升 Fluid 模型的性能。但是,该团队也观察到对于较小的模型,增加训练步数的效果不如直接扩大模型规模。这一发现强调了模型规模在提升性能中的关键作用。

Fluid 模型不仅标志着自回归模型在文生图任务上的新进展,也为计算机视觉领域的模型扩展提供了新的思路。课题组指出,这项工作可能有助于缩小视觉模型和语言模型在扩展性能上的差距。

然而,研究人员也承认,尽管 Fluid 模型在多个指标上取得了领先,但在某些方面仍有提升空间。

例如,在 GenEval 基准测试的某些子任务中,如位置关系理解和渲染两个物体,Fluid 模型的表现仍落后于一些最先进的扩散模型。这表明在处理某些特定类型的视觉任务时,不同的模型架构可能各有优势。

总的来说,这项研究为自回归文生图模型的发展开辟了新方向。通过采用连续 Token 和随机顺序生成策略,Fluid 模型成功实现了大规模扩展,在多个关键指标上达到或超越了现有最先进的模型。

随着这一技术的进一步发展和完善,我们或许可以期待看到更多令人惊叹的应用,如更精确的图像编辑工具、更智能的视觉内容创作辅助工具等等。也可以激发更多人探索自回归模型在视觉任务中的潜力,推动 AI 在理解和生成视觉内容方面取得新的突破。

参考资料:

https://arxiv.org/pdf/2410.13863

排版:初嘉实

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
再被曝光“圈路收费”的泸沽湖景区:已开通过境车辆专用通道

再被曝光“圈路收费”的泸沽湖景区:已开通过境车辆专用通道

南方都市报
2026-05-29 17:10:06
眼光太差!西决三位顶级蓝领,都是76人放弃的球员,买断都不要

眼光太差!西决三位顶级蓝领,都是76人放弃的球员,买断都不要

你的篮球频道
2026-05-31 13:59:41
夺冠率100%!总决赛还没开打,有人已经确定能拿到总冠军戒指了

夺冠率100%!总决赛还没开打,有人已经确定能拿到总冠军戒指了

无术不学
2026-06-01 09:41:45
黄仁勋:英语专业的学生有可能成为最成功的那批人

黄仁勋:英语专业的学生有可能成为最成功的那批人

麦可思研究
2026-05-30 11:19:36
里夫斯>詹姆斯!湖人觉得老詹只值3000万!

里夫斯>詹姆斯!湖人觉得老詹只值3000万!

柚子说球
2026-06-01 11:03:18
冯德莱恩强推涉华禁令,德国高层被逼急了眼,会都不开就奔向中国

冯德莱恩强推涉华禁令,德国高层被逼急了眼,会都不开就奔向中国

成视Talk
2026-06-01 09:38:31
又现断指计划。某大厂员工被竞对公司出两倍工资挖角,试用期被裁

又现断指计划。某大厂员工被竞对公司出两倍工资挖角,试用期被裁

蚂蚁大喇叭
2026-05-31 16:08:01
金彭贝:我可以安心离开了!祝贺巴黎,爱你们

金彭贝:我可以安心离开了!祝贺巴黎,爱你们

懂球帝
2026-05-31 17:57:09
6000万天价!里夫斯迎人生抉择:忠诚一文不值,现实才是底色

6000万天价!里夫斯迎人生抉择:忠诚一文不值,现实才是底色

小七七体育解说
2026-06-01 08:18:15
奥斯卡影后出道15年:从现象级爆红到人间蒸发

奥斯卡影后出道15年:从现象级爆红到人间蒸发

追星雷达站
2026-06-01 01:17:04
官方说伤病,他却首发打满全场!胡荷韬落选国足,真相浮出水面

官方说伤病,他却首发打满全场!胡荷韬落选国足,真相浮出水面

酷侃体坛
2026-06-01 09:24:46
DeepSeek分析:退休后最好的活法,不是养生或旅游,而是这5件事

DeepSeek分析:退休后最好的活法,不是养生或旅游,而是这5件事

混沌录
2026-05-11 22:13:07
2亿美元离婚大战!伊朗豪门千金一招锁死家产,犹太老公净身出户还倒欠债

2亿美元离婚大战!伊朗豪门千金一招锁死家产,犹太老公净身出户还倒欠债

空间设计
2026-05-27 12:06:43
心理学发现:99%喜欢抬杠、凡事都要争对错的人,不是本性偏执,也不是爱较真,而是没正视过自己的这两个价值感缺失

心理学发现:99%喜欢抬杠、凡事都要争对错的人,不是本性偏执,也不是爱较真,而是没正视过自己的这两个价值感缺失

心理观察局
2026-05-13 09:40:07
国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

梦史
2026-01-19 14:16:23
高层连续碰壁,中国拒绝给日本“开门”,高市早苗首相位置不稳了

高层连续碰壁,中国拒绝给日本“开门”,高市早苗首相位置不稳了

兵说
2026-05-31 08:35:09
夏天,这碱性菜再贵也要多吃,一降火、二解暑,三补钙补钾,好吃

夏天,这碱性菜再贵也要多吃,一降火、二解暑,三补钙补钾,好吃

阿龙美食记
2026-05-29 21:52:34
赵今麦九寨沟直播零妆出镜,素颜太美,山水冥想松弛感直接拉满

赵今麦九寨沟直播零妆出镜,素颜太美,山水冥想松弛感直接拉满

观鱼听雨
2026-05-29 23:32:40
欠了快400亿,骂了整十年,华西村硬是靠一笔意外投资活过来了

欠了快400亿,骂了整十年,华西村硬是靠一笔意外投资活过来了

小莜读史
2026-05-07 19:10:59
明后天最高气温接近34度

明后天最高气温接近34度

脊梁in上海
2026-06-01 08:23:21
2026-06-01 11:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16772文章数 514993关注度
往期回顾 全部

科技要闻

关停三年后,天涯社区今起开放访问

头条要闻

牛弹琴:巴黎又乱了火光冲天 马克龙都看得目瞪口呆

头条要闻

牛弹琴:巴黎又乱了火光冲天 马克龙都看得目瞪口呆

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

张凌赫活动商场玻璃被挤爆5人受伤

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

上市三周交付3603台!华境S跻身旗舰大六座第一梯队

态度原创

教育
旅游
艺术
亲子
公开课

教育要闻

打印准考证!2026山东高考|准考证打印全流程(含时间 + 入口 + 问题解答)

旅游要闻

逛故宫的游客注意了,坤宁宫明起检修请绕行

艺术要闻

吴镇写竹,清清爽爽

亲子要闻

世界牛奶日遇上儿童节:这三种“奶制品”别给孩子当牛奶喝

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版