网易首页 > 网易号 > 正文 申请入驻

学术分享丨何恺明团队新作:删掉VAE和私有数据后,文生图竟然更强了

0
分享至

转自 机器之心

文本生成图像的领域早已经是一片红海,看上去已经卷无可卷了。

想在当下训一个很牛的文生图模型,你需要什么?

如果从当下主流方案入手,那需要:预训练好的 VAE 编解码器、文本编码器的拼接、精心设计的条件注入机制、海量数据、RL 或 DPO 对齐阶段……

总体上,大家似乎默认了一个前提:做文生图,就是得这么复杂。

而何恺明团队却反其道而行之,在文生图模型领域做出了新的思考。他们发布了 MiniT2I —— 一个刻意追求极简的像素空间文生图模型

没有 VAE 编解码器,没有 AdaLN 条件注入,没有辅助损失函数,没有私有数据,没有 RL/DPO 对齐,纯粹的流匹配目标直接在像素上训练。258M 参数的 B/16 版本,在 GenEval 上达到 0.87,DPG-Bench 达到 84.2,超越了参数量大它数倍的同类像素空间模型。


MiniT2I 的核心主张是:如果把文本条件当作「带有语义信息的上下文 token」注入模型,文生图和类别条件的 ImageNet 生成在本质上并没有那么大的区别 —— 架构可以相似,算力可以相当,甚至数据量级也可以对齐。


  • 论文标题:A Minimalist Baseline for Text-to-Image Generation

  • 技术博客:https://peppaking8.github.io/#/post/minit2i

  • 开源地址:https://github.com/PeppaKing8/minit2i-jax

技术路线:每一步都在做减法

像素空间直出,不要 VAE

MiniT2I 的第一个设计选择就很激进:丢掉 VAE,直接在 RGB 像素上做去噪。

潜在扩散模型(Latent Diffusion)是当前主流范式,先用自编码器把图像压缩到低维空间再做扩散。这确实让高分辨率变得可行,但代价是引入了重建误差、额外的训练阶段、以及编码器 - 去噪器之间的目标不对齐问题。

MiniT2I 选择像素空间的理由很务实:对于 512×512 分辨率,用 16×16 的 patch 把图像切成 1024 个 token,序列长度完全在 Transformer 的舒适区内。去掉 VAE 后,单步前向的计算从~1379 GFLOPs 降到~570 GFLOPs(B/16 设置),而且不存在重建精度的上限问题 —— 去噪器能力有多强,输出就能有多好。

实验也证实了这一点:在相同参数预算下,像素模型的 FID 和潜在空间模型持平(18.7 vs 19.0),但单步成本低了 5 倍。


MM-JiT 架构:回归朴素 Transformer

SD3 的 MM-DiT 在每个 block 中用 AdaLN(Adaptive Layer Normalization)将时间步和池化文本编码注入网络 —— 每个子块需要计算 scale、shift 和 gate 参数,通过一个额外的 MLP 从条件向量生成。这是一套精巧的调制机制,但 MiniT2I 发现它并非必需。


MiniT2I 提出的 MM-JiT 架构做了两件事:

1. 加两层文本适配器:在联合注意力之前,插入两个轻量 Transformer block,让冻结的 T5 特征先「适应」去噪器的需求。

2. 删除 AdaLN 分支:不再通过额外路径注入时间步和全局文本信息。模型依然能感知噪声水平 —— 因为被噪声污染的图像本身就携带了时间步信息。

结果是一个接近标准预归一化 Transformer 的干净架构。去掉 AdaLN 后参数减少,但可以用相同算力预算换来更多层数(12 层 → 17 层)。FID 从 18.7 降到 13.7,同时架构本身更容易理解和修改。


训练数据:全公开,两阶段

MiniT2I 的训练数据同样追求极简:

  • 预训练:LLaVA-recaptioned CC12M(公开可用的 VLM 重标注数据集),250K 步

  • 微调:~12 万张高质量图文对(BLIP3o-60K + LAION DALL・E 3 Discord set + ShareGPT-4o-Image),40K 步

这种「预训练 - 微调」的两阶段模式完全对标 LLM 的训练范式:预训练买覆盖面,微调教模型什么是好答案。消融显示两者缺一不可 —— 只做预训练,图像质量可以但提示跟随很差;只做微调,模型看到的世界太窄,生成多样性坍塌。

结果:小模型,大表现

在像素空间文生图的对比中,MiniT2I 的性价比极为突出:


MiniT2I-B/16 仅用约 600M 总参数(含文本编码器),就在 GenEval 和 DPG-Bench 上超越了参数量 3-4 倍于己的模型。而且训练成本极低:B/32 消融模型在 8 张 H100 上只需约 3 天,总训练 FLOPs 与标准 ImageNet 200 epoch 实验相当。


扩展到 L/16(912M 参数)后,模型在风格多样性、空间关系和文字渲染方面都有明显进步,与 SD3-Medium(~2B 参数)在想象力场景上的生成质量相当甚至更优。

在更全面的 PRISM-Bench 评测中,MiniT2I-L/16 在风格、组合和想象力维度上表现出色(79.9、78.4、57.9),已经接近 SD3-Medium 水平。但在文字渲染(30.6 vs SD3 的 50.9)和命名实体(60.3 vs 66.3)上仍有差距 —— 团队坦承这是公开数据配方的固有局限,需要补充专项数据来弥补。


局限与展望

MiniT2I 是一条技术路线的概念验证,而非最终产品。团队诚实地指出了几个未解问题:

  • 像素空间的 patch 伪影:在 patch 边界处存在可测量的不连续(边界处梯度比非边界高 17-22%),潜在空间模型没有这个问题

  • CFG 在像素空间的副作用:高引导系数(~6)会将局部 token 推离数据流形,在没有解码器「平滑」的情况下直接暴露为视觉瑕疵

  • 分辨率天花板:当前在 512×512 工作良好,推向 4K+ 需要更长序列或更高效的注意力机制

  • 数据瓶颈:文字渲染和命名实体仍弱于工业系统,需要专项数据补强

MiniT2I 证明了现阶段的文生图不是只有顶尖工业实验室才能玩的游戏。

当一个 258M 参数的模型,用纯公开数据,在学术级算力上训练 3 天就能打败体量大数倍的对手时,或许文生图正在经历从「堆料」到「提纯」的范式转换

「T2I 不再是高不可攀的围墙。欢迎使用并改进它,打造更简洁的基线。」

【免责声明】转载出于非商业性的教育和科研目的,只为学术新闻信息的传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
47岁秦岚高调官宣恋情,晒10周年照片与魏大勋恋情曝光

47岁秦岚高调官宣恋情,晒10周年照片与魏大勋恋情曝光

汉字笔迹心理分析
2026-07-05 07:55:39
多名院士呼吁快停止食用,吃一口等于14斤塑料袋,女子因肾衰走了

多名院士呼吁快停止食用,吃一口等于14斤塑料袋,女子因肾衰走了

任医生聊健康
2026-06-18 22:00:09
柬埔寨电诈头目竟然是安徽商会会长,从300元草根逆袭到11亿电诈魔王

柬埔寨电诈头目竟然是安徽商会会长,从300元草根逆袭到11亿电诈魔王

杭城村叔
2026-07-04 13:02:27
重磅:西方计划再军援乌克兰800亿!入盟谈判取得首个突破

重磅:西方计划再军援乌克兰800亿!入盟谈判取得首个突破

项鹏飞
2026-07-04 20:30:28
下个云南锗业?10元低价磷化铟+800G光芯片龙头 主力爆抢3亿筹码

下个云南锗业?10元低价磷化铟+800G光芯片龙头 主力爆抢3亿筹码

元芳说投资
2026-07-05 06:25:14
给泰山安装刀片刺网,在古代要被砍头

给泰山安装刀片刺网,在古代要被砍头

黔有虎
2026-07-03 16:49:25
最新确认:上海一区开始试点,逐步覆盖全市!

最新确认:上海一区开始试点,逐步覆盖全市!

新浪财经
2026-07-04 17:02:32
国安2-0泰山:红牌打破场上平衡,U23国脚再次“交学费”

国安2-0泰山:红牌打破场上平衡,U23国脚再次“交学费”

体育大嘴儿
2026-07-05 19:34:16
输球后,混双世界最新排名,孙颖莎王楚钦排名更新 失利早有征兆

输球后,混双世界最新排名,孙颖莎王楚钦排名更新 失利早有征兆

好乒乓
2026-07-04 22:44:44
35年前今天,两部神片同日上映:一部改写好莱坞,一部沦为表情包

35年前今天,两部神片同日上映:一部改写好莱坞,一部沦为表情包

追星雷达站
2026-07-04 00:11:01
为啥用球砸姆巴佩?巴拉圭门将:我想握手但他不理我,我冲动了

为啥用球砸姆巴佩?巴拉圭门将:我想握手但他不理我,我冲动了

林子说事
2026-07-05 09:24:28
中亚最惨国家:93%国土是山,1千万人挤在7%土地,穷到靠打工活命

中亚最惨国家:93%国土是山,1千万人挤在7%土地,穷到靠打工活命

老达子
2026-06-30 06:25:03
95年我在东莞的电子厂,认识了一个香港女孩,她改变了我的一生

95年我在东莞的电子厂,认识了一个香港女孩,她改变了我的一生

千秋文化
2026-07-01 20:11:18
到底谁在传重庆月薪3000?网友:都是谣言,哪有3000,都是2000多

到底谁在传重庆月薪3000?网友:都是谣言,哪有3000,都是2000多

另子维爱读史
2026-05-17 12:10:34
董卿当年那句话含金量还在上升:韩红的厚度,从不是嘴上说说而已

董卿当年那句话含金量还在上升:韩红的厚度,从不是嘴上说说而已

子芫伴你成长
2026-07-02 23:04:56
世界杯早早出局,日本足协亏损1.3亿:没钱请外教,森保一年薪腰斩

世界杯早早出局,日本足协亏损1.3亿:没钱请外教,森保一年薪腰斩

林子说事
2026-07-05 10:14:35
原来人都是突然走运的!网友:一年的时间赚到了十年的工资!

原来人都是突然走运的!网友:一年的时间赚到了十年的工资!

另子维爱读史
2026-06-05 22:19:18
阿萨德离开一年半,叙利亚人后悔了吗?看看百年前的新疆就知道了

阿萨德离开一年半,叙利亚人后悔了吗?看看百年前的新疆就知道了

晓徙娱乐
2026-07-04 11:04:31
哈兰德把标志性长发剪成了短发

哈兰德把标志性长发剪成了短发

新浪财经
2026-07-05 18:46:50
姆巴佩笑着走出球场,裁判却没掏一张黄牌,这届世界杯有点怪

姆巴佩笑着走出球场,裁判却没掏一张黄牌,这届世界杯有点怪

不凡体育
2026-07-05 11:03:44
2026-07-05 20:51:00
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
4150文章数 1489关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

世界杯带火岛国佛得角 当地中国人:最近国人多了起来

头条要闻

世界杯带火岛国佛得角 当地中国人:最近国人多了起来

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

手机
家居
数码
教育
公开课

手机要闻

全网吵翻!到底是谁带头取消了有线耳机?网友:错怪苹果了

家居要闻

传奇筑 日常诗

数码要闻

因面临两大核心障碍,网传苹果带摄像头AirPods项目搁置

教育要闻

全国仅6人!14岁成都篮球少年拿下重磅奖学金,将入读“NBA摇篮”高中

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版