MiniMax 的视频向来很顶,但技术上一直是个黑盒
刚刚,海螺团队第一次自揭面纱,带来了首个开源项目:VTPVisual Tokenizer Pre-training
VTP 这东西非常有趣:搞图像、视频生成的团队,或都能因此受益
![]()
Tech Report
先做个信息铺垫,现在主流的 AI 生图模型,底层都是两步走:
第一步,压缩
把一张图像压缩成一组数字,这组数字能代表这张图的核心信息
第二步,生成
AI 在这组数字的空间里做生成,生成完再还原成图像
![]()
两阶段架构
其中,负责第一步的模块,就叫「分词器」,Tokenizer;负责第二步的,则是扩散模型Diffusion Model
论文中,发现一个反直觉的现象
分词器训练得越久,还原能力越强,生成效果反而越差
论文把这个困境叫做预训练缩放问题
![]()
预训练缩放问题
进一步,论文中也发现了
让分词器学会「理解」,比学会「还原」更重要
论文管这叫理解力驱动生成
于是,对于分词器,就有了
理解力越强,压出的数字越有意义,扩散模型越容易学,生成效果越好问题在哪
视觉分词器是怎么训练的?
传统做法,是让它学「重建」:把图像压缩成一组数字,再从这组数字还原回图像,还原得越接近原图越好
这个训练目标听起来很合理
压缩再还原,损失越小,说明这组数字保留的信息越完整
但论文做了一组实验,发现了问题
![]()
训练越久,重建越好,生成越差
具体来说,就是,随着训练时间增加,模型产生了一些有趣的现象
重建能力持续变强rFID(衡量还原质量,越小越好)从2.0降到0.5
生成能力持续变差gFID(衡量生成质量,越小越好)从55涨到58
这就是论文定义的「预训练缩放问题」(Pre-training Scaling Problem):你往视觉分词器里砸再多算力,也换不来更好的生成效果
![]()
持续投入,并不会带来显著结果
对于做图像生成、视频生成的团队来说,这是个坏消息
论文数据显示,传统方法在总算力的1/10处就开始停滞了
之后再加算力,生成效果不升反降
为什么会这样
重建任务,让模型学错了东西
论文给出了这样的解释
当视觉分词器学习「还原像素」时,它会把注意力放在「底层信息」上:边缘在哪、纹理是什么样、颜色的精确数值是多少
这些信息对于「还原」很重要
像素级的细节越准确,还原出来的图像越接近原图
![]()
底层信息(重建) vs 高层语义(生成)
但生成的时候,其实需要的不是这些
生成模型需要的是「高层语义」:这张图里有什么东西、是什么场景、物体之间是什么关系、整体氛围是什么
在分词器被过度训练后,通过它的到的信息,就会更偏向于「底层信息」,而非「高层语义」
到了生成的时候,,很难从中「理解」图像应该是什么样的,效果自然变差
于是,从结果上,我们就看到了做得越好,效果越差
(像不像办公室里,让你加班改细节的老板)
![]()
理解力与生成质量的关系
可以看一下这个图,是论文的核心发现
对于传统自编码器,理解力和生成质量都卡在左下角,增加训练量也不动
对于 VTP(红色点),理解力越强,生成质量越好,持续往右上角走
综上:理解力才是驱动生成的关键因素
怎么解决
既然问题定位到了:分词器学偏了
那么,解决方案也很清晰:让分词器学全
一边学重建,一边学理解
VTP 正式这个思路
把三种训练目标合在一起,联合优化
其一、图文对比学习
在图文对比学习这一过程中,VTP 采用 CLIP 的训练方式
大致是这样 给模型看大量的「图像 + 文字描述」配对数据,让图像压缩出来的数字表示和对应文字的数字表示靠近
比如,给一张狗的照片,压缩后的数字表示要和「一只金毛犬在草地上奔跑」这句话的数字表示相似
![]()
图文对比学习
这样视觉分词器在压缩图像时,就会保留语义信息,知道这张图「是什么」
其二、感知空间结构
在感知空间结构中,VTP 采用 DINOv2 的训练方式,具体包括两类任务
第一类:
遮住图像的一部分,让模型预测被遮住的内容
这迫使模型理解图像的整体结构,而不是只记住局部像素
第二类
是对同一张图像做不同的裁剪和变换,让模型输出的表示保持一致
这样,模型就会被迫使着学习图像的本质特征,而不是被具体的像素值干扰
![]()
通过自监督,学习空间结构其三、像素重建
上面说了,要一边学重建,一边学理解
所以,传统的还原任务不能完全丢掉,但权重要调低
论文发现,把重建任务的损失权重设成0.1,对生成效果最好
(相比而言,理解任务的权重为1.0)
![]()
权重需要调整
至此,把这三个目标联合训练,让视觉分词器同时具备三种能力理解图像内容、感知空间结构、保留像素细节
![]()
就这样,VTP 有了三种能力
额外的,VTP 用的是 Vision Transformer(ViT),不是传统的 CNN
实验数据显示,ViT 架构在同等配置下生成效果更好,计算量还更低
还有一个有关于 batch size 的细节
不同训练任务,对 batch size 的需求差异很大:
• 图文对比学习需要很大的 batch(
16k)• 自监督和重建任务用小 batch 就够(
4k和2k)
![]()
对于 batch 这个问题,解决方法是这样:
每个 batch 里,全部样本用于图文对比学习,随机抽取一部分用于自监督和重建
效果如何
论文做了大量对比实验,从三个维度验证 VTP 的效果
维度一:理解、重建、生成的关系
先看下对比吧
纯重建训练:越练越差
![]()
重建越好、生成越差
随着训练时间增加:
• 重建能力持续变强:
rFID从2.07降到0.51• 生成能力反而变差:
gFID从55.04涨到58.56
加入理解任务:三项全涨
![]()
CLIP+SSL+AE 联合训练
用 CLIP + SSL + 重建 联合训练后:
• 生成能力大幅提升:
gFID降到27.8• 理解能力同步提升:Linear Probe 达到
74.9%• 重建能力也没掉:
rFID降到0.36
三种能力不冲突,可以同时提升
维度二:缩放特性
传统方法存在天花板,VTP 则打破了这个天花板
![]()
缩放特性对比:算力、参数、数据
数据缩放
• 传统自编码器:训练数据从 10 万张扩到 1 亿张,
gFID只从58.37降到56.71• VTP:同样的数据扩展,
gFID从47.59降到27.45
算力缩放
• 传统自编码器:算力增加到
1/10处就停滞,之后gFID不降反升• VTP:算力增加
10倍,gFID提升65.8%,曲线仍在下降
参数缩放
• 传统自编码器:模型从
20M参数扩到300M参数,gFID卡在57不动• VTP:模型从 Small 到 Large,
gFID从31.28降到26.12
这意味着:在视觉分词器阶段投入更多资源,终于能换来持续的回报了
维度三:与现有方法对比
VTP 与主流方案的效果对比
• VTP-L 在理解能力上超过了原版 CLIP(
78.2%vs75.5%)• 在重建能力上超过了 Stable Diffusion 的 VAE(
rFID 0.36vs0.63)• 在生成能力上超过了此前的改进方法 VA-VAE(
gFID 2.81vs4.29)
收敛速度方面:
• 比 VA-VAE 快4.1 倍
• 比原版 LDM 快5.7 倍
MiniMax 的视频能力很能打,实属第一梯队,但技术上几乎不对外
而 MiniMax 这次的开源,选了视觉分词器这个方向,去尝试解决一个行业里很多人遇到过、但没人系统解释过的问题:
为什么分词器训得越好,生成效果反而没提升
过去一年的动作看,隔段时间,总能掏出点新东西
论文https://huggingface.co/papers/2512.13687
模型https://huggingface.co/collections/MiniMaxAI/vtp
代码https://github.com/MiniMax-AI/VTP
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.