网易首页 > 网易号 > 正文 申请入驻

视觉生成的隐藏天花板|VTP:MiniMax海螺视频首次开源 · 技术解读

0
分享至

MiniMax 的视频向来很顶,但技术上一直是个黑盒

刚刚,海螺团队第一次自揭面纱,带来了首个开源项目:VTP
Visual Tokenizer Pre-training

VTP 这东西非常有趣:搞图像、视频生成的团队,或都能因此受益


Tech Report

先做个信息铺垫,现在主流的 AI 生图模型,底层都是两步走:

第一步,压缩
把一张图像压缩成一组数字,这组数字能代表这张图的核心信息

第二步,生成
AI 在这组数字的空间里做生成,生成完再还原成图像


两阶段架构

其中,负责第一步的模块,就叫「分词器」,Tokenizer;负责第二步的,则是扩散模型Diffusion Model

论文中,发现一个反直觉的现象
分词器训练得越久,还原能力越强,生成效果反而越差
论文把这个困境叫做预训练缩放问题


预训练缩放问题

进一步,论文中也发现了
让分词器学会「理解」,比学会「还原」更重要
论文管这叫理解力驱动生成

于是,对于分词器,就有了

理解力越强,压出的数字越有意义,扩散模型越容易学,生成效果越好
问题在哪

视觉分词器是怎么训练的?
传统做法,是让它学「重建」:把图像压缩成一组数字,再从这组数字还原回图像,还原得越接近原图越好

这个训练目标听起来很合理
压缩再还原,损失越小,说明这组数字保留的信息越完整

但论文做了一组实验,发现了问题


训练越久,重建越好,生成越差

具体来说,就是,随着训练时间增加,模型产生了一些有趣的现象

重建能力持续变强
rFID(衡量还原质量,越小越好)从2.0降到0.5

生成能力持续变差
gFID(衡量生成质量,越小越好)从55涨到58

这就是论文定义的「预训练缩放问题」(Pre-training Scaling Problem):你往视觉分词器里砸再多算力,也换不来更好的生成效果


持续投入,并不会带来显著结果

对于做图像生成、视频生成的团队来说,这是个坏消息
论文数据显示,传统方法在总算力的1/10处就开始停滞了
之后再加算力,生成效果不升反降

为什么会这样

重建任务,让模型学错了东西
论文给出了这样的解释

当视觉分词器学习「还原像素」时,它会把注意力放在「底层信息」上:
边缘在哪纹理是什么样颜色的精确数值是多少
这些信息对于「还原」很重要
像素级的细节越准确,还原出来的图像越接近原图


底层信息(重建) vs 高层语义(生成)

但生成的时候,其实需要的不是这些
生成模型需要的是「高层语义」:
这张图里有什么东西是什么场景物体之间是什么关系整体氛围是什么

在分词器被过度训练后,通过它的到的信息,就会更偏向于「底层信息」,而非「高层语义
到了生成的时候,,很难从中「理解」图像应该是什么样的,效果自然变差

于是,从结果上,我们就看到了做得越好,效果越差
(像不像办公室里,让你加班改细节的老板)


理解力与生成质量的关系

可以看一下这个图,是论文的核心发现
对于传统自编码器,理解力和生成质量都卡在左下角,增加训练量也不动
对于 VTP(红色点),理解力越强,生成质量越好,持续往右上角走

综上:理解力才是驱动生成的关键因素

怎么解决

既然问题定位到了:分词器学偏了
那么,解决方案也很清晰:让分词器学全
一边学重建,一边学理解

VTP 正式这个思路
把三种训练目标合在一起,联合优化

其一、图文对比学习

图文对比学习这一过程中,VTP 采用 CLIP 的训练方式

大致是这样 给模型看大量的「图像 + 文字描述」配对数据,让图像压缩出来的数字表示和对应文字的数字表示靠近

比如,给一张狗的照片,压缩后的数字表示要和「一只金毛犬在草地上奔跑」这句话的数字表示相似


图文对比学习

这样视觉分词器在压缩图像时,就会保留语义信息,知道这张图「是什么」

其二、感知空间结构

感知空间结构中,VTP 采用 DINOv2 的训练方式,具体包括两类任务

第一类:
遮住图像的一部分,让模型预测被遮住的内容
这迫使模型理解图像的整体结构,而不是只记住局部像素

第二类
是对同一张图像做不同的裁剪和变换,让模型输出的表示保持一致

这样,模型就会被迫使着学习图像的本质特征,而不是被具体的像素值干扰


通过自监督,学习空间结构其三、像素重建

上面说了,要一边学重建,一边学理解
所以,传统的还原任务不能完全丢掉,但权重要调低

论文发现,把重建任务的损失权重设成0.1,对生成效果最好
(相比而言,理解任务的权重为1.0


权重需要调整

至此,把这三个目标联合训练,让视觉分词器同时具备三种能力
理解图像内容感知空间结构保留像素细节


就这样,VTP 有了三种能力

额外的,VTP 用的是 Vision Transformer(ViT),不是传统的 CNN
实验数据显示,ViT 架构在同等配置下生成效果更好,计算量还更低

还有一个有关于 batch size 的细节
不同训练任务,对 batch size 的需求差异很大:

  • • 图文对比学习需要很大的 batch(16k

  • • 自监督和重建任务用小 batch 就够(4k2k


对于 batch 这个问题,解决方法是这样:
每个 batch 里,全部样本用于图文对比学习,随机抽取一部分用于自监督和重建

效果如何

论文做了大量对比实验,从三个维度验证 VTP 的效果

维度一:理解、重建、生成的关系

先看下对比吧

纯重建训练:越练越差


重建越好、生成越差

随着训练时间增加:

  • • 重建能力持续变强:rFID2.07降到0.51

  • • 生成能力反而变差:gFID55.04涨到58.56

加入理解任务:三项全涨


CLIP+SSL+AE 联合训练

用 CLIP + SSL + 重建 联合训练后:

  • • 生成能力大幅提升:gFID降到27.8

  • • 理解能力同步提升:Linear Probe 达到74.9%

  • • 重建能力也没掉:rFID降到0.36

三种能力不冲突,可以同时提升

维度二:缩放特性

传统方法存在天花板,VTP 则打破了这个天花板


缩放特性对比:算力、参数、数据

数据缩放

  • • 传统自编码器:训练数据从 10 万张扩到 1 亿张,gFID只从58.37降到56.71

  • • VTP:同样的数据扩展,gFID47.59降到27.45

算力缩放

  • • 传统自编码器:算力增加到1/10处就停滞,之后gFID不降反升

  • • VTP:算力增加10倍,gFID提升65.8%,曲线仍在下降

参数缩放

  • • 传统自编码器:模型从20M参数扩到300M参数,gFID卡在57不动

  • • VTP:模型从 Small 到 Large,gFID31.28降到26.12

这意味着:在视觉分词器阶段投入更多资源,终于能换来持续的回报了

维度三:与现有方法对比VTP 与主流方案的效果对比

  • • VTP-L 在理解能力上超过了原版 CLIP(78.2%vs75.5%

  • • 在重建能力上超过了 Stable Diffusion 的 VAE(rFID 0.36vs0.63

  • • 在生成能力上超过了此前的改进方法 VA-VAE(gFID 2.81vs4.29

收敛速度方面:

  • • 比 VA-VAE 快4.1 倍

  • • 比原版 LDM 快5.7 倍

收敛速度 最后

MiniMax 的视频能力很能打,实属第一梯队,但技术上几乎不对外

而 MiniMax 这次的开源,选了视觉分词器这个方向,去尝试解决一个行业里很多人遇到过、但没人系统解释过的问题:
为什么分词器训得越好,生成效果反而没提升

过去一年的动作看,隔段时间,总能掏出点新东西

论文
https://huggingface.co/papers/2512.13687

模型
https://huggingface.co/collections/MiniMaxAI/vtp

代码
https://github.com/MiniMax-AI/VTP

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
医学博士:肿瘤越来越高发,我们究竟被隐瞒了什么?

医学博士:肿瘤越来越高发,我们究竟被隐瞒了什么?

深度报
2025-12-21 23:01:02
确实不赖东契奇!在湖人艾顿就是没有办法得到更多的球权支持?

确实不赖东契奇!在湖人艾顿就是没有办法得到更多的球权支持?

稻谷与小麦
2025-12-24 19:18:37
1909年,64的赵尔丰带着2万清军,冰天雪地,力保西南百万国土

1909年,64的赵尔丰带着2万清军,冰天雪地,力保西南百万国土

云霄纪史观
2025-12-23 17:59:09
关系藏不住了!樊振东放着世界冠军陈梦不选,原来他喜欢这样的

关系藏不住了!樊振东放着世界冠军陈梦不选,原来他喜欢这样的

誮惜颜a
2025-12-24 05:53:10
Excel拟物图标引发误读:微软眼中的保存,00后视为自动售货机

Excel拟物图标引发误读:微软眼中的保存,00后视为自动售货机

IT之家
2025-12-24 10:19:28
李彦宏急了,百度大变天

李彦宏急了,百度大变天

中国企业家杂志
2025-12-23 18:31:16
中越战争惊人细节:中国五日不撤军,谅山主力覆没,战事结局如何

中越战争惊人细节:中国五日不撤军,谅山主力覆没,战事结局如何

磊子讲史
2025-12-22 16:29:02
眼神空洞,表情死板,一脸苦相,没有李纯的气质,谭凯也带不动她

眼神空洞,表情死板,一脸苦相,没有李纯的气质,谭凯也带不动她

徐帮阳
2025-12-23 20:43:29
长期脑力工作的人会沉迷简单的体力劳动!网友:像是发现了新大陆

长期脑力工作的人会沉迷简单的体力劳动!网友:像是发现了新大陆

另子维爱读史
2025-12-23 16:31:52
37岁张继科官宣:后面要参加比赛 已7年没打球 从未宣布退役

37岁张继科官宣:后面要参加比赛 已7年没打球 从未宣布退役

法老不说教
2025-12-24 19:13:44
广州荔湾山姆开业惊了,交通直接干到瘫痪,原来消费降级就我一个

广州荔湾山姆开业惊了,交通直接干到瘫痪,原来消费降级就我一个

亿通电子游戏
2025-12-24 12:44:02
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
泰国感谢中方

泰国感谢中方

环球网资讯
2025-12-23 18:36:33
车上不太会坏的ACC,为啥每年都会“失灵”?

车上不太会坏的ACC,为啥每年都会“失灵”?

差评XPIN
2025-12-24 00:10:17
中国首次硬刚美国军售,警告时代正式结束!

中国首次硬刚美国军售,警告时代正式结束!

回京历史梦
2025-12-24 00:45:02
南博很可能是背锅的?前院长曾昭燏日记未提1961年鉴定

南博很可能是背锅的?前院长曾昭燏日记未提1961年鉴定

数字财经智库
2025-12-22 12:23:22
云南一职校学生提出“想杀猪”,校长和老师们凑钱安排,学生按猪、分肉、做菜全程参与

云南一职校学生提出“想杀猪”,校长和老师们凑钱安排,学生按猪、分肉、做菜全程参与

极目新闻
2025-12-24 13:21:57
外交部领事保护中心提醒海外中国公民元旦、春节假期加强安全防范

外交部领事保护中心提醒海外中国公民元旦、春节假期加强安全防范

澎湃新闻
2025-12-23 17:56:08
茅台全系列产品涨价!飞天茅台再回1600元/瓶

茅台全系列产品涨价!飞天茅台再回1600元/瓶

中国商报
2025-12-24 15:37:24
傅艺伟守着何晴,其实根本不是什么报恩。她守的,是她自己的命。

傅艺伟守着何晴,其实根本不是什么报恩。她守的,是她自己的命。

小光侃娱乐
2025-12-24 10:55:03
2025-12-24 20:07:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
224文章数 12关注度
往期回顾 全部

科技要闻

智谱和MiniMax拿出了“血淋淋”的账本

头条要闻

果农再次开启"赛博助农":在"魔兽世界"卖3.5万斤橙子

头条要闻

果农再次开启"赛博助农":在"魔兽世界"卖3.5万斤橙子

体育要闻

26岁广西球王,在质疑声中成为本土得分王

娱乐要闻

怀孕增重30斤!阚清子惊传诞一女夭折?

财经要闻

重磅!北京市优化调整住房限购政策

汽车要闻

“运动版库里南”一月份亮相   或命名极氪9S

态度原创

时尚
数码
手机
家居
旅游

赫本黑色高领衫的4种搭配,太值得借鉴!

数码要闻

2025电视换新不踩坑:2000元档选华为Vision智慧屏5 SE

手机要闻

小米高端旗舰价格门槛要升至7000元+了!卢伟冰:无论怎么涨 定会物超所值

家居要闻

法式大平层 智能家居添彩

旅游要闻

百项跨年活动点燃申城 元旦假期酒店预订火爆

无障碍浏览 进入关怀版