![]()
在生成式 AI 领域,视觉分词器(Visual Tokenizer)通常采用固定压缩率 —— 无论是单调的监控画面,还是复杂的动作大片,都被切分为等量的 Token。这种 "一刀切" 的做法不仅会造成巨大的计算冗余,也产生了 “信息量” 不同的 Token,不利于下游理解生成任务处理。
近日,来自斯坦福大学、英伟达(NVIDIA)Cosmos 团队和新加坡国立大学的研究团队提出了一种基于信息论的自适应视频分词器InfoTok,能根据视频内容复杂度自动分配 Token 数量,实现了2.3 倍压缩率,推理速度比同类自适应方案11 倍的同时取得了更优的重建质量,为高效视频理解与生成开辟了新的可能。该论文在已被 ICLR 2026 接收为 Oral 口头报告,第一作者为斯坦福大学 Haotian Ye 和新加坡国立大学 Qiyuan He。
![]()
- 论文标题:InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression
- 论文链接:https://arxiv.org/abs/2512.16975
- 项目主页:https://research.nvidia.com/labs/dir/infotok/
- 代码及权重:https://github.com/YWolfeee/InfoTo
![]()
![]()
![]()
左——原始视频;中——InfoTok的重建视频;右——柱状图显示每帧平均 Token 使用率。亮色区域表示分配了更多 Token,黑色区域表示被大幅压缩。可以看到,分词器自动在动态、信息丰富的区域投入更多 Token,而在静态区域大幅节省。
动机:什么才是好的视频分词器?
当前的视觉基础模型 —— 无论是大语言模型驱动的视频理解,还是扩散模型、自回归模型支撑的视频生成 —— 都遵循一套共同的范式:先将原始像素压缩为紧凑的潜在表示(Token),再对这些表示进行建模。这第一步,就是分词(Tokenization)
那么,什么样的视频分词器才算 "好"?理想情况下,一个优秀的视频分词器至少应满足三个标准:
- 高压缩率:大幅缩减数据量,使下游生成模型能够高效运行。
- 高保真度:压缩后的 Token 应保留足够信息,支持高质量的视频重建。
- 语义丰富:Token 应捕获视频中语义上有意义的内容,而非机械切分。
然而,当前主流的视觉分词器并不满足这些标准。它们将视频帧切分为均匀网格,并以固定压缩率对每一段视频进行压缩 —— 无论是几乎静止的风景延时还是车辆穿梭的繁忙街景,无论是细腻复杂的人物表情还是简单纯净的湛蓝天空,竟然都会消耗完全相同数量的 Token。直觉告诉我们这并不是合理的:复杂的画面理应比简单的画面消耗更多 Token。
我们为什么会产生这样的直觉?复杂与简单画面的区别应该怎么刻画?怎样的压缩程度才是合理、第一性的?为了回答这些问题,InfoTok 团队将目光投向了信息论,寻找一个有理论保障的答案。
理论:为什么固定压缩率的分词器注定次优?
让我们把直觉形式化。回看上面的演示视频 —— 第二个视频两侧是大面积的纯白区域,信息量为零,而固定速率的分词器仍然对这些空白区域投入了与中央动态内容完全相同的 Token 数量。这显然是浪费。问题在于如何用数学语言定义这种 "浪费"
InfoTok 团队的思路是参考经典信息论。香农(Shannon)的信源编码定理告诉我们一个深刻的道理:一个信号越容易被预测,表示它的信息量越少,因而所需的 Token 也应该越少;反之,越稀有、越出乎意料的内容,就包含了越多的信息量,因而应分配越多的比特。 换言之,这种可预测性在信息论中被认为是衡量信息量(也即编码需要的 Token 数)的关键。
香农经典的编码定理说明,当这一原则被严格遵循时,总体表示成本将达到理论最优。研究团队将这一原则严格推广到了视频分词场景:
![]()
定理(最优自适应分词):T 为任意码本大小为 C 的分词器;N_x 为分配给视频 x 的 Token 数量;p(x) 为数据分布下视频 x 的概率。期望 Token 数以熵为下界,且理想情况下可以达到。
![]()
![]()
Huffman 编码类比:在字母编码中,Huffman 编码为高频字母分配短码——同样的原则应当应用于视频 Token 的分配。
回到上面的视频示例:纯白边框是高度可预测的 —— 几乎零信息 —— 但固定压缩率分词器却对它们投入了与动态内容等量的 Token。这正是低效的根源:它违反了高效压缩最基本的原则。
方法:从理论到实践
理论告诉我们最优分词应该自适应地匹配每段视频的信息量。但落地时面临两个具体问题:
1.该分配多少 Token?定理说答案取决于 p (x),但我们无法直接计算视频的真实似然概率。如何在实践中估计合适的 Token 数量?
2.确定数量后如何编码?标准分词器产生固定长度序列。我们需要一种能压缩到可变数量 Token 并且仍然重建良好的架构。
InfoTok 用两个对应的组件解决了这两个挑战:ELBO 路由器(决定分配多少 Token)和自适应压缩器(执行变长编码)。二者作为即插即用插件,架设在任何现有固定压缩率分词器(本文使用 NVIDIA 推出的 Cosmos Tokenizer)之上。
![]()
InfoTok 框架总览:路由器根据视频复杂度决定 Token 数量 N_x;自适应压缩器将固定长度嵌入转换为 N_x 个离散 Token。
ELBO 路由器:让信息复杂度自动 "定价"
虽然我们无法直接计算 p (x),但可以计算其证据下界(ELBO)—— 一个可计算的代理指标,用于衡量视频在基础分词器下的 "可预测性"。这引出了一个关键的理论结果:
![]()
定理(InfoTok 的近最优性):如果使用基于 ELBO 的路由器并最小化重建损失来训练,期望 Token 数以熵为界,差距项在 ELBO 紧致时趋于零。
直白地说:使用 ELBO 来决定 Token 数量,可以实现近最优的压缩效果。 映射关系非常直观:
- ELBO 高(内容可预测 / 简单场景) → 分配更少 Token
- ELBO 低(内容复杂 / 出乎意料) → 分配更多 Token
具体来说,路由器的计算公式为:
![]()
![]()
其中 β 控制平均压缩水平。最关键的优势在于:ELBO 可以直接从任何预训练的分词器中廉价计算得到,无需额外模型。
自适应压缩器:变长序列的智能打包
路由器确定了 Token 预算 N_x 后,基于 Transformer 的自适应压缩器负责将固定长度的嵌入智能地 "打包" 进变长的 Token 序列中。具体而言,他会动态地要求输出时信息量低的 Token 位置被省略,并通过端到端网络训练将这部分的信息浓缩到一个由路由器事先决定长度的 Token 序列中。
- 当预算吃紧时,它学会浓缩精华,每个 Token 承载更多信息;
- 当预算充足时,它则保留完整细节,信息分散到更多 Token 中。
需要注意,Token 被省略的位置由于信息量低,经过网络后信息可以几乎无损的合并到更短的输出序列中,此时这些被保留的 Token 的语义将会有所改变 —— 从结果上看,每个 Token 最后的信息量(也即 p (x) )将会趋于相等,从而实现压缩、保真度、语义的平衡。具体的实现代码请见论文。
实验结果
可视化效果:自适应分词随场景、时间动态调整编码
以下展示了 InfoTok 在不同场景下生成的 Token 掩码。每个动图中:左侧为原始视频,中间为 InfoTok 的重建视频(亮区表示高信息量区域,被分配了 Token;暗区表示低信息量区域,信息被压缩到其他 Token 中),右侧柱状图显示每帧的 Token 使用率。
第一人称场景(EgoExo4D 数据集):
![]()
由于相机运动导致整个画面都在变化,Token 分布相对均匀 —— 但周围黑色边框(相机视野之外)由于高度可预测,被完全压缩掉。
驾驶场景(BDD 数据集):
![]()
Token 自动集中在移动车辆和道路边缘,而静态的天空和路面几乎不消耗 Token。
机器人操作场景(Bridge 数据集):
![]()
机械臂和被操作物体处高亮,固定的桌面背景保持黑暗 ——Token 精准地 "吸附" 在了任务相关的区域。
可视化效果:不同压缩级别下的重建质量
InfoTok 的一个独特能力是可以在任意 Token 长度下进行分词,在压缩率和质量之间优雅地权衡。下图展示了同一段驾驶视频在五个压缩级别下的重建效果(从原始到逐步提高压缩率):
![]()
简单的高速公路场景(背景静态)即使在极高压缩下仍保持出色画质,而复杂的交叉路口则需要更多 Token 来保留细节 —— 这正是自适应分词的价值所在。
定量指标
视觉效果令人信服,但数字是否也支持这一结论?研究团队在标准视频重建基准(TokenBench 和 DAVIS)上进行了全面评估,以 Cosmos 分词器为基础,对比了两种 InfoTok 变体 ——InfoTok(固定 ELBO 路由器)和 InfoTok-Flex(灵活路由器)—— 与固定压缩率基线以及基于启发式的动态编码器 ElasticTok。
![]()
实验结果:在 TokenBench 和 DAVIS 上对固定长度和自适应分词器的评估。在两种压缩级别(0.81 和 0.56)下与 ElasticTok 对比,最佳结果以粗体标注。
关键结论:InfoTok 可以在节省 20% Token 的情况下实现无损重建,在 2.3 倍压缩率下仍然全面超越 ElasticTok。
更重要的是,基于 ELBO 的路由器在所有压缩级别上都一致地优于启发式方法 —— 而非仅在某个特定工作点上:
![]()
全面对比:质量指标(PSNR↑、LPIPS↓、FVD↓)vs. 压缩率(BPP₁₆),(a-c) TokenBench,(d-f) DAVIS,(g) 推理效率。InfoTok 在所有压缩级别上全面占优,同时推理效率显著更高(快 11 倍)。
结语与展望
InfoTok 证明了在 AI 飞速发展、大模型无所不能的今天,我们仍可以从经典信息论中汲取灵感大幅优化 AI 效率。通过用基于 ELBO 的路由器替代启发式压缩策略,InfoTok 以更少的 Token 实现了更好的重建质量 —— 并且在现有分词器之上仅需极小的额外开销。
研究团队指出了几个令人期待的未来方向:
- 连续 Token:InfoTok 当前工作在离散 Token 空间。然而,其信息论框架同样适用于连续潜在表示 —— 自适应地分配潜在维度或通道。这有望弥合离散分词器(用于自回归模型)与连续 VAE 编码器(用于扩散模型)之间的鸿沟,提供统一的自适应压缩框架。
- 下游视频生成:将自适应分词深度整合进视频生成管线,让变长 Token 序列同时带来质量和效率的提升。
- 超越视频:InfoTok 背后的信息论原则并不局限于视频 —— 图像、3D 场景、多模态数据同样存在非均匀的信息密度分布,都可以从自适应分词中获益。
随着这一技术的普及,我们或许离更长、更细腻、更高效的 AI 视频生成时代又近了一步。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.