美团盯上原生多模态！路子还很野：把图像语音都当成Token来预测|信号|离散化|新论文|知名企业|token

分享至

Token，这下真成了智能世界的基本单位。

不是被定义出来的“词元”，而是被一套全新的统一Token架构，直接压进了现实建模的最底层。

过去一年，几乎所有头部大模型玩家，都在忙着重写多模态的底层架构。

从谷歌、OpenAI到国内的字节、MiniMax，大家在实践中逐渐形成共识——不走原生多模态，已经不够、不行了。

但问题是，原生多模态到底该怎么走？到目前为止，业界并没有一个统一答案。

直到这一次，一直闷头搞AI的美团LongCat，歘的一下亮出新解法：

把图片、语音，统统当成Token来预测。

听起来有点离谱，但他们不仅这么做了，而且——

还做成了。

真原生、真统一

先回答一个基本问题：为什么要做原生多模态？

理由虽然很多，但核心只有一个：

目前业界主流的多模态大模型，本质上采用的是一套“拼凑式架构”——语言模型当底座，视觉、语音当外挂。

这种架构下，理解靠连续特征对齐（比如要理解图片就得把图片转成语言能看懂的信号）、生成靠扩散模型，两套系统各说各话，根本谈不上真正的统一。

结果就是，中间“传话人”一多，算力消耗飙升，信息也一路跑偏、流失。

而原生多模态，则从一开始就用一套统一的方式，把所有模态一起建模——不需要拼接、不需要传话翻译，所有模态共用同一套“语言”。

而这，正是美团LongCat做的事。

至于为什么说他们采用的方式很“离谱”，原因在于，他们把“离散自回归”直接搬到了图像和语音这种连续信号上。

众所周知，依赖离散自回归建模，“预测下一个Token”让大语言模型一战成名。

但当这套范式被搬到视觉上时，问题也随之出现：

图片是连续信号，不能像文本那样天然离散，一旦强行切成Token（类似把一张图分成几块），模型就会丢信息“变弱”。

因此，行业长期认为，离散视觉建模存在“性能天花板”。

但随着美团LongCat一篇新论文的出现，这一认知被打破了——

文本、图像、语音，可以被统一压进同一个离散Token空间，用一套自回归逻辑从头建模，而且模型效果可以媲美主流顶尖模型。

从论文中可以看到，为这套理念提供支撑的，正是美团LongCat首创的离散原生自回归架构——DiNA（Discrete Native Autoregressive ）。

DiNA核心只做一件事——把文字、图像、语音都变成同一种东西，即离散Token。

这样一来，无论模型是读文字、看图片还是听声音，本质上都是在预测下一个Token。

听起来是不是仍有点抽象？不妨看看下面这张架构运行图。

简单来说，DiNA的一个完整“小周天”，大致会经历以下三个过程：

输入侧：文本、图像、语音各自经过自家Tokenizer，统一把原始信号转成离散Token；
中间：所有Token汇入一个不区分模态的学习器，它只处理Token序列，所有理解、推理、生成都在这里完成；
输出侧：处理完的Token再通过各自的De-Tokenizer还原成图像、音频、文本。

这种架构设计带来的好处显而易见：

以前都是各管各的（文字模型管文字、图片模型管图片），现在所有模态都共享同一个自回归骨干。

这意味着，甭管处理哪种模态，模型都用同一套参数、同一个注意力机制、同一个损失函数。

而这，无疑可以让模型在训练时更稳定，部署时更轻量。

训练时，多模态数据互相补充，梯度信号更稳，不容易跑偏；部署时，一个模型顶三个，显存省了，速度也快了。

空口无凭。

美团LongCat用LongCat-Flash-Lite MoE（总参数685亿，激活仅30亿）做基座，在这个框架上训练出LongCat-Next。

结果发现，DiNA的MoE路由在训练中逐渐学会了“分工”——不同专家开始偏好处理不同模态，激活的专家数量也比纯语言模型时更多，这说明模型正在用更大容量支撑能力扩展。

说白了就是，为了多干活，找了更多专家。

再一个，前面提到了理解和生成的割裂问题（需要两套系统）。

而在DiNA这里，它俩也变成了“预测下一个Token”这一件事——数学形式完全一样，只是输入输出互换。

看到图片，预测文字是“理解”；看到文字，预测图片是“生成”。理解和生成一个模型全搞定。

至于具体效果嘛？实验数据很能说明问题：

统一模型的理解损失仅比纯理解模型高0.006，而生成损失比纯生成模型低0.02。

这说明什么？理解不仅没拖累生成，反而表现出协同潜力。

以及最后还有很重要的一点，那就是真·原生。

以前的多模态模型，本质上天天干的是“对齐”的活儿——不同模态之间“对话”需要靠“翻译传话”。

而现在，美团LongCat发现：

把不同模态的Token丢进t-SNE可视化之后，它们不是各占一角，而是混在一起，自然交融，而且不同的专家模块开始自动偏好处理图像、文字或语音。

这说明，模型不是在“拼凑”多模态，而是在内部长出了一个统一的多模态世界。

说到这里，懂行的朋友可能就问了：

OK，现在我们已经知道DiNA架构长什么样、具体怎么运作的了，但这里还有一个关键问题没有被提到：

它是怎么把不同模态离散成Token的？文本不必多说，至少得说清图像和语音咋处理的。

而这，就要谈到美团LongCat的另一项自研了。

所以，怎么“离散”的？

一般来说，基于以下两点理由，离散建模一直被人说“不行”：

表征容量有限：离散Token就那么几个，怕装不下太多信息；
离散化损失：离散化过程会丢东西，比如一旦把连续信号切成块，细节就容易漏掉。

但美团LongCat就说了，这些还真不是关键。

真正决定上限的，是离散Token本身是否具备语义完备性（Semantic Completeness）。

换言之，问题不在“要不要离散”，而在离散后的Token本身到底够不够“有内容”——既懂大意，又抠细节。

所以现在问题就变成了：怎么构建合适的表征基础？

先说视觉。

对此，美团LongCat想了两招。

第一招：先把基础打好，让信息在被离散前尽可能丰富、准确。

他们拿出语义对齐编码器SAE（Semantic-and-Aligned Encoder），用来从图像中提炼高信息密度、多属性的特征。

不同于传统对比学习（如SigLIP那种“看文字和图片是否匹配”），SAE是通过大规模视觉-语言监督，像做阅读理解一样，把图像描述、视觉问答、视觉推理统统学一遍。

结果就是，它提取的特征既有“这是什么”的语义，又有“长什么样”的细节。

第二招：甩出自研视觉分词器dNaViT，把SAE提炼出来的特征，逐级量化成离散Token。

怎么个逐级量化？dNaViT这里采用的是8层残差向量量化（RVQ），通俗来讲就是“分层打包”。

既然细节很多，那就第一层打包轮廓、第二层打包颜色、第三层打包纹理……

每一层只负责上一层没包进去的“剩余信息”。

8层补下去之后，最后可以实现高达28倍的极致像素空间压缩。

光压缩还不算完，到了还原图像的时候，dNaViT还有一套双轨解码器来为还原质量“保驾护航”。

结构像素解码器：搭出低分辨率锚点图，保布局；
扩散像素细化器：注入高频纹理细节，让画面更完整清晰。

到这里，美团LongCat就完成了视觉离散的几个关键步骤——SAE“先看懂”、dNaViT再压缩和还原。

发现没，和语言模型的Tokenizer一样，dNaViT也把图像的理解和生成放在同一套Token序列里闭环流转了。

不过更关键的还在于，在LongCat-Next中：

视觉Token化这个过程完成的是图像到离散ID的映射，真正的特征是原生学习的。

意思是，视觉Token化这个过程只负责把图像转成ID编号，至于这个编号代表什么含义，是模型自己学出来的，不是别人硬塞给它的。

在美团LongCat看来，这种从“借用模态”到“内生模态”的转变，是原生多模态建模的核心。

还是举一个例子。

从dNaViT的架构图可以看到，虽然左边输入了三张尺寸完全不同的图像，但经过中间的离散和右下边的还原后，输出的尺寸和输入完全一致，细节也没丢。

这就是“原生分辨率”的含义——无需任何额外动作（缩放、裁剪、填充），dNaViT可以实现任意分辨率的图像编码与解码。

再说语音。

语音的离散思路和视觉基本一致——

先用OpenAI的Whisper编码器提取声音特征，然后用RVQ切成离散Token，最后用解码器还原声音。

唯一比较狠的一点是，在文本引导音频的统一建模下，LongCat-Next同时支持并行生成与串行生成两种策略，使得模型可以在生成速度与语音准确性之间灵活权衡。

想“快”（如实时语音对话）：可以走并行生成，延迟更低；
想“准”（如后期配音）：可以走串行生成，虽然过程慢一点，但文本对音频的指导作用更强。

至于什么情况选哪个，也都是模型自己来决定。

通过随机延迟对齐——训练时随机切换“一起出”和“先后出”，模型能自己学会平衡速度和准确度，实现又快又准。

至此，美团LongCat在LongCat-Next身上看到了：

离散表示并非信息的退化形式，而可以成为统一理解与生成的完备表达载体。

通过“离散”这种方式，文字、图像、语音可以变成“同一种Token”——原生多模态的底层统一，由此实现。

跑分和背后的发现

具体效果可以看LongCat-Next的跑分情况。

这个基于LongCat-Flash-Lite（MoE）训练的模型，没有像传统模型那样给不同任务设计不同的专家模块，而是采用“与模态无关”的MoE——由模型自行决定如何为各模态分配训练资源。

结果大家也都看到了，凭借这套离散原生框架，LongCat-Next在视觉理解、图像生成、音频、智能体等多个维度上，都展现出与多模专用模型相当甚至领先的性能。

老实说，虽然LongCat-Next的成绩不错，但我还是有点怀疑“离散”是否真能work。

于是立马让模型识别一下桌面上的小白盒（反光下比较模糊）：

没想到LongCat-Next成功识别了耳机盒上的所有关键参数：

当然，如果细扒每一项成绩，你会发现背后还藏着这样几个关键点：

发现1：离散视觉没有天花板

前文也提到，行业长期认为离散模型在做细粒度文本识别时，天然就不如连续模型。

因为离散化本身就是一个信息压缩和丢失的过程，而细粒度文本识别恰恰对信息保真度要求极高。

但LongCat-Next这次用实力挑战了这一观点。

证据之一是，在OmniDocBench这个涵盖学术论文、财报、行政表格等各种复杂文档的多模态基准测试上，LongCat-Next的成绩不仅超越同类多模态模型，还超过了专门做视觉理解的模型。

更重要的是，美团LongCat通过对照实验发现，离散视觉的性能瓶颈并非来自“离散化本身”，而是来自数据规模。

在相同设置下对比离散模型（Discrete）和连续模型（Continuous）可以发现：

小数据下，离散模型确实弱于连续模型；但随着数据规模不断扩大，二者的性能差距会持续缩小。

继续扩大数据规模，离散模型甚至可以和连续模型性能接近一致（near-parity）。

照理说，如果离散化本身存在不可突破的性能上限，那么随着数据增加，这一差距理应在某个阶段停止收敛，但实验中并未观察到这一“收敛停滞”。

所以论文给出了一个判断——

离散建模并不存在内在性能天花板，其上限更多取决于数据规模与表征质量。

发现2：理解和生成可以协同

原理就不必多说了，咱直接亮成绩：

在考察长文本渲染能力的LongText-Bench上（侧重生成），LongCat-Next拿下93.15的高分。

与此同时，它还在考察数学推理能力的MathVista上（侧重理解），斩获83.1的领先成绩。

理解和生成齐高，这说明理解不仅没有损害生成，反而表现出协同潜力。

这也很好理解。以前它们分属两套系统，各有各的优化目标；现在却被拉到了一起，理解学到的东西直接服务生成，两者天然同向、越学越强。

发现3：经过原生多模态训练后，不会折损文本能力

以前多模态训练就像“端水”，要小心翼翼在各种模态的能力之间取得平衡。

但LongCat-Next就不一样了。

图像、音频能力配上后，文本能力也没被削弱——

在纯文本任务上，LongCat-Next在MMLU-Pro和C-Eval上分别斩获77.02和86.80的领先成绩。

而且工具调用、代码能力等个个不差。

还是那句话，当模型学会用同一种方式理解图像、声音和文字时，它对世界的理解无疑更上一层楼。

美团LongCat用实验初步证明：

当不同模态都用同一套离散Token体系后，模型不再需要为不同模态、不同任务分别设计机制，而是可以用一套可扩展的方式去建模整个世界。

在这个意义上，离散建模并非一种妥协，而是另一条可扩展路径。

这件事意味着什么？

不止于此。

把视角再往前推一步，你会发现一个有意思的“隔空呼应”：这项研究，几乎正对上了LeCun和谢赛宁等人的判断。

LeCun就不必多说了，谁都知道他一直批评“纯文本LLM无法实现AGI”；谢赛宁则在对谈张小珺时表示，语言本身是人类文明高度提炼的结构，相当于一种“捷径”或“拐杖”，过度依赖语言会限制AI对真实世界的学习。

而要突破语言模型的局限性，统一的多模态预训练，正是那条绕不开的路。

在近期公开的论文《Beyond Language Modeling: An Exploration of Multimodal Pretraining》中，LeCun等人决定不再把视觉当作辅助输入，而是推进统一的多模态预训练——

让视觉和语言一样，成为模型里的“first-class citizen”。

而美团LongCat这一步，正是把这条思路进一步推向工程化落地的体现——

在不推翻LLM、自回归这些成熟体系的前提下，他们直接把图像、语音、文字统统压进了Token序列，并且做到了工业级可用。

怎么个工业可用？答案是：开源。

没错，美团LongCat这次不仅公开了技术论文，而且还把LongCat-Next及其分词器开！源！了！

不过要想使用LongCat-Next，除了硬件上需要至少3张80GB显存的专业显卡（如英伟达A100/H100），软件配置要求如下：

到这一步，当一套方案不仅在论文里成立，而且已经以开源的形式跑通工程闭环时，它对业界的意义除了多了一个新框架外，更重要的其实还在于——验证了一条新路径。

细究之下，在通往“原生多模态”的这条路上：

有人在做融合，语言模型当底座，视觉、语音当外挂，一心想让不同模态更好协同；也有人更进一步做早期融合+MoE，不再依赖预训练编码器，从零开始联合训练，让模型内部自己长出视觉和听觉。

而美团LongCat更为直接——不走融合，不做对齐，直接把所有模态统统变成Token。

此时，模型面对的就不再是“多模态”，而是同一种可以被预测、被生成的序列。

某种程度上来说——

模态这个东西本身，也正在消失。

Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub: https://github.com/meituan-longcat/LongCat-Next
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next
blog: https://longcat.chat/longcat-next/intro

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.