网易首页 > 网易号 > 正文 申请入驻

美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测

0
分享至

Token,这下真成了智能世界的基本单位。

不是被定义出来的“词元”,而是被一套全新的统一Token架构,直接压进了现实建模的最底层。



过去一年,几乎所有头部大模型玩家,都在忙着重写多模态的底层架构。

从谷歌、OpenAI到国内的字节、MiniMax,大家在实践中逐渐形成共识——不走原生多模态,已经不够、不行了

但问题是,原生多模态到底该怎么走?到目前为止,业界并没有一个统一答案。

直到这一次,一直闷头搞AI的美团LongCat,歘的一下亮出新解法:

把图片、语音,统统当成Token来预测

听起来有点离谱,但他们不仅这么做了,而且——

还做成了。

真原生、真统一

先回答一个基本问题:为什么要做原生多模态?

理由虽然很多,但核心只有一个:

目前业界主流的多模态大模型,本质上采用的是一套“拼凑式架构”——语言模型当底座,视觉、语音当外挂

这种架构下,理解靠连续特征对齐(比如要理解图片就得把图片转成语言能看懂的信号)、生成靠扩散模型,两套系统各说各话,根本谈不上真正的统一。

结果就是,中间“传话人”一多,算力消耗飙升,信息也一路跑偏、流失。

而原生多模态,则从一开始就用一套统一的方式,把所有模态一起建模——不需要拼接、不需要传话翻译,所有模态共用同一套“语言”。

而这,正是美团LongCat做的事。

至于为什么说他们采用的方式很“离谱”,原因在于,他们把“离散自回归”直接搬到了图像和语音这种连续信号上

众所周知,依赖离散自回归建模,“预测下一个Token”让大语言模型一战成名。

但当这套范式被搬到视觉上时,问题也随之出现:

图片是连续信号,不能像文本那样天然离散,一旦强行切成Token(类似把一张图分成几块),模型就会丢信息“变弱”。

因此,行业长期认为,离散视觉建模存在“性能天花板”。

但随着美团LongCat一篇新论文的出现,这一认知被打破了——

文本、图像、语音,可以被统一压进同一个离散Token空间,用一套自回归逻辑从头建模,而且模型效果可以媲美主流顶尖模型



从论文中可以看到,为这套理念提供支撑的,正是美团LongCat首创的离散原生自回归架构——DiNA(Discrete Native Autoregressive )。

DiNA核心只做一件事——把文字、图像、语音都变成同一种东西,即离散Token。

这样一来,无论模型是读文字、看图片还是听声音,本质上都是在预测下一个Token。

听起来是不是仍有点抽象?不妨看看下面这张架构运行图。

简单来说,DiNA的一个完整“小周天”,大致会经历以下三个过程:

  • 输入侧:文本、图像、语音各自经过自家Tokenizer,统一把原始信号转成离散Token;
  • 中间:所有Token汇入一个不区分模态的学习器,它只处理Token序列,所有理解、推理、生成都在这里完成;
  • 输出侧:处理完的Token再通过各自的De-Tokenizer还原成图像、音频、文本。



这种架构设计带来的好处显而易见:

以前都是各管各的(文字模型管文字、图片模型管图片),现在所有模态都共享同一个自回归骨干。

这意味着,甭管处理哪种模态,模型都用同一套参数、同一个注意力机制、同一个损失函数。

而这,无疑可以让模型在训练时更稳定,部署时更轻量

训练时,多模态数据互相补充,梯度信号更稳,不容易跑偏;部署时,一个模型顶三个,显存省了,速度也快了。

空口无凭。

美团LongCat用LongCat-Flash-Lite MoE(总参数685亿,激活仅30亿)做基座,在这个框架上训练出LongCat-Next。

结果发现,DiNA的MoE路由在训练中逐渐学会了“分工”——不同专家开始偏好处理不同模态,激活的专家数量也比纯语言模型时更多,这说明模型正在用更大容量支撑能力扩展。

说白了就是,为了多干活,找了更多专家。



再一个,前面提到了理解和生成的割裂问题(需要两套系统)。

而在DiNA这里,它俩也变成了“预测下一个Token”这一件事——数学形式完全一样,只是输入输出互换。

看到图片,预测文字是“理解”;看到文字,预测图片是“生成”。理解和生成一个模型全搞定。

至于具体效果嘛?实验数据很能说明问题:

统一模型的理解损失仅比纯理解模型高0.006,而生成损失比纯生成模型低0.02。

这说明什么?理解不仅没拖累生成,反而表现出协同潜力

以及最后还有很重要的一点,那就是真·原生

以前的多模态模型,本质上天天干的是“对齐”的活儿——不同模态之间“对话”需要靠“翻译传话”。

而现在,美团LongCat发现:

把不同模态的Token丢进t-SNE可视化之后,它们不是各占一角,而是混在一起,自然交融,而且不同的专家模块开始自动偏好处理图像、文字或语音。

这说明,模型不是在“拼凑”多模态,而是在内部长出了一个统一的多模态世界



说到这里,懂行的朋友可能就问了:

OK,现在我们已经知道DiNA架构长什么样、具体怎么运作的了,但这里还有一个关键问题没有被提到:

它是怎么把不同模态离散成Token的?文本不必多说,至少得说清图像和语音咋处理的。

而这,就要谈到美团LongCat的另一项自研了。

所以,怎么“离散”的?

一般来说,基于以下两点理由,离散建模一直被人说“不行”:

  • 表征容量有限:离散Token就那么几个,怕装不下太多信息;
  • 离散化损失:离散化过程会丢东西,比如一旦把连续信号切成块,细节就容易漏掉。

但美团LongCat就说了,这些还真不是关键。

真正决定上限的,是离散Token本身是否具备语义完备性(Semantic Completeness)。

换言之,问题不在“要不要离散”,而在离散后的Token本身到底够不够“有内容”——既懂大意,又抠细节。



所以现在问题就变成了:怎么构建合适的表征基础?

先说视觉。

对此,美团LongCat想了两招。

第一招:先把基础打好,让信息在被离散前尽可能丰富、准确。

他们拿出语义对齐编码器SAE(Semantic-and-Aligned Encoder),用来从图像中提炼高信息密度、多属性的特征。

不同于传统对比学习(如SigLIP那种“看文字和图片是否匹配”),SAE是通过大规模视觉-语言监督,像做阅读理解一样,把图像描述、视觉问答、视觉推理统统学一遍。

结果就是,它提取的特征既有“这是什么”的语义,又有“长什么样”的细节。

第二招:甩出自研视觉分词器dNaViT,把SAE提炼出来的特征,逐级量化成离散Token。



怎么个逐级量化?dNaViT这里采用的是8层残差向量量化(RVQ),通俗来讲就是“分层打包”。

既然细节很多,那就第一层打包轮廓、第二层打包颜色、第三层打包纹理……

每一层只负责上一层没包进去的“剩余信息”。

8层补下去之后,最后可以实现高达28倍的极致像素空间压缩

光压缩还不算完,到了还原图像的时候,dNaViT还有一套双轨解码器来为还原质量“保驾护航”。

  • 结构像素解码器:搭出低分辨率锚点图,保布局;
  • 扩散像素细化器:注入高频纹理细节,让画面更完整清晰。

到这里,美团LongCat就完成了视觉离散的几个关键步骤——SAE“先看懂”、dNaViT再压缩和还原。

发现没,和语言模型的Tokenizer一样,dNaViT也把图像的理解和生成放在同一套Token序列里闭环流转了。



不过更关键的还在于,在LongCat-Next中:

视觉Token化这个过程完成的是图像到离散ID的映射,真正的特征是原生学习的

意思是,视觉Token化这个过程只负责把图像转成ID编号,至于这个编号代表什么含义,是模型自己学出来的,不是别人硬塞给它的。

在美团LongCat看来,这种从“借用模态”到“内生模态”的转变,是原生多模态建模的核心。

还是举一个例子。

从dNaViT的架构图可以看到,虽然左边输入了三张尺寸完全不同的图像,但经过中间的离散和右下边的还原后,输出的尺寸和输入完全一致,细节也没丢。

这就是“原生分辨率”的含义——无需任何额外动作(缩放、裁剪、填充),dNaViT可以实现任意分辨率的图像编码与解码。



再说语音。

语音的离散思路和视觉基本一致——

先用OpenAI的Whisper编码器提取声音特征,然后用RVQ切成离散Token,最后用解码器还原声音。



唯一比较狠的一点是,在文本引导音频的统一建模下,LongCat-Next同时支持并行生成与串行生成两种策略,使得模型可以在生成速度与语音准确性之间灵活权衡。

  • 想“快”(如实时语音对话):可以走并行生成,延迟更低;
  • 想“准”(如后期配音):可以走串行生成,虽然过程慢一点,但文本对音频的指导作用更强。

至于什么情况选哪个,也都是模型自己来决定。

通过随机延迟对齐——训练时随机切换“一起出”和“先后出”,模型能自己学会平衡速度和准确度,实现又快又准。



至此,美团LongCat在LongCat-Next身上看到了:

离散表示并非信息的退化形式,而可以成为统一理解与生成的完备表达载体

通过“离散”这种方式,文字、图像、语音可以变成“同一种Token”——原生多模态的底层统一,由此实现。

跑分和背后的发现

具体效果可以看LongCat-Next的跑分情况。

这个基于LongCat-Flash-Lite(MoE)训练的模型,没有像传统模型那样给不同任务设计不同的专家模块,而是采用“与模态无关”的MoE——由模型自行决定如何为各模态分配训练资源。



结果大家也都看到了,凭借这套离散原生框架,LongCat-Next在视觉理解、图像生成、音频、智能体等多个维度上,都展现出与多模专用模型相当甚至领先的性能



老实说,虽然LongCat-Next的成绩不错,但我还是有点怀疑“离散”是否真能work。

于是立马让模型识别一下桌面上的小白盒(反光下比较模糊):



没想到LongCat-Next成功识别了耳机盒上的所有关键参数:





当然,如果细扒每一项成绩,你会发现背后还藏着这样几个关键点:

发现1:离散视觉没有天花板

前文也提到,行业长期认为离散模型在做细粒度文本识别时,天然就不如连续模型。

因为离散化本身就是一个信息压缩和丢失的过程,而细粒度文本识别恰恰对信息保真度要求极高。

但LongCat-Next这次用实力挑战了这一观点。

证据之一是,在OmniDocBench这个涵盖学术论文、财报、行政表格等各种复杂文档的多模态基准测试上,LongCat-Next的成绩不仅超越同类多模态模型,还超过了专门做视觉理解的模型。

更重要的是,美团LongCat通过对照实验发现,离散视觉的性能瓶颈并非来自“离散化本身”,而是来自数据规模

在相同设置下对比离散模型(Discrete)和连续模型(Continuous)可以发现:

小数据下,离散模型确实弱于连续模型;但随着数据规模不断扩大,二者的性能差距会持续缩小。

继续扩大数据规模,离散模型甚至可以和连续模型性能接近一致(near-parity)。



照理说,如果离散化本身存在不可突破的性能上限,那么随着数据增加,这一差距理应在某个阶段停止收敛,但实验中并未观察到这一“收敛停滞”。

所以论文给出了一个判断——

离散建模并不存在内在性能天花板,其上限更多取决于数据规模与表征质量

发现2:理解和生成可以协同

原理就不必多说了,咱直接亮成绩:

在考察长文本渲染能力的LongText-Bench上(侧重生成),LongCat-Next拿下93.15的高分。

与此同时,它还在考察数学推理能力的MathVista上(侧重理解),斩获83.1的领先成绩。

理解和生成齐高,这说明理解不仅没有损害生成,反而表现出协同潜力

这也很好理解。以前它们分属两套系统,各有各的优化目标;现在却被拉到了一起,理解学到的东西直接服务生成,两者天然同向、越学越强。



发现3:经过原生多模态训练后,不会折损文本能力

以前多模态训练就像“端水”,要小心翼翼在各种模态的能力之间取得平衡。

但LongCat-Next就不一样了。

图像、音频能力配上后,文本能力也没被削弱——

在纯文本任务上,LongCat-Next在MMLU-Pro和C-Eval上分别斩获77.02和86.80的领先成绩。

而且工具调用、代码能力等个个不差。

还是那句话,当模型学会用同一种方式理解图像、声音和文字时,它对世界的理解无疑更上一层楼。

美团LongCat用实验初步证明:

当不同模态都用同一套离散Token体系后,模型不再需要为不同模态、不同任务分别设计机制,而是可以用一套可扩展的方式去建模整个世界

在这个意义上,离散建模并非一种妥协,而是另一条可扩展路径。

这件事意味着什么?

不止于此。

把视角再往前推一步,你会发现一个有意思的“隔空呼应”:这项研究,几乎正对上了LeCun和谢赛宁等人的判断。

LeCun就不必多说了,谁都知道他一直批评“纯文本LLM无法实现AGI”;谢赛宁则在对谈张小珺时表示,语言本身是人类文明高度提炼的结构,相当于一种“捷径”或“拐杖”,过度依赖语言会限制AI对真实世界的学习。

而要突破语言模型的局限性,统一的多模态预训练,正是那条绕不开的路

在近期公开的论文《Beyond Language Modeling: An Exploration of Multimodal Pretraining》中,LeCun等人决定不再把视觉当作辅助输入,而是推进统一的多模态预训练——

让视觉和语言一样,成为模型里的“first-class citizen”。



而美团LongCat这一步,正是把这条思路进一步推向工程化落地的体现——

在不推翻LLM、自回归这些成熟体系的前提下,他们直接把图像、语音、文字统统压进了Token序列,并且做到了工业级可用。

怎么个工业可用?答案是:开源

没错,美团LongCat这次不仅公开了技术论文,而且还把LongCat-Next及其分词器开!源!了!

不过要想使用LongCat-Next,除了硬件上需要至少3张80GB显存的专业显卡(如英伟达A100/H100),软件配置要求如下:



到这一步,当一套方案不仅在论文里成立,而且已经以开源的形式跑通工程闭环时,它对业界的意义除了多了一个新框架外,更重要的其实还在于——验证了一条新路径

细究之下,在通往“原生多模态”的这条路上:

有人在做融合,语言模型当底座,视觉、语音当外挂,一心想让不同模态更好协同;也有人更进一步做早期融合+MoE,不再依赖预训练编码器,从零开始联合训练,让模型内部自己长出视觉和听觉。

而美团LongCat更为直接——不走融合,不做对齐,直接把所有模态统统变成Token。

此时,模型面对的就不再是“多模态”,而是同一种可以被预测、被生成的序列。

某种程度上来说——

模态这个东西本身,也正在消失。

Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub: https://github.com/meituan-longcat/LongCat-Next
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next
blog: https://longcat.chat/longcat-next/intro

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王励勤下最后通牒!国乒硬刚国际乒联:6个月内必须解决王楚钦“球拍门”

王励勤下最后通牒!国乒硬刚国际乒联:6个月内必须解决王楚钦“球拍门”

生活新鲜市
2026-04-03 14:46:51
优思益暴雷后董宇辉惹上麻烦,网友晒订单要求假一赔十

优思益暴雷后董宇辉惹上麻烦,网友晒订单要求假一赔十

映射生活的身影
2026-04-01 23:26:28
快船99-118马刺!泰伦卢无奈,伦纳德把话挑明,加兰两点不如哈登

快船99-118马刺!泰伦卢无奈,伦纳德把话挑明,加兰两点不如哈登

鱼崖大话篮球
2026-04-03 17:30:29
没想到,张雪机车夺冠刚3天,胖东来竟因张雪一句话意外火出圈

没想到,张雪机车夺冠刚3天,胖东来竟因张雪一句话意外火出圈

李橑在北漂
2026-04-02 22:53:00
刑拘!女子因祭祀烧纸引燃路边9辆汽车

刑拘!女子因祭祀烧纸引燃路边9辆汽车

环球网资讯
2026-04-02 17:18:26
ESPN:东契奇左腿筋受伤,将在当地时间周五进行核磁共振检查

ESPN:东契奇左腿筋受伤,将在当地时间周五进行核磁共振检查

懂球帝
2026-04-03 11:54:52
被鱼刺卡住不用慌!含一片它”,鱼刺自己滑出来,很多人不知道

被鱼刺卡住不用慌!含一片它”,鱼刺自己滑出来,很多人不知道

今日养生之道
2026-03-30 14:14:06
普京:我昨天听了特朗普发言……

普京:我昨天听了特朗普发言……

看看新闻Knews
2026-04-03 10:31:02
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

素衣读史
2026-03-31 15:11:31
中东正打得不可开交,中国在西北边陲干了一件大事

中东正打得不可开交,中国在西北边陲干了一件大事

兵国大事
2026-04-02 17:03:42
恭喜俄罗斯和乌克兰,打了4年,终于打成了全世界都喜欢的样子!

恭喜俄罗斯和乌克兰,打了4年,终于打成了全世界都喜欢的样子!

书写传奇
2026-04-03 17:15:23
刘亦菲最新车内美照曝光!优雅贵气浑然天成太养眼

刘亦菲最新车内美照曝光!优雅贵气浑然天成太养眼

悦君兮君不知
2026-04-02 19:39:44
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
中东有救了?一架专机降落中国,王毅表明态度,替美承担部分责任

中东有救了?一架专机降落中国,王毅表明态度,替美承担部分责任

知法而形
2026-04-02 14:47:11
市场监管总局要求三大外卖平台尽快开展自查整改

市场监管总局要求三大外卖平台尽快开展自查整改

界面新闻
2026-04-03 18:32:02
伊朗最大‘靠山’浮现,特朗普心虚,法上将竟想拉中国入局?

伊朗最大‘靠山’浮现,特朗普心虚,法上将竟想拉中国入局?

听风50
2026-04-03 17:07:29
40岁才明白的生存之道:很脏,但很现实

40岁才明白的生存之道:很脏,但很现实

德鲁克博雅管理
2026-04-03 17:03:49
事态严重了!中方接到日媒消息,日本远导锁定东海,俄已选边站

事态严重了!中方接到日媒消息,日本远导锁定东海,俄已选边站

策略述
2026-04-02 18:20:07
早恋被警告,生完女儿被离婚,她大概是最惨的“清纯佳人”吧

早恋被警告,生完女儿被离婚,她大概是最惨的“清纯佳人”吧

娱人细品
2026-04-02 19:35:40
美元兑人民币将贬值到1美元换5.5元人民币,或许只需要5到10年?

美元兑人民币将贬值到1美元换5.5元人民币,或许只需要5到10年?

丁丁鲤史纪
2026-04-03 11:50:43
2026-04-03 20:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12410文章数 176437关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

吉林下大雪致珲乌高速发生事故 目击者:多车连环追尾

头条要闻

吉林下大雪致珲乌高速发生事故 目击者:多车连环追尾

体育要闻

冲击世界杯失败,80岁老帅一气之下病倒了

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

时尚
手机
数码
游戏
公开课

怎么她们都穿成18世纪的粉彩画?

手机要闻

工信部提醒苹果用户:iOS 13至17.2.1存在高危漏洞,请尽快升级

数码要闻

蓝宝石推出PULSE S RX 9060 XT 8G / PRO RX 9070 GRE 12G显卡

任天堂低分新片也能“带货” 助力经典神作销量登顶

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版