网易首页 > 网易号 > 正文 申请入驻

2025年Next Token Prediction范式会统一多模态吗?

0
分享至

介绍一下最近和来自北大,北航,港大,国科大等学校的同学以及阿里, Microsoft, Humanify等研究机构呕心沥血的综述工作《Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey》

** 完整论文: https://arxiv.org/abs/2412.18619**

** Github: https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction**

## 简介

过去一两年时间里,多模态(Multimodal)领域涌现了大量基于Next Token Prediction(NTP)的模型,以下简称为MMNTP,这些模型在多模态理解与生成任务上取得了显著的进展。以图片模态举例,有以LLaVA, QwenVL为代表的图片理解模型,也有以Unified-IO系列,Chameleon,VAR为代表的基于离散Token的图片生成模型以及融合NTP和Diffusion架构的Transfusion,MAR等模型。音频部分则有Moshi为代表的基于NTP的音频理解和生成模型。

本文采用全新的自下而上视角,从NTP范式的构建出发,全面探讨了以下几个核心方面:

- 多模态的Tokenization技术

- MMNTP模型架构设计

- 训练方法与推理策略

- 性能评测体系

- 现存挑战与未来方向

综述的完整目录如下:

## 多模态的Tokenization

我们认为多模态的Tokenization是MMNTP的基石和最重要的部分,它将各种模态的信息(如图像、视频和音频片段)分解为最小的单元序列(Token),以便Transformer结构为基础的NTP模型学习。Tokenization方法可以分为离散(Discrete Tokenization)和连续(Continuous Tokenization)两种。离散标记化通过量化将原始信息映射到有限的离散空间,而连续标记化则不涉及量化,保留了数据的连续性质。下面的图给出了两种方式的示意图。

### Tokenizer训练方法

本节针对图片,视频,音频领域的Tokenization训练方法进行了详细的梳理和比较。首先总结了几种常见的训练方法,例如对比学习,自编码器等,以及这些方法在不同模态上的应用与针对不同模态特点的改进,并按照不同的训练方法归纳整理了不同类型的Tokenizers,如下表所示:

我们以表示能力(representation)和重建能力(reconstruction)为基点,重点讨论了Tokenizers在训练时存在的挑战,例如离散型编码器存在的编码表塌陷,信息损失的问题以及一些改进措施例如FSQ,LFQ等方案,以及以CLIP为代表的连续型编码器中主要存在的语义对齐,编码效率,以及对于不同模态的数据,大家提出了哪些针对性的改进措施。

## MMNTP模型

如上图所示,我们将MMNTP模型进一步分为两类,组合式(Compositional)和统一(Unified)式。组合模型依赖于强大的外部编码器例如CLIP和解码器例如SD3来理解和生成多模态信息,而统一模型则使用轻量级的编码器和解码器例如VQVAE,将大部分理解和生成任务交给骨干模型。本文对这两种模型结构进行了详细讨论,并比较了它们的优缺点。

对于不同的多模态任务来说,MMNTP模型可以以一种统一的方式处理不同任务,区别之处在于不同任务的输入输出不同。上图以图片模态为例子,列出来了同一个MMNTP模型结构如何进行图片理解例如VQA,图片生成,以及基于文字指令的图片编辑任务。只需要替换输入输出的组合形式,同一个模型架构就可以完成不同的任务,这体现了MMNTP模型在多模态任务上的统一性。本文针对图片,视频,音频模态的MMNTP模型进行了详细的讨论,并根据结构类型进行了梳理,如下表所示。

## 训练范式

### 训练任务的类型

一旦将不同模态的内容转化为序列化的标Tokens,就可以使用统一的骨MMNTP模型来训练,以解决各种理解和生成任务。本文将训练任务按照生成的Token类型不同分为两类,离散Token预测和连续Token预测。二者的区别在于预测的token是离散的还是连续的,这会对应不同的训练任务,以及特殊的输出头的结构。例如多模态理解任务往往以语言作为输出,则需要使用语言模型头作为输出头,进行离散Token预测。如果将Diffusion模型和NTP模型结合,则需要使用Diffusion模型头作为输出头,进行连续Token预测。

### 训练阶段

和语言模型类似,MMNTP模型的训练也可以分为三个阶段,如上图所示,分别是模态对齐预训练,指令微调和偏好学习。这里的预训练阶段,通常指的是在多模态数据-文本对数据上进行预训练,以将不同模态的信息对齐到语言空间。指令微调阶段是针对不同的下游任务,例如理解和生成类任务,用标注好的数据进行训练。偏好学习在MMNTP模型中的研究刚刚起步,主要将模型的输出和人类的偏好进行对齐。本文详细这三个阶段的相关研究工作,并根据任务类型进行了归纳整理。

### 测试时的Prompt工程

Prompt工程是提升LLM模型效果的重要手段,在MMNTP模型中,借助了LLM继基座模型的能力,Prompt工程同样重要。本文对MMNTP模型中的Prompt工程进行了详细的讨论,如上图所示,分为多模态的上下文学习(Multimodal In-Context Learning)和多模态思维链(Multimodal Chain-of-Thought)两种方法。

如上图所示,多模态的上下文学习指的是在输入中加入多模态任务的例子,以帮助模型更好地理解任务。多模态思维链则是指在输入中加入一些思维链的提示,例如“感知”,“推理过程”等,以促使模型更好地进行多模态推理。我们将这些方法进行整理,如下表所示。

## 训练数据集与性能评测

在综述中,我们还对MMNTP模型的训练数据集进行了详细的讨论,包括数据集的构建,数据集的规模,以及数据集的多样性。同时,我们也比较了NTP模型和非NTP模型在多模态任务上的表现,如上图所示,在大规模理解任务例如VQAv2,MMMU上,NTP模型表现全面优于非NTP模型。在生成任务评测数据例如Imagenet,GenEval,我们观察到NTP模型在和纯Diffusion取得了不相上下的效果,甚至在某些任务上表现更好,这展示了NTP模型在统一不同多模态任务上的潜力。

## 存在的挑战

本文提出了四个目前尚未解决的挑战,主要源于MMNTP训练范式。这些挑战包括:

1. 如何更好地利用无监督的多模态数据来扩展MMNTP模型

2. 克服多模态干扰并增强协同作用

3. 提高MMNTP模型的训练和推理效率

4. 将MMNTP作为更广阔任务的通用接口。

这些挑战的解决对于MMNTP范式实现多模态智能的发展至关重要。

## 小结

本文从NTP范式的视角出发,全面梳理了多模态领域的最新进展。从Tokenization到模型架构,从训练范式到性能评测,我们希望这份工作能为研究者们提供一个清晰的研究全景图。

在2025年,随着MMNTP技术的不断发展,我们期待看到更多创新性的工作能够突破现有的挑战,推动多模态智能向前发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今日大寒,辽宁最低气温达到-37℃,回暖要等到…...

今日大寒,辽宁最低气温达到-37℃,回暖要等到…...

沈阳生活圈i
2026-01-20 13:19:12
“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

红大娘娱乐
2026-01-18 17:20:47
勇士大胜却连遭打击,巴特勒确定报销,本月剩余赛程皆是苦战

勇士大胜却连遭打击,巴特勒确定报销,本月剩余赛程皆是苦战

谢说篮球
2026-01-20 15:32:25
梁小龙去世细节曝光!坚持7小时等亲人赶到,小20岁妻子有苦难言

梁小龙去世细节曝光!坚持7小时等亲人赶到,小20岁妻子有苦难言

寒士之言本尊
2026-01-19 12:30:55
反高市联盟在东京成立,中方向日企发催告信,日媒:中国还有王牌

反高市联盟在东京成立,中方向日企发催告信,日媒:中国还有王牌

阿七说史
2026-01-19 14:48:38
打脸太快!向华炎追悼会抓3逃犯 向华强还敢说自己是正当生意人?

打脸太快!向华炎追悼会抓3逃犯 向华强还敢说自己是正当生意人?

八斗小先生
2026-01-20 11:52:44
最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

夜深爱杂谈
2026-01-10 22:27:12
“每次在欧洲吃饭都感觉自己像来上供的。”

“每次在欧洲吃饭都感觉自己像来上供的。”

穷游网
2026-01-20 11:11:24
重马一跑者在终点不远处倒地,家属已到重庆处理后事,跑友:他在跑圈被称“破三大神”

重马一跑者在终点不远处倒地,家属已到重庆处理后事,跑友:他在跑圈被称“破三大神”

红星新闻
2026-01-20 13:46:18
贾国龙最新发言,第三次在朋友圈回应预制菜争议

贾国龙最新发言,第三次在朋友圈回应预制菜争议

陈语丝
2026-01-20 10:27:44
湖南第一庸官,好面子导致政府负债1000亿,为政绩骗刘强东100亿

湖南第一庸官,好面子导致政府负债1000亿,为政绩骗刘强东100亿

芊芊子吟
2026-01-15 10:20:03
从免费听到付费,中国音乐非但没进步,反而把听众“作”没了?

从免费听到付费,中国音乐非但没进步,反而把听众“作”没了?

草莓解说体育
2026-01-20 04:16:58
铁血网关闭始末,青春的陪伴,曾让我以为歼-8真的可以对抗F-22

铁血网关闭始末,青春的陪伴,曾让我以为歼-8真的可以对抗F-22

干史人
2026-01-18 07:10:03
愿意无偿提供场所的江苏昆山企业负责人抵达北京嫣然医院与工作人员对接;李亚鹏前妻:为孩子父亲点赞,多年笨拙的坚守很不容易

愿意无偿提供场所的江苏昆山企业负责人抵达北京嫣然医院与工作人员对接;李亚鹏前妻:为孩子父亲点赞,多年笨拙的坚守很不容易

极目新闻
2026-01-19 20:17:57
巴特勒赛季报销!勇士遭重创+冲冠梦破碎,交易库明加再现转机?

巴特勒赛季报销!勇士遭重创+冲冠梦破碎,交易库明加再现转机?

李喜林篮球绝杀
2026-01-20 16:42:30
彭博:拼多多被扩大调查,涵盖欺诈性交付到税务问题

彭博:拼多多被扩大调查,涵盖欺诈性交付到税务问题

星岛记事
2026-01-20 15:48:13
588 万平方公里!沙俄抢走的中国故土,如今竟成为世界最大荒原

588 万平方公里!沙俄抢走的中国故土,如今竟成为世界最大荒原

议纪史
2026-01-19 15:40:03
一万人中,能有多少人晚年还能健全走路?少坐多站的人,告诉实话

一万人中,能有多少人晚年还能健全走路?少坐多站的人,告诉实话

健康科普365
2026-01-18 16:35:03
梁小龙被封杀原因曝光!血战平安大厦:1人打十多名刀手,重伤4人

梁小龙被封杀原因曝光!血战平安大厦:1人打十多名刀手,重伤4人

小娱乐悠悠
2026-01-20 10:15:42
江西省金融控股集团有限公司原副董事长肖晓华被查

江西省金融控股集团有限公司原副董事长肖晓华被查

极目新闻
2026-01-20 12:20:08
2026-01-20 17:12:49
硅星Breaknews incentive-icons
硅星Breaknews
Break news
6598文章数 63关注度
往期回顾 全部

科技要闻

收藏|这可能是CES2026最清醒一份复盘

头条要闻

李亚鹏的嫣然医院收到千万捐款可否交房租 律师发声

头条要闻

李亚鹏的嫣然医院收到千万捐款可否交房租 律师发声

体育要闻

新的时代!东契奇首夺全明星票王 詹姆斯落选首发

娱乐要闻

贝克汉姆长子发文决裂:全家都在演戏

财经要闻

李迅雷:2026买房不如租房

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

本地
时尚
手机
公开课
军事航空

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

码住抄作业!春节见人不翻车就靠这8样!

手机要闻

唯一真全面屏Air手机!红魔11 Air发布:2999元起

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

德军13人前脚刚走 荷兰2名军人也撤离格陵兰岛

无障碍浏览 进入关怀版