网易首页 > 网易号 > 正文 申请入驻

Stream-Omni:同时支持各种模态组合交互的多模态大模型

0
分享至

GPT-4o式的多模态大模型(LMMs)展现出在文本、视觉和语音模态上的全能能力,其在线语音服务还能在语音交互过程中同步提供中间文本结果(即用户输入和模型响应的转录内容),为用户提供“边看边听”的灵活交互体验。因此,如何构建支持文本、视觉和语音三种模态的多模态大模型成为近期研究热点。现有的多模态大模型通常利用多个编码器提取各个模态的表示,然后将各模态表示沿序列维度拼接并输入至大语言模型基座中以生成回复。这些基于拼接的方法简化了模态集成过程,但它们在很大程度上依赖大规模数据,以数据驱动的方式学习模态对齐。此外,这种基于拼接的维度对齐方式缺乏足够的灵活性,无法像GPT-4o那样在语音交互过程中同时生成中间文本结果。

为应对这一挑战,中国科学院计算技术研究所自然语言处理团队提出了文本-视觉-语音多模态大模型——Stream-Omni,其能同时支持各种模态组合下的交互。通过对各模态间的关系进行更有针对性的建模,Stream-Omni实现了更加高效和灵活的文本-视觉-语音模态对齐。仅依赖包含2.3万小时语音的多模态数据,Stream-Omni即可具备文本交互、语音交互、基于视觉的语音交互等各种模态上的交互能力。与此同时,依赖于创新的语音建模方式,Stream-Omni能在语音交互过程中像GPT-4o一样同步输出中间文本转录结果,为用户提供全方位的多模态交互体验。

  • 论文题目:
  • Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
  • 论文链接:
  • https://arxiv.org/abs/2506.13642
  • 开源代码:
  • https://github.com/ictnlp/Stream-Omni
  • 模型下载:
  • https://huggingface.co/ICTNLP/stream-omni-8b

Stream-Omni的模态对齐

现有多模态大模型中的模态对齐(如左图所示):在序列维度上将三种模态的表示进行拼接,输入至大语言模型基座

为了减轻对大规模三模态数据的依赖,Stream-Omni更有针对性地建模各模态之间的关系,即语音与文本应在语义上高度一致,而视觉则在语义上对文本形成互补关系。因此,Stream-Omni对不同模态采用不同对齐方式(如右图所示):

  • 视觉-文本对齐:序列维度的视觉文本拼接
  • 语音-文本对齐:层级维度的语音文本映射

实现上,Stream-Omni以大语言模型(LLM)为核心,并在其底部和顶部引入语音层,通过连接时序分类(Connectionist Temporal Classification,CTC)建模语音到文本的映射,此建模方式的优势在于:

  • 支持通过语音模态进行外部交互,同时利用文本模态在内部控制生成的内容;
  • 基于CTC的语音-文本映射为语音文本在表示和结构的对齐上提供更加直接的监督,因此Stream-Omni 能够在仅使用少量语音数据的情况下,将 LLM 主干的文本能力迁移至语音模态。
  • 层级维度映射使得Stream-Omni在语音交互过程中还能同步输出中间文本结果(即指令和回复的转录文本),为用户提供更全面的多模态体验。

Stream-Omni

Stream-Omni以大语言模型作为主干,逐步将视觉和语音与文本对齐,高效地构建了一个支持文本、视觉和语音的多模态大模型。在视觉-文本对齐方面,Stream-Omni采用视觉编码器和投影模块提取视觉表示,并将其与文本表示进行拼接。在语音-文本对齐方面,Stream-Omni在LLM主干的底部和顶部分别引入若干语音层,用于将语音映射到文本以及基于文本生成语音。

视觉模态

基于视觉模态与文本模态之间具有语义互补性,Stream-Omni采用LLaVA架构中的序列维度拼接的方式进行视觉-文本对齐。

语音模态

(1)语音离散化:Stream-Omni采用CosyVoice Tokenizer对语音输入进行离散化,编码为若干离散的语音单元(< Audio_965>…)。

(2)语音到文本映射:为了充分利用LLM的能力,Stream-Omni在LLM的底部引入语音层,用于学习语音与文本之间的映射关系,从而将LLM中的文本能力迁移到语音模态中。Stream-Omni利用在ASR任务上的CTC损失直接监督底部语音层语音表示,将其与文本模态对齐。

(3)文本生成:LLM基于输入的视觉表示和语音表示,生成文本回复。

(4)文本到语音生成:Stream-Omni通过顶部语音层来完成文本到语音生成。为了在生成文本的同时生成语音单元,Stream-Omni在顶部语音层中引入了alignment-based fusion模块。Alignment-based fusion沿用了StreamSpeech等实时生成研究中的同步生成策略,利用CTC对齐来指导同步生成过程。

任意模态组合下的多模态交互

Stream-Omni能够通过灵活组合视觉编码器、底部语音层、LLM、顶部语音层来实现任意模态组合下的交互。同时,由于层级维度语音文本映射,Stream-Omni能够在语音到语音生成过程中提供中间的文本结果。

实验结果

视觉理解能力

Stream-Omni和相同规模和数据量级的视觉大模型取得相当的表现。

语音交互能力

在事实性的语音交互上,Stream-Omni相比于现有方法具有优势,源于层级维度的语音文本映射将LLM的文本能力迁移到语音模态上。

基于视觉的语音交互能力

在本实例中,在指令分别通过文本和语音输入的情况下,VITA-1.5给出了两个相互矛盾的回答:“不允许前往二楼”和“直接通往二楼”。这一在面对不同模态指令时产生的矛盾回应,源于沿序列维度拼接视觉、语音和文本表示来实现多模态对齐的方法,并未对语音与文本模态之间的语义进行严格对齐建模。相比之下,Stream-Omni引入语音到文本的映射机制,实现了语音与文本表示之间更精确的语义对齐。因此,Stream-Omni在不同模态下表现更加一致,无论指令是通过文本还是语音输入,都能生成相似的响应。另外,Stream-Omni还能生成高质量的语音回复,更多实例请在https://github.com/ictnlp/Stream-Omni体验。

总结

  • Stream-Omni是一个GPT-4o式的文本-视觉-语音多模态大模型,能够支持多种模态组合下的多模态交互。
  • Stream-Omni能够在语音交互过程中输出中间文本结果,为用户提供更全面的多模态交互体验。
  • Stream-Omni关注如何构建模态对齐,语音表现力等方面的增强不是本研究的重点,因此其在拟人化、音色多样性等方面存在局限性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

谢说篮球
2026-03-26 16:45:05
第81轮反击来了!飞弹直击以军集结地

第81轮反击来了!飞弹直击以军集结地

星火聊天下
2026-03-26 07:27:33
张雪峰追悼会周六将在苏州殡仪馆举行

张雪峰追悼会周六将在苏州殡仪馆举行

界面新闻
2026-03-26 07:04:27
邓超孙俪正式解绑:16年婚姻,各自安好

邓超孙俪正式解绑:16年婚姻,各自安好

LULU生活家
2026-03-26 14:50:15
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

洲洲影视娱评
2026-03-25 13:16:24
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

180视角
2026-03-25 10:17:11
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

小樾说历史
2026-03-26 11:30:53
心眼坏的人,最爱问这3件事,别傻乎乎全说!

心眼坏的人,最爱问这3件事,别傻乎乎全说!

唯晨说
2026-03-25 13:12:14
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

消化石医生
2026-03-26 12:52:28
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
2026-03-26 16:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
本地
旅游
公开课
军事航空

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版