网易首页 > 网易号 > 正文 申请入驻

Stream-Omni:同时支持各种模态组合交互的多模态大模型

0
分享至

GPT-4o式的多模态大模型(LMMs)展现出在文本、视觉和语音模态上的全能能力,其在线语音服务还能在语音交互过程中同步提供中间文本结果(即用户输入和模型响应的转录内容),为用户提供“边看边听”的灵活交互体验。因此,如何构建支持文本、视觉和语音三种模态的多模态大模型成为近期研究热点。现有的多模态大模型通常利用多个编码器提取各个模态的表示,然后将各模态表示沿序列维度拼接并输入至大语言模型基座中以生成回复。这些基于拼接的方法简化了模态集成过程,但它们在很大程度上依赖大规模数据,以数据驱动的方式学习模态对齐。此外,这种基于拼接的维度对齐方式缺乏足够的灵活性,无法像GPT-4o那样在语音交互过程中同时生成中间文本结果。

为应对这一挑战,中国科学院计算技术研究所自然语言处理团队提出了文本-视觉-语音多模态大模型——Stream-Omni,其能同时支持各种模态组合下的交互。通过对各模态间的关系进行更有针对性的建模,Stream-Omni实现了更加高效和灵活的文本-视觉-语音模态对齐。仅依赖包含2.3万小时语音的多模态数据,Stream-Omni即可具备文本交互、语音交互、基于视觉的语音交互等各种模态上的交互能力。与此同时,依赖于创新的语音建模方式,Stream-Omni能在语音交互过程中像GPT-4o一样同步输出中间文本转录结果,为用户提供全方位的多模态交互体验。

  • 论文题目:
  • Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
  • 论文链接:
  • https://arxiv.org/abs/2506.13642
  • 开源代码:
  • https://github.com/ictnlp/Stream-Omni
  • 模型下载:
  • https://huggingface.co/ICTNLP/stream-omni-8b

Stream-Omni的模态对齐

现有多模态大模型中的模态对齐(如左图所示):在序列维度上将三种模态的表示进行拼接,输入至大语言模型基座

为了减轻对大规模三模态数据的依赖,Stream-Omni更有针对性地建模各模态之间的关系,即语音与文本应在语义上高度一致,而视觉则在语义上对文本形成互补关系。因此,Stream-Omni对不同模态采用不同对齐方式(如右图所示):

  • 视觉-文本对齐:序列维度的视觉文本拼接
  • 语音-文本对齐:层级维度的语音文本映射

实现上,Stream-Omni以大语言模型(LLM)为核心,并在其底部和顶部引入语音层,通过连接时序分类(Connectionist Temporal Classification,CTC)建模语音到文本的映射,此建模方式的优势在于:

  • 支持通过语音模态进行外部交互,同时利用文本模态在内部控制生成的内容;
  • 基于CTC的语音-文本映射为语音文本在表示和结构的对齐上提供更加直接的监督,因此Stream-Omni 能够在仅使用少量语音数据的情况下,将 LLM 主干的文本能力迁移至语音模态。
  • 层级维度映射使得Stream-Omni在语音交互过程中还能同步输出中间文本结果(即指令和回复的转录文本),为用户提供更全面的多模态体验。

Stream-Omni

Stream-Omni以大语言模型作为主干,逐步将视觉和语音与文本对齐,高效地构建了一个支持文本、视觉和语音的多模态大模型。在视觉-文本对齐方面,Stream-Omni采用视觉编码器和投影模块提取视觉表示,并将其与文本表示进行拼接。在语音-文本对齐方面,Stream-Omni在LLM主干的底部和顶部分别引入若干语音层,用于将语音映射到文本以及基于文本生成语音。

视觉模态

基于视觉模态与文本模态之间具有语义互补性,Stream-Omni采用LLaVA架构中的序列维度拼接的方式进行视觉-文本对齐。

语音模态

(1)语音离散化:Stream-Omni采用CosyVoice Tokenizer对语音输入进行离散化,编码为若干离散的语音单元(< Audio_965>…)。

(2)语音到文本映射:为了充分利用LLM的能力,Stream-Omni在LLM的底部引入语音层,用于学习语音与文本之间的映射关系,从而将LLM中的文本能力迁移到语音模态中。Stream-Omni利用在ASR任务上的CTC损失直接监督底部语音层语音表示,将其与文本模态对齐。

(3)文本生成:LLM基于输入的视觉表示和语音表示,生成文本回复。

(4)文本到语音生成:Stream-Omni通过顶部语音层来完成文本到语音生成。为了在生成文本的同时生成语音单元,Stream-Omni在顶部语音层中引入了alignment-based fusion模块。Alignment-based fusion沿用了StreamSpeech等实时生成研究中的同步生成策略,利用CTC对齐来指导同步生成过程。

任意模态组合下的多模态交互

Stream-Omni能够通过灵活组合视觉编码器、底部语音层、LLM、顶部语音层来实现任意模态组合下的交互。同时,由于层级维度语音文本映射,Stream-Omni能够在语音到语音生成过程中提供中间的文本结果。

实验结果

视觉理解能力

Stream-Omni和相同规模和数据量级的视觉大模型取得相当的表现。

语音交互能力

在事实性的语音交互上,Stream-Omni相比于现有方法具有优势,源于层级维度的语音文本映射将LLM的文本能力迁移到语音模态上。

基于视觉的语音交互能力

在本实例中,在指令分别通过文本和语音输入的情况下,VITA-1.5给出了两个相互矛盾的回答:“不允许前往二楼”和“直接通往二楼”。这一在面对不同模态指令时产生的矛盾回应,源于沿序列维度拼接视觉、语音和文本表示来实现多模态对齐的方法,并未对语音与文本模态之间的语义进行严格对齐建模。相比之下,Stream-Omni引入语音到文本的映射机制,实现了语音与文本表示之间更精确的语义对齐。因此,Stream-Omni在不同模态下表现更加一致,无论指令是通过文本还是语音输入,都能生成相似的响应。另外,Stream-Omni还能生成高质量的语音回复,更多实例请在https://github.com/ictnlp/Stream-Omni体验。

总结

  • Stream-Omni是一个GPT-4o式的文本-视觉-语音多模态大模型,能够支持多种模态组合下的多模态交互。
  • Stream-Omni能够在语音交互过程中输出中间文本结果,为用户提供更全面的多模态交互体验。
  • Stream-Omni关注如何构建模态对齐,语音表现力等方面的增强不是本研究的重点,因此其在拟人化、音色多样性等方面存在局限性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中东局势紧张!多位网球名将被困,前世界第一恐无缘第五大满贯

中东局势紧张!多位网球名将被困,前世界第一恐无缘第五大满贯

全景体育V
2026-03-02 18:51:55
河南鲁山通报网友反映母亲去世后身份异常及遗产继承问题:组成联合调查组

河南鲁山通报网友反映母亲去世后身份异常及遗产继承问题:组成联合调查组

澎湃新闻
2026-03-03 07:12:05
中欧航线票价暴涨 上海飞巴黎飙升5倍

中欧航线票价暴涨 上海飞巴黎飙升5倍

财联社
2026-03-02 17:34:14
新华时评:当炸弹落在校园,文明底线何在

新华时评:当炸弹落在校园,文明底线何在

澎湃新闻
2026-03-01 22:32:48
川普活成自己最讨厌的人,昔日数次预言奥巴马打伊朗:为挽回颜面与支持率

川普活成自己最讨厌的人,昔日数次预言奥巴马打伊朗:为挽回颜面与支持率

不掉线电波
2026-03-02 11:07:35
特朗普称对英国首相的立场“非常失望”

特朗普称对英国首相的立场“非常失望”

新华社
2026-03-02 22:06:40
上海某电影院事件:81秒视频流出,主角社交媒体曝光

上海某电影院事件:81秒视频流出,主角社交媒体曝光

温柔看世界
2026-03-02 16:33:22
现货黄金日内转跌

现货黄金日内转跌

财联社
2026-03-03 00:06:13
伊朗生死关头,一个关键人物走向前台……

伊朗生死关头,一个关键人物走向前台……

补壹刀
2026-03-02 16:08:19
如果伊朗提出请求中俄会向其提供军事支持吗?外交部回应

如果伊朗提出请求中俄会向其提供军事支持吗?外交部回应

澎湃新闻
2026-03-02 15:36:48
王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

南权先生
2026-02-02 15:59:44
伊朗称霍尔木兹海峡已关闭 将打击所有试图通过的船只

伊朗称霍尔木兹海峡已关闭 将打击所有试图通过的船只

财联社
2026-03-03 04:20:36
巴拿马运河两端港口运营恢复,MSC完成首船装卸

巴拿马运河两端港口运营恢复,MSC完成首船装卸

海事服务网CNSS
2026-03-02 19:58:04
街头已大量出现,不要踩!不要踩!

街头已大量出现,不要踩!不要踩!

南国今报
2026-03-01 20:00:00
10天一万公里,雷军口中的“奇迹”,为何引起质疑?

10天一万公里,雷军口中的“奇迹”,为何引起质疑?

A活着
2026-03-02 20:13:55
涉美伊局势,复旦教授、人大教授双双发声,“外网和国内的一些自媒体造谣,这些人脸都不要了”

涉美伊局势,复旦教授、人大教授双双发声,“外网和国内的一些自媒体造谣,这些人脸都不要了”

都市快报橙柿互动
2026-03-02 15:33:41
“生灵涂炭”,知名女主持人直播中落泪!连线时警报突然响起,网友纷纷祈愿……

“生灵涂炭”,知名女主持人直播中落泪!连线时警报突然响起,网友纷纷祈愿……

新民周刊
2026-03-02 16:00:18
一边是内奸害死了哈梅内伊,一边是美国人公开发特朗普的定位

一边是内奸害死了哈梅内伊,一边是美国人公开发特朗普的定位

林中木白
2026-03-02 11:06:13
伊朗4枚弹道导弹“突袭”美军航母,却变成一场“昂贵的烟花秀”

伊朗4枚弹道导弹“突袭”美军航母,却变成一场“昂贵的烟花秀”

瞩望云霄
2026-03-02 10:49:12
历史性转折!黎巴嫩正式清场真主党,中东格局一夜改写

历史性转折!黎巴嫩正式清场真主党,中东格局一夜改写

老马拉车莫少装
2026-03-02 23:27:10
2026-03-03 07:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12395文章数 142575关注度
往期回顾 全部

科技要闻

苹果iPhone17e发布:4499元起 升级A19芯片

头条要闻

媒体:遭受惨烈袭击后 伊朗做了件"史无前例"的事

头条要闻

媒体:遭受惨烈袭击后 伊朗做了件"史无前例"的事

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

游戏
本地
时尚
公开课
军事航空

LPL人气选手被曝恋情?疑似与女主持谈恋爱,本人亲自下场辟谣!

本地新闻

津南好·四时总相宜

今年春天一定要拥有的4件衣服,太好看了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国中央司令部透露对伊朗动武全部武器装备清单

无障碍浏览 进入关怀版