英伟达(NVIDIA)最新推出的OmniVinci,是一项针对“全模态大语言模型(Omni-modal LLM)”的系统化研究成果。简单来说,它是一种能同时理解图像、视频、音频和文字的新型 AI 模型。研究团队在架构上引入了三大创新:OmniAlignNet用来让视觉与音频的理解更加协调;Temporal Embedding Grouping(时间嵌入分组)用来掌握画面与声音之间的时间关系;Constrained Rotary Time Embedding(约束旋转时间嵌入)则帮助模型准确理解时间的流动。(链接在文章底部)
在性能方面,OmniVinci-9B 模型的表现非常亮眼。在多个权威测试中,它都大幅超越了强劲对手Qwen2.5-Omni:在跨模态理解(DailyOmni)上领先19.05 分,在音频理解(MMAR)上领先1.7 分,在视频理解(Video-MME)上领先3.9 分。更令人惊讶的是,它只用了0.2 万亿训练 tokens,比 Qwen2.5-Omni 的1.2 万亿减少了足足6 倍的训练量,却取得了更好的效果。
01 技术原理
OmniVinci 的架构是一个精巧的多阶段流程,旨在实现高效的全模态理解。首先,在多模态输入嵌入阶段,模型使用独立的编码器(Vision Encoder、Audio Encoder 和 Text Encoder)将图像、视频、音频和文本提示等原始数据转化为压缩的嵌入表示。
![]()
随后,在核心的全模态对齐阶段,模型通过三大创新组件实现空间和时间上的精确融合:OmniAlignNet负责将视觉和听觉嵌入对齐到一个共享的“思维空间”;Temporal Embed Grouping (TEG)捕获视觉和听觉事件之间的相对时间关系;而Constrained Rotary Time Embed (CRTE)则编码绝对时间信息。
最终,这些经过高质量对齐和时间编码的多模态嵌入被输入到大型语言模型(LLM)中进行推理和文本生成,如果需要,生成的文本还可以通过TTS模块转化为语音输出。
![]()
OmniVinci 训练数据在各模态中的整体分布饼图,显示图像(36%)、非语音声音(21%)、语音(17%)、全方位(15%)和视频(11%)所占的比例。
![]()
测试结果领先的前提下,支持多种丰富的功能。语境内语音转录:
语音提示视觉智能:
人机互动游戏:
https://github.com/NVlabs/OmniVinci特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.