网易首页 > 网易号 > 正文 申请入驻

音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

0
分享至



复旦大学、上海创智学院与新加坡国立大学联合推出首个全模态未来预测评测基准 FutureOmni,要求模型从音频 - 视觉线索中预测未来事件,实现跨模态因果和时间推理。包含919个视频和1,034个多选题问答对,在13 个全模态模型和7 个纯视频模型上的评估显示,当前系统在预测未来事件方面存在显著困难,最佳准确率仅为 64.8%。

在日常生活中,人类不仅能理解「发生了什么」,更重要的是能够预测「将会发生什么」。看到乌云密布、听到雷声渐近,我们会主动关窗收衣;看到老师眉头紧皱,反复强调某个知识点(听),我们知道接下来可能会有提问;看到球员起跳的动作和听到观众的惊呼,我们能够预判这是一个精彩的扣篮。

然而,现有的多模态大语言模型(MLLMs)虽然在全方位感知方面展现出强大的能力,但它们从音频 - 视觉线索中预测未来事件的能力仍然很大程度上未被探索。现有的音视频模态基准主要关注回顾性理解 ⸺ 「视频中发生了什么」,而非前瞻性预测 ⸺ 「接下来会发生什么」。

现在,这一空白终于被填补了!复旦大学、上海创智学院与新加坡国立大学联合发布FutureOmni,不仅重新定义了多模态模型的「未来预测」评测范式,更通过精心设计的全模态因果推理任务,首次系统评估模型通过「融合视觉观察与听觉线索」来「预测未来」的能力。



  • 论文标题:FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs
  • 论文地址: https://arxiv.org/pdf/2601.13836
  • 代码地址: https://github.com/OpenMOSS/FutureOmni
  • 数据集地址: https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni
  • 项目主页: https://openmoss.github.io/FutureOmni

评测范式革命:从回顾理解到未来预测



图 1:FutureOmni 数据示例。模型需要基于给定的前提事件(premise event),从多个选项中选择最可能的未来事件(future event)。

当前主流的 MLLMs 评测基准存在两大局限:(1)现有基准大多关注「发生了什么」,要求模型描述、理解或分析已经发生的事件,无法评估模型预测未来事件的能力。(2)现有方法严重依赖于视觉信息,即便使用音频,也往往作为辅助信息,未能充分挖掘音频 - 视觉之间的因果关系对预测未来事件的关键作用。

这意味着,过去的多模态模型是一个擅长「事后分析」的观察者,而非一个能未卜先知的智能伙伴。

FutureOmni 提出的全模态未来预测(omni-modal future forecasting)新范式,旨在彻底改变这一现状。它要求模型能像人类一样,主动融合音频对话、环境声音和视觉观察,从多模态上下文中推断出未来最可能发生的事件。

从回顾到预测: 不再是回答「视频中发生了什么」,而是预测「接下来最可能发生什么」。

从单模态到全模态: 同时理解音频中的语义信息(如语音内容、说话人身份、情感倾向)、环境声音(如门铃、警报、音乐)以及视觉观察(画面中的物体状态和人物关系)的因果关系。

这不再是简单的视频理解,而是让模型具备了真正的未来预测能力。它就像一个贴心的智能助手,能够从一段对话、一个动作和周围的环境中读懂「潜台词」,预测未来最可能的发展。

FutureOmni 数据集:为「未来预测认知」量身打造的大规模评测基准



图 2:FutureOmni 评测结果。评估了 13 个全模态模型和 7 个视频模型。

研究团队构建了FutureOmni⸺ 首个大规模全模态未来预测评测基准,包含基于音频 - 视觉因果关系、日常序列、主题蒙太奇的未来事件预测任务。

海量规模与丰富多样性



图 3:FutureOmni 数据统计分布。

  • 919个视频,1,034个多选题问答对
  • 8个主要领域:教育、紧急情况、监控、日常生活、纪录片、电影、游戏、卡通
  • 100% 原创视频率,确保零污染,所有视频均为首次收集
  • 3 种音频类型:语音(Speech)、声音(Sound)、音乐(Music)

八大视频领域:精心设计的「预测考题」



图 4:FutureOmni 数据构建流程。

为确保数据的真实性与高质量,研究团队采用三阶段流程:

  • 阶段一:视频收集与筛选。从多个来源收集原始视频,确保 100% 原创,避免数据污染。
  • 阶段二:因果对构建。使用 LLM 辅助识别具有明确因果关系的视频片段,生成高质量的前提 - 结论对。
  • 阶段三:问题生成与审核。人工和大模型审核质量,确保每个问题都测试模型的未来预测能力。

实验结果:当前模型在「预测未来」上仍面临巨大挑战

研究团队在13 个全模态模型和7 个视频模型上进行了广泛评估,揭示了当前系统在未来预测任务上的显著不足。

整体性能:SOTA 模型依然不合格



图 5:FutureOmni 评测结果。

结论:即便是最强的 Gemini 3 Flash,准确率也仅为64.8%。开源最强模型 Qwen3-Omni 表现不及格,仅为53.05%。视觉大模型 GPT-4o 也只达到49.70%。这表明,现有的多模态大模型在面对复杂的全模态未来预测任务时,距离人类水平仍有不小差距。

细粒度分析:语音场景最具挑战性



图 6:不同音频类型(语音、声音、音乐)对模型性能的影响。

结果显示: -语音场景最具挑战性,模型表现普遍较低(最佳模型 Gemini 3 Flash 仅 60.52%) -音乐场景相对容易,模型表现较好(Gemini 3 Flash 达到 68.31%) -声音场景处于中等难度(Gemini 3 Flash 达到 67.13%)



图 7:不同视频时长对模型性能的影响。

模态消融研究:音频信息至关重要



图 8:模态消融实验结果。评估不同模态组合对性能的影响。

关键发现:

  • 音频 + 视频的组合显著优于单独使用视频。
  • 音频信息对于未来预测至关重要,缺失音频会导致性能大幅下降。
  • 跨模态融合能力是成功预测未来的关键。

这证明了 FutureOmni 设计的合理性:未来预测需要同时理解音频和视觉信息之间的因果关系。

OFF 训练策略:让模型真正「学会预测未来」

为了缓解当前模型的局限性,研究团队提出了全模态未来预测(OFF)策略,并精心策划了一个7K 样本的指令微调数据集。

核心思想

OFF 策略的核心在于:通过专门的未来预测训练,让模型不仅提升未来预测能力,还增强通用感知能力。这与传统的视频理解训练不同,它要求模型学习音频 - 视觉之间的因果关系,并利用这些关系预测未来事件。

训练效果:显著提升未来预测和通用能力



图 9:使用 OFF 策略训练后,模型在不同音频类型上的性能提升。



图 10:使用 OFF 策略训练后,模型在不同视频类别上的性能提升。



图 11: OFF 策略在通用能力基准上的泛化效果。证明未来预测训练不仅提升了预测能力,还增强了模型的通用感知能力。

关键发现:在FutureOmni和流行的音频 - 视觉(如 WorldSense、DailyOmni)以及纯视频(如 Video-MME)基准上的评估表明,OFF策略显著提升了未来预测和通用感知能力。

关键帧差异分析



图 12: 关键帧选择对未来预测的影响分析。

研究团队利用注意力可视化技术进一步分析OFF泛化的原因,发现该策略显著增强了模型在深层网络中对关键关键帧的聚焦能力。 如图所示,与基线相比,OFF 模型(蓝线)在网络的深层表现出大幅提升的注意力分数差值。这意味着模型学会锁定包含未来事件线索的关键时刻,即使在最终输出层之前仍能保持对关键信息的高度关注。

未来展望:让 AI 真正「未卜先知」

FutureOmni 为多模态大语言模型的未来预测能力提供了首个系统性评估基准。我们期待:

  1. 更多模型参与,希望更多研究团队在 FutureOmni 上评估他们的模型,共同推动多模态场景下未来预测能力的发展。
  2. 方法改进,基于研究团队的发现,开发更强大的未来预测方法,特别是针对语音场景和跨模态因果推理的改进。
  3. 应用拓展,将未来预测能力应用到实际场景中,如智能助手、自动驾驶、机器人等,让 AI 真正具备「未卜先知」的能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈再方中将——开国上将陈锡联之子,遇上碰瓷勒索钱财的人,他冷笑:你们尽管过来试试

陈再方中将——开国上将陈锡联之子,遇上碰瓷勒索钱财的人,他冷笑:你们尽管过来试试

史海孤雁
2026-01-26 16:25:11
整天开会有啥必要啊?

整天开会有啥必要啊?

北京老付
2026-01-20 10:59:33
受贿金额巨大!又一大三甲原书记被查...

受贿金额巨大!又一大三甲原书记被查...

医疗器械经销商联盟
2026-01-26 13:30:21
U23亚洲杯结束,下一届分档曝光:越南跻身一档 中国队无缘前二档

U23亚洲杯结束,下一届分档曝光:越南跻身一档 中国队无缘前二档

侃球熊弟
2026-01-26 00:05:03
性能力与寿命关系被发现!60岁以后,睾酮水平越高,死亡风险越低

性能力与寿命关系被发现!60岁以后,睾酮水平越高,死亡风险越低

39健康网
2026-01-26 21:08:19
于北辰又闹笑话,称解放军进入台海就像高压洗车,“馆长”:悲哀

于北辰又闹笑话,称解放军进入台海就像高压洗车,“馆长”:悲哀

临云史策
2026-01-26 20:53:40
0-6!中超冠军溃败,申花队1-1爆冷,国足将大战乌兹别克斯坦队

0-6!中超冠军溃败,申花队1-1爆冷,国足将大战乌兹别克斯坦队

何老师呀
2026-01-26 19:31:55
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
1月26日晚间重要公告一览

1月26日晚间重要公告一览

GPLP
2026-01-26 18:26:55
一万人中,能有多少人晚年还能健全走路?少坐多站的人,告诉实话

一万人中,能有多少人晚年还能健全走路?少坐多站的人,告诉实话

健康科普365
2026-01-18 16:35:03
高盛策略师警告:全球股市“风暴”正在酝酿 回调或一触即发

高盛策略师警告:全球股市“风暴”正在酝酿 回调或一触即发

财联社
2026-01-26 15:04:05
即将加盟狼队!徐彬与女友抵达英国,队友们纷纷送祝福

即将加盟狼队!徐彬与女友抵达英国,队友们纷纷送祝福

懂球帝
2026-01-26 09:46:08
原来富二代家里都是做这些行业的!网友:几乎都在灰色产业游走

原来富二代家里都是做这些行业的!网友:几乎都在灰色产业游走

另子维爱读史
2026-01-26 18:34:27
徐百慧韵味全开!米色露肩长裙惊艳众人,不婚也能活成大女主?

徐百慧韵味全开!米色露肩长裙惊艳众人,不婚也能活成大女主?

娱乐领航家
2026-01-26 21:00:03
58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

锋哥与八卦哥
2026-01-25 13:26:51
000078,7分钟直线涨停!医药股,突然全线爆发!

000078,7分钟直线涨停!医药股,突然全线爆发!

证券时报e公司
2026-01-26 17:19:35
中国被下套了!土耳其免签坑惨游客,首批国人已被收割到破产

中国被下套了!土耳其免签坑惨游客,首批国人已被收割到破产

阿钊是个小小评论员
2026-01-24 00:51:33
39岁女老师与19岁学生同居:女方高颜值照流出,大量私密细节披露

39岁女老师与19岁学生同居:女方高颜值照流出,大量私密细节披露

博士观察
2026-01-26 18:31:46
央视提醒!别再吃了!这40种“食品”抽检不合格,有人天天当早餐

央视提醒!别再吃了!这40种“食品”抽检不合格,有人天天当早餐

有范又有料
2026-01-25 16:50:13
广东将军山发现数米长蟒蛇 林业部门:遇到快走,系未开发区域

广东将军山发现数米长蟒蛇 林业部门:遇到快走,系未开发区域

新京报
2026-01-26 14:25:03
2026-01-26 21:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12193文章数 142549关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

德国防长建议特朗普道歉 但暗示并不真抱希望

头条要闻

德国防长建议特朗普道歉 但暗示并不真抱希望

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被实名举报代孕、插足婚姻

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

家居
房产
健康
教育
时尚

家居要闻

流韵雅居,让复杂变纯粹

房产要闻

突发!三亚官宣,调整安居房政策!

耳石脱落为何让人天旋地转+恶心?

教育要闻

2026考研最卷院校出炉!

大衣里面穿什么?这件内搭才是今年冬天的“顶流”

无障碍浏览 进入关怀版