网易首页 > 网易号 > 正文 申请入驻

近千个反现实视频构建了「不可能」基准,哪个AI不服?来战!

0
分享至

白泽琛,新加坡国立大学 Show Lab 博士生,他的研究方向主要包括视频理解和统一的多模态模型,在 CVPR、ICCV、NeurIPS、ICLR 等会议发表多篇文章;曾在 Amazon AI 担任 Applied Scientist,在 ByteDance、Baidu 担任 Research Intern。

兹海,新加坡国立大学 Show Lab Research Fellow,于北京大学获得博士学位,主要研究方向为多模态模型的安全。

Mike Zheng Shou,PI,新加坡国立大学校长青年教授,福布斯 30 under 30 Asia,创立并领导 Show Lab 实验室。

"当物理、生命、地理与社会规律被颠覆,多模态模型(LMMs)是否还能识别它们的 “不可能性”?"

随着人工智能合成视频(AIGC)技术的飞速发展,我们正步入一个由 AI 主导的视频创作时代。当前的 AI 视频生成技术可以逼真地模拟现实世界,但在 “反现实”(anti-reality)场景方面仍然存在巨大的探索空间。

来自 NUS 的团队提出了 Impossible Videos 概念,即那些违背物理、生命、地理或社会常识的视频,并构建了 IPV-BENCH,一个全新的基准,用于评测 AI 模型在 “反现实” 视频生成与理解方面的极限能力。

  • 论文标题:Impossible Videos
  • 论文链接:https://arxiv.org/abs/2503.14378
  • 项目主页:https://showlab.github.io/Impossible-Videos/
  • 代码开源:https://github.com/showlab/Impossible-Videos
  • Hugging Face: https://huggingface.co/datasets/showlab/ImpossibleVideos

Impossible Videos 示例,包括物理、生物、地理和社会规范下的不可能场景

为什么 Impossible Videos 重要?

当前的合成视频数据集大多模拟现实世界,而忽略了真实世界中不可能发生的反现实场景。

我们尝试回答两个核心问题:

1、现有的视频生成模型是否能按照提示生成高质量的 “不可能” 视频?

2、现有的视频理解模型是否能够正确识别和解释 “不可能” 视频?

Impossible Videos 的研究将推动:

  • 更强大的 AI 视觉推理能力。
  • 更深入的 AI 物理、社会和常识性理解。
  • 更安全可控的 AI 内容生成能力。

IPV-BENCH:首个 Impossible Video 基准

我们构建了 IPV-BENCH,一个涵盖 四大领域(物理、生物、地理、社会),共 14 个类别 的基准,用于评测视频模型的生成和理解能力。一共包含 260 个文本提示,902 个高质量 AI 生成 impossible videos,及相应反事实事件标注。与现有其他基准数据集相比,IPV-BENCH 拥有更丰富全面的数据模态及标注。

Impossible Videos 分类

Benchmark 统计数据

关键结果分析

1. 评测主流 AI 视频生成模型

使用 IPV-BENCH 提供的 260 条文本提示,我们测试了多个主流的开源和闭源 AI 视频生成模型,如 OpenAI Sora、Kling、HunyuanVideo 等。我们提出了评价指标 IPV-Score,综合考虑生成视频的视觉质量以及提示遵循情况。发现:

  • 大多数模型难以生成符合 “不可能” 概念的高质量视频。表现最佳的 Mochi 1 也仅在 37.3% 的例子中生成了高质量且符合提示要求的 “不可能” 视频,大多数模型的成功率徘徊在 20% 左右。
  • 模型在视频质量以及提示遵循两方面能力不均衡。商业模型在视觉质量上遥遥领先,但是难以严格遵循文本提示生成 “不可能” 事件。开源模型如 Mochi 1 视觉质量虽然逊色,但是提示遵循能力远强于闭源模型。
  • 影响生成能力的两点限制:1)“不可能” 的文本提示作为分布外数据,容易引起 artifacts,造成视频质量下降。2)过度强调对事实规律的遵循限制了模型的创造力。

各视频生成模型评估结果

视频生成模型的失败案例。(上) Mochi 1: A car was driving on a country road when it suddenly began to leave the ground and fly into the sky. (下) Sora: On a city street, a yellow car gradually turns green as it drives.

2. 评测主流 AI 视频理解模型

使用 902 个高质量视频以及对应的人工标注,我们构建了三个不同任务评测主流多模态理解模型对超现实现象的理解能力,包括:1)AI 生成视频判断任务(Judgement),2)“不可能” 事件识别任务(选择题,MC),3)“不可能” 事件描述任务(自然语言,Open)。

“不可能” 事件识别任务示例

“不可能” 事件描述任务示例

根据是否需要时域线索进行判断,我们将 “不可能” 事件划分为空域 (Spatial) 和时域(Temporal)两类。 分析实验结果可以发现:

  • 现有模型展示出了对 “不可能” 事件一定程度的理解能力。在 “不可能” 事件识别任务(MC)中,现有模型在区分选项中的不可能事件和其他事件方面展示了较大的潜力。然而,在没有选项线索的开放描述任务中(Open),模型从视频中直接推理并解释” 不可能” 事件仍旧困难。
  • 物理规律类视频的理解更具挑战、生物、社会、地理类的视频理解相对容易。
  • 现有模型在时域动态推理方面仍存在不足。模型在时域任务上的性能显著低于在空域任务上的性能。

视频理解模型在各类别任务上的表现

视频理解模型在空域和时域任务上的表现

总结与未来方向


  • 首个 Impossible Videos Benchmark: 提供标准化评测体系。
  • 新挑战:从反事实的视角评测模型对现实世界规律的理解。
  • 面向未来:当前多模态模型在 “不可能” 事件理解、 时域推理、反事实生成 等方面仍存在巨大挑战。基于 Impossible Videos 的数据增强、模型微调等是帮助模型掌握世界规律的新视角。

参考文献

[1] Huang, Ziqi, et al. "Vbench: Comprehensive benchmark suite for video generative models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

[2] Ye, Junyan, et al. "Loki: A comprehensive synthetic data detection benchmark using large multimodal models." arXiv preprint arXiv:2410.09732 (2024).

[3] Kong, Weijie, et al. "Hunyuanvideo: A systematic framework for large video generative models." arXiv preprint arXiv:2412.03603 (2024).

[4] Bai, Zechen, Hai Ci, and Mike Zheng Shou. "Impossible Videos." arXiv preprint arXiv:2503.14378 (2025).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊拉克武装将暂停袭击美使馆的期限延长5天

伊拉克武装将暂停袭击美使馆的期限延长5天

界面新闻
2026-03-23 07:39:51
世界波对轰!马德里德比:皇马3比2马竞 莫利纳30米火箭炮巴尔韦德直红

世界波对轰!马德里德比:皇马3比2马竞 莫利纳30米火箭炮巴尔韦德直红

爱奇艺体育
2026-03-23 10:33:15
特朗普最后通牒! 以色列以命设局: 核基地被打, 伊朗宣布启用新战术

特朗普最后通牒! 以色列以命设局: 核基地被打, 伊朗宣布启用新战术

健身狂人
2026-03-23 02:10:02
纪实:天津一女博士得知闺蜜怀孕,用10天时间让闺蜜命丧黄泉

纪实:天津一女博士得知闺蜜怀孕,用10天时间让闺蜜命丧黄泉

清茶浅谈
2025-02-19 15:27:54
出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

霹雳炮
2026-03-14 22:49:47
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
滚蛋,想逃离北京了...

滚蛋,想逃离北京了...

越女事务所
2026-03-22 21:48:58
与恩师同居3年被骗,连续5次上春晚,斯琴格日乐57岁至今单身

与恩师同居3年被骗,连续5次上春晚,斯琴格日乐57岁至今单身

春风咏歌
2026-03-21 20:35:19
越南油荒,储备撑不到2个月!原材料大涨价,当地中国商人:谁有货谁是甲方

越南油荒,储备撑不到2个月!原材料大涨价,当地中国商人:谁有货谁是甲方

21世纪经济报道
2026-03-22 23:42:57
毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

老杉说历史
2026-03-14 20:54:20
4月1日医保新规大改革!双证缺一不可,少带一件报销直接砍半

4月1日医保新规大改革!双证缺一不可,少带一件报销直接砍半

复转这些年
2026-03-22 18:24:03
中越谈完,董军将启程回国,越南领导人立下军令状,向美传递信号

中越谈完,董军将启程回国,越南领导人立下军令状,向美传递信号

不似少年游
2026-03-21 07:11:23
黄圣依离婚后脸变得幼态年轻了,但打扮像微商气质像网红不像明星

黄圣依离婚后脸变得幼态年轻了,但打扮像微商气质像网红不像明星

小椰的奶奶
2026-03-22 21:27:54
西蒙尼谈2-3不敌皇马:真的很遗憾,我们至少本该拿到一分

西蒙尼谈2-3不敌皇马:真的很遗憾,我们至少本该拿到一分

懂球帝
2026-03-23 07:04:31
余华英拐卖17名儿童,“梅姨”只卖9名?她很可能比余华英更多

余华英拐卖17名儿童,“梅姨”只卖9名?她很可能比余华英更多

潮鹿逐梦
2026-03-23 10:25:01
“原价30元,现价1600元”,退市近两年的头孢遭疯抢,是谁在炒作?

“原价30元,现价1600元”,退市近两年的头孢遭疯抢,是谁在炒作?

闪电新闻
2026-03-22 10:53:40
清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

壹知眠羊
2026-01-28 22:03:28
梅西扳平+席尔瓦绝杀,迈阿密客场2-3爆冷胜纽约城

梅西扳平+席尔瓦绝杀,迈阿密客场2-3爆冷胜纽约城

赫岝乡村摄影
2026-03-23 10:19:38
董洁自曝体重从80斤涨到90斤:已经不敢上称,调养身体反而长胖了;网友:太离谱,健康美才最重要

董洁自曝体重从80斤涨到90斤:已经不敢上称,调养身体反而长胖了;网友:太离谱,健康美才最重要

台州交通广播
2026-03-21 23:07:07
深夜,海上发射成功!履约率100%

深夜,海上发射成功!履约率100%

扬子晚报
2026-03-23 07:47:05
2026-03-23 11:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12560文章数 142591关注度
往期回顾 全部

科技要闻

雷军、蔡崇信最新发声,提到同一件事

头条要闻

梅姨每交易1名儿童拿1千元介绍费 会同犯问有没有小孩

头条要闻

梅姨每交易1名儿童拿1千元介绍费 会同犯问有没有小孩

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

刘烨47岁生日,安娜晒全家福为其庆生

财经要闻

连续暴跌 乱世黄金失灵?

汽车要闻

车圈印钞机生锈 利润暴跌93%!保时捷黄金时代落幕?

态度原创

旅游
本地
教育
游戏
健康

旅游要闻

陕西丹凤康养旅游专列首发启程 春日盛景迎客来

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

教育要闻

穷则变,变则通:课堂提质没有捷径,抓实“四有”才是硬道理

二次元赛车《Screamer》IGN8分好评!M站均分76

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版