网易首页 > 网易号 > 正文 申请入驻

全球首个「视频教学」基准!南洋理工、CMU发布Video-MMMU

0
分享至

新智元报道

编辑:LRST

【新智元导读】人类通过课堂学习知识,并在实践中不断应用与创新。那么,多模态大模型(LMMs)能通过观看视频实现「课堂学习」吗?新加坡南洋理工大学S-Lab团队推出了Video-MMMU——全球首个评测视频知识获取能力的数据集,为AI迈向更高效的知识获取与应用开辟了新路径。

想象一下,你正在观看吴恩达老师的机器学习课程,视频讲解清晰、动画直观,你很快掌握了核心概念,并能在考试中灵活应用,人类对这个过程再熟悉不过。

那么,如果AI也能这样学习呢?

图1 Video-MMMU提出知识获取的3大认知阶段

这正是Video-MMMU试图回答的核心问题:AI能否通过观看视频获取并应用知识?

对于多模态大模型(LMMs)来说,视频不仅是它们感知世界的窗口,更是获取知识的重要途径。南洋理工大学S-Lab团队推出Video-MMMU数据集是首个评测LMMs从多学科专业视频中提取、理解并运用知识能力的创新基准。

通过Video-MMMU,我们不再满足于模型「看懂」视频,而是探索它能否真正「学会」视频中的新知识,并运用这些知识解决实际问题。

论文地址:https://arxiv.org/abs/2501.13826

开源代码:https://github.com/EvolvingLMMs-Lab/VideoMMMU

项目主页:https://videommmu.github.io/

数据集:https://huggingface.co/datasets/lmms-lab/VideoMMMU

三大认知阶段:从感知到应用

教育学认为,学习是一个渐进的认知过程 [1],而Video-MMMU正是围绕这个过程设计的,将学习新知识拆解为三个认知阶段:感知(Perception)、理解(Comprehension)和运用(Adaptation),系统评估模型在知识获取不同层次的能力。

感知(Perception)——信息获取的起点,模型需要从视频中提取关键信息,这是获取知识的基础。

理解(Comprehension)——从感知到掌握,模型不仅需要「看清」,还要理解知识的深层次含义。

运用(Adaptation)——真正的学以致用,模型需要将从视频中学到的知识运用到全新的场景中。这是测试学习能力的最终环节。

知识增益(∆knowledge):衡量模型的能力提升

Video-MMMU 的另一大亮点在于设计了「知识增益」(∆knowledge)指标。这一创新不仅关注模型的「绝对能力」,更评估其在观看视频前后的在应用阶段的表现提升。

图2 模型通过观看视频,将原本无法解决的问题做对。「解题」的能力不是唯一的检验标准,能获取知识,并把原本做错的问题做对,也是一种重要的能力。

与传统评测不同,Video-MMMU更关注模型是否能通过观看视频解决原本无法解答的问题。从Video-MMMU的角度,智能不仅仅是「解题」的能力,更是快速学习和应用新技能的能力。

对于多模态大模型来说,视频就是它们的课堂。通过视频「上课」,模型可以获取新知识,并灵活应用于实际生活中的未知挑战,不仅是对「智能」概念的重新思考,更是迈向通用智能(AGI)的一次有趣探索。

Video-MMMU 的发布,为评估和改进LMMs的知识获取能力提供了全新视角。如果人类的课堂是学习的起点,那么 Video-MMMU 就是LMMs走向课堂的一扇大门。

数据集的独特性

Video-MMMU的独特之处在于首次将视频作为知识传播的核心渠道,从传统的视频场景理解转向视频内容的知识学习。数据集专注于高质量教育视频,平均时长506.2秒,覆盖多个学科领域。其问题平均长度达75.7字,远超其他基准,体现出高度专业性和挑战性。

数据集设计

Video-MMMU覆盖6大专业领域(艺术、商业、医学、科学、人文、工程)中的30个学科。数据集包含精心筛选的300个大学水平的教育视频和900个高质量的问答对。

问题设计

感知阶段的问题类型

  • ASR(自动语音识别):要求模型准确转录视频中的口述内容。示例:如上图中Art(左上)的例子。

  • OCR(光学字符识别):从公式、图表或手写笔记中提取关键细节。示例:如上图中Business(左下)的例子。

理解阶段的问题类型
  • 概念理解(Concept Comprehension):通过不定项选择题评估模型对视频中概念的理解。示例:如上图中Humanities(中上)的例子。

  • 解题方法理解(Problem-solving Strategy Comprehension):在视频中演示的解决问题基础上,通过改变输入值测试模型是否掌握了解题方法。示例:如上图中Science(中下)的例子。

运用阶段的问题类型
  • 案例分析(Case Study Analysis):将视频中讲解的知识应用于新的实际情境。示例:如上图Medicine(右上)的例子。

  • 解题方法运用(Problem-solving Strategy Adaptation):将视频中演示的解决方法应用于实际 的问题。示例:如上图中Engineering(右下)的例子。

实验结果分析

各认知阶段的表现

  1. 人类 vs. AI:人类专家在所有阶段的表现都优于模型,尽管Claude-3.5-Sonnet在模型中得分最高,但仍明显落后于人类。

  2. 难度逐级递增:无论是人类还是AI,从感知到理解再到运用,准确率逐步下降,说明越深层次的认知任务对能力要求越高。

  3. 知识 运用的挑战:运用阶段(Adaptation Track) 是知识获取的最大瓶颈,模型得分普遍低于50%。这表明,尽管模型在可能表面理解了视频知识,但在实际应用时仍存在明显短板,难以灵活迁移和运用所学内容。

音频文本的影响

作者使用 OpenAI Whisper 生成音频转录文本,以测试其对模型表现的影响。

结果显示:

  • 感知与理解阶段:音频文本有助于模型更精准地理解视频内容,提高表现。

  • 运用阶段的挑战:模型表现反而下降,可能因为音频中存在冗余信息,干扰了模型对关键知识的提取和迁移能力。这说明,尽管音频文本能帮助AI“听懂”视频,但真正的知识应用依然是重大挑战。

知识增益的定量分析

Video-MMMU 的核心创新之一是引入「知识增益」指标(∆knowledge)用于评估模型通过观看视频学习新知识的能力。与传统评测不同,该指标关注模型是否能通过视频学习,解决原本不会的问题,而不仅仅是静态的解题能力。(∆knowledge)定义为:

人类 vs. AI:学习能力差距

人类在观看视频后,知识增益达33.1%,而表现最好的模型(GPT-4o)仅为15.6%,多数模型低于10%。更令人意外的是,一些模型在观看视频后反而表现下降,表明它们在知识学习和应用方面仍远不及人类。

模型的知识获取两面性

仅凭知识增益(∆knowledge)并不能全面衡量模型的真实学习能力。因此,作者进一步引入两个关键指标:

  • 错误转正确率(Wrong-to-Right Rate):模型能否通过视频学习,把原本错误的答案修正?定义为:

  • 正确转错误率(Right-to-Wrong Rate):模型是否看视频之后,把原本做对的题做错了?

实验发现,大多数模型取得较为不错的错误转正确率,显示出一定的学习能力。但是,大多数模型的正确转错误率远高于人类,表明它们在吸收视频知识时仍存在明显不足。

人类的认知优势

人类在这两个指标上的表现更加平衡:

  • 错误转正确率:40.4% → 说明人类能更有效地学习新知识。

  • 正确转错误率:10.7% → 这表明,人类能够自然整合新旧知识,而模型在处理视频信息时,往往会修改原本正确的答案,这成为其学习能力的核心短板之一。

结论:模型的瓶颈

实验结果揭示了当前多模态大模型(LMMs)在视频学习中的两大挑战:

  1. 学习能力有限:难以高效获取并应用新知识。

  2. 模型回答的不稳定性:原本会做的题,看完视频后反而不会了。

如何提升LMMs的学习效率和稳定性,将是提升视频知识获取能力的关键。

错误分析

作者对Claude-3.5-Sonnet在运用阶段的100个错误进行了分类,分析模型做错的根本原因。

  • 方法选择错误(8%):模型选择了错误的解题方法,也就是说,它未能理解视频中讲解的正确策略。简单来说,模型看了视频,但没有选对路。

  • 方法运用错误(64%):这是最常见的错误。模型记住了视频中的方法,但在新情境下无法灵活应用。比如,它理解了视频中的解题方法,但无法正确运用到另一个场景中。

  • 问题误读错误(15%):模型没读懂题目,比如错看了数值或条件。这些错误和知识获取无关,更像是「粗心大意」。

作者详细分析了模型方法运用错误的例子:

总结

Video-MMMU首次系统性评测了LMMs从视频中学习、理解和应用知识的能力,揭示了当前多模态大模型在学习效率和知识迁移上的显著不足。提升模型从视频中获取知识的能力,将是迈向AGI的重要一步。

参考资料:

[1] Mary Forehand. Bloom’s taxonomy. Emerging perspectives on learning, teaching, and technology, 41(4):47–56, 2010

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗空军和防空系统已经瘫痪,美国军方开始在伊朗部署B-52轰炸机

伊朗空军和防空系统已经瘫痪,美国军方开始在伊朗部署B-52轰炸机

一种观点
2026-03-04 09:43:57
新疆喀什00后姑娘拿下中国小姐全国冠军,颜值+学霸双buff拉满。

新疆喀什00后姑娘拿下中国小姐全国冠军,颜值+学霸双buff拉满。

老吴教育课堂
2026-03-06 00:01:22
CCTV5直播中巴女篮二番战,刘禹彤张子宇竞争,宫鲁鸣指挥引争议

CCTV5直播中巴女篮二番战,刘禹彤张子宇竞争,宫鲁鸣指挥引争议

体育大学僧
2026-03-05 10:16:59
震撼!!伊朗开始采用中国兵法,美国必将输惨!

震撼!!伊朗开始采用中国兵法,美国必将输惨!

水木然
2026-03-05 20:02:51
离谱!网上出现Steam上门安装服务 开价1000元一次

离谱!网上出现Steam上门安装服务 开价1000元一次

游民星空
2026-03-04 20:03:32
为了印度得罪中国,要中国归还港口99年使用权,看到违约金后闭嘴

为了印度得罪中国,要中国归还港口99年使用权,看到违约金后闭嘴

安珈使者啊
2026-01-24 11:44:51
哈梅内伊最大的错误,就是将此人赶下台,如果他在位伊朗强大无比

哈梅内伊最大的错误,就是将此人赶下台,如果他在位伊朗强大无比

娱乐圈的哔哔王
2026-03-05 22:14:13
陈紫函的形状真的是太完美了

陈紫函的形状真的是太完美了

喜欢历史的阿繁
2026-03-06 01:37:50
“看这局势,俄罗斯成最大赢家”

“看这局势,俄罗斯成最大赢家”

观察者网
2026-03-05 21:26:14
国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

梦史
2026-01-19 14:16:23
狂轰17+10+4!郭士强关注男篮新星,有望取代焦泊乔,亮相世预赛

狂轰17+10+4!郭士强关注男篮新星,有望取代焦泊乔,亮相世预赛

小火箭爱体育
2026-03-06 11:10:45
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
戴旭:中美一旦发生战争,美国有实力将中国沿海城市打得稀巴烂?

戴旭:中美一旦发生战争,美国有实力将中国沿海城市打得稀巴烂?

二大爷观世界
2026-01-16 03:04:40
被记者围堵引怒赞的霍启刚,彻底颠覆了大众对豪门二代的固有认知

被记者围堵引怒赞的霍启刚,彻底颠覆了大众对豪门二代的固有认知

以茶带书
2026-03-05 15:45:45
敢放军队鸽子?海澜之家被重罚,暂停全军采购,代价惨重太可惜!

敢放军队鸽子?海澜之家被重罚,暂停全军采购,代价惨重太可惜!

眼界看视野
2026-03-05 22:22:53
写入教科书的一天:F-35在德黑兰完成全球首次实战空对空击杀

写入教科书的一天:F-35在德黑兰完成全球首次实战空对空击杀

斌闻天下
2026-03-06 07:30:03
特朗普神操作!当众聊轰炸德黑兰+当面提C罗 梅西脚趾抠地全网爆火

特朗普神操作!当众聊轰炸德黑兰+当面提C罗 梅西脚趾抠地全网爆火

劲爆体坛
2026-03-06 08:50:03
她是国家一级女演员,多次给丈夫戴绿帽,重病丈夫坐轮椅也不离婚

她是国家一级女演员,多次给丈夫戴绿帽,重病丈夫坐轮椅也不离婚

瑛派儿老黄
2026-03-06 11:18:01
“以为是六个博士,结果是六个送外卖的!”六个儿子征婚视频火了

“以为是六个博士,结果是六个送外卖的!”六个儿子征婚视频火了

阿凯销售场
2026-03-01 01:46:42
创造历史!就在刚刚,美军官宣F-35大战红旗-2导弹,伊朗虽败犹荣

创造历史!就在刚刚,美军官宣F-35大战红旗-2导弹,伊朗虽败犹荣

井普椿的独白
2026-03-05 16:29:47
2026-03-06 11:55:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14650文章数 66655关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

特朗普强势要求赦免内塔尼亚胡 曾公开贴心为其推椅子

头条要闻

特朗普强势要求赦免内塔尼亚胡 曾公开贴心为其推椅子

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

黄金,牛市没了?!

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

房产
游戏
时尚
本地
亲子

房产要闻

超猛!又有2800套房源砸出,2026海口安居房,彻底爆发!

微软Xbox公开新世代主机“Project Helix” 兼容Xbox与PC游戏

看来看去还是这些穿搭最高级,不老套、不死板,舒适又显气质

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

亲子要闻

咋回事呢,奇怪了

无障碍浏览 进入关怀版