网易首页 > 网易号 > 正文 申请入驻

全球首个「视频教学」基准!南洋理工、CMU发布Video-MMMU

0
分享至

新智元报道

编辑:LRST

【新智元导读】人类通过课堂学习知识,并在实践中不断应用与创新。那么,多模态大模型(LMMs)能通过观看视频实现「课堂学习」吗?新加坡南洋理工大学S-Lab团队推出了Video-MMMU——全球首个评测视频知识获取能力的数据集,为AI迈向更高效的知识获取与应用开辟了新路径。

想象一下,你正在观看吴恩达老师的机器学习课程,视频讲解清晰、动画直观,你很快掌握了核心概念,并能在考试中灵活应用,人类对这个过程再熟悉不过。

那么,如果AI也能这样学习呢?

图1 Video-MMMU提出知识获取的3大认知阶段

这正是Video-MMMU试图回答的核心问题:AI能否通过观看视频获取并应用知识?

对于多模态大模型(LMMs)来说,视频不仅是它们感知世界的窗口,更是获取知识的重要途径。南洋理工大学S-Lab团队推出Video-MMMU数据集是首个评测LMMs从多学科专业视频中提取、理解并运用知识能力的创新基准。

通过Video-MMMU,我们不再满足于模型「看懂」视频,而是探索它能否真正「学会」视频中的新知识,并运用这些知识解决实际问题。

论文地址:https://arxiv.org/abs/2501.13826

开源代码:https://github.com/EvolvingLMMs-Lab/VideoMMMU

项目主页:https://videommmu.github.io/

数据集:https://huggingface.co/datasets/lmms-lab/VideoMMMU

三大认知阶段:从感知到应用

教育学认为,学习是一个渐进的认知过程 [1],而Video-MMMU正是围绕这个过程设计的,将学习新知识拆解为三个认知阶段:感知(Perception)、理解(Comprehension)和运用(Adaptation),系统评估模型在知识获取不同层次的能力。

感知(Perception)——信息获取的起点,模型需要从视频中提取关键信息,这是获取知识的基础。

理解(Comprehension)——从感知到掌握,模型不仅需要「看清」,还要理解知识的深层次含义。

运用(Adaptation)——真正的学以致用,模型需要将从视频中学到的知识运用到全新的场景中。这是测试学习能力的最终环节。

知识增益(∆knowledge):衡量模型的能力提升

Video-MMMU 的另一大亮点在于设计了「知识增益」(∆knowledge)指标。这一创新不仅关注模型的「绝对能力」,更评估其在观看视频前后的在应用阶段的表现提升。

图2 模型通过观看视频,将原本无法解决的问题做对。「解题」的能力不是唯一的检验标准,能获取知识,并把原本做错的问题做对,也是一种重要的能力。

与传统评测不同,Video-MMMU更关注模型是否能通过观看视频解决原本无法解答的问题。从Video-MMMU的角度,智能不仅仅是「解题」的能力,更是快速学习和应用新技能的能力。

对于多模态大模型来说,视频就是它们的课堂。通过视频「上课」,模型可以获取新知识,并灵活应用于实际生活中的未知挑战,不仅是对「智能」概念的重新思考,更是迈向通用智能(AGI)的一次有趣探索。

Video-MMMU 的发布,为评估和改进LMMs的知识获取能力提供了全新视角。如果人类的课堂是学习的起点,那么 Video-MMMU 就是LMMs走向课堂的一扇大门。

数据集的独特性

Video-MMMU的独特之处在于首次将视频作为知识传播的核心渠道,从传统的视频场景理解转向视频内容的知识学习。数据集专注于高质量教育视频,平均时长506.2秒,覆盖多个学科领域。其问题平均长度达75.7字,远超其他基准,体现出高度专业性和挑战性。

数据集设计

Video-MMMU覆盖6大专业领域(艺术、商业、医学、科学、人文、工程)中的30个学科。数据集包含精心筛选的300个大学水平的教育视频和900个高质量的问答对。

问题设计

感知阶段的问题类型

  • ASR(自动语音识别):要求模型准确转录视频中的口述内容。示例:如上图中Art(左上)的例子。

  • OCR(光学字符识别):从公式、图表或手写笔记中提取关键细节。示例:如上图中Business(左下)的例子。

理解阶段的问题类型
  • 概念理解(Concept Comprehension):通过不定项选择题评估模型对视频中概念的理解。示例:如上图中Humanities(中上)的例子。

  • 解题方法理解(Problem-solving Strategy Comprehension):在视频中演示的解决问题基础上,通过改变输入值测试模型是否掌握了解题方法。示例:如上图中Science(中下)的例子。

运用阶段的问题类型
  • 案例分析(Case Study Analysis):将视频中讲解的知识应用于新的实际情境。示例:如上图Medicine(右上)的例子。

  • 解题方法运用(Problem-solving Strategy Adaptation):将视频中演示的解决方法应用于实际 的问题。示例:如上图中Engineering(右下)的例子。

实验结果分析

各认知阶段的表现

  1. 人类 vs. AI:人类专家在所有阶段的表现都优于模型,尽管Claude-3.5-Sonnet在模型中得分最高,但仍明显落后于人类。

  2. 难度逐级递增:无论是人类还是AI,从感知到理解再到运用,准确率逐步下降,说明越深层次的认知任务对能力要求越高。

  3. 知识 运用的挑战:运用阶段(Adaptation Track) 是知识获取的最大瓶颈,模型得分普遍低于50%。这表明,尽管模型在可能表面理解了视频知识,但在实际应用时仍存在明显短板,难以灵活迁移和运用所学内容。

音频文本的影响

作者使用 OpenAI Whisper 生成音频转录文本,以测试其对模型表现的影响。

结果显示:

  • 感知与理解阶段:音频文本有助于模型更精准地理解视频内容,提高表现。

  • 运用阶段的挑战:模型表现反而下降,可能因为音频中存在冗余信息,干扰了模型对关键知识的提取和迁移能力。这说明,尽管音频文本能帮助AI“听懂”视频,但真正的知识应用依然是重大挑战。

知识增益的定量分析

Video-MMMU 的核心创新之一是引入「知识增益」指标(∆knowledge)用于评估模型通过观看视频学习新知识的能力。与传统评测不同,该指标关注模型是否能通过视频学习,解决原本不会的问题,而不仅仅是静态的解题能力。(∆knowledge)定义为:

人类 vs. AI:学习能力差距

人类在观看视频后,知识增益达33.1%,而表现最好的模型(GPT-4o)仅为15.6%,多数模型低于10%。更令人意外的是,一些模型在观看视频后反而表现下降,表明它们在知识学习和应用方面仍远不及人类。

模型的知识获取两面性

仅凭知识增益(∆knowledge)并不能全面衡量模型的真实学习能力。因此,作者进一步引入两个关键指标:

  • 错误转正确率(Wrong-to-Right Rate):模型能否通过视频学习,把原本错误的答案修正?定义为:

  • 正确转错误率(Right-to-Wrong Rate):模型是否看视频之后,把原本做对的题做错了?

实验发现,大多数模型取得较为不错的错误转正确率,显示出一定的学习能力。但是,大多数模型的正确转错误率远高于人类,表明它们在吸收视频知识时仍存在明显不足。

人类的认知优势

人类在这两个指标上的表现更加平衡:

  • 错误转正确率:40.4% → 说明人类能更有效地学习新知识。

  • 正确转错误率:10.7% → 这表明,人类能够自然整合新旧知识,而模型在处理视频信息时,往往会修改原本正确的答案,这成为其学习能力的核心短板之一。

结论:模型的瓶颈

实验结果揭示了当前多模态大模型(LMMs)在视频学习中的两大挑战:

  1. 学习能力有限:难以高效获取并应用新知识。

  2. 模型回答的不稳定性:原本会做的题,看完视频后反而不会了。

如何提升LMMs的学习效率和稳定性,将是提升视频知识获取能力的关键。

错误分析

作者对Claude-3.5-Sonnet在运用阶段的100个错误进行了分类,分析模型做错的根本原因。

  • 方法选择错误(8%):模型选择了错误的解题方法,也就是说,它未能理解视频中讲解的正确策略。简单来说,模型看了视频,但没有选对路。

  • 方法运用错误(64%):这是最常见的错误。模型记住了视频中的方法,但在新情境下无法灵活应用。比如,它理解了视频中的解题方法,但无法正确运用到另一个场景中。

  • 问题误读错误(15%):模型没读懂题目,比如错看了数值或条件。这些错误和知识获取无关,更像是「粗心大意」。

作者详细分析了模型方法运用错误的例子:

总结

Video-MMMU首次系统性评测了LMMs从视频中学习、理解和应用知识的能力,揭示了当前多模态大模型在学习效率和知识迁移上的显著不足。提升模型从视频中获取知识的能力,将是迈向AGI的重要一步。

参考资料:

[1] Mary Forehand. Bloom’s taxonomy. Emerging perspectives on learning, teaching, and technology, 41(4):47–56, 2010

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一夜之间,中国传来2个爆炸性突破,美国从88%降到9%,中国猛追

一夜之间,中国传来2个爆炸性突破,美国从88%降到9%,中国猛追

元爸体育
2025-11-19 13:19:59
重生!杨瀚森两场比赛证明自己,球迷怒喷开拓者主帅,追梦盛赞!

重生!杨瀚森两场比赛证明自己,球迷怒喷开拓者主帅,追梦盛赞!

林子说事
2025-11-19 13:06:37
心梗去世的人飙升!医生含泪苦劝:无论多大年纪,天冷坚守4原则

心梗去世的人飙升!医生含泪苦劝:无论多大年纪,天冷坚守4原则

39健康网
2025-11-13 10:36:12
78岁北京大爷赴四川寻找失散60年的初恋,仅一眼,他便狠扇自己耳光

78岁北京大爷赴四川寻找失散60年的初恋,仅一眼,他便狠扇自己耳光

如烟若梦
2025-10-30 16:10:24
模特大赛冠军“乌龙”,为何舆论滔天才肯认?丨中听

模特大赛冠军“乌龙”,为何舆论滔天才肯认?丨中听

大象新闻
2025-11-19 19:42:03
希望我国出手相助?计划在中国建厂,还承诺将整条生产线搬来我国

希望我国出手相助?计划在中国建厂,还承诺将整条生产线搬来我国

苏曼文史
2025-11-14 17:00:15
朱元璋登基后赏赐姐夫,姐夫跪地只求回乡种地,承诺此生不进京城

朱元璋登基后赏赐姐夫,姐夫跪地只求回乡种地,承诺此生不进京城

晓艾故事汇
2025-11-18 17:12:56
张博恒单杠失误瞬间一裁判鼓掌大笑遭质疑,官方回应:涉事裁判员终止比赛执裁资格

张博恒单杠失误瞬间一裁判鼓掌大笑遭质疑,官方回应:涉事裁判员终止比赛执裁资格

台州交通广播
2025-11-18 23:35:12
男按摩师亲述:女客人的要求是不一样的

男按摩师亲述:女客人的要求是不一样的

诡谲怪谈
2025-03-29 21:57:50
梅艳芳为何红颜薄命?白龙王揭秘:她本有长寿之相,错在关键一步

梅艳芳为何红颜薄命?白龙王揭秘:她本有长寿之相,错在关键一步

萧竹轻语
2025-11-14 17:10:43
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
“700多万买的房,竟成这样!”沪上热门新楼盘“满目大疮疤”,业主“细思极恐”→

“700多万买的房,竟成这样!”沪上热门新楼盘“满目大疮疤”,业主“细思极恐”→

新民晚报
2025-11-18 20:56:46
阿里开始严查午休

阿里开始严查午休

蚂蚁大喇叭
2025-11-17 09:56:58
48岁曾黎回老家种地!满脸褶头发花白断崖衰老,徒手摘黄瓜像农妇

48岁曾黎回老家种地!满脸褶头发花白断崖衰老,徒手摘黄瓜像农妇

金风说
2025-11-01 15:41:57
把这篇文字,发给你身边的日本人

把这篇文字,发给你身边的日本人

柴差说
2025-11-18 21:53:19
广岛、冲绳、长崎接连表态:反对!日本一航司跟进免费退改赴日机票政策,有乘客已提交申请;日本国债遭投资者抛售

广岛、冲绳、长崎接连表态:反对!日本一航司跟进免费退改赴日机票政策,有乘客已提交申请;日本国债遭投资者抛售

每日经济新闻
2025-11-19 11:47:03
喻恩泰的X瘾症!

喻恩泰的X瘾症!

八卦疯叔
2025-11-18 10:34:19
《鬼灭之刃》票房越高,我越为国产片感到悲哀!

《鬼灭之刃》票房越高,我越为国产片感到悲哀!

八卦南风
2025-11-19 10:54:09
美媒公开中国轰炸计划:日本若敢走错半步,将被万枚导弹轰炸成渣

美媒公开中国轰炸计划:日本若敢走错半步,将被万枚导弹轰炸成渣

标体
2025-11-14 19:47:19
51年曾泽生从朝鲜回国,见过主席之后回家吩咐妻子:北京不能待了

51年曾泽生从朝鲜回国,见过主席之后回家吩咐妻子:北京不能待了

鹤羽说个事
2025-10-25 11:52:27
2025-11-19 20:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13908文章数 66276关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

台旅行团在意餐厅点5份披萨遭老板嘲讽 当地华人反击

头条要闻

台旅行团在意餐厅点5份披萨遭老板嘲讽 当地华人反击

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

荷兰政府暂停接管安世半导体

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

房产
数码
时尚
教育
公开课

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

数码要闻

荣耀手表X5官宣11月24日发布:拥有1.97英寸超大AMOLED屏幕

陈嘉桦,不慌不忙的惊艳

教育要闻

班上不违法纪律,但也不学习的学生很多,是什么回事?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版