网易首页 > 网易号 > 正文 申请入驻

南洋理工大学突破性发现:AI观看教学视频能否真正学会知识?

0
分享至

这项由新加坡南洋理工大学S-Lab实验室的胡开睿、吴鹏昊等研究团队,联合卡内基梅隆大学的岳翔教授共同完成的研究,于2025年1月23日发表在arXiv预印本平台上。有兴趣深入了解的读者可以通过论文编号arXiv:2501.13826v1或访问项目主页https://videommmu.github.io/获取完整研究内容。

当我们人类观看一段教学视频时,大脑会自然而然地经历三个阶段:首先感知视频中的关键信息,然后理解其中蕴含的知识概念,最后将学到的知识应用到全新的问题中。就像学习做菜一样,我们先观察厨师的每个动作细节,接着理解背后的烹饪原理,最后能够举一反三地制作出不同口味的菜肴。

然而,当前被誉为"智能"的大型多模态模型在观看教学视频时,是否也能像人类一样真正掌握并运用新知识呢?这个看似简单的问题,实际上触及了人工智能发展的核心挑战。

为了回答这个问题,研究团队构建了一个名为Video-MMMU的大规模评测基准。这就像为AI学生准备了一场全面的期末考试,考试内容涵盖艺术、商业、科学、医学、人文和工程六大学科领域,总共包含300个专家级别的教学视频和900道精心设计的问题。

每个视频都配备了三种不同难度的问题,对应人类学习的三个认知阶段。感知类问题就像问学生"视频中老师写在黑板上的公式是什么",考查的是基础信息提取能力。理解类问题则更深入一些,比如"根据视频中的解题方法,如果将角度从25度改为30度,结果会是什么",这需要真正理解解题原理。而适应类问题最具挑战性,要求AI将视频中学到的知识应用到全新的情境中,就像学会了一种数学公式后,能够解决完全不同的实际问题。

研究团队还提出了一个创新的"知识增益"指标,用来量化AI在观看视频前后的表现提升程度。这个指标就像测量一个学生上课前后的进步幅度,能够客观反映视频教学的实际效果。

当研究人员将这套评测系统应用到当前最先进的AI模型上时,结果令人深思。人类专家在观看视频后,知识增益达到了33.1%,展现出强大的学习能力。相比之下,表现最好的GPT-4o模型只达到了15.6%的知识增益,而Claude-3.5-Sonnet模型仅为11.4%。更令人意外的是,一些模型甚至出现了负增长,意味着观看视频后的表现反而不如之前。

这种现象背后隐藏着深层的原因。研究团队通过详细分析发现,AI模型在处理视频信息时存在两个显著问题。首先是"对答案转换率"与"错答案转换率"之间的失衡。虽然模型能够将一些原本答错的题目改正过来,但同时也会将原本答对的题目改错,而且后者的比例往往更高。这就像一个学生在复习过程中,虽然弄懂了一些之前不会的题目,但却把原本掌握的知识搞混了。

其次,模型在适应新场景时表现出明显的局限性。研究人员发现,64%的错误属于"方法适应错误",即模型能够正确回忆视频中的知识点,但无法灵活地将这些知识运用到新的问题情境中。这就像一个学生虽然记住了老师讲的例题解法,但面对变式题目时却无法举一反三。

为了更深入地理解这些问题,研究团队还探索了音频信息对模型表现的影响。结果发现,添加音频转录确实能够改善感知和理解任务的表现,但在适应任务上反而出现了下降。这种矛盾现象表明,音频信息虽然能够丰富模型对视频内容的理解,但可能会干扰模型将知识应用到新情境的能力。

在具体的学科表现上,AI模型在艺术和人文学科中的表现相对较好,这些领域主要涉及概念性知识的理解。然而,在科学、工程、商业和医学等需要定量推理和复杂视觉分析的学科中,模型的表现明显下降。这反映了当前AI技术在处理抽象概念与具体应用之间转换方面的不足。

研究还揭示了一个有趣的现象:模型在处理不同类型的视频内容时表现差异很大。对于概念介绍类视频,模型能够较好地提取和理解核心信息。但面对问题解决类视频时,特别是那些展示具体解题步骤的内容,模型往往难以准确掌握其中的逻辑过程并应用到新问题中。

为了验证这些发现的普遍性,研究团队测试了包括开源和商业模型在内的多种AI系统。从轻量级的LLaVA-OneVision到大型的GPT-4o,几乎所有模型都表现出相似的模式:随着认知要求的增加,性能逐步下降,适应能力始终是最大的短板。

这项研究的意义远不止于揭示当前AI的局限性。它为我们理解人工智能的学习机制提供了新的视角,同时也指出了未来发展的方向。研究结果表明,虽然AI模型在信息处理和模式识别方面已经达到了很高的水平,但在知识的灵活运用和创新应用方面仍有很大的提升空间。

从技术角度来看,这项研究为改进大型多模态模型的训练方法提供了重要参考。当前的模型训练更多关注的是信息的准确获取和存储,但如何让模型真正"理解"知识并灵活运用,仍然是一个待解决的挑战。

从教育应用的角度来看,这项研究也提醒我们,虽然AI技术在教育领域展现出巨大潜力,但要让AI真正成为有效的学习助手,还需要在知识迁移和应用能力方面取得突破。目前的AI更像是一个记忆力超强但缺乏灵活性的学生,能够准确复述老师讲过的内容,但在面对新问题时往往显得手足无措。

这项研究的另一个重要贡献是建立了一个标准化的评测框架。Video-MMMU基准不仅为当前AI模型的能力评估提供了工具,也为未来的技术改进指明了方向。通过这个基准,研究人员可以更准确地衡量模型在视频理解和知识应用方面的真实水平,避免被表面的高分数所误导。

值得注意的是,人类在这项评测中表现出的卓越能力再次证明了人类学习的独特之处。人类不仅能够从视频中高效提取信息,还能够将学到的知识与已有经验结合,创造性地解决新问题。这种能力的背后是数十年教育经验和认知发展的积累,而当前的AI模型显然还没有达到这样的水平。

从更广阔的视角来看,这项研究触及了人工智能发展中的一个核心问题:如何让机器真正具备类人的学习能力。虽然当前的AI在许多特定任务上已经超越了人类,但在通用学习能力方面仍有很大差距。Video-MMMU的研究成果提醒我们,真正的人工智能不仅要能够处理信息,更要能够像人类一样从经验中学习,并将知识灵活应用到新的情境中。

说到底,这项研究为我们描绘了一个清晰的现状:虽然AI技术发展迅速,但在真正的知识学习和应用方面,我们仍然处于起步阶段。Video-MMMU基准的建立不仅是对当前技术水平的客观评估,更是对未来发展方向的重要指引。随着技术的不断进步,我们有理由相信,AI终将具备更强的学习和适应能力,真正成为人类学习和工作的得力助手。对于有兴趣深入了解这项开创性研究的读者,可以通过上述链接访问完整的研究论文和相关资源。

Q&A

Q1:Video-MMMU评测基准包含哪些内容?

A:Video-MMMU是一个大规模多学科视频理解评测基准,包含300个专家级教学视频和900道问题,覆盖艺术、商业、科学、医学、人文、工程六大学科。每个视频配备三种类型问题:感知类(提取关键信息)、理解类(掌握概念原理)、适应类(应用到新场景),全面评估AI从视频中学习知识的能力。

Q2:当前AI模型在视频学习方面表现如何?

A:研究发现AI模型存在明显局限。人类专家观看视频后知识增益达33.1%,而表现最好的GPT-4o仅为15.6%,Claude-3.5-Sonnet为11.4%。AI在适应新场景时尤其困难,64%的错误属于方法适应错误,即能记住视频内容但无法灵活运用到新问题中。

Q3:这项研究对AI技术发展有什么意义?

A:这项研究揭示了当前AI技术的核心缺陷,为改进方向提供了指引。它表明AI虽然在信息处理方面表现出色,但在知识的灵活运用和创新应用方面仍有很大提升空间。Video-MMMU基准为评估和改进AI的真实学习能力提供了标准化工具,推动AI向更接近人类的通用学习能力发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

上观新闻
2026-03-26 14:45:10
张雪峰的影响力,被严重低估了

张雪峰的影响力,被严重低估了

黔有虎
2026-03-26 14:32:34
4.0 英寸 4050mAh 还有实体键盘!这绝对是今年最酷的新机了

4.0 英寸 4050mAh 还有实体键盘!这绝对是今年最酷的新机了

科技狐
2026-03-25 22:34:58
网友莫斯科遇见58岁伊能静与47岁秦昊,女方脸型紧致比男方还年轻

网友莫斯科遇见58岁伊能静与47岁秦昊,女方脸型紧致比男方还年轻

明星私服穿搭daily
2026-03-21 14:25:06
装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

泠泠说史
2026-03-20 18:31:09
山西太原一学校职工举报自己吃空饷6年,多方回应

山西太原一学校职工举报自己吃空饷6年,多方回应

大风新闻
2026-03-26 15:41:15
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
“重大转变”!外媒:特朗普改变立场,将接受民主党提议重启美国土安全部部分部门

“重大转变”!外媒:特朗普改变立场,将接受民主党提议重启美国土安全部部分部门

环球网资讯
2026-03-25 23:13:02
49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

查尔菲的笔记
2026-03-16 19:12:07
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

阅识
2026-03-26 17:33:54
从欧尔班行为,看北约当年拒绝俄罗斯的远见

从欧尔班行为,看北约当年拒绝俄罗斯的远见

民间胡扯老哥
2026-03-23 18:53:38
放弃阿隆索!利物浦新帅目标敲定,他是下一个克洛普

放弃阿隆索!利物浦新帅目标敲定,他是下一个克洛普

奶盖熊本熊
2026-03-26 04:28:59
加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

篮球资讯达人
2026-03-26 15:28:40
2大势力联手、布局围剿郑丽文,恐遭灭顶之灾,“内鬼”已经露馅

2大势力联手、布局围剿郑丽文,恐遭灭顶之灾,“内鬼”已经露馅

忠于法纪
2026-03-26 13:28:20
白宫不装了,承认伊朗拒绝谈判,特朗普准备“释放地狱”

白宫不装了,承认伊朗拒绝谈判,特朗普准备“释放地狱”

书纪文谭
2026-03-26 16:28:13
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
哪一年退休的人员,享有退休金补发?赶紧看看你符合条件吗?

哪一年退休的人员,享有退休金补发?赶紧看看你符合条件吗?

娱乐洞察点点
2026-03-26 16:11:56
吃相难看!张雪峰去世不到24小时,恶心的事情发生,官方出手整治

吃相难看!张雪峰去世不到24小时,恶心的事情发生,官方出手整治

阿凫爱吐槽
2026-03-25 18:57:39
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

红豆讲堂
2024-09-13 09:35:43
2026-03-26 20:39:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7746文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
旅游
亲子
公开课
军事航空

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

20元人民币背景观景台乱收费?景区通报:不存在封闭管控、强制收费等

亲子要闻

孩子模仿这种行为,容易被坏人盯上!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版