网易首页 > 网易号 > 正文 申请入驻

北京大学等机构首创智能视频助手

0
分享至


这项由北京大学联合中科院自动化所、清华大学、Adobe等多家机构共同完成的突破性研究,发表于2026年3月的计算机视觉顶级会议论文集(arXiv:2603.20422v1)。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

你有没有遇到过这样的情况:看一部很长的电视剧时,突然忘记了某个角色之前做过什么,或者想知道剧中某个人物在第几集穿过红色衣服?传统的视频播放器完全帮不上忙,你只能凭记忆或者快进倒退地寻找。而人工智能虽然已经能够回答图片相关的问题,但面对连续的视频流时,它们往往只能看到"当下这一刻",无法像人类一样形成持续的记忆。

现在,研究团队开发出了一套名为PEARL的智能视频理解系统,就像给AI装上了一个专门用来看视频的"大脑"。这个大脑最厉害的地方在于,它能够一边观看视频,一边记住你告诉它的每个人物和动作,并且在后续的任何时间点准确地回答相关问题。

设想这样的场景:你正在看一部动漫,当新角色出现时,你可以告诉AI"这个黄头发的女孩叫小美"。从那一刻开始,无论视频播放到什么地方,无论小美做什么动作或者穿什么衣服,AI都能准确识别她,还能回答"小美现在在做什么"或者"小美刚才去了哪里"这样的问题。更神奇的是,你甚至可以定义特殊的动作,比如告诉AI"这个挥手的动作叫做招手礼",之后无论视频中的任何人做这个动作,AI都能识别出来。

这项研究的创新之处在于解决了一个看似简单实则复杂的问题:如何让AI在观看连续视频时既能实时响应,又能保持长期记忆。就像人类大脑既有工作记忆处理当前信息,又有长期记忆存储过往经历一样,PEARL系统设计了两套互补的记忆机制。

第一套是"流式记忆",就像一个高效的视频管理员,它会自动将连续的视频分割成一个个有意义的片段,并为每个片段建立详细的"档案"。这些档案不是简单的截图,而是包含了丰富语义信息的"指纹",能够帮助系统快速定位任何相关的历史片段。

第二套是"概念记忆",这是一个专门存储用户自定义概念的知识库。当你告诉系统"这个人叫张三"时,系统不仅会记住这个名字,还会分析张三的外貌特征,生成一段详细的描述,比如"一个年轻男性,黑色短发,方形脸"。这种描述基于的是那些相对稳定的特征,而不是容易变化的衣服颜色或表情,确保即使张三换了装扮,系统依然能认出他。

更巧妙的是系统的检索机制。当你问"张三在哪里"时,系统会先将"张三"这个名字转换为之前存储的详细描述,然后用这个描述去搜索视频历史,找出最相关的片段。这就像一个经验丰富的侦探,能够根据嫌疑人的特征描述,从大量监控录像中快速找到目标人物出现的所有场景。

为了验证这套系统的效果,研究团队构建了一个名为PEARL-Bench的专业测试平台。这个平台包含132个长视频和2173个精心设计的问答对,涵盖了从日常对话到动作片段的各种场景。测试分为两个层面:人物层面测试系统能否准确识别和追踪特定人物,动作层面则测试系统是否能理解和记忆复杂的动作序列。

实验结果让人印象深刻。传统的视频理解系统在这个任务上表现糟糕,准确率往往只有20-30%,而PEARL系统将性能提升到了50%以上,在某些测试中甚至达到了55%的准确率。更重要的是,这套系统具有很强的通用性,无论是基于什么样的基础AI模型,加上PEARL框架后都能获得显著的性能提升。

从技术角度看,PEARL最大的优势在于它是一个"即插即用"的解决方案,不需要重新训练底层的AI模型。研究人员将其比作给现有的AI系统装上了一个专门的"记忆模块",让原本只能"活在当下"的AI获得了持续记忆的能力。

这项技术的应用前景非常广阔。在个人生活中,你可以用它来管理家庭视频,快速找到特定人物的所有出现片段。在健身场景中,AI教练可以持续观察你的动作,记住你的标准姿势,并在你动作不规范时给出纠正建议。在安防监控领域,系统可以学习识别特定的可疑行为模式,一旦发现就立即报警。

对于内容创作者来说,这技术意味着他们可以开发出更智能的视频编辑工具。编剧可以快速查找剧本中某个角色的所有出现场景,导演可以轻松检查演员动作的连贯性,观众也能获得更个性化的观看体验。

当然,现阶段的系统还不完美。研究团队坦承,在处理非常复杂的场景或者光线条件恶劣的视频时,系统的准确率会有所下降。而且,目前的系统主要针对静态特征(如人物外貌)和动作模式设计,对于更抽象的概念理解还有待提升。

尽管如此,这项研究为AI视频理解开辟了一个全新的方向。过去,AI只能被动地分析已经完成的视频内容,现在它们开始具备了主动学习和持续记忆的能力。这种转变的意义不仅仅在于技术本身,更在于它让AI向着真正理解人类视觉体验的方向迈出了重要一步。

从更长远的角度看,这种技术可能会催生出全新的人机交互模式。未来的AI助手不再是只能回答简单问题的工具,而是能够陪伴你观看内容、理解你的喜好、记住你关心的细节的智能伙伴。当技术足够成熟时,我们或许能够实现科幻电影中那种场景:只需要对着屏幕说一句话,AI就能立刻找出你想要的任何视频片段。

这项研究的发布,标志着视频AI从"瞬时理解"向"持续认知"的重要进步。正如研究团队在论文中所说,他们希望这项工作能够启发更多研究者投入到流式个性化AI助手的开发中。毕竟,真正智能的系统不应该只是回答问题的机器,而应该是能够学习、记忆和成长的伙伴。随着技术的不断完善,我们有理由相信,这种具有持续学习能力的AI将在不久的将来走入千家万户,为我们的数字生活带来前所未有的便利和乐趣。

Q&A

Q1:PEARL系统是如何记住视频中的人物和动作的?

A:PEARL系统采用了双重记忆机制。流式记忆负责将视频分割成片段并建立档案,概念记忆则专门存储用户定义的人物和动作。当你告诉系统"这是张三"时,它会分析并记住张三的稳定特征如脸型、发型等,而不是易变的衣服颜色,确保后续准确识别。

Q2:这个技术能应用到哪些实际场景中?

A:应用场景非常丰富。个人用户可以用它管理家庭视频,快速找到特定人物片段;健身时AI教练能记住标准动作并纠正错误姿势;安防监控可以学习识别可疑行为;内容创作者能快速检索角色出现场景,提高编辑效率。

Q3:PEARL系统的准确率如何,有什么局限性?

A:在测试中,PEARL将传统系统20-30%的准确率提升到50%以上,某些场景达到55%。但系统在复杂场景、恶劣光线条件下准确率会下降,目前主要适用于静态特征和动作模式识别,对抽象概念理解还有待提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
反转!苦等153天,杨瀚森头号恩师传来新动态,小杨终于熬出头了

反转!苦等153天,杨瀚森头号恩师传来新动态,小杨终于熬出头了

嘴炮体坛
2026-03-25 19:27:58
悲催!怎么会这么巧?张雪峰和曝光眼镜暴利的记者,都是心脏骤停

悲催!怎么会这么巧?张雪峰和曝光眼镜暴利的记者,都是心脏骤停

火山詩话
2026-03-24 18:23:32
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

秋姐居
2026-03-25 10:22:58
一张脸,全球都在“抄作业”

一张脸,全球都在“抄作业”

中国新闻周刊
2026-03-25 08:35:50
克拉拉擦边香艳床戏包贝尔再演坏淫!这部网大爽得太肤浅

克拉拉擦边香艳床戏包贝尔再演坏淫!这部网大爽得太肤浅

释凡电影
2026-03-24 04:57:40
《镖人》再破纪录,打败《飞驰人生3》,登顶中国冠军

《镖人》再破纪录,打败《飞驰人生3》,登顶中国冠军

影视高原说
2026-03-24 19:32:39
马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

潮鹿逐梦
2026-03-24 13:13:55
张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

180视角
2026-03-25 10:17:11
太离谱!农村老师相亲带娃,张口要28万彩礼,要求多到能逼疯人

太离谱!农村老师相亲带娃,张口要28万彩礼,要求多到能逼疯人

潮鹿逐梦
2026-03-24 12:11:55
200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

罗说NBA
2026-03-26 06:21:27
全新塞纳实车曝光!2.4T混动+超250马力

全新塞纳实车曝光!2.4T混动+超250马力

沙雕小琳琳
2026-03-26 01:58:11
梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

兴趣知识
2026-03-25 12:32:27
美国15条,自己和自己签的战败投降书!

美国15条,自己和自己签的战败投降书!

胜研集
2026-03-25 14:36:53
日自卫官持刀闯馆,进一步削弱中日互信基础

日自卫官持刀闯馆,进一步削弱中日互信基础

东京陈洋观察
2026-03-26 08:23:55
30万!不是工资,是汪峰每个月要给的抚养费

30万!不是工资,是汪峰每个月要给的抚养费

小光侃娱乐
2026-03-25 16:45:05
向“新” 向“智” 向“绿”——重大工程项目一线观察

向“新” 向“智” 向“绿”——重大工程项目一线观察

新华社
2026-03-25 16:08:21
单杆153分获特别奖金!火箭丢冠仍有收获,本赛季3杆高分赚154万

单杆153分获特别奖金!火箭丢冠仍有收获,本赛季3杆高分赚154万

刘姚尧的文字城堡
2026-03-26 09:12:30
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
猝死三件套:熬夜、咖啡、跑步——人生最后一课

猝死三件套:熬夜、咖啡、跑步——人生最后一课

水滴的声音
2026-03-25 08:36:43
李双江庆87岁大寿!怒吼要奋斗到90岁,切不动蛋糕戴玉强扶手帮忙

李双江庆87岁大寿!怒吼要奋斗到90岁,切不动蛋糕戴玉强扶手帮忙

嫹笔牂牂
2026-03-26 07:37:49
2026-03-26 09:59:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7745文章数 556关注度
往期回顾 全部

科技要闻

硅谷因AI大裁员?一线工程师戳破真相

头条要闻

举天价零件发出灵魂拷问的美官员 自己被大学生质问了

头条要闻

举天价零件发出灵魂拷问的美官员 自己被大学生质问了

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰遗产分割复杂!是否立遗嘱成关键

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

健康
本地
时尚
数码
军事航空

转头就晕的耳石症,能开车上班吗?

本地新闻

来永泰同安 赴一场春天的约会

《非穷尽列举》,好看又绝望

数码要闻

销量暴跌40%!2026开年笔记本电脑市场遭遇双重冲击

军事要闻

伊朗重申非交战国家船只可安全通过霍尔木兹海峡

无障碍浏览 进入关怀版