网易首页 > 网易号 > 正文 申请入驻

北京大学等机构首创智能视频助手

0
分享至


这项由北京大学联合中科院自动化所、清华大学、Adobe等多家机构共同完成的突破性研究,发表于2026年3月的计算机视觉顶级会议论文集(arXiv:2603.20422v1)。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

你有没有遇到过这样的情况:看一部很长的电视剧时,突然忘记了某个角色之前做过什么,或者想知道剧中某个人物在第几集穿过红色衣服?传统的视频播放器完全帮不上忙,你只能凭记忆或者快进倒退地寻找。而人工智能虽然已经能够回答图片相关的问题,但面对连续的视频流时,它们往往只能看到"当下这一刻",无法像人类一样形成持续的记忆。

现在,研究团队开发出了一套名为PEARL的智能视频理解系统,就像给AI装上了一个专门用来看视频的"大脑"。这个大脑最厉害的地方在于,它能够一边观看视频,一边记住你告诉它的每个人物和动作,并且在后续的任何时间点准确地回答相关问题。

设想这样的场景:你正在看一部动漫,当新角色出现时,你可以告诉AI"这个黄头发的女孩叫小美"。从那一刻开始,无论视频播放到什么地方,无论小美做什么动作或者穿什么衣服,AI都能准确识别她,还能回答"小美现在在做什么"或者"小美刚才去了哪里"这样的问题。更神奇的是,你甚至可以定义特殊的动作,比如告诉AI"这个挥手的动作叫做招手礼",之后无论视频中的任何人做这个动作,AI都能识别出来。

这项研究的创新之处在于解决了一个看似简单实则复杂的问题:如何让AI在观看连续视频时既能实时响应,又能保持长期记忆。就像人类大脑既有工作记忆处理当前信息,又有长期记忆存储过往经历一样,PEARL系统设计了两套互补的记忆机制。

第一套是"流式记忆",就像一个高效的视频管理员,它会自动将连续的视频分割成一个个有意义的片段,并为每个片段建立详细的"档案"。这些档案不是简单的截图,而是包含了丰富语义信息的"指纹",能够帮助系统快速定位任何相关的历史片段。

第二套是"概念记忆",这是一个专门存储用户自定义概念的知识库。当你告诉系统"这个人叫张三"时,系统不仅会记住这个名字,还会分析张三的外貌特征,生成一段详细的描述,比如"一个年轻男性,黑色短发,方形脸"。这种描述基于的是那些相对稳定的特征,而不是容易变化的衣服颜色或表情,确保即使张三换了装扮,系统依然能认出他。

更巧妙的是系统的检索机制。当你问"张三在哪里"时,系统会先将"张三"这个名字转换为之前存储的详细描述,然后用这个描述去搜索视频历史,找出最相关的片段。这就像一个经验丰富的侦探,能够根据嫌疑人的特征描述,从大量监控录像中快速找到目标人物出现的所有场景。

为了验证这套系统的效果,研究团队构建了一个名为PEARL-Bench的专业测试平台。这个平台包含132个长视频和2173个精心设计的问答对,涵盖了从日常对话到动作片段的各种场景。测试分为两个层面:人物层面测试系统能否准确识别和追踪特定人物,动作层面则测试系统是否能理解和记忆复杂的动作序列。

实验结果让人印象深刻。传统的视频理解系统在这个任务上表现糟糕,准确率往往只有20-30%,而PEARL系统将性能提升到了50%以上,在某些测试中甚至达到了55%的准确率。更重要的是,这套系统具有很强的通用性,无论是基于什么样的基础AI模型,加上PEARL框架后都能获得显著的性能提升。

从技术角度看,PEARL最大的优势在于它是一个"即插即用"的解决方案,不需要重新训练底层的AI模型。研究人员将其比作给现有的AI系统装上了一个专门的"记忆模块",让原本只能"活在当下"的AI获得了持续记忆的能力。

这项技术的应用前景非常广阔。在个人生活中,你可以用它来管理家庭视频,快速找到特定人物的所有出现片段。在健身场景中,AI教练可以持续观察你的动作,记住你的标准姿势,并在你动作不规范时给出纠正建议。在安防监控领域,系统可以学习识别特定的可疑行为模式,一旦发现就立即报警。

对于内容创作者来说,这技术意味着他们可以开发出更智能的视频编辑工具。编剧可以快速查找剧本中某个角色的所有出现场景,导演可以轻松检查演员动作的连贯性,观众也能获得更个性化的观看体验。

当然,现阶段的系统还不完美。研究团队坦承,在处理非常复杂的场景或者光线条件恶劣的视频时,系统的准确率会有所下降。而且,目前的系统主要针对静态特征(如人物外貌)和动作模式设计,对于更抽象的概念理解还有待提升。

尽管如此,这项研究为AI视频理解开辟了一个全新的方向。过去,AI只能被动地分析已经完成的视频内容,现在它们开始具备了主动学习和持续记忆的能力。这种转变的意义不仅仅在于技术本身,更在于它让AI向着真正理解人类视觉体验的方向迈出了重要一步。

从更长远的角度看,这种技术可能会催生出全新的人机交互模式。未来的AI助手不再是只能回答简单问题的工具,而是能够陪伴你观看内容、理解你的喜好、记住你关心的细节的智能伙伴。当技术足够成熟时,我们或许能够实现科幻电影中那种场景:只需要对着屏幕说一句话,AI就能立刻找出你想要的任何视频片段。

这项研究的发布,标志着视频AI从"瞬时理解"向"持续认知"的重要进步。正如研究团队在论文中所说,他们希望这项工作能够启发更多研究者投入到流式个性化AI助手的开发中。毕竟,真正智能的系统不应该只是回答问题的机器,而应该是能够学习、记忆和成长的伙伴。随着技术的不断完善,我们有理由相信,这种具有持续学习能力的AI将在不久的将来走入千家万户,为我们的数字生活带来前所未有的便利和乐趣。

Q&A

Q1:PEARL系统是如何记住视频中的人物和动作的?

A:PEARL系统采用了双重记忆机制。流式记忆负责将视频分割成片段并建立档案,概念记忆则专门存储用户定义的人物和动作。当你告诉系统"这是张三"时,它会分析并记住张三的稳定特征如脸型、发型等,而不是易变的衣服颜色,确保后续准确识别。

Q2:这个技术能应用到哪些实际场景中?

A:应用场景非常丰富。个人用户可以用它管理家庭视频,快速找到特定人物片段;健身时AI教练能记住标准动作并纠正错误姿势;安防监控可以学习识别可疑行为;内容创作者能快速检索角色出现场景,提高编辑效率。

Q3:PEARL系统的准确率如何,有什么局限性?

A:在测试中,PEARL将传统系统20-30%的准确率提升到50%以上,某些场景达到55%。但系统在复杂场景、恶劣光线条件下准确率会下降,目前主要适用于静态特征和动作模式识别,对抽象概念理解还有待提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为了杰伦布朗,火箭队需送出2主力1替补?若成功,全新阵容太豪华

为了杰伦布朗,火箭队需送出2主力1替补?若成功,全新阵容太豪华

熊哥爱篮球
2026-06-02 15:00:59
菲戈:不能拿姆巴佩和C罗比较

菲戈:不能拿姆巴佩和C罗比较

懂球帝
2026-06-02 12:28:06
持续腹泻一个多月,宁波53岁男子同时查出5种癌+脑病!一天一包香烟、半斤白酒是标配,医生提醒:长期酗酒吸烟是根本诱因

持续腹泻一个多月,宁波53岁男子同时查出5种癌+脑病!一天一包香烟、半斤白酒是标配,医生提醒:长期酗酒吸烟是根本诱因

极目新闻
2026-06-02 13:17:21
GOAT归来!44岁小威退役4年后官宣复出+下周首秀,大满贯曾夺23冠

GOAT归来!44岁小威退役4年后官宣复出+下周首秀,大满贯曾夺23冠

我爱英超
2026-06-02 06:24:35
81岁李家鼎公开宣布与大儿子脱离父子关系!怒斥对方“仆X仔”!回应与TVB男星母亲恋情!

81岁李家鼎公开宣布与大儿子脱离父子关系!怒斥对方“仆X仔”!回应与TVB男星母亲恋情!

我爱追港剧
2026-06-02 12:12:38
六台:小蜘蛛经纪人已和巴萨会面,商谈一份为期五年的协议

六台:小蜘蛛经纪人已和巴萨会面,商谈一份为期五年的协议

懂球帝
2026-06-02 14:37:11
库里官宣签约李宁十年!勇士两大核心都签约李宁

库里官宣签约李宁十年!勇士两大核心都签约李宁

体坛周报
2026-06-02 08:00:13
云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

生物学霸
2026-06-01 17:18:39
1936年活捉老蒋的孙铭九,解放后中央破例批准:给他安排一份工作

1936年活捉老蒋的孙铭九,解放后中央破例批准:给他安排一份工作

莫地方
2026-06-02 00:03:21
上海广厦G4生死战开打,广厦2黑马受伤,上海有3大巨星出炉

上海广厦G4生死战开打,广厦2黑马受伤,上海有3大巨星出炉

阿信点评
2026-06-02 16:31:07
周六打虎!任上落马的正部级“老虎”,辞去职务

周六打虎!任上落马的正部级“老虎”,辞去职务

上观新闻
2026-06-01 12:44:24
全线失守!克里米亚制空权被乌军强势夺走了

全线失守!克里米亚制空权被乌军强势夺走了

知兵
2026-06-02 08:00:16
Bose旗舰降噪耳机跳价1200元,618到手只要2388

Bose旗舰降噪耳机跳价1200元,618到手只要2388

全栈遛狗员
2026-06-01 17:13:03
帅气!41岁C罗戴墨镜抵达训练营:开启第6次世界杯之旅 志在夺冠

帅气!41岁C罗戴墨镜抵达训练营:开启第6次世界杯之旅 志在夺冠

风过乡
2026-06-02 06:23:54
NBA名记爆料:亚历山大私下“施压”雷霆管理层,要求留下多尔特

NBA名记爆料:亚历山大私下“施压”雷霆管理层,要求留下多尔特

夜白侃球
2026-06-02 12:58:38
快讯!马英九基金会爆发离职潮!

快讯!马英九基金会爆发离职潮!

故事终将光明磊落
2026-06-02 12:40:44
上海城投变了,杭迎伟没有退路

上海城投变了,杭迎伟没有退路

新浪财经
2026-06-02 16:46:12
从0-2到3-3!土伦杯日本队爆冷,亚洲3队仅中国队赢球

从0-2到3-3!土伦杯日本队爆冷,亚洲3队仅中国队赢球

何老师呀
2026-06-02 00:42:32
负债824亿、账上只剩82亿:一群猪,把700亿富豪逼上了悬崖

负债824亿、账上只剩82亿:一群猪,把700亿富豪逼上了悬崖

历史伟人录
2026-05-31 18:28:28
从58万到169万!一网友哭诉自己被高收入绑架,丢掉了生活的意义

从58万到169万!一网友哭诉自己被高收入绑架,丢掉了生活的意义

火山詩话
2026-05-31 10:57:09
2026-06-02 19:43:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8614文章数 564关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

小学教师疑因打井纠纷杀害邻居 死者留下两未成年儿子

头条要闻

小学教师疑因打井纠纷杀害邻居 死者留下两未成年儿子

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

教育
数码
艺术
健康
亲子

教育要闻

别等孩子哭着抗拒上学才后悔,幼小衔接必须做好这些准备

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

艺术要闻

周杰伦花 1.36 亿拍下这幅画

违规干细胞应用,暗藏致命隐患!

亲子要闻

聚焦儿童青少年健康问题管理,上海两大国家儿童医学中心有新动作

无障碍浏览 进入关怀版