网易首页 > 网易号 > 正文 申请入驻

香港浸会大学团队让AI实时看懂直播视频

0
分享至


这项由香港浸会大学周凯阳教授领导、联合腾讯优图实验室共同开展的突破性研究,发表于2024年12月的计算机视觉顶级会议论文集,研究编号为arXiv:2512.21334。有兴趣深入了解的读者可以通过该编号查询完整论文内容。

当你在观看直播时,主播可能会问"现在屏幕上有几个人?"或"刚才那个动作叫什么?"传统的AI就像一个总是迟到的学生,必须等你把整个视频看完才能回答问题。而这项研究开发的Streamo系统,就像一个机敏的助理,能够一边看直播一边实时回答各种问题,甚至预测接下来会发生什么。

传统视频AI的工作方式就像看录像回放——必须拿到完整视频才能分析内容。这种"马后炮"式的工作方式在直播、监控、实时互动等场景中完全派不上用场。研究团队意识到,真正有用的视频AI应该像人类一样,能够一边看一边理解,一边分析一边响应。

为了解决这个问题,研究团队创建了一个名为Streamo的系统,这个系统的核心创新在于给AI装上了"三种工作状态的开关"。就像一个经验丰富的客服代表,Streamo会根据当前看到的内容选择"保持沉默"、"准备回答"或"立即响应"。当直播中出现无关内容时,它选择静静观看;当相关事件正在发生但尚未完结时,它进入待机状态;只有当获得足够信息能够给出完整回答时,它才会开口说话。

更令人印象深刻的是,研究团队还构建了一个包含46.5万个样本的大规模训练数据集Streamo-Instruct-465K。这个数据集就像一本超级详细的"实时互动教科书",包含了五种不同类型的任务训练:实时解说(像体育解说员一样描述正在发生的事情)、事件描述(总结发生了什么重要事件)、动作识别(识别具体的行为步骤)、时间定位(准确找到某个事件发生的时间段)、以及时间敏感问答(回答那些答案会随时间变化的问题)。

Streamo的工作原理可以用"智能交通指挥员"来比喻。传统AI就像只能在路口安装固定红绿灯的旧系统,而Streamo像是一个能够实时观察路况、灵活调整信号的智能指挥员。它会持续观察视频流,当发现有人问"现在路上有几辆车?"时,它不会等到所有车都通过路口才回答,而是实时观察并在合适的时机给出准确答案。

在数据处理方面,研究团队采用了一种巧妙的"多轮对话"训练方式。他们将长视频切分成一秒一秒的片段,每个片段都标记了明确的时间边界,就像给视频制作了详细的时间码表。在训练过程中,AI学会了在每个时间点判断应该采取什么行动:是继续观察、准备回应,还是立即给出答案。

为了解决训练中的"沉默时间过多"问题,研究团队设计了一个智能的权重调整机制。就像调教一个过于害羞的学生,他们使用特殊的"焦点损失"技术,让AI更容易学会何时应该开口说话,而不是总是选择保持沉默。这种技术会根据每个回答的难度和出现频率自动调整学习重点,确保AI既不会话痨般无休止地说话,也不会过于沉默错过重要的回应时机。

研究团队还开发了一个专门的测试基准Streamo-Bench,用来评估AI在复杂多任务场景中的表现。这个测试就像是给AI安排的"综合能力考试",包含300个视频和3000个不同类型的任务。测试内容涵盖了前向时间定位(根据之前的内容预测未来事件的时间)、后向时间定位(根据后续内容回溯之前事件的时间)、实时解说、密集描述以及时间敏感问答等多个方面。

在性能表现上,Streamo在各种测试中都表现出色。在OVO-Bench这个权威测试中,Streamo-7B模型的综合得分达到55.61分,比之前最好的在线视频模型高出13.83分。更有趣的是,即使用1fps训练的模型在2fps测试中也能工作得很好,表明这种方法具有很强的适应性。

在离线视频理解能力方面,Streamo不仅保持了原有的分析能力,还有所提升。在MVBench、TempCompass、VideoMME等标准测试中,Streamo都取得了比基础模型更好的成绩。这就像是一个学会了即兴表演的演员,不仅没有丢失原有的剧本表演能力,反而因为实时反应能力的增强而变得更加全面。

在技术实现细节上,研究团队采用了端到端的训练方式,避免了传统方法中需要单独训练决策模块的复杂性。他们使用Qwen2.5-VL作为基础模型,冻结视觉编码器,只更新连接器和语言模型部分。训练过程使用单个epoch、512的批次大小和1e-5的学习率,每个视频被分割成一秒钟的片段,以1fps采样帧率进行处理。

研究团队进行了详细的消融实验,证明了焦点损失机制的重要性。在没有状态感知重新加权的情况下,模型性能会严重下降,因为类别不平衡问题会导致模型过度倾向于预测沉默状态。通过引入自适应的焦点权重和基于频率的alpha权重,模型能够更好地学习何时进行响应。

Streamo系统的应用前景广阔。在直播领域,它可以为主播提供实时的内容分析和观众问题回答;在监控系统中,它能够实时识别和报告异常事件;在教育场景中,它可以为在线课程提供实时的内容解释和问题解答;在娱乐领域,它能够为游戏直播或体育赛事提供智能解说。

与现有的在线视频模型相比,Streamo的优势在于其统一的端到端设计。以往的方法通常需要一个单独的决策模块来判断何时调用离线模型,这种设计不仅增加了计算开销,还限制了系统的响应灵活性。Streamo将决策制定和内容生成融合在一个统一的框架中,实现了更高效和准确的实时处理。

研究团队也诚实地指出了当前系统的局限性。主要挑战在于处理超长序列时的内存和延迟成本。随着视频流长度的增加,系统需要维护的上下文信息会急剧增长,这对硬件资源提出了更高要求。未来的改进方向包括集成KV缓存管理、视觉标记剪枝、滑动窗口注意力机制以及自适应帧压缩等技术,以提高训练和推理效率,扩展有效上下文长度。

这项研究的意义不仅在于技术层面的突破,更在于它为人工智能与实时视频内容的交互开辟了新的可能性。它展示了如何让AI系统真正理解动态变化的视觉世界,并能够像人类一样进行实时的理解和响应。随着直播、短视频、实时监控等应用场景的快速发展,这种能够进行实时视频理解的AI技术将变得越来越重要。

说到底,Streamo代表了视频AI从"被动分析"向"主动理解"的重要转变。它不再是那个只能在电影结束后才能告诉你剧情的AI,而是能够陪你一起看电影、实时回答你疑问的智能伙伴。这种技术进步不仅提升了AI的实用性,也为未来更加智能和互动的数字体验奠定了基础。对于普通用户来说,这意味着我们很快就能享受到更加智能、响应更及时的视频相关服务,无论是观看直播、学习在线课程还是使用监控系统,都会有一个真正理解我们需求的AI助手陪伴左右。

Q&A

Q1:Streamo和传统视频AI有什么区别?

A:传统视频AI就像看录像回放,必须等整个视频播完才能分析内容,而Streamo能够一边看直播一边实时理解和回答问题。它有三种工作状态:保持沉默、准备回答和立即响应,能够根据视频内容的变化灵活调整自己的行为,就像一个机敏的助理。

Q2:Streamo-Instruct-465K数据集包含哪些内容?

A:这是一个包含46.5万个样本的大规模训练数据集,就像一本超级详细的实时互动教科书。它包含五种任务类型:实时解说(像体育解说员描述正在发生的事)、事件描述(总结重要事件)、动作识别(识别具体行为)、时间定位(找到事件发生时间)以及时间敏感问答(回答随时间变化的问题)。

Q3:Streamo的实际应用场景有哪些?

A:Streamo的应用前景非常广泛,包括为直播主播提供实时内容分析,为监控系统提供异常事件实时识别,为在线教育提供实时内容解释,为游戏直播和体育赛事提供智能解说等。它能让AI真正参与到需要实时理解和响应的各种视频场景中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
300658,重大资产重组!明日停牌

300658,重大资产重组!明日停牌

中国基金报
2026-01-04 17:48:57
留给大清的时间,真的不多了

留给大清的时间,真的不多了

我是历史其实挺有趣
2026-01-03 08:50:37
59岁宋祖英近照曝光,保养很好像40岁,坐包厢看戏,给好闺蜜捧场

59岁宋祖英近照曝光,保养很好像40岁,坐包厢看戏,给好闺蜜捧场

一娱三分地
2026-01-03 14:26:12
发明煤改气的人真是个天才

发明煤改气的人真是个天才

阿亮评论
2026-01-03 10:12:32
马杜罗被抓后,金正恩作出重要指示,朝鲜向日韩方向发射弹道导弹

马杜罗被抓后,金正恩作出重要指示,朝鲜向日韩方向发射弹道导弹

素年文史
2026-01-04 14:27:24
奉劝大家:为了家人安全,别在厨房做这7件事,真的很危险!

奉劝大家:为了家人安全,别在厨房做这7件事,真的很危险!

Home范
2026-01-03 14:57:10
万万没想到,元旦刚过2天,中国游客春节赴日酒店预订量增了6成

万万没想到,元旦刚过2天,中国游客春节赴日酒店预订量增了6成

丁丁鲤史纪
2026-01-03 18:15:59
“新疆棉”事件5年后 , 始作俑者已改名 , 如今丑态百出大快人心

“新疆棉”事件5年后 , 始作俑者已改名 , 如今丑态百出大快人心

小熊侃史
2025-12-20 10:53:22
配料表完全相同!山姆被指与小象超市共享同一供应商,网友吐槽:260元山姆会员卡可以退了【附零售行业市场分析】

配料表完全相同!山姆被指与小象超市共享同一供应商,网友吐槽:260元山姆会员卡可以退了【附零售行业市场分析】

前瞻网
2026-01-04 14:17:29
就在周四!黄金白银将迎新年“第一劫”:数十亿美元抛单已在路上

就在周四!黄金白银将迎新年“第一劫”:数十亿美元抛单已在路上

财联社
2026-01-04 12:38:04
3小时掳走马杜罗!全球紧急站队,特朗普点名中国,中方寸步不让

3小时掳走马杜罗!全球紧急站队,特朗普点名中国,中方寸步不让

娱乐圈的笔娱君
2026-01-04 15:32:15
突发讣告!上海足坛泰斗高慎华逝世

突发讣告!上海足坛泰斗高慎华逝世

鲁中晨报
2026-01-04 15:53:06
曝宇树科技A股上市的绿色通道被叫停,此举系“国家希望能够机器人赛道降降温”!公司暂无回应

曝宇树科技A股上市的绿色通道被叫停,此举系“国家希望能够机器人赛道降降温”!公司暂无回应

和讯网
2026-01-04 16:00:07
这3条高铁已取得可研批复,锁定2026年开工窗口!

这3条高铁已取得可研批复,锁定2026年开工窗口!

铁路叨叨嘴
2026-01-04 17:16:03
后悔吗?皇马放走之人制霸意甲,场均跑动10公里,米兰赚大了

后悔吗?皇马放走之人制霸意甲,场均跑动10公里,米兰赚大了

祥谈体育
2026-01-04 21:05:38
3000亿桶石油争夺战:美国"接管"委内瑞拉,我国百亿投资打水漂?

3000亿桶石油争夺战:美国"接管"委内瑞拉,我国百亿投资打水漂?

王五说说看
2026-01-04 11:47:50
广西壮族自治区来宾市人大常委会原主任沙君俊被“双开”

广西壮族自治区来宾市人大常委会原主任沙君俊被“双开”

界面新闻
2026-01-04 17:05:53
真的别再把肉泡水里解冻了!正确的解冻方法

真的别再把肉泡水里解冻了!正确的解冻方法

科普中国
2026-01-03 13:49:13
袁世凯10个老婆有多美?3个来自青楼,3个来自朝鲜,个个貌美如花

袁世凯10个老婆有多美?3个来自青楼,3个来自朝鲜,个个貌美如花

瑶卿文史
2026-01-04 00:16:54
11分16板!辽宁队弃将打出顶级外援水平 球迷:杨鸣后悔吗?

11分16板!辽宁队弃将打出顶级外援水平 球迷:杨鸣后悔吗?

体育哲人
2026-01-04 20:46:54
2026-01-04 21:28:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6750文章数 546关注度
往期回顾 全部

科技要闻

独家|宇树科技上市绿色通道被叫停

头条要闻

中国籍女网红在柬埔寨街头流浪面容憔悴 母亲最新发声

头条要闻

中国籍女网红在柬埔寨街头流浪面容憔悴 母亲最新发声

体育要闻

球队陷入危难,一名44岁教练选择复出打球

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

本地
手机
时尚
旅游
公开课

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

手机要闻

荣耀Magic8 Air曝光:大R角+eSIM,性能、外围拉满!

如果可以,希望鲁豫老师再工作30年!

旅游要闻

刚刚!无锡新一轮暴击!网友吵翻了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版