网易首页 > 网易号 > 正文 申请入驻

香港浸会大学团队让AI实时看懂直播视频

0
分享至


这项由香港浸会大学周凯阳教授领导、联合腾讯优图实验室共同开展的突破性研究,发表于2024年12月的计算机视觉顶级会议论文集,研究编号为arXiv:2512.21334。有兴趣深入了解的读者可以通过该编号查询完整论文内容。

当你在观看直播时,主播可能会问"现在屏幕上有几个人?"或"刚才那个动作叫什么?"传统的AI就像一个总是迟到的学生,必须等你把整个视频看完才能回答问题。而这项研究开发的Streamo系统,就像一个机敏的助理,能够一边看直播一边实时回答各种问题,甚至预测接下来会发生什么。

传统视频AI的工作方式就像看录像回放——必须拿到完整视频才能分析内容。这种"马后炮"式的工作方式在直播、监控、实时互动等场景中完全派不上用场。研究团队意识到,真正有用的视频AI应该像人类一样,能够一边看一边理解,一边分析一边响应。

为了解决这个问题,研究团队创建了一个名为Streamo的系统,这个系统的核心创新在于给AI装上了"三种工作状态的开关"。就像一个经验丰富的客服代表,Streamo会根据当前看到的内容选择"保持沉默"、"准备回答"或"立即响应"。当直播中出现无关内容时,它选择静静观看;当相关事件正在发生但尚未完结时,它进入待机状态;只有当获得足够信息能够给出完整回答时,它才会开口说话。

更令人印象深刻的是,研究团队还构建了一个包含46.5万个样本的大规模训练数据集Streamo-Instruct-465K。这个数据集就像一本超级详细的"实时互动教科书",包含了五种不同类型的任务训练:实时解说(像体育解说员一样描述正在发生的事情)、事件描述(总结发生了什么重要事件)、动作识别(识别具体的行为步骤)、时间定位(准确找到某个事件发生的时间段)、以及时间敏感问答(回答那些答案会随时间变化的问题)。

Streamo的工作原理可以用"智能交通指挥员"来比喻。传统AI就像只能在路口安装固定红绿灯的旧系统,而Streamo像是一个能够实时观察路况、灵活调整信号的智能指挥员。它会持续观察视频流,当发现有人问"现在路上有几辆车?"时,它不会等到所有车都通过路口才回答,而是实时观察并在合适的时机给出准确答案。

在数据处理方面,研究团队采用了一种巧妙的"多轮对话"训练方式。他们将长视频切分成一秒一秒的片段,每个片段都标记了明确的时间边界,就像给视频制作了详细的时间码表。在训练过程中,AI学会了在每个时间点判断应该采取什么行动:是继续观察、准备回应,还是立即给出答案。

为了解决训练中的"沉默时间过多"问题,研究团队设计了一个智能的权重调整机制。就像调教一个过于害羞的学生,他们使用特殊的"焦点损失"技术,让AI更容易学会何时应该开口说话,而不是总是选择保持沉默。这种技术会根据每个回答的难度和出现频率自动调整学习重点,确保AI既不会话痨般无休止地说话,也不会过于沉默错过重要的回应时机。

研究团队还开发了一个专门的测试基准Streamo-Bench,用来评估AI在复杂多任务场景中的表现。这个测试就像是给AI安排的"综合能力考试",包含300个视频和3000个不同类型的任务。测试内容涵盖了前向时间定位(根据之前的内容预测未来事件的时间)、后向时间定位(根据后续内容回溯之前事件的时间)、实时解说、密集描述以及时间敏感问答等多个方面。

在性能表现上,Streamo在各种测试中都表现出色。在OVO-Bench这个权威测试中,Streamo-7B模型的综合得分达到55.61分,比之前最好的在线视频模型高出13.83分。更有趣的是,即使用1fps训练的模型在2fps测试中也能工作得很好,表明这种方法具有很强的适应性。

在离线视频理解能力方面,Streamo不仅保持了原有的分析能力,还有所提升。在MVBench、TempCompass、VideoMME等标准测试中,Streamo都取得了比基础模型更好的成绩。这就像是一个学会了即兴表演的演员,不仅没有丢失原有的剧本表演能力,反而因为实时反应能力的增强而变得更加全面。

在技术实现细节上,研究团队采用了端到端的训练方式,避免了传统方法中需要单独训练决策模块的复杂性。他们使用Qwen2.5-VL作为基础模型,冻结视觉编码器,只更新连接器和语言模型部分。训练过程使用单个epoch、512的批次大小和1e-5的学习率,每个视频被分割成一秒钟的片段,以1fps采样帧率进行处理。

研究团队进行了详细的消融实验,证明了焦点损失机制的重要性。在没有状态感知重新加权的情况下,模型性能会严重下降,因为类别不平衡问题会导致模型过度倾向于预测沉默状态。通过引入自适应的焦点权重和基于频率的alpha权重,模型能够更好地学习何时进行响应。

Streamo系统的应用前景广阔。在直播领域,它可以为主播提供实时的内容分析和观众问题回答;在监控系统中,它能够实时识别和报告异常事件;在教育场景中,它可以为在线课程提供实时的内容解释和问题解答;在娱乐领域,它能够为游戏直播或体育赛事提供智能解说。

与现有的在线视频模型相比,Streamo的优势在于其统一的端到端设计。以往的方法通常需要一个单独的决策模块来判断何时调用离线模型,这种设计不仅增加了计算开销,还限制了系统的响应灵活性。Streamo将决策制定和内容生成融合在一个统一的框架中,实现了更高效和准确的实时处理。

研究团队也诚实地指出了当前系统的局限性。主要挑战在于处理超长序列时的内存和延迟成本。随着视频流长度的增加,系统需要维护的上下文信息会急剧增长,这对硬件资源提出了更高要求。未来的改进方向包括集成KV缓存管理、视觉标记剪枝、滑动窗口注意力机制以及自适应帧压缩等技术,以提高训练和推理效率,扩展有效上下文长度。

这项研究的意义不仅在于技术层面的突破,更在于它为人工智能与实时视频内容的交互开辟了新的可能性。它展示了如何让AI系统真正理解动态变化的视觉世界,并能够像人类一样进行实时的理解和响应。随着直播、短视频、实时监控等应用场景的快速发展,这种能够进行实时视频理解的AI技术将变得越来越重要。

说到底,Streamo代表了视频AI从"被动分析"向"主动理解"的重要转变。它不再是那个只能在电影结束后才能告诉你剧情的AI,而是能够陪你一起看电影、实时回答你疑问的智能伙伴。这种技术进步不仅提升了AI的实用性,也为未来更加智能和互动的数字体验奠定了基础。对于普通用户来说,这意味着我们很快就能享受到更加智能、响应更及时的视频相关服务,无论是观看直播、学习在线课程还是使用监控系统,都会有一个真正理解我们需求的AI助手陪伴左右。

Q&A

Q1:Streamo和传统视频AI有什么区别?

A:传统视频AI就像看录像回放,必须等整个视频播完才能分析内容,而Streamo能够一边看直播一边实时理解和回答问题。它有三种工作状态:保持沉默、准备回答和立即响应,能够根据视频内容的变化灵活调整自己的行为,就像一个机敏的助理。

Q2:Streamo-Instruct-465K数据集包含哪些内容?

A:这是一个包含46.5万个样本的大规模训练数据集,就像一本超级详细的实时互动教科书。它包含五种任务类型:实时解说(像体育解说员描述正在发生的事)、事件描述(总结重要事件)、动作识别(识别具体行为)、时间定位(找到事件发生时间)以及时间敏感问答(回答随时间变化的问题)。

Q3:Streamo的实际应用场景有哪些?

A:Streamo的应用前景非常广泛,包括为直播主播提供实时内容分析,为监控系统提供异常事件实时识别,为在线教育提供实时内容解释,为游戏直播和体育赛事提供智能解说等。它能让AI真正参与到需要实时理解和响应的各种视频场景中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大巴黎再进欧冠决赛,主席暗讽姆巴佩:这波 “杀人诛心” 太狠了

大巴黎再进欧冠决赛,主席暗讽姆巴佩:这波 “杀人诛心” 太狠了

姜大叔侃球
2026-05-07 10:50:05
交通银行:坚决拥护党中央决定

交通银行:坚决拥护党中央决定

新京报
2026-05-07 12:30:05
4月吉利逆市扛旗,高质量增长跑出行业韧性

4月吉利逆市扛旗,高质量增长跑出行业韧性

汽车公社
2026-05-06 20:16:34
一纸讣告,字字泣血!浏阳烟花厂爆炸事故中一女子的悼词,引热议

一纸讣告,字字泣血!浏阳烟花厂爆炸事故中一女子的悼词,引热议

火山詩话
2026-05-07 12:42:44
俄向驻基辅85国使馆发照会:及时撤人!消息人士:此次警告或涉及“榛树”导弹

俄向驻基辅85国使馆发照会:及时撤人!消息人士:此次警告或涉及“榛树”导弹

红星新闻
2026-05-07 13:55:22
福建母子武汉旅游期间捡到价值十余万元的劳力士?虾店老板发视频称已归还失主,网友态度不一

福建母子武汉旅游期间捡到价值十余万元的劳力士?虾店老板发视频称已归还失主,网友态度不一

极目新闻
2026-05-07 10:23:48
峨眉山景区回应“男子推搡猴子”:3年内禁止其进入景区

峨眉山景区回应“男子推搡猴子”:3年内禁止其进入景区

界面新闻
2026-05-07 16:44:02
赚得太多了,全员发钱?人均年终奖610万的背后

赚得太多了,全员发钱?人均年终奖610万的背后

中产先生
2026-05-07 12:08:09
网友曝三亚4只皮皮虾收费1035元,涉事饭店半年前变更经营者

网友曝三亚4只皮皮虾收费1035元,涉事饭店半年前变更经营者

齐鲁壹点
2026-05-07 10:54:16
伊朗将为霍尔木兹海峡船只提供服务

伊朗将为霍尔木兹海峡船只提供服务

界面新闻
2026-05-07 16:14:54
世界杯国际足联开出天价版权:对中国开价近3亿美元,是印度的17倍,现“降”至1.2至1.5亿美元;电视转播谈判陷僵局

世界杯国际足联开出天价版权:对中国开价近3亿美元,是印度的17倍,现“降”至1.2至1.5亿美元;电视转播谈判陷僵局

浙江之声
2026-05-07 08:24:22
院长和女研究员在国际顶刊大肆造假,同济大学通报:院长免职降级,第一作者被解聘

院长和女研究员在国际顶刊大肆造假,同济大学通报:院长免职降级,第一作者被解聘

高分子科学前沿
2026-05-06 21:26:12
周喜安,被判死缓

周喜安,被判死缓

新京报
2026-05-07 17:16:10
俄罗斯遭大规模袭击

俄罗斯遭大规模袭击

中国经济网
2026-05-06 17:08:04
离岸人民币兑美元升破6.8

离岸人民币兑美元升破6.8

界面新闻
2026-05-07 15:14:06
已致3人死亡!暴发病毒疫情邮轮将抵达西班牙,“所有人将被遣返各自国家”

已致3人死亡!暴发病毒疫情邮轮将抵达西班牙,“所有人将被遣返各自国家”

南方都市报
2026-05-07 12:26:12
京圈大佬饭局爆猛料:陈冠希现在,根本瞧不上内娱这三瓜俩枣

京圈大佬饭局爆猛料:陈冠希现在,根本瞧不上内娱这三瓜俩枣

西楼知趣杂谈
2026-05-07 12:40:04
赖清德回台湾,三个东盟国家为其开放领空

赖清德回台湾,三个东盟国家为其开放领空

混沌录
2026-05-06 22:50:16
谢娜演唱会这一夜,半个娱乐圈捧场,网友直呼票价不值,吃相难看

谢娜演唱会这一夜,半个娱乐圈捧场,网友直呼票价不值,吃相难看

青梅侃史啊
2026-05-07 07:28:32
曝莫斯科全面断网并关闭所有机场!胜利日前夕全城紧张

曝莫斯科全面断网并关闭所有机场!胜利日前夕全城紧张

项鹏飞
2026-05-06 16:51:22
2026-05-07 18:19:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8243文章数 563关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

周喜安被判死缓:在两省共受贿过亿 被指学术成就丰富

头条要闻

周喜安被判死缓:在两省共受贿过亿 被指学术成就丰富

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

小S阿雅重返大S母校,翻看大S毕业照

财经要闻

金融“风暴”,AI制造

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

时尚
游戏
本地
亲子
旅游

“白色阔腿裤”今年夏天又火了!这样穿时髦又高级

索尼PS5独占新作销量太烂了!前十都进不去 回本堪忧

本地新闻

用青花瓷的方式,打开西溪湿地

亲子要闻

宝蓝趁爸爸睡着了,把爸爸的薯片都拿走偷吃,突然被爸爸发现了

旅游要闻

男子悬崖边推搡藏酋猴?峨眉山景区:非危险路段,列入“不文明游客黑名单”,3年禁入

无障碍浏览 进入关怀版