网易首页 > 网易号 > 正文 申请入驻

太流畅了,视频版GPT-4o?长视频流实时理解交互开源模型Flash-VStream

0
分享至

清华大学联合字节跳动在6月30日发表并开源了Flash-VStream模型,这是一款基于内存的长视频流实时理解交互模型,简单来讲就是针对视频内容可以实时与使用者进行交互问答。(论文和使用链接在文章底部

随着大型语言模型和跨模态对齐技术的进步,多模态视频理解方法在离线场景中取得了显著性能。大多数多模态模型仅能处理较短的离线视频数据,进行文本描述或问答,对于长视频和在线视频流的理解能力仍然有限。与离线视频相比,在线视频流的“动态”特性对现有模型应用带来挑战,如超长时间信息存储、连续视觉内容交互及“异步”用户提问等。

团队提出模拟人类记忆机制的视频语言模型Flash-VStream,可实时处理超长视频流并响应用户询问。与现有模型相比,Flash-VStream显著减少推理延迟和VRAM消耗,适用于在线流媒体视频理解。

我们可以看到,模型在处理长视频上下文时具有出色的记忆能力,能够准确地回复与视频情景相关的问题。例如,当在视频56:00时刻被问到“抓取面粉后主人公做了什么动作”(这个动作发生在十几分钟前),模型能够迅速给出正确且详细的回答。Flash-VStream模型能够有效处理涉及大时间跨度的视频问题,显示出其在长视频视觉信息记忆方面的高效能力。

为什么可以做的如此快速的同步?主要是两点( 基于内存和基于多线程

不同于传统的视频理解大规模语言模型(LMM),Flash-VStream采用了一种独特的方法,将视觉信息的感知记忆与问答交互解耦。这种设计使得模型在处理长视频流时更加高效和灵活。具体来说,Flash-VStream使用多进程系统,能够实现对长视频流的实时处理。通过这种解耦机制,模型可以在不影响问答交互的情况下,独立处理和记忆大量的视觉信息,从而确保对视频内容的准确理解和快速响应。

Flash-VStream 由两个主要进程执行,分别是“帧处理器”和“问题处理器”。帧处理器负责对视频帧进行编码并写入内存,其组成部分包括一个视觉编码器、一个 STAR 内存模块和一个特征缓冲区。而问题处理器则负责从内存中读取数据,并随时回答问题,其组成部分包括一个投影器和一个大规模语言模型(LLM)。这种设计使得 Flash-VStream 能够高效地处理长视频流并提供实时的问答服务。

在 Flash-VStream 的设计中,不同类型的记忆对每帧使用的 token 数量有所不同。空间记忆和检索记忆每帧可以拥有最多的 token 数量,而时间记忆次之,抽象记忆每帧则仅用 1 个 token 来表示。这种设计方式能够高效地表示从最具体到最抽象的视觉特征,使得模型能够更加准确和高效地处理和理解视频内容。

为了测试模型构建 VStream-QA 数据集,研究团队从 Ego4d 和 Movienet 中筛选了一部分视频片段,并为每个片段标注了多个问答对,同时标记了答案所在的视频区间。在测试过程中,要求模型在不同的时间点上,基于截至该时刻的视频片段来回答问题,以此来评估模型的在线视频流理解能力。

参考的Video-ChatGPT

Video-ChatGPT 是一种视频对话模型,能够生成有关视频的有意义的对话。它将 LLM 的功能与适合时空视频表示的预训练视觉编码器相结合。

VideoChat是视频为中心的语音理解系统,通过可学习的神经接口集成视频基础模型和大型语言模型,在时空推理、事件定位和因果关系推断方面表现出色。

主页:https://invinciblewyq.github.io/vstream-page
论文:https://arxiv.org/abs/2406.08085
代码:https://github.com/IVGSZ/Flash-VStream
体验:https://huggingface.co/spaces/IVGSZ/Flash-VStream-demo

感谢关注~,带你学习AI,了解AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为了英国永居权我和60岁大爷结婚,谁知领证后大爷说:永居权给你

为了英国永居权我和60岁大爷结婚,谁知领证后大爷说:永居权给你

朝暮书屋
2026-01-04 18:20:07
彻底白忙活!哈工大这一招,直接把美荷“光刻机封锁”变成废纸!

彻底白忙活!哈工大这一招,直接把美荷“光刻机封锁”变成废纸!

元爸体育
2026-01-08 12:51:38
陶哲轩儿子变性了?本人现身回应,全网吵翻

陶哲轩儿子变性了?本人现身回应,全网吵翻

新智元
2026-01-07 20:26:59
高市早苗刚求和,不到24小时,中方发布禁令,不许向日本出口稀土

高市早苗刚求和,不到24小时,中方发布禁令,不许向日本出口稀土

王姐懒人家常菜
2026-01-08 12:47:18
美军或用对付伊拉克的方法,对付中国?一旦开战,卫星肯定不保

美军或用对付伊拉克的方法,对付中国?一旦开战,卫星肯定不保

妙知
2025-12-09 00:16:52
美军扣押俄护航油轮,特朗普毫无底线!英法策应美军,俄准备复仇

美军扣押俄护航油轮,特朗普毫无底线!英法策应美军,俄准备复仇

徐徐道史
2026-01-08 11:50:27
曼联临时主帅:30次射门只拿到1分,我很失望

曼联临时主帅:30次射门只拿到1分,我很失望

星耀国际足坛
2026-01-08 12:20:11
齐溪小腹隆起疑怀3胎!肚大如萝给妈妈庆生,和王传君已有俩女儿

齐溪小腹隆起疑怀3胎!肚大如萝给妈妈庆生,和王传君已有俩女儿

琴声飞扬
2026-01-07 11:11:42
女人坐了28年牢,出狱去办证,民警一查系统,当场愣了

女人坐了28年牢,出狱去办证,民警一查系统,当场愣了

卡西莫多的故事
2025-10-30 11:33:46
103-102!杨瀚森3+3+2,伊森绝杀超时,开拓者险胜火箭迎4连胜

103-102!杨瀚森3+3+2,伊森绝杀超时,开拓者险胜火箭迎4连胜

全景体育V
2026-01-08 13:45:19
疯了?利物浦 8700 万砸曼联旧将!萨拉赫接班人竟是这争议王

疯了?利物浦 8700 万砸曼联旧将!萨拉赫接班人竟是这争议王

澜归序
2026-01-08 06:53:53
票房大反转:《阿凡达3》跌至第三,寻秦记第二,第一成功逆袭

票房大反转:《阿凡达3》跌至第三,寻秦记第二,第一成功逆袭

糊咖娱乐
2026-01-07 17:08:47
怎么看待洪承畴最后只被封轻车都尉?

怎么看待洪承畴最后只被封轻车都尉?

琅琊左史
2026-01-08 09:19:44
开年首波!佛山10村分红曝光,村民喜提“千万红包”

开年首波!佛山10村分红曝光,村民喜提“千万红包”

佛山楼市发布
2026-01-08 12:24:37
53家公司2025年业绩预增

53家公司2025年业绩预增

证券时报
2026-01-08 10:15:03
意外!阿奇姆彭刚从河南队离开,就转身加盟津门虎?于根伟乐开花

意外!阿奇姆彭刚从河南队离开,就转身加盟津门虎?于根伟乐开花

罗掌柜体育
2026-01-08 06:10:03
西班牙签订直升机采购大单

西班牙签订直升机采购大单

海外网
2026-01-07 09:47:02
8国在白宫开会,讨论废掉中国王牌?关键时刻,印度作出重要决断

8国在白宫开会,讨论废掉中国王牌?关键时刻,印度作出重要决断

博览历史
2026-01-07 18:03:20
TA:每当局势进入白热化时,曼城无法像过去那样重新掌控比赛

TA:每当局势进入白热化时,曼城无法像过去那样重新掌控比赛

懂球帝
2026-01-08 12:49:17
湖北夫妻档小吃摊年入超100万,已买房买车:每天炸500多根年糕、1100多根淀粉肠

湖北夫妻档小吃摊年入超100万,已买房买车:每天炸500多根年糕、1100多根淀粉肠

台州交通广播
2026-01-08 07:18:03
2026-01-08 14:07:00
带你学AI
带你学AI
分享最前沿AI知识,先进的AI工具
379文章数 8关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

委内瑞拉外长:感谢中方支持

头条要闻

委内瑞拉外长:感谢中方支持

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

不谈颠覆与奇迹,智驾企业还能聊点什么?

态度原创

家居
本地
旅游
教育
健康

家居要闻

理性主义 冷调自由居所

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

旅游要闻

报告:预计2025-2026冬季,我国冰雪旅游休闲收入有望达到4500亿元

教育要闻

孩子的科技教育怎么跟上时代?

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版