![]()
这项来自复旦大学、上海创新研究院和新加坡国立大学联合开展的突破性研究发表于2026年1月的arXiv平台,论文编号为arXiv:2601.14724v1。研究团队开发了一个名为HERMES的创新系统,首次让人工智能能够像人类一样处理连续的视频流,并实现真正意义上的实时交互。
当前的多模态大语言模型在理解预先录制好的短视频方面已经表现不俗,但面对源源不断的实时视频流时却显得力不从心。这就好比一个学生在考试时能很好地回答预先准备的题目,但面对突如其来的即兴提问却手忙脚乱。现有系统在处理视频流时往往需要在保持理解准确性、实现实时响应和控制内存开销三个目标之间做艰难的取舍,很难同时满足所有要求。
研究团队通过深入分析发现,传统方法的核心问题在于没有充分理解AI系统内部的"注意力机制"是如何工作的。他们通过细致的实验观察发现,AI模型在处理视频信息时,不同的"思考层次"会关注不同类型的信息,就像人类大脑的不同区域分工合作一样。基于这一发现,他们提出了HERMES系统,将AI的内存结构比作人类的分层记忆系统,让机器能够更加智能和高效地管理视频信息。
一、破解AI"注意力密码":发现视频记忆的三层结构
要理解HERMES的工作原理,首先需要了解研究团队的一个重要发现。他们对AI模型内部的"注意力机制"进行了深入研究,这个机制决定了AI在处理信息时会把注意力集中在哪些内容上。
研究团队选择了LLaVA-OV-7B这个先进的多模态AI模型作为研究对象,让它观看不同时长的视频(从62秒到3579秒不等),然后仔细分析当用户提问时,AI的不同"思考层次"会关注视频中的哪些部分。这就像观察一个人看电影时,大脑的不同区域在关注什么内容一样。
通过对300个视频问答对的详细分析,研究团队发现了一个令人惊讶的规律:AI模型的28个"思考层次"呈现出明显的分工模式,可以清晰地分为三个不同的记忆层次。
浅层区域(相当于人类的感觉记忆)表现出强烈的"新近偏好",就像人类对刚刚发生的事情印象最深刻一样。这些层次的注意力会急剧集中在最新出现的视频内容上,对较早的内容关注度快速衰减。这种行为完全符合人类感觉记忆的特点:能够快速捕捉和处理最新的感官输入信息。
深层区域(相当于人类的长期记忆)展现出完全不同的关注模式。它们不再偏向最新内容,而是以一种有规律的节奏关注特定的"锚点信息"。研究团队发现,这些锚点恰好对应着视频中每个独立帧的关键信息,间隔正好是196个数据单位(这是LLaVA-OV-7B编码单个视频帧所使用的标准长度)。这些锚点就像是每个画面的"摘要"或"标签",储存着该帧的核心视觉信息,为长期理解提供支撑。
中层区域(相当于人类的工作记忆)则起到了桥梁作用。它们逐渐减少对最新内容的偏好,同时开始向深层的节奏性模式转变。这种行为体现了工作记忆的特点:整合近期和较早的视觉信息,在短期感知和长期语义理解之间建立连接。
这一发现为研究团队提供了重要启示:既然AI模型天然地具备这种分层处理机制,为什么不充分利用这个特点来设计更高效的内存管理策略呢?
二、HERMES系统:让AI拥有"智慧记忆"
基于对AI注意力机制的深刻理解,研究团队设计了HERMES系统。这个系统的核心理念是将AI的内存缓存(KV Cache)重新构建为一个分层的记忆框架,让不同层次根据自己的"专长"来管理相应的信息。
HERMES系统包含三个核心组件,它们协同工作来实现高效的视频流处理。
第一个组件是分层KV缓存管理。这个组件为不同的记忆层次设计了专门的信息重要性评估方法。对于浅层的感觉记忆,系统采用了受艾宾浩斯遗忘曲线启发的指数衰减公式,优先保留最新的视频信息。具体来说,每个视频片段的重要性会根据时间间隔呈指数衰减,距离当前时间越近的内容重要性越高。
对于深层的长期记忆,系统直接利用注意力权重来评估信息重要性。由于深层区域的注意力分布相对稳定且稀疏,那些获得高注意力权重的"锚点"信息自然就是最重要的长期记忆内容。为了处理用户查询的不可预测性,系统使用了一个通用的指导提示作为"伪查询"来计算注意力权重。
对于中层的工作记忆,系统采用了一种渐进式的策略,通过插值计算将新近性和注意力权重进行权衡。随着层次的加深,新近性的权重逐渐降低,而注意力权重的影响逐渐增强,形成了一个平滑的过渡。
第二个组件是跨层记忆平滑机制。由于不同层次可能会独立地决定保留或丢弃某些信息,这可能导致同一视频片段在不同层次之间出现不一致的情况。为了解决这个问题,HERMES引入了跨层信息传播机制,让深层的"长期记忆决策"能够影响浅层的"短期记忆管理"。通过这种方式,系统能够保持不同层次之间的记忆一致性,避免重要信息的意外丢失。
第三个组件是位置重新索引机制。在连续的视频流处理过程中,随着新内容的不断加入和旧内容的逐渐淘汰,内存中的位置索引会变得支离破碎。这就像一本书的页码被随意打乱一样,会严重影响AI的理解能力。HERMES通过智能的重新索引算法,始终保持内存中位置信息的连续性和一致性,确保AI能够正确理解视频内容的时序关系。
为了进一步优化长期记忆的存储效率,HERMES还引入了"摘要令牌"机制。当某些视频内容被从缓存中移除时,系统会将这些内容的关键信息压缩成一个紧凑的摘要,继续保留在内存中。这就像是为每个被"遗忘"的内容制作一个简短的备忘录,既节省了存储空间,又保留了重要的历史信息。
三、实验验证:在多个维度实现突破性表现
为了全面验证HERMES系统的效果,研究团队在多个不同类型的数据集上进行了广泛的实验测试。这些测试涵盖了从实时视频流理解到离线视频分析的各种场景,确保系统在不同应用环境下都能保持优秀的表现。
在实时视频流理解方面,研究团队选择了三个专门设计的基准测试:StreamingBench、OVO-Bench和RVS系列。这些测试模拟了真实世界中的各种视频流应用场景,从实时视觉感知到回溯分析,从自我中心视角的日常活动到电影场景理解。
在StreamingBench测试中,HERMES展现出了显著的性能提升。以Qwen2.5-VL-7B模型为基础,HERMES在仅使用4000个视频令牌的情况下,就达到了79.44%和59.21%的准确率,比基础模型分别提升了6.13%和6.93%。更重要的是,这一表现超越了所有同等规模的开源在线和离线模型,证明了HERMES设计理念的先进性。
在OVO-Bench的测试中,HERMES在实时视觉感知和回溯跟踪任务上都表现出色。这个测试特别考验AI模型对视频时序信息的理解能力,以及在不同时间点提取相关信息的能力。HERMES通过其分层记忆机制,能够同时保持对最新信息的敏感度和对历史信息的准确回忆。
在RVS系列测试中,研究团队采用了开放式问答的评估方式,使用GPT-3.5-turbo对模型回答进行评分。结果显示,HERMES在准确性和答案质量方面都持续超越之前的训练免费方法,准确率提升幅度高达11.4%。这表明HERMES不仅能够理解视频内容,还能够生成更加准确和详细的回答。
研究团队还通过具体的案例分析展示了HERMES的优势。在时间理解方面,当被问及"供应沙威玛之前的直接步骤是什么?"时,基础的LLaVA-OV模型只能给出笼统的回答"将烹饪好的沙威玛放在盘子里",而HERMES能够提供更加精确的答案"添加配菜和调料"。在空间理解方面,面对"母亲在哪里为她的疑虑寻求帮助?"这样的问题,基础模型只能识别出"医生"标志,而HERMES能够更准确地描述"在一个穿西装的男人的办公室"。
在离线视频理解方面,HERMES同样表现出色。在MVBench、Egoschema和VideoMME这三个具有挑战性的基准测试中,即使在有限的视频令牌预算下,HERMES也能达到与基础模型相当甚至更好的性能表现。
四、效率革命:实现真正的实时交互
HERMES最令人印象深刻的成就之一是在效率方面的突破。研究团队通过多个关键指标来评估系统的实际表现:峰值GPU内存使用量、首次令牌时间(从用户输入查询到输出第一个回答令牌的延迟)以及每个输出令牌的时间消耗。
在内存使用方面,HERMES展现出了出色的稳定性。无论输入视频的长度如何变化,系统都能保持恒定且紧凑的GPU内存占用。当处理256帧视频时,HERMES相比之前最先进的LiveVLM方法实现了1.04倍的内存使用减少。更重要的是,随着视频长度的增加,HERMES的内存使用量保持稳定,而其他方法的内存需求则会不断攀升,最终可能导致内存溢出错误。
在响应速度方面,HERMES实现了革命性的提升。相比之前最先进的StreamingTOM方法,HERMES在首次令牌时间上实现了惊人的10倍提速。具体来说,即使在处理长达512帧的视频时,HERMES仍能保持低于30毫秒的响应延迟,这已经达到了真正实时交互的标准。
这种高效性的关键在于HERMES的设计理念:它不需要在用户提出查询时进行任何额外的计算或检索操作。传统的方法通常需要在接收到用户问题后,临时从外部存储中检索相关信息,或者重新计算某些中间结果,这些操作都会显著增加响应延迟。而HERMES通过智能的缓存管理,确保所有必要的信息都已经以最优化的形式存储在内存中,随时可以直接使用。
研究团队还测试了不同视频块大小对系统性能的影响。结果表明,无论是处理8帧一组还是16帧一组的视频块,HERMES都能保持稳定的性能表现。这种适应性使得系统能够灵活地应对不同的应用场景和硬件配置需求。
特别值得注意的是,HERMES实现了一个看似不可能的平衡:在大幅减少视频令牌数量(相比均匀采样减少高达68%)的同时,不仅没有损失理解准确性,反而在多个测试中实现了性能提升。这就像是一个厨师用更少的食材做出了更美味的菜肴,充分体现了智能算法设计的威力。
五、深入解析:系统设计的巧思
为了更好地理解HERMES为何能够取得如此出色的表现,让我们深入了解其核心设计思想和实现细节。
HERMES的分层管理策略充分体现了"因地制宜"的设计哲学。对于浅层的感觉记忆,系统采用基于遗忘曲线的指数衰减模型。这个模型的灵感来源于著名的艾宾浩斯遗忘曲线,该曲线描述了人类记忆随时间衰减的规律。在HERMES中,每个视频令牌的重要性得分会根据其时间距离进行指数衰减计算,确保最新的信息获得最高的保留优先级。
对于深层的长期记忆,HERMES采用了基于注意力权重的选择策略。由于深层网络的注意力分布通常比较稀疏且稳定,那些持续获得高注意力权重的内容往往包含了最重要的语义信息。系统通过分析这些注意力模式,能够自动识别出视频中的关键帧和重要内容,确保长期记忆的质量和相关性。
中层工作记忆的管理则更加复杂和精妙。系统通过一个动态插值公式,将新近性偏好和注意力权重进行智能融合。随着网络层次的加深,插值权重会逐渐从新近性偏向转移到注意力权重偏向,形成一个平滑的过渡梯度。这种设计确保了不同层次之间的记忆策略能够自然衔接,避免了突兀的策略切换。
跨层记忆平滑机制是HERMES的另一个创新亮点。在传统的缓存管理中,不同层次的决策是相互独立的,这可能导致同一视频片段在某些层次被保留而在其他层次被丢弃,造成信息不一致。HERMES通过引入层间信息传播机制,让深层的"长期记忆决策"能够向浅层传播,确保整个系统的记忆策略保持协调一致。
位置重新索引机制解决了另一个关键的技术挑战。在连续的视频流处理中,随着内容的不断更新,缓存中的位置索引会变得支离破碎。这不仅会影响模型的理解能力,还可能导致位置索引超出模型的支持范围。HERMES通过智能的重新索引算法,始终保持位置信息的连续性,同时通过增量式的旋转修正来避免重新计算的开销。
六、性能对比:全面超越现有方案
通过与现有技术的详细对比,HERMES的优势变得更加明显。研究团队将HERMES与多种不同类型的方法进行了比较,包括专有的商业模型(如GPT-4o、Gemini 1.5 Pro)、开源的离线模型以及其他训练免费的在线方法。
在与商业模型的比较中,HERMES展现出了强大的竞争力。以StreamingBench测试为例,虽然商业模型如Gemini 1.5 Pro达到了75.69%的准确率,但HERMES基于Qwen2.5-VL-7B实现了79.44%的表现,显著超越了这些需要大量计算资源的商业解决方案。更重要的是,HERMES作为一个可以在单个GPU上运行的开源方案,在实际部署成本上具有显著优势。
与其他开源离线模型的比较同样令人印象深刻。传统的离线模型如LLaVA-NeXT-Video-32B虽然在某些测试中表现不错,但它们无法处理实时视频流,且需要预先知道完整的视频内容。相比之下,HERMES不仅能够处理连续的视频流,还在准确性上实现了超越。
在与其他训练免费方法的比较中,HERMES的优势更加突出。ReKV和LiveVLM等方法虽然也尝试解决实时视频理解问题,但它们通常需要在用户查询时进行额外的检索操作,这不仅增加了响应延迟,还需要额外的计算资源。HERMES通过其智能的缓存管理策略,完全避免了这些额外开销。
特别值得关注的是HERMES在不同规模模型上的一致性表现。无论是在7B参数的中等规模模型上,还是在32B参数的大规模模型上,HERMES都能带来显著的性能提升。这表明HERMES的设计原理具有良好的通用性和可扩展性,能够适应不同的模型架构和应用需求。
在具体的任务类别分析中,HERMES在几乎所有子任务上都展现出了改进。在对象感知、因果推理、片段总结、属性感知等各个方面,HERMES都能够提供更加准确和细致的理解。这种全面的提升表明HERMES不是针对特定任务的优化,而是一个真正通用的视频理解增强方案。
七、技术创新的深层价值
HERMES系统的成功不仅仅在于其优秀的性能表现,更在于它所体现的技术创新思路和对未来发展的启示价值。
这项研究的最重要贡献之一是对AI内部机制的深刻洞察。通过系统性地分析多层注意力机制的行为模式,研究团队揭示了AI模型在处理时序信息时的内在规律。这种"白盒化"的分析方法为理解和改进AI系统提供了新的视角,也为后续的研究工作奠定了重要基础。
HERMES提出的分层记忆框架具有重要的理论意义。它将认知科学中关于人类记忆系统的理解融入到AI系统设计中,实现了生物启发和工程实现的完美结合。这种跨学科的融合不仅解决了当前的技术问题,也为未来的AI系统设计提供了新的思路。
从工程实践的角度来看,HERMES展示了"训练免费"方法的巨大潜力。在当前AI模型训练成本日益高昂的背景下,能够通过巧妙的算法设计而非大量数据训练来提升性能,具有重要的实用价值。这种方法不仅降低了技术门槛,也为资源有限的研究团队和应用开发者提供了新的可能性。
HERMES的设计理念还体现了对实际应用需求的深刻理解。真正的实时视频理解不仅要求高准确性,更要求低延迟和稳定的资源消耗。HERMES通过统一的框架同时解决了这些看似矛盾的需求,为实际的产业应用铺平了道路。
八、未来应用前景与挑战
HERMES技术的成功为众多实际应用领域开启了新的可能性。在智能监控领域,HERMES能够实现真正的实时视频分析,及时发现异常情况并做出响应。在自动驾驶汽车中,这种技术可以帮助车辆更好地理解复杂的交通环境,提高行驶安全性。在直播和视频会议应用中,HERMES可以提供实时的内容理解和智能辅助功能。
在教育领域,HERMES可以用于开发智能的在线学习系统,实时分析学生的学习状态和理解程度,提供个性化的学习建议。在医疗健康领域,这种技术可以应用于远程医疗和健康监护,通过实时视频分析来评估患者状态。
然而,HERMES的广泛应用仍然面临一些挑战。首先是不同应用场景对性能要求的差异性。某些关键应用可能需要更高的准确性保证,而另一些应用可能更注重处理速度。如何根据具体需求调整HERMES的配置参数,是一个需要进一步研究的问题。
其次是大规模部署的工程化挑战。虽然HERMES在实验环境中表现出色,但在实际的生产环境中,还需要考虑系统的稳定性、可靠性和可维护性等因素。如何将研究成果转化为稳定可靠的产品,是技术落地过程中的重要课题。
此外,随着视频内容复杂性的不断增加和用户需求的日益多样化,HERMES还需要在适应性和通用性方面继续改进。如何让系统更好地适应不同类型的视频内容和查询模式,是未来发展的重要方向。
说到底,HERMES代表的不仅仅是一个技术解决方案,更是一种全新的思考方式。它告诉我们,通过深入理解AI系统的内在机制,结合认知科学的理论指导,我们可以设计出更加智能和高效的算法。这种"理解先行、设计跟上"的研究理念,为AI技术的未来发展指明了方向。
HERMES的成功也提醒我们,真正有价值的技术创新往往来自于对基础问题的深入思考,而不是简单的模型规模扩大或数据量增加。在追求更大更强的AI模型的同时,我们也应该关注如何让AI系统变得更加智能和高效。毕竟,技术的最终目标是服务于人类的实际需求,而HERMES正是朝着这个目标迈出的重要一步。
Q&A
Q1:HERMES系统的核心创新是什么?
A:HERMES的核心创新是将AI的KV缓存重新设计为分层记忆系统,模拟人类大脑的感觉记忆、工作记忆和长期记忆。通过分析AI模型内部的注意力机制,让不同层次专门处理不同类型的视频信息,从而实现高效的实时视频流理解。
Q2:HERMES相比传统方法有哪些具体优势?
A:HERMES实现了10倍的响应速度提升,内存使用减少68%,同时准确率还提高了11.4%。最重要的是,它不需要在用户提问时进行额外计算或检索,能够真正实现实时交互,而且是完全免训练的即插即用方案。
Q3:HERMES技术可以应用在哪些实际场景中?
A:HERMES可以广泛应用于智能监控、自动驾驶、直播分析、在线教育、远程医疗等需要实时视频理解的场景。任何需要AI系统持续观看视频流并及时回答用户问题的应用,都可以从这项技术中受益。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.