网易首页 > 网易号 > 正文 申请入驻

超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025

0
分享至



在视频编码领域,双向编码(RA 模式)一直是高效压缩的「秘密武器」,长期以来被广泛应用于点播、视频存储等场景。然而,在基于深度学习的智能视频编码中,这项技术也面临新的挑战:双向编码采用复杂的大跨度分层参考结构,这导致运动的精确处理变得困难,参考帧的价值利用也存在明显差异。双向智能视频编码的潜力远未被完全激发,仍有巨大的优化空间等待探索。

为破解上述难题,快手音视频技术团队提出了全新的双向智能视频编码方法 —— BRHVC。该方法不仅在压缩性能上显著超越业内最先进的端到端智能视频编码方案,也成功超越最新标准的 VTM-RA 编码。相关研究成果成功被人工智能领域顶级学术会议 NeurIPS 2025 录用。



  • 论文标题:Neural B-frame Video Compression with Bi-directional Reference Harmonization
  • 论文地址:
  • https://arxiv.org/abs/2511.08938

视频编码(又称视频压缩)的核心价值在于破解海量视频数据与有限传输、存储资源之间的根本矛盾。未压缩的高清视频码率高达 1-3 Gbps,1 分钟 4K 视频占用近 20 GB 空间,这种数据量远超现有网络带宽和存储设备的承受能力。

对此,视频编码通过消除时空冗余、量化视觉不敏感信息,将视频码率压缩至 1/100~1/1000,使短视频、直播、视频会议、云游戏等应用成为可能。从经济角度看,视频编码技术每年为行业节省数万亿带宽成本,降低数据中心能耗,让用户能享受到低码率高质量的视频服务。

背景:

从低时延模式到双向模式的扩展

视频编码中的低时延模式(Low Delay, LD)采用单向 P 帧编码,仅参考前一帧进行前向预测编码。该方法延迟较小,更适用于直播场景,可以满足实时交互需求,但压缩效率偏低。双向模式(Random Access, RA)采用双向分层 B 帧编码,每个 B 帧可同时参考前后两帧,利用时域上的双向信息,在相同画质下可比低延迟模式节省 20+% 码率,是点播、存储等高画质场景首选。

目前端到端智能视频编码方法主要针对 LD 模式进行优化,在 RA 模式上的研究还不够深入。这是由于 RA 模式的参考帧顺序有着独特的设计,与 LD 模式和其他基于深度学习的视频任务存在本质区别,研发难度更大,进而约束了 RA 模式的性能。为进一步提高双向编码的压缩性能,研究团队基于以下两个任务痛点做出了改进:

长跨度帧的运动处理



该问题的根源在于 RA 编码结构(如右图)固有的时间维度放大效应。与 LD 模式固定 1 帧的参考跨度不同,RA 模式采用分层 B 帧结构,初始层级的帧间隔随层级指数级增长,最高可达 32 帧距离。这种长时距使得运动幅度与复杂度呈非线性激增。当物体在 32 帧间隔内持续移动时,其位移可能超过数百像素,同时伴随遮挡、形变、光照变化等复杂现象。现有光流网络(如 SpyNet)基于局部相关性假设,感受野受限于卷积核尺寸,面对大位移运动时极易陷入局部最优,导致运动场估计出现「断裂」或「漂移」。

不平衡的参考贡献问题



长跨度下两个参考帧的信息价值存在显著差异,如何有效利用参考帧的这一特性是一个关键问题。目前的方法没有显式建模出两个参考帧的重要性权重,即预先认为两帧具有同等的参考价值,这与很多现实情况相悖。

以上图为例,在编码当前帧(如上图 (b))的「号码牌」时,左边的帧由于遮挡而无法提供有效的参考信息,只有右边的帧有足够的参考价值。为了进一步定量分析这种不平衡的参考贡献问题,研究团队设计了专门实验:



用参考左右两帧的双向模型作为基准,用 BD-rate 表示相同质量下测试算法码率相对基准码率的增加比例(越小越好)。上图横坐标表示帧跨度,红色柱体表示只输入两个参考帧中较差的帧,绿色柱体表示只输入两个参考帧中较好的帧,灰色表示两者的 BD-rate 差值。从图中可以看到,在帧跨度较大(即 32 和 16)时,不平衡的参考贡献问题非常严重,这将极大影响后续帧的编码效率。

算法设计



整体框架如图所示,研究团队提出一种创新的双向智能视频编码框架 BRHVC(Bi-directional Reference Harmonization Video Compression),其中提出包括双向运动聚合(Bi-directional Motion Converge, BMC)和双向上下文融合(Bi-directional Contexual Fusion, BCF)两个模块,有效解决了上述长跨度帧的运动难处理问题和参考贡献不平衡问题,从而显著提升了压缩性能。

双向运动聚合(BMC)



BMC 模块针对长跨度运动估计难题,将光流网络生成的多尺度光流(原始、1/2 分辨率、1/4 分辨率)收敛至单一隐变量进行联合压缩,并引入双向参考帧间的互运动特征作为先验,动态适配不同帧类型的信息需求。这种设计突破过往光流压缩的局限,使网络在解码端能重构出覆盖更大感受野的准确运动场,显著提升大位移场景下的运动补偿精度。



BMC 的可视化效果如上图所示,图左半部分表示长跨度的参考,右半部分表示短跨度的参考,上半部分表示所提 BRHVC 用到的 BMC 模块,下半部分表示基准 Baseline 模型。可以看到,BMC 对多尺度光流进行单独生成和整体压缩,可以有效避免大跨度下光流生成时遇到的光流杂乱错误的情况。

双向上下文融合(BCF)



BCF 模块则针对不平衡参考贡献问题,在编码端通过计算当前帧与双向运动补偿结果在像素域的相似度差异,生成空间自适应权重图与偏置项,将参考特征在通道维度按重要性重新加权融合;解码端则利用熵解码后的潜变量重建权重信息,实现与编码端协同。



上图展示了权重特征在不同帧跨度上的区别。可以看到,BCF 处理得到的显式权重建模很好地解决了长跨度帧的遮挡问题,使得所提的 BRHVC 能够聚焦更多注意力在更有参考价值的区域上,从而提高压缩性能。

总之,BRHVC 的两个关键模块形成递进式优化 —— BMC 提供高质量多尺度运动表征,BCF 在此基础上实现智能信息筛选,最终使 BRHVC 在 HEVC 数据集上超越 VTM-RA 编码,成功实现双向智能视频编码对传统标准的超越,具有重要意义。

实验效果





研究团队使用了业内标准数据集 HEVC Class B 至 E、UVG 及 MCL-JCV,分辨率跨度从 240p 到 1080p,并遵循 Intra Period 为 32 的配置以公平评估。实验对比涵盖了 H.265 标准编码器 HM-16.5、最新标准的 H.266 编码器 VTM-17.0 的 LD/RA 模式、最新的低时延智能视频编码方法(如 DCVC-DC、DCVC-FM 等)以及双向智能编码方法 DCVC-B。

结果表明,在 HEVC 数据集上,BRHVC 相比于传统编码器 VTM-LDB 平均实现 32.0% 的码率节省,其中在 Class D 序列上增益高达 44.7%;同时,BRHVC 相比于传统编码器 VTM-RA 实现 1.1% 的码率节省,在编码效率上成功超越 VTM-RA。



研究团队对 BRHVC 的两个模块进行了消融实验,结果表明 BMC 和 BCF 两个模块有着较高的解码收益性价比,能够获得相对基准模型约 12.3% 的显著码率节省。

总结

本研究系统梳理并深入剖析了双向智能视频压缩面临的核心挑战,特别是长跨度帧的运动处理和不平衡参考贡献问题。尽管传统预测编码能够借助前后参考帧显著提高压缩效率,但在长跨度场景下,参考帧之间的信息价值往往呈现明显异质性,使得模型难以充分发挥双向预测的潜在优势。

针对这一瓶颈,快手研究团队提出了全新的BRHVC 编码框架,通过引入双向运动融合(BMC)与双向上下文融合(BCF)两大关键创新模块,实现了对参考信息的自适应调和。得益于更精准的运动刻画和更均衡的参考融合机制,BRHVC 在压缩性能上超越最新传统标准VTM-RA编码器,取得了双向智能视频压缩领域的重要突破,也为未来智能视频编码的发展提供了新的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰好兄弟曝内情泣不成声,人民日报悼念官媒定义,卫健委追责

张雪峰好兄弟曝内情泣不成声,人民日报悼念官媒定义,卫健委追责

潮鹿逐梦
2026-03-26 10:55:41
已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

篮球大陆
2026-03-26 14:01:14
一家四口都是演员,妈妈演过《红楼梦》,大儿子是国家一级演员

一家四口都是演员,妈妈演过《红楼梦》,大儿子是国家一级演员

白面书誏
2026-03-24 14:40:27
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
两省省委领导班子调整

两省省委领导班子调整

上观新闻
2026-03-25 15:07:07
炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

澜归序
2026-03-26 06:08:07
中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

好笑娱乐君每一天
2026-03-26 01:22:35
光速掉粉!瑞幸被罗永浩坑惨了?!

光速掉粉!瑞幸被罗永浩坑惨了?!

广告案例精选
2026-03-26 08:59:17
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
演员张晋曝突发心脏病,血管堵塞80%!蔡少芬痛哭:我要成寡妇了?

演员张晋曝突发心脏病,血管堵塞80%!蔡少芬痛哭:我要成寡妇了?

小椰的奶奶
2026-03-26 15:15:39
白宫:美国总统特朗普将于5月访华

白宫:美国总统特朗普将于5月访华

辇毂
2026-03-26 05:18:40
朱丽丽8年敛财14亿,金融才女奢华生活终落幕

朱丽丽8年敛财14亿,金融才女奢华生活终落幕

日不西沉
2026-03-26 10:27:14
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
出轨的女人,你陪男人睡,不是因为你的美,是因为你的天真和廉价

出轨的女人,你陪男人睡,不是因为你的美,是因为你的天真和廉价

加油丁小文
2026-03-25 08:30:09
破防!小县城殡仪馆大屏流出,中年人扎堆离世,网友:还争什么?

破防!小县城殡仪馆大屏流出,中年人扎堆离世,网友:还争什么?

川渝视觉
2026-03-23 19:26:44
中东突发!刚刚,直线拉升

中东突发!刚刚,直线拉升

中国基金报
2026-03-26 12:35:21
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

火山詩话
2026-03-25 16:14:23
美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

距离距离
2026-03-25 16:53:55
2026-03-26 15:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
旅游
时尚
公开课
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

济南动物园“花朝荟”系列活动浪漫上演

皮衣+裙,高级到炸

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版