网易首页 > 网易号 > 正文 申请入驻

超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025

0
分享至

来源:市场资讯

(来源:机器之心)


在视频编码领域,双向编码(RA 模式)一直是高效压缩的「秘密武器」,长期以来被广泛应用于点播、视频存储等场景。然而,在基于深度学习的智能视频编码中,这项技术也面临新的挑战:双向编码采用复杂的大跨度分层参考结构,这导致运动的精确处理变得困难,参考帧的价值利用也存在明显差异。双向智能视频编码的潜力远未被完全激发,仍有巨大的优化空间等待探索。

为破解上述难题,快手音视频技术团队提出了全新的双向智能视频编码方法 —— BRHVC。该方法不仅在压缩性能上显著超越业内最先进的端到端智能视频编码方案,也成功超越最新标准的 VTM-RA 编码。相关研究成果成功被人工智能领域顶级学术会议 NeurIPS 2025 录用。


  • 论文标题:Neural B-frame Video Compression with Bi-directional Reference Harmonization

  • 论文地址:https://arxiv.org/abs/2511.08938

视频编码(又称视频压缩)的核心价值在于破解海量视频数据与有限传输、存储资源之间的根本矛盾。未压缩的高清视频码率高达 1-3 Gbps,1 分钟 4K 视频占用近 20 GB 空间,这种数据量远超现有网络带宽和存储设备的承受能力。

对此,视频编码通过消除时空冗余、量化视觉不敏感信息,将视频码率压缩至 1/100~1/1000,使短视频、直播、视频会议、云游戏等应用成为可能。从经济角度看,视频编码技术每年为行业节省数万亿带宽成本,降低数据中心能耗,让用户能享受到低码率高质量的视频服务。

背景:

从低时延模式到双向模式的扩展

视频编码中的低时延模式(Low Delay, LD)采用单向 P 帧编码,仅参考前一帧进行前向预测编码。该方法延迟较小,更适用于直播场景,可以满足实时交互需求,但压缩效率偏低。双向模式(Random Access, RA)采用双向分层 B 帧编码,每个 B 帧可同时参考前后两帧,利用时域上的双向信息,在相同画质下可比低延迟模式节省 20+% 码率,是点播、存储等高画质场景首选。

目前端到端智能视频编码方法主要针对 LD 模式进行优化,在 RA 模式上的研究还不够深入。这是由于 RA 模式的参考帧顺序有着独特的设计,与 LD 模式和其他基于深度学习的视频任务存在本质区别,研发难度更大,进而约束了 RA 模式的性能。为进一步提高双向编码的压缩性能,研究团队基于以下两个任务痛点做出了改进:

长跨度帧的运动处理


该问题的根源在于 RA 编码结构(如右图)固有的时间维度放大效应。与 LD 模式固定 1 帧的参考跨度不同,RA 模式采用分层 B 帧结构,初始层级的帧间隔随层级指数级增长,最高可达 32 帧距离。这种长时距使得运动幅度与复杂度呈非线性激增。当物体在 32 帧间隔内持续移动时,其位移可能超过数百像素,同时伴随遮挡、形变、光照变化等复杂现象。现有光流网络(如 SpyNet)基于局部相关性假设,感受野受限于卷积核尺寸,面对大位移运动时极易陷入局部最优,导致运动场估计出现「断裂」或「漂移」。

不平衡的参考贡献问题


长跨度下两个参考帧的信息价值存在显著差异,如何有效利用参考帧的这一特性是一个关键问题。目前的方法没有显式建模出两个参考帧的重要性权重,即预先认为两帧具有同等的参考价值,这与很多现实情况相悖。

以上图为例,在编码当前帧(如上图 (b))的「号码牌」时,左边的帧由于遮挡而无法提供有效的参考信息,只有右边的帧有足够的参考价值。为了进一步定量分析这种不平衡的参考贡献问题,研究团队设计了专门实验:


用参考左右两帧的双向模型作为基准,用 BD-rate 表示相同质量下测试算法码率相对基准码率的增加比例(越小越好)。上图横坐标表示帧跨度,红色柱体表示只输入两个参考帧中较差的帧,绿色柱体表示只输入两个参考帧中较好的帧,灰色表示两者的 BD-rate 差值。从图中可以看到,在帧跨度较大(即 32 和 16)时,不平衡的参考贡献问题非常严重,这将极大影响后续帧的编码效率。

算法设计


整体框架如图所示,研究团队提出一种创新的双向智能视频编码框架 BRHVC(Bi-directional Reference Harmonization Video Compression),其中提出包括双向运动聚合(Bi-directional Motion Converge, BMC)和双向上下文融合(Bi-directional Contexual Fusion, BCF)两个模块,有效解决了上述长跨度帧的运动难处理问题和参考贡献不平衡问题,从而显著提升了压缩性能。

双向运动聚合(BMC)


BMC 模块针对长跨度运动估计难题,将光流网络生成的多尺度光流(原始、1/2 分辨率、1/4 分辨率)收敛至单一隐变量进行联合压缩,并引入双向参考帧间的互运动特征作为先验,动态适配不同帧类型的信息需求。这种设计突破过往光流压缩的局限,使网络在解码端能重构出覆盖更大感受野的准确运动场,显著提升大位移场景下的运动补偿精度。


BMC 的可视化效果如上图所示,图左半部分表示长跨度的参考,右半部分表示短跨度的参考,上半部分表示所提 BRHVC 用到的 BMC 模块,下半部分表示基准 Baseline 模型。可以看到,BMC 对多尺度光流进行单独生成和整体压缩,可以有效避免大跨度下光流生成时遇到的光流杂乱错误的情况。

双向上下文融合(BCF)


BCF 模块则针对不平衡参考贡献问题,在编码端通过计算当前帧与双向运动补偿结果在像素域的相似度差异,生成空间自适应权重图与偏置项,将参考特征在通道维度按重要性重新加权融合;解码端则利用熵解码后的潜变量重建权重信息,实现与编码端协同。


上图展示了权重特征在不同帧跨度上的区别。可以看到,BCF 处理得到的显式权重建模很好地解决了长跨度帧的遮挡问题,使得所提的 BRHVC 能够聚焦更多注意力在更有参考价值的区域上,从而提高压缩性能。

总之,BRHVC 的两个关键模块形成递进式优化 —— BMC 提供高质量多尺度运动表征,BCF 在此基础上实现智能信息筛选,最终使 BRHVC 在 HEVC 数据集上超越 VTM-RA 编码,成功实现双向智能视频编码对传统标准的超越,具有重要意义。

实验效果



研究团队使用了业内标准数据集 HEVC Class B 至 E、UVG 及 MCL-JCV,分辨率跨度从 240p 到 1080p,并遵循 Intra Period 为 32 的配置以公平评估。实验对比涵盖了 H.265 标准编码器 HM-16.5、最新标准的 H.266 编码器 VTM-17.0 的 LD/RA 模式、最新的低时延智能视频编码方法(如 DCVC-DC、DCVC-FM 等)以及双向智能编码方法 DCVC-B。

结果表明,在 HEVC 数据集上,BRHVC 相比于传统编码器 VTM-LDB 平均实现 32.0% 的码率节省,其中在 Class D 序列上增益高达 44.7%;同时,BRHVC 相比于传统编码器 VTM-RA 实现 1.1% 的码率节省,在编码效率上成功超越 VTM-RA。


研究团队对 BRHVC 的两个模块进行了消融实验,结果表明 BMC 和 BCF 两个模块有着较高的解码收益性价比,能够获得相对基准模型约 12.3% 的显著码率节省。

总结

本研究系统梳理并深入剖析了双向智能视频压缩面临的核心挑战,特别是长跨度帧的运动处理和不平衡参考贡献问题。尽管传统预测编码能够借助前后参考帧显著提高压缩效率,但在长跨度场景下,参考帧之间的信息价值往往呈现明显异质性,使得模型难以充分发挥双向预测的潜在优势。

针对这一瓶颈,快手研究团队提出了全新的 BRHVC 编码框架,通过引入双向运动融合(BMC)与双向上下文融合(BCF)两大关键创新模块,实现了对参考信息的自适应调和。得益于更精准的运动刻画和更均衡的参考融合机制,BRHVC 在压缩性能上超越最新传统标准 VTM-RA 编码器,取得了双向智能视频压缩领域的重要突破,也为未来智能视频编码的发展提供了新的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大三女孩与同居男友争吵后去江边溺亡,家属索赔百万!法院酌情认定男友赔8万

大三女孩与同居男友争吵后去江边溺亡,家属索赔百万!法院酌情认定男友赔8万

红星新闻
2026-01-21 14:09:16
A股:大盘4116点收盘,缩量上涨意味着什么?明天行情这样走!

A股:大盘4116点收盘,缩量上涨意味着什么?明天行情这样走!

云鹏叙事
2026-01-21 16:10:35
湖人115-107掘金!詹姆斯讲出两大关键点,东契奇表态成重中之重

湖人115-107掘金!詹姆斯讲出两大关键点,东契奇表态成重中之重

鱼崖大话篮球
2026-01-21 18:26:18
日本进决赛后,东南亚球迷:越南夺冠机会来了!中国队首发大变动

日本进决赛后,东南亚球迷:越南夺冠机会来了!中国队首发大变动

侃球熊弟
2026-01-20 22:29:39
当庭逮捕!韩国前总理韩德洙一审被判23年

当庭逮捕!韩国前总理韩德洙一审被判23年

观察者网
2026-01-21 15:09:05
两年了,为何许家印迟迟不判刑?真相比你想象的更复杂!

两年了,为何许家印迟迟不判刑?真相比你想象的更复杂!

李云飞Afey
2026-01-20 11:43:34
孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

娱乐领航家
2026-01-09 22:00:03
春节越来越近,最近社会上出现了3个反常现象,大家发现没有?

春节越来越近,最近社会上出现了3个反常现象,大家发现没有?

福建平子
2026-01-21 13:59:19
”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

张晓磊
2025-11-07 11:34:05
医生:一旦到了78岁,就算身体比较健康,平时也要注意这6个细节

医生:一旦到了78岁,就算身体比较健康,平时也要注意这6个细节

健康科普365
2026-01-12 09:06:51
钱再多有什么用?87岁李双江一家4口的现状,给所有男人提了个醒

钱再多有什么用?87岁李双江一家4口的现状,给所有男人提了个醒

近史谈
2026-01-21 12:03:54
最帅升旗手张自轩结婚后在村里走亲戚,又黑又老变胖彻底沦为素人

最帅升旗手张自轩结婚后在村里走亲戚,又黑又老变胖彻底沦为素人

温读史
2026-01-18 06:21:20
特朗普捞钱捞到中国头上,中方大方承认受邀,12个字打发美国人

特朗普捞钱捞到中国头上,中方大方承认受邀,12个字打发美国人

策前论
2026-01-21 15:05:11
侯耀华办80大寿!穿金黄马褂派头足,现场开心收礼,儿子至亲没来

侯耀华办80大寿!穿金黄马褂派头足,现场开心收礼,儿子至亲没来

八斗小先生
2026-01-20 11:57:04
哈佛女孩怒斥牢A,直言斩杀线不存在,润人急了……

哈佛女孩怒斥牢A,直言斩杀线不存在,润人急了……

公子故事会
2026-01-21 18:33:09
快讯!韩媒:韩国法院判处韩国前国务总理韩德洙有期徒刑23年

快讯!韩媒:韩国法院判处韩国前国务总理韩德洙有期徒刑23年

环球网资讯
2026-01-21 14:22:08
英特尔赢得美国军方大单:最高上限1510亿美元!

英特尔赢得美国军方大单:最高上限1510亿美元!

芯智讯
2026-01-21 08:53:40
自助餐为什么吃不回本?内部员工透露:进门开始,你就已经被套路

自助餐为什么吃不回本?内部员工透露:进门开始,你就已经被套路

平说财经
2026-01-19 16:48:32
章泽天现身2026冬季达沃斯,看着还是挺幼稚的,花架子没有内涵!

章泽天现身2026冬季达沃斯,看着还是挺幼稚的,花架子没有内涵!

小娱乐悠悠
2026-01-21 09:06:16
连续16个涨停板!股民:哭晕在厕所了!

连续16个涨停板!股民:哭晕在厕所了!

数据挖掘分析
2026-01-21 15:22:54
2026-01-21 19:16:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057571文章数 5292关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

欧盟被指有意将中企排除出欧洲移动通信网络 中方回应

头条要闻

欧盟被指有意将中企排除出欧洲移动通信网络 中方回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

西贝估值100亿?最新融资约13亿元

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

手机
房产
家居
亲子
公开课

手机要闻

iPhone17全系国内激活破1700万,Pro Max机型激活超785万台

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

家居要闻

褪去浮华 触达松弛与欣喜

亲子要闻

“A娃”越来越多?儿童神内专家秦炯详解“多动症”的误区与真相

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版