网易首页 > 网易号 > 正文 申请入驻

超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025

0
分享至

来源:市场资讯

(来源:机器之心)


在视频编码领域,双向编码(RA 模式)一直是高效压缩的「秘密武器」,长期以来被广泛应用于点播、视频存储等场景。然而,在基于深度学习的智能视频编码中,这项技术也面临新的挑战:双向编码采用复杂的大跨度分层参考结构,这导致运动的精确处理变得困难,参考帧的价值利用也存在明显差异。双向智能视频编码的潜力远未被完全激发,仍有巨大的优化空间等待探索。

为破解上述难题,快手音视频技术团队提出了全新的双向智能视频编码方法 —— BRHVC。该方法不仅在压缩性能上显著超越业内最先进的端到端智能视频编码方案,也成功超越最新标准的 VTM-RA 编码。相关研究成果成功被人工智能领域顶级学术会议 NeurIPS 2025 录用。


  • 论文标题:Neural B-frame Video Compression with Bi-directional Reference Harmonization

  • 论文地址:https://arxiv.org/abs/2511.08938

视频编码(又称视频压缩)的核心价值在于破解海量视频数据与有限传输、存储资源之间的根本矛盾。未压缩的高清视频码率高达 1-3 Gbps,1 分钟 4K 视频占用近 20 GB 空间,这种数据量远超现有网络带宽和存储设备的承受能力。

对此,视频编码通过消除时空冗余、量化视觉不敏感信息,将视频码率压缩至 1/100~1/1000,使短视频、直播、视频会议、云游戏等应用成为可能。从经济角度看,视频编码技术每年为行业节省数万亿带宽成本,降低数据中心能耗,让用户能享受到低码率高质量的视频服务。

背景:

从低时延模式到双向模式的扩展

视频编码中的低时延模式(Low Delay, LD)采用单向 P 帧编码,仅参考前一帧进行前向预测编码。该方法延迟较小,更适用于直播场景,可以满足实时交互需求,但压缩效率偏低。双向模式(Random Access, RA)采用双向分层 B 帧编码,每个 B 帧可同时参考前后两帧,利用时域上的双向信息,在相同画质下可比低延迟模式节省 20+% 码率,是点播、存储等高画质场景首选。

目前端到端智能视频编码方法主要针对 LD 模式进行优化,在 RA 模式上的研究还不够深入。这是由于 RA 模式的参考帧顺序有着独特的设计,与 LD 模式和其他基于深度学习的视频任务存在本质区别,研发难度更大,进而约束了 RA 模式的性能。为进一步提高双向编码的压缩性能,研究团队基于以下两个任务痛点做出了改进:

长跨度帧的运动处理


该问题的根源在于 RA 编码结构(如右图)固有的时间维度放大效应。与 LD 模式固定 1 帧的参考跨度不同,RA 模式采用分层 B 帧结构,初始层级的帧间隔随层级指数级增长,最高可达 32 帧距离。这种长时距使得运动幅度与复杂度呈非线性激增。当物体在 32 帧间隔内持续移动时,其位移可能超过数百像素,同时伴随遮挡、形变、光照变化等复杂现象。现有光流网络(如 SpyNet)基于局部相关性假设,感受野受限于卷积核尺寸,面对大位移运动时极易陷入局部最优,导致运动场估计出现「断裂」或「漂移」。

不平衡的参考贡献问题


长跨度下两个参考帧的信息价值存在显著差异,如何有效利用参考帧的这一特性是一个关键问题。目前的方法没有显式建模出两个参考帧的重要性权重,即预先认为两帧具有同等的参考价值,这与很多现实情况相悖。

以上图为例,在编码当前帧(如上图 (b))的「号码牌」时,左边的帧由于遮挡而无法提供有效的参考信息,只有右边的帧有足够的参考价值。为了进一步定量分析这种不平衡的参考贡献问题,研究团队设计了专门实验:


用参考左右两帧的双向模型作为基准,用 BD-rate 表示相同质量下测试算法码率相对基准码率的增加比例(越小越好)。上图横坐标表示帧跨度,红色柱体表示只输入两个参考帧中较差的帧,绿色柱体表示只输入两个参考帧中较好的帧,灰色表示两者的 BD-rate 差值。从图中可以看到,在帧跨度较大(即 32 和 16)时,不平衡的参考贡献问题非常严重,这将极大影响后续帧的编码效率。

算法设计


整体框架如图所示,研究团队提出一种创新的双向智能视频编码框架 BRHVC(Bi-directional Reference Harmonization Video Compression),其中提出包括双向运动聚合(Bi-directional Motion Converge, BMC)和双向上下文融合(Bi-directional Contexual Fusion, BCF)两个模块,有效解决了上述长跨度帧的运动难处理问题和参考贡献不平衡问题,从而显著提升了压缩性能。

双向运动聚合(BMC)


BMC 模块针对长跨度运动估计难题,将光流网络生成的多尺度光流(原始、1/2 分辨率、1/4 分辨率)收敛至单一隐变量进行联合压缩,并引入双向参考帧间的互运动特征作为先验,动态适配不同帧类型的信息需求。这种设计突破过往光流压缩的局限,使网络在解码端能重构出覆盖更大感受野的准确运动场,显著提升大位移场景下的运动补偿精度。


BMC 的可视化效果如上图所示,图左半部分表示长跨度的参考,右半部分表示短跨度的参考,上半部分表示所提 BRHVC 用到的 BMC 模块,下半部分表示基准 Baseline 模型。可以看到,BMC 对多尺度光流进行单独生成和整体压缩,可以有效避免大跨度下光流生成时遇到的光流杂乱错误的情况。

双向上下文融合(BCF)


BCF 模块则针对不平衡参考贡献问题,在编码端通过计算当前帧与双向运动补偿结果在像素域的相似度差异,生成空间自适应权重图与偏置项,将参考特征在通道维度按重要性重新加权融合;解码端则利用熵解码后的潜变量重建权重信息,实现与编码端协同。


上图展示了权重特征在不同帧跨度上的区别。可以看到,BCF 处理得到的显式权重建模很好地解决了长跨度帧的遮挡问题,使得所提的 BRHVC 能够聚焦更多注意力在更有参考价值的区域上,从而提高压缩性能。

总之,BRHVC 的两个关键模块形成递进式优化 —— BMC 提供高质量多尺度运动表征,BCF 在此基础上实现智能信息筛选,最终使 BRHVC 在 HEVC 数据集上超越 VTM-RA 编码,成功实现双向智能视频编码对传统标准的超越,具有重要意义。

实验效果



研究团队使用了业内标准数据集 HEVC Class B 至 E、UVG 及 MCL-JCV,分辨率跨度从 240p 到 1080p,并遵循 Intra Period 为 32 的配置以公平评估。实验对比涵盖了 H.265 标准编码器 HM-16.5、最新标准的 H.266 编码器 VTM-17.0 的 LD/RA 模式、最新的低时延智能视频编码方法(如 DCVC-DC、DCVC-FM 等)以及双向智能编码方法 DCVC-B。

结果表明,在 HEVC 数据集上,BRHVC 相比于传统编码器 VTM-LDB 平均实现 32.0% 的码率节省,其中在 Class D 序列上增益高达 44.7%;同时,BRHVC 相比于传统编码器 VTM-RA 实现 1.1% 的码率节省,在编码效率上成功超越 VTM-RA。


研究团队对 BRHVC 的两个模块进行了消融实验,结果表明 BMC 和 BCF 两个模块有着较高的解码收益性价比,能够获得相对基准模型约 12.3% 的显著码率节省。

总结

本研究系统梳理并深入剖析了双向智能视频压缩面临的核心挑战,特别是长跨度帧的运动处理和不平衡参考贡献问题。尽管传统预测编码能够借助前后参考帧显著提高压缩效率,但在长跨度场景下,参考帧之间的信息价值往往呈现明显异质性,使得模型难以充分发挥双向预测的潜在优势。

针对这一瓶颈,快手研究团队提出了全新的 BRHVC 编码框架,通过引入双向运动融合(BMC)与双向上下文融合(BCF)两大关键创新模块,实现了对参考信息的自适应调和。得益于更精准的运动刻画和更均衡的参考融合机制,BRHVC 在压缩性能上超越最新传统标准 VTM-RA 编码器,取得了双向智能视频压缩领域的重要突破,也为未来智能视频编码的发展提供了新的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大批美国游客涌入中国,打着采购的幌子,真实目的竟让美国难堪?

大批美国游客涌入中国,打着采购的幌子,真实目的竟让美国难堪?

小玡说故事
2026-03-06 14:45:37
火箭五子球队地位或发生变化 乌度卡的调整 意识到问题的严重性

火箭五子球队地位或发生变化 乌度卡的调整 意识到问题的严重性

大话火箭队
2026-03-07 15:51:24
又一男星组团选妃?他恐成下一个弃子……

又一男星组团选妃?他恐成下一个弃子……

毒舌八卦
2026-03-07 23:23:32
鲁山孙艺菲案迎来转机!当事人接到一个电话,真相慢慢浮出水面?

鲁山孙艺菲案迎来转机!当事人接到一个电话,真相慢慢浮出水面?

千言娱乐记
2026-03-07 22:27:26
蒋介石逃往台湾,亲自点名要带走的3位女性,她们的结局如何?

蒋介石逃往台湾,亲自点名要带走的3位女性,她们的结局如何?

兵鉴史
2026-03-07 06:38:09
只打1分钟就骨折!绿衫军乐极生悲,主力中锋伤停1个月

只打1分钟就骨折!绿衫军乐极生悲,主力中锋伤停1个月

德译洋洋
2026-03-07 12:03:37
日本的“富人地理学”

日本的“富人地理学”

徐静波静说日本
2026-03-08 08:00:09
我随口说存款只有两万,四天后,哥哥一家三口就找上了门

我随口说存款只有两万,四天后,哥哥一家三口就找上了门

晓艾故事汇
2026-03-07 15:18:45
被当成中国人!日本球员遭遇种族歧视 皇马未道歉产生恶劣影响

被当成中国人!日本球员遭遇种族歧视 皇马未道歉产生恶劣影响

念洲
2026-03-08 08:59:08
巴基斯坦也没有想到,跟着中国混来混去,结果自己也混了一个霸主

巴基斯坦也没有想到,跟着中国混来混去,结果自己也混了一个霸主

老范谈史
2025-12-09 20:00:56
李自成兵败到底有多悲惨?让我们看看他手下文臣武将的结局就知道

李自成兵败到底有多悲惨?让我们看看他手下文臣武将的结局就知道

谈史论天地
2026-03-07 05:58:46
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

静若梨花
2026-03-01 16:25:46
内塔尼亚胡做梦也没想到:亲手扶持的“棋子”,正从背后捅戈兰高地一刀

内塔尼亚胡做梦也没想到:亲手扶持的“棋子”,正从背后捅戈兰高地一刀

起喜电影
2026-03-07 17:04:09
伊朗最昂贵误判,令人想起中国付出上万亿代价的悲剧!

伊朗最昂贵误判,令人想起中国付出上万亿代价的悲剧!

华人星光
2026-03-07 11:39:48
相亲一顿饭消费20万,男方爽快付钱离开后,女方却傻眼了

相亲一顿饭消费20万,男方爽快付钱离开后,女方却傻眼了

奶茶麦子
2026-03-07 23:19:14
16岁邝兆镭中超首秀冲上热搜 赛后婉拒采访 董路自豪:我的干儿子

16岁邝兆镭中超首秀冲上热搜 赛后婉拒采访 董路自豪:我的干儿子

我爱英超
2026-03-08 06:33:51
42岁王宝强形象大变!为配学霸女友不惜整容,戴金框眼镜撞脸汪小菲

42岁王宝强形象大变!为配学霸女友不惜整容,戴金框眼镜撞脸汪小菲

八卦王者
2026-03-08 11:16:11
俄罗斯副总理表示 俄将转移部分对欧天然气供应至其他国家

俄罗斯副总理表示 俄将转移部分对欧天然气供应至其他国家

国际在线
2026-03-07 19:27:40
张兰曝大S儿子有心理阴影!婆孙共寝,小箖箖的问话,看哭网友们

张兰曝大S儿子有心理阴影!婆孙共寝,小箖箖的问话,看哭网友们

潮鹿逐梦
2026-03-07 18:46:57
开战第七天,最大赢家浮现,不是伊朗,不是以色列,也不是美国

开战第七天,最大赢家浮现,不是伊朗,不是以色列,也不是美国

徐徐道史
2026-03-07 15:04:03
2026-03-08 11:47:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2392168文章数 5733关注度
往期回顾 全部

科技要闻

OpenClaw最大的推手是闲鱼和小红书

头条要闻

伊朗公布行动细节 有导弹配备集束弹头均命中目标

头条要闻

伊朗公布行动细节 有导弹配备集束弹头均命中目标

体育要闻

大伤后被交易,他说:22岁的我已经死了

娱乐要闻

周迅新恋情曝光,李亚鹏等人已成过去

财经要闻

油价要失控?

汽车要闻

9分钟充饱 全新腾势Z9GT首搭闪充技术26.98万起

态度原创

教育
健康
时尚
房产
军事航空

教育要闻

给孩子减负重磅消息

转头就晕的耳石症,能开车上班吗?

2026春夏一定要拥有的6只包,好看又百搭

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

军事要闻

美第三个航母打击群据称准备部署至中东

无障碍浏览 进入关怀版