网易首页 > 网易号 > 正文 申请入驻

256块NPU训成8B视频模型,抖音内容技术团队开源ContentV

0
分享至

近日,抖音内容技术团队开源了 ContentV,一种面向视频生成任务的高效训练方案。该方案在多项技术优化的基础上,使用 256 块 NPU,在约 4 周内完成了一个 8B 参数模型的训练。尽管资源有限,ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。

该工作探索了在有限算力条件下训练视频生成模型的可行路径。目前,推理代码与模型权重已对外开放。

  • 论文标题:ContentV: Efficient Training of Video Generation Models with Limited Compute
  • 技术报告:https://arxiv.org/abs/2506.05343
  • 代码仓库:https://github.com/bytedance/ContentV
  • 模型权重:https://huggingface.co/ByteDance/ContentV-8B
  • 项目主页:https://contentv.github.io

我们先来看一些效果展示视频:

✨ 核心亮点

极简设计

CogVideoX、HunyuanVideo 和 Wan2.1 等一系列优秀的开源工作表明,视频生成的关键并不在于架构上的特殊设计,而在于如何高效利用有限的数据资源,并有效对齐人类偏好。

为验证 ContentV 方案的通用性,本次开源的版本在扩散模型部分采用了经典的文生图模型 Stable Diffusion 3.5 Large。为了适配视频模态,模型在结构上仅做了以下两项必要调整:

  • 将原始图像 VAE 替换为 Wan2.1 中使用的 3D-VAE;
  • 将 2D 位置编码升级为 3D 版本。在具体编码方式上,团队对比了传统的绝对位置编码与主流的旋转位置编码。评估结果显示,两者在客观指标和主观感受上差异较小,因此保留了计算更高效的绝对位置编码方案。

ContentV模型结构

多阶段渐进训练策略

上述的最小化结构改动,在解锁了视频生成能力的同时,也最大限度地保留了原模型的图像生成能力。实验证明,在新的 VAE 和位置编码的适配阶段,沿用 Flow Matching 的训练方式,仅需 1000 步左右的微调,就能基本还原模型的图片生成能力,大幅节省图片预训练阶段的训练成本。

在视频生成的预训练阶段,为加速收敛实现高效训练,研究团队设计了一套从「低清短片」到「高清长片」的多阶段渐进式训练流程,逐步引导模型学习时间维度与空间维度上的动态表征,从而提升视频的连续性、动态表现力和画面细节。

此外,实验证明,在推理阶段引入非线性采样步长机制(Flow Shift)能够显著提升视频的整体生成质量。通过多组对比实验,团队最终确定了最优的采样策略,进一步优化了生成效果。

VAE适配过程

⚡ 轻量级 RLHF 强化训练

RLHF显著提升画面质感

在后训练阶段,除了使用高质量数据集进行微调外,通过 RLHF 或 DPO 等对齐人类偏好的监督训练,也能显著提升视频生成质量。然而,这类方法通常依赖大量人工标注,用于训练奖励模型或直接监督扩散模型。同时,相较于图像,视频的序列长度显著增加了 RLHF 和 DPO 的训练资源需求。

为此,ContentV 研究团队提出了一种轻量级的 RLHF 训练方案,旨在不依赖人工标注的前提下,低成本提升视频质量:

  • 利用开源的图像奖励模型对生成视频的单帧进行监督。相较于视频场景,目前图像奖励模型的训练数据更易获取,且在实际效果中表现更佳。实验证明,由于 MM DiT 采用全局注意力机制,仅优化单帧即可带动整体视频质量的提升;
  • 将监督范围限制在生成视频的前 1 秒,相较于对完整视频进行监督,可大幅减少训练资源的消耗,同时获得相近的质量提升效果。

采用上述策略后,在无需人工标注的情况下,仅使用少量训练资源,便可显著提升画面质量。RLHF 微调后,模型在视觉质量(VQ)指标上的表现大幅提升,评估胜率高达 89.38%。

效果对比

在 VBench 这一主流视频生成评测基准上,ContentV(8B)取得了 85.14 的综合得分,表现优于多个现有的商业闭源模型,包括 Sora、Kling 1.6 和 Gen-3 等。

VBench 榜单 (按照 Overall 分数降序排列)

为更贴近真实用户偏好,研究团队围绕感知质量、指令跟随、物理一致性和视觉效果四个维度开展了人类偏好评估。结果显示,ContentV 在整体表现上与 CogVideoX-5B、HunyuanVideo-13B 和 Wan2.1-14B 等主流开源模型相比具有一定优势。

人类偏好评估指标

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
20分32分42分!上海全员杀疯,一夜爆3门惨案,3-12名乱成一锅粥

20分32分42分!上海全员杀疯,一夜爆3门惨案,3-12名乱成一锅粥

后仰大风车
2026-03-26 06:05:05
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
突发大利好!重大利好!光模块传来重大利好!周四这概念要起飞吗

突发大利好!重大利好!光模块传来重大利好!周四这概念要起飞吗

Thurman在昆明
2026-03-26 01:53:49
新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社
2026-03-26 10:06:18
中国最有名的9条家训,读懂一条旺家三代,建议收藏反复背诵

中国最有名的9条家训,读懂一条旺家三代,建议收藏反复背诵

长风文史
2026-03-25 17:58:23
张雪峰的影响力,被严重低估了

张雪峰的影响力,被严重低估了

黔有虎
2026-03-26 14:32:34
随着雷霆12连胜被终结,湖人137-130,西部最新排名出炉!马刺第2

随着雷霆12连胜被终结,湖人137-130,西部最新排名出炉!马刺第2

薇说体育
2026-03-26 10:48:02
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
多人被立案侦查!中山发布工矿商贸行业生产安全事故评估报告

多人被立案侦查!中山发布工矿商贸行业生产安全事故评估报告

南方都市报
2026-03-26 19:30:16
路透社:欧盟警告越南,敢用中国5G,就让外资撤光!

路透社:欧盟警告越南,敢用中国5G,就让外资撤光!

泠泠说史
2026-03-26 18:06:17
7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

观威海
2026-03-26 09:55:04
“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

大风新闻
2026-03-26 16:56:40
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

素衣读史
2026-03-25 21:05:22
保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

感觉会火
2026-03-26 12:06:22
张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

上观新闻
2026-03-26 14:45:10
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
603444,业绩大增!拟10派70元!

603444,业绩大增!拟10派70元!

证券时报e公司
2026-03-26 19:32:17
越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

叨唠
2026-03-26 00:57:32
3-1夺冠!中国女乒29岁王牌复苏:组最强豪阵剑指世乒赛

3-1夺冠!中国女乒29岁王牌复苏:组最强豪阵剑指世乒赛

李喜林篮球绝杀
2026-03-26 20:29:48
伊朗发起的第81波打击

伊朗发起的第81波打击

舍长阿爷谈事
2026-03-26 23:38:25
2026-03-27 03:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
教育
旅游
亲子
公开课

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版