网易首页 > 网易号 > 正文 申请入驻

字节视频基础大模型发布!单GPU就可生成1080P,蒋路领衔团队曝光

0
分享至

白交 发自 凹非寺
量子位 | 公众号 QbitAI

字节Seed团队视频生成基础模型,来了。

Seaweed海藻,“Seed-Video”的缩写(真是好一个谐音梗!)

首发仅70亿参数,却能实现超越同类140亿参数视频模型的效果——

它能根据文本描述创建各种分辨率(原生支持1280x720分辨率)、任意宽高比和时长的视频。

它是使用665000 H100 GPU小时完成训练,而同类模型通常需要超百万GPU小时,其相当于是1000个H100训练27.7天完成。

而且中小团队可部署,仅需40GB显存单GPU就可生成分辨率达1280x720的视频。

字节最新视频生成模型

作为基础模型,其标志性功能一定得具备。

比如像开头小短片这种人/动物、景观生成已经属于是洒洒水。

它支持图像生成模型,控制功能也增强,并支持首尾帧调节

并且支持微调,根据「参考主体」图像生成视频,单幅多幅都可以,将其合成为动态视频序列。

而结合字节多模态数字人方案Omnihuman——一张图、一段音频,就可以生成一段人物视频。它可以创建人声更为匹配人物角色,唇部、肢体动作都跟着音频一起同步。

此外,它还支持用视频生成音频,来配合视频的叙事场景、风格。

在这些基础功能之上,Seaweed还技术大放送,结合过往技术成果展现了新的体验。

长篇故事叙述,用户既可以为整体叙事提供全局文本描述,也可以为每个镜头提供细粒度的文本描述。

这背后结合「长上下文调优」、面向长篇叙述生成「VideoAuteur」等技术。

  • 高分辨率
  • 除了原生支持1280x720分辨率,还支持进一步采样至2K(2560x1440)。

背后是基于SeedVR,基于Diffusion Transformer实现通用视频修复。

  • 实时生成
  • 可实时生成分辨率为1280x720、帧率为24fps的视频。

此外,还支持「摄影机」控制生成、物理一致性生成,背后分别有CameraCtrl II、SimDrop技术加持。

与其他模型对比情况。

图像到视频任务。

文本到视频的任务。

在单个H100 GPU运行中,Seaweed响应速度是Wan-2.1(参数量是前者两倍)的62分之一。

技术报告:三大技术创新

不过更详细的技术细节,还是集中在技术报告里。

整篇技术报告核心讨论的就是一个问题:在视频生成基础模型的训练上,如何实现低成本高效益

他们选择训练一个中等规模的模型——约70亿个参数的DiT模型,使用665000个H100 GPU Hours从头开始训练该模型,相当于在1000个H100 GPU上训练27.7天。

具体在数据处理、模型架构设计、以及训练策略和优化方面三个方面的技术创新。

首先是数据这块。

他们有一套全面的数据处理管道,其中包括但不限于时间分割、空间裁剪、质量过滤、多视角数据平衡、重复数据删除和视频字幕。

每一个步骤都有他们详细的处理细节。

以字幕任务为例,他们发现使用更大的72B LLM可以减少幻觉。但是,使用72B模型为数百万个视频生成视频字幕的计算成本要高得多。

于是他们选择将72B作为教师模型然后蒸馏出7B的学生模型,节约成本的同时还提高了准确率。此外他们还将详细字幕「推导」成简短字幕,类似于思维链过程,结果进一步提高简短字幕的准确率——从84.81%到90.84%。

利用这一基础设施,他们每天可以处理超过500000小时的视频数据。

然后再是模型架构设计上面,由64x压缩比 VAE与Diffusion Transformer结合组成 Seaweed 。

VAE这边,由一个编码器和一个解码器组成,编码器将原始像素数据压缩到一个紧凑的潜在空间,解码器则根据这些潜在特征重建原始输入像素。理想的VAE应在保持较高重建质量的同时实现较高的压缩比。


这种设计为视频生成提供了两个优势,首先,它统一了图像和视频编码,使第一帧条件图像视频生成任务变得自然。其次,它消除了两个推断片段之间边界的闪烁,并允许编码和解码任意长的视频,而无需人工拼接。

而在Diffusion Transformer这边,他们用图像和视频的原始分辨率和持续时间对它们进行混合训练。为了平衡运行时间的计算,较短的序列被打包在一起。

最后就是多阶段多任务学习训练策略

他们采用了从低分辨率到高分辨率的多阶段渐进式的训练策略。这一设计侧重于在训练过程中战略性地分配 GPU 资源,以提高整体质量。

Pre-Training阶段,他们只通过低分辨率图像对模型进行预训练,这样就能建立文本摘要与常见视觉概念之间的对齐关系。

Post-training阶段。我们会应用监督微调(SFT),然后是人类反馈强化学习(RLHF),以进一步提高输出结果的美学质量、动作一致性和结构连贯性。

Just Like This~

这一阶段分别针对文本到视频和图像到视频任务进行。

而在更具体Infra层面的优化,他们还做了这些方面的措施。

比如采用并行策略在长语境视频中训练7B模型;引入了运行时平衡(Runtime Balance)策略,以减轻图像和视频联合训练过程中的负载不平衡;还设计了多级激活检查点(MLAC),以减少GPU内存使用量和重新计算开销。

最后,还通过实施融合的CUDA内核来简化零散的I/O操作,从而优化GPU利用率。

因此,在大规模分布式训练中,Seaweed-7B的模型FLOPs利用率(MFU)达到了38%。

Seed研究团队大曝光

而在官网最后,背后研究团队也都全部曝光。

由蒋路、冯佳时、杨振恒、杨建超带领的研究团队。

其中蒋路正是去年加盟字节的前谷歌高级科学家,曾负责谷歌视频生成工作,在多个谷歌产品(如YouTube、云服务、AutoML、广告、Waymo和翻译)中做出了重要贡献,同时也是CMU兼职教授。

冯佳时则是首次曝光的「关键8人」之一,大模型视觉基础研究团队负责人,专注于计算机视觉、机器学习领域的相关研究及其在多媒体中的应用。

具体研究团队成员如下:

基础设施以及贡献者还有这些:

参考链接:
[1]https://seaweed.video/
[2]https://arxiv.org/abs/2504.08685
[3]https://x.com/CeyuanY/status/1911618555210334350

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
去医院开药,医生说“这个不报销”,你可以反问一句话!

去医院开药,医生说“这个不报销”,你可以反问一句话!

小谈食刻美食
2026-06-02 07:24:18
9年亡命作恶108起、残杀13人、施暴99人!1962-2002云贵悍匪始末

9年亡命作恶108起、残杀13人、施暴99人!1962-2002云贵悍匪始末

墨策史
2026-05-31 00:40:08
美若天仙王楚然:肤白貌美,婀娜多姿。倾国倾城,美不胜收!

美若天仙王楚然:肤白貌美,婀娜多姿。倾国倾城,美不胜收!

十为先生
2026-05-09 15:19:03
提前剧透?CBA总决赛G4还未开赛,维基百科已显示上海夺冠

提前剧透?CBA总决赛G4还未开赛,维基百科已显示上海夺冠

懂球帝
2026-06-02 12:06:24
挂断特朗普电话后,沙特王储放下狠话:我们永远不会当美国的筹码

挂断特朗普电话后,沙特王储放下狠话:我们永远不会当美国的筹码

牛锅巴小钒
2026-06-02 13:46:09
与恩师穆里尼奥重聚皇马?德布劳内吐槽孔蒂,映射阿囧足球也乏味

与恩师穆里尼奥重聚皇马?德布劳内吐槽孔蒂,映射阿囧足球也乏味

穆里尼奥主义者
2026-06-01 21:21:25
币安上线8000只美股交易 稳定币直接买零佣金

币安上线8000只美股交易 稳定币直接买零佣金

全栈遛狗员
2026-06-01 18:39:23
688079,3分钟20%涨停!

688079,3分钟20%涨停!

证券时报
2026-06-02 11:03:01
CBA第一小外援要走?广东有望抢下“得分机器”,保底能进总决赛

CBA第一小外援要走?广东有望抢下“得分机器”,保底能进总决赛

绯雨儿
2026-06-02 10:07:47
牺牲太大!神十六返回,航天员出舱后为何脸部浮肿,被抬着走?

牺牲太大!神十六返回,航天员出舱后为何脸部浮肿,被抬着走?

大运河时空
2026-04-22 08:50:03
不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

冷眼看世界728
2026-05-12 20:46:26
记一次“约炮”被骗的详细经过

记一次“约炮”被骗的详细经过

云上南安
2026-04-06 17:11:46
从14万到5.5万,蒸发2500万:广州天河顶豪,戳破了豪宅的旧神话

从14万到5.5万,蒸发2500万:广州天河顶豪,戳破了豪宅的旧神话

地产一品塘
2026-06-02 08:00:16
不听大陆劝告执意访美,郑丽文人未启程,就遭美方公开敲打!

不听大陆劝告执意访美,郑丽文人未启程,就遭美方公开敲打!

坠入二次元的海洋
2026-06-01 21:27:00
为什么去过朝鲜回来就沉默的人,不是隐瞒,是真的说不出

为什么去过朝鲜回来就沉默的人,不是隐瞒,是真的说不出

老特有话说
2026-05-12 15:41:08
钱再多有什么用?杜淳老婆自曝切了一片肺,给所有人狠狠上了一课

钱再多有什么用?杜淳老婆自曝切了一片肺,给所有人狠狠上了一课

聊历史的阿稼
2026-06-02 12:17:50
禁投美股,难得全球大国中惟一正确

禁投美股,难得全球大国中惟一正确

家传编辑部
2026-05-30 12:24:47
摧毁一架特别大飞机,击俄无线电中心!俄罗斯被打得柴油产量锐减

摧毁一架特别大飞机,击俄无线电中心!俄罗斯被打得柴油产量锐减

鹰眼Defence
2026-05-31 16:53:51
总决赛情报员!索汉支招尼克斯防守前队友文班:他很容易体能透支

总决赛情报员!索汉支招尼克斯防守前队友文班:他很容易体能透支

罗说NBA
2026-06-02 07:10:43
轮到以色列被炸!内塔的最大麻烦曝光,不是伊朗不是特朗普,是谁

轮到以色列被炸!内塔的最大麻烦曝光,不是伊朗不是特朗普,是谁

离离言几许
2026-06-02 13:49:38
2026-06-02 15:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
12726文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

上海女童几乎没上过学 外公找来前女婿把女儿告上法庭

头条要闻

上海女童几乎没上过学 外公找来前女婿把女儿告上法庭

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

家居
健康
旅游
艺术
公开课

家居要闻

流线型轮廓 包容多元身形

干细胞临床研究向患者收费?别踩坑

旅游要闻

河南千年宋陵开镰收麦,石像生与金色麦浪跨越时空同框,大批游客前来体验人工收割,网友调侃“人比麦子还多” ,文物局提醒

艺术要闻

周杰伦花 1.36 亿拍下这幅画

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版