网易首页 > 网易号 > 正文 申请入驻

字节视频基础大模型发布!单GPU就可生成1080P,蒋路领衔团队曝光

0
分享至

白交 发自 凹非寺
量子位 | 公众号 QbitAI

字节Seed团队视频生成基础模型,来了。

Seaweed海藻,“Seed-Video”的缩写(真是好一个谐音梗!)

首发仅70亿参数,却能实现超越同类140亿参数视频模型的效果——

它能根据文本描述创建各种分辨率(原生支持1280x720分辨率)、任意宽高比和时长的视频。

它是使用665000 H100 GPU小时完成训练,而同类模型通常需要超百万GPU小时,其相当于是1000个H100训练27.7天完成。

而且中小团队可部署,仅需40GB显存单GPU就可生成分辨率达1280x720的视频。

字节最新视频生成模型

作为基础模型,其标志性功能一定得具备。

比如像开头小短片这种人/动物、景观生成已经属于是洒洒水。

它支持图像生成模型,控制功能也增强,并支持首尾帧调节

并且支持微调,根据「参考主体」图像生成视频,单幅多幅都可以,将其合成为动态视频序列。

而结合字节多模态数字人方案Omnihuman——一张图、一段音频,就可以生成一段人物视频。它可以创建人声更为匹配人物角色,唇部、肢体动作都跟着音频一起同步。

此外,它还支持用视频生成音频,来配合视频的叙事场景、风格。

在这些基础功能之上,Seaweed还技术大放送,结合过往技术成果展现了新的体验。

长篇故事叙述,用户既可以为整体叙事提供全局文本描述,也可以为每个镜头提供细粒度的文本描述。

这背后结合「长上下文调优」、面向长篇叙述生成「VideoAuteur」等技术。

  • 高分辨率
  • 除了原生支持1280x720分辨率,还支持进一步采样至2K(2560x1440)。

背后是基于SeedVR,基于Diffusion Transformer实现通用视频修复。

  • 实时生成
  • 可实时生成分辨率为1280x720、帧率为24fps的视频。

此外,还支持「摄影机」控制生成、物理一致性生成,背后分别有CameraCtrl II、SimDrop技术加持。

与其他模型对比情况。

图像到视频任务。

文本到视频的任务。

在单个H100 GPU运行中,Seaweed响应速度是Wan-2.1(参数量是前者两倍)的62分之一。

技术报告:三大技术创新

不过更详细的技术细节,还是集中在技术报告里。

整篇技术报告核心讨论的就是一个问题:在视频生成基础模型的训练上,如何实现低成本高效益

他们选择训练一个中等规模的模型——约70亿个参数的DiT模型,使用665000个H100 GPU Hours从头开始训练该模型,相当于在1000个H100 GPU上训练27.7天。

具体在数据处理、模型架构设计、以及训练策略和优化方面三个方面的技术创新。

首先是数据这块。

他们有一套全面的数据处理管道,其中包括但不限于时间分割、空间裁剪、质量过滤、多视角数据平衡、重复数据删除和视频字幕。

每一个步骤都有他们详细的处理细节。

以字幕任务为例,他们发现使用更大的72B LLM可以减少幻觉。但是,使用72B模型为数百万个视频生成视频字幕的计算成本要高得多。

于是他们选择将72B作为教师模型然后蒸馏出7B的学生模型,节约成本的同时还提高了准确率。此外他们还将详细字幕「推导」成简短字幕,类似于思维链过程,结果进一步提高简短字幕的准确率——从84.81%到90.84%。

利用这一基础设施,他们每天可以处理超过500000小时的视频数据。

然后再是模型架构设计上面,由64x压缩比 VAE与Diffusion Transformer结合组成 Seaweed 。

VAE这边,由一个编码器和一个解码器组成,编码器将原始像素数据压缩到一个紧凑的潜在空间,解码器则根据这些潜在特征重建原始输入像素。理想的VAE应在保持较高重建质量的同时实现较高的压缩比。


这种设计为视频生成提供了两个优势,首先,它统一了图像和视频编码,使第一帧条件图像视频生成任务变得自然。其次,它消除了两个推断片段之间边界的闪烁,并允许编码和解码任意长的视频,而无需人工拼接。

而在Diffusion Transformer这边,他们用图像和视频的原始分辨率和持续时间对它们进行混合训练。为了平衡运行时间的计算,较短的序列被打包在一起。

最后就是多阶段多任务学习训练策略

他们采用了从低分辨率到高分辨率的多阶段渐进式的训练策略。这一设计侧重于在训练过程中战略性地分配 GPU 资源,以提高整体质量。

Pre-Training阶段,他们只通过低分辨率图像对模型进行预训练,这样就能建立文本摘要与常见视觉概念之间的对齐关系。

Post-training阶段。我们会应用监督微调(SFT),然后是人类反馈强化学习(RLHF),以进一步提高输出结果的美学质量、动作一致性和结构连贯性。

Just Like This~

这一阶段分别针对文本到视频和图像到视频任务进行。

而在更具体Infra层面的优化,他们还做了这些方面的措施。

比如采用并行策略在长语境视频中训练7B模型;引入了运行时平衡(Runtime Balance)策略,以减轻图像和视频联合训练过程中的负载不平衡;还设计了多级激活检查点(MLAC),以减少GPU内存使用量和重新计算开销。

最后,还通过实施融合的CUDA内核来简化零散的I/O操作,从而优化GPU利用率。

因此,在大规模分布式训练中,Seaweed-7B的模型FLOPs利用率(MFU)达到了38%。

Seed研究团队大曝光

而在官网最后,背后研究团队也都全部曝光。

由蒋路、冯佳时、杨振恒、杨建超带领的研究团队。

其中蒋路正是去年加盟字节的前谷歌高级科学家,曾负责谷歌视频生成工作,在多个谷歌产品(如YouTube、云服务、AutoML、广告、Waymo和翻译)中做出了重要贡献,同时也是CMU兼职教授。

冯佳时则是首次曝光的「关键8人」之一,大模型视觉基础研究团队负责人,专注于计算机视觉、机器学习领域的相关研究及其在多媒体中的应用。

具体研究团队成员如下:

基础设施以及贡献者还有这些:

参考链接:
[1]https://seaweed.video/
[2]https://arxiv.org/abs/2504.08685
[3]https://x.com/CeyuanY/status/1911618555210334350

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

喜欢历史的阿繁
2026-03-26 09:20:58
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
汽车出海闯进新周期,广汽首个服务品牌GAC CARE捉住“决胜点”

汽车出海闯进新周期,广汽首个服务品牌GAC CARE捉住“决胜点”

功夫AUTO
2026-03-26 11:51:12
袁家军会见王兴兴

袁家军会见王兴兴

新京报政事儿
2026-03-26 16:45:34
张雪峰助理万霞:十年相伴,生死相隔最痛的人!

张雪峰助理万霞:十年相伴,生死相隔最痛的人!

天光破云来
2026-03-26 11:55:41
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

桂系007
2026-03-26 16:19:32
张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

笔墨V
2026-03-26 14:53:51
伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

每日经济新闻
2026-03-26 17:27:09
上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

环球网资讯
2026-03-26 08:13:14
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

小金体坛大视野
2026-03-26 11:16:02
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
美团:2025年营收3,648.5亿元人民币 同比增长8.1%

美团:2025年营收3,648.5亿元人民币 同比增长8.1%

财联社
2026-03-26 17:40:04
塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

澎湃新闻
2026-03-26 17:24:26
2026-03-26 18:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
时尚
手机
教育
公开课

家居要闻

傍海而居 静观蝴蝶海

皮衣+裙,高级到炸

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

教育要闻

中小学家长必看数据,看与不看都会后悔

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版