网易首页 > 网易号 > 正文 申请入驻

字节音效生成模型来了,一键生成大片感音效!已上线即梦

0
分享至

机器之心发布

机器之心编辑部

在 AIGC 持续突破视频生成边界的当下,音效制作仍是制约行业发展的瓶颈。字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型,通过端到端架构实现了视频音效的智能生成,将 AI 视频创作带入「有声时代」。相关功能「AI 音效」已在即梦上线,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。

App 端

Web 端

效果展示

先「听」为快,这里展示了一些 SeedFoley 生成的视频音效效果。

视频链接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg

技术方案

SeedFoley 是一种端到端的视频音效生成架构,通过融合时空视频特征与扩散生成模型,实现了音效和视频的高度同步。首先,用固定的视频帧率对视频序列进行抽帧提取,然后使用一个视频编码器提取视频的表征信息,并通过多层线形变换将视频表征投射到条件空间,在改进的扩散模型框架中构建音效生成路径。

在训练过程,提取语音和音乐相关标签,作为 multi conditions 的形式输入,可以将音效和非音效进行解耦。SeedFoley 能支持可变长度的视频输入,并且在音效准确性,音效同步性和音效匹配度等指标上都取得了领先水平。

图 1:SeedFoley 的模型架构

视频编码器

SeedFoley 的视频编码器,采用了快慢特征组合的方式,在高帧率上提取帧间的局部运动信息,在低帧率上提取视频的语义信息。通过将快慢特征组合,既保留了运动特征,有效降低计算成本。通过这种方式,能在低计算资源性实现 8fps 的帧级别视频特征提取,实现精细动作定位。最后利用 Transformer 结构融合快慢特征,实现视频的时空特征提取。在提升训练效果和训练效率上,SeedFoley 通过在一个批次中引入多个困难样本,显著提升了语义对齐效果,同时使用了 sigmoid loss 而非 softmax loss,能在更低的资源上实现媲美大批次训练的效果。

图 2:SeedFoley 的视频编码器

音频表征模型

对于扩散模型而言,通常采用 VAE 生成的潜在表征(latent representation)作为音频特征编码。与基于梅尔频谱(mel-spectrum)的 VAE 模型不同,SeedFoley 采用原始波形(raw waveform)作为输入,经过编码后得到 1D 的表征,比传统 mel-VAE 模型在重构和生成建模上更有优势。这里,音频采用了 32k 的采样率,以确保高频信息的保留。每秒钟的音频提取到 32 个音频潜在表征,可以有效提升音频在时序上的分辨率,提升音效的细腻程度。

SeedFoley 的音频表征模型采用了两阶段联合训练策略:在第一阶段使用掩码策略,将音频表征中的相位信息进行剥离,将去相位后的潜在表征作为扩散模型的优化目标;在第二阶段则使用音频解码器从去相位表征中重建相位信息。这个做法可以有效降低扩散模型对表征的预测难度,最终实现音频潜在表征的高质量生成和还原。

扩散模型

SeedFoley 采用 Diffusion Transformer 框架,通过优化概率路径上的连续映射关系,实现了从高斯噪声分布到目标音频表征空间的概率匹配。相较于传统扩散模型依赖马尔可夫链式采样的特性,SeedFoley 通过构建连续变换路径,有效减少推理步数,降低推理成本。

在训练阶段,将视频特征与音频语义标签分别编码为隐空间向量;通过通道维度拼接(Channel-wise Concatenation)将二者与时间编码(Time Embedding)及噪声信号进行混合,形成联合条件输入。该设计通过显式建模跨模态时序相关性,有效提升了音效和视频画面在时序上的一致性以及内容的理解能力。

在推理阶段,通过调整 CFG 系数可调整视觉信息的控制强度以及生成质量之间的关系。通过迭代式优化噪声分布,将噪声逐步转换为目标数据分布。通过将人声以及音乐标签进行强行设定,可以有效避免音效中夹杂人声或者背景音乐的可能性,提升音效的清晰度和质感。最后将音频表征输入到音频解码中,得到音效音频。

结语

SeedFoley 实现了视频内容与音频生成的深度融合,能够精确提取视频帧级视觉信息,通过分析多帧画面信息,精准识别视频中的发声主体及动作场景。无论是节奏感强烈的音乐瞬间,还是电影中的紧张情节,都能精准卡点,营造出身临其境的逼真体验;另外,SeedFoley 可智能区分动作音效和环境音效,显著提升视频的叙事张力和情感传递效率。

「AI 音效」功能已上线即梦,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。在 AI 视频,生活 Vlog、短片制作和游戏制作等高频场景中,能有效摆脱 AI 视频的「无声尴尬」,便捷地制作出配有专业音效的高质量视频。

团队介绍

豆包大模型语音团队的使命是利用多模态语音技术丰富交互和创作方式。团队专注于语音和音频、音乐、自然语言理解和多模态深度学习等领域的前沿研究和产品创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
13岁小女孩说肚子里有东西,父母带她去检查,结果出来父母大哭

13岁小女孩说肚子里有东西,父母带她去检查,结果出来父母大哭

青青会讲故事
2025-07-02 17:20:57
庞家实力有多强?敢于问罪南博?孙中山曾是庞家常客

庞家实力有多强?敢于问罪南博?孙中山曾是庞家常客

史政先锋
2025-12-30 14:52:44
长春"威哥"后续:已被拘留,知情人曝身份,坑人不是一天两天了

长春"威哥"后续:已被拘留,知情人曝身份,坑人不是一天两天了

奇思妙想草叶君
2026-01-01 09:09:38
特朗普宣布:从三地撤军

特朗普宣布:从三地撤军

第一财经资讯
2026-01-01 11:39:20
上海一女子掏空公司3500万!养了上百只猫,还痴迷于“云祭祀”……

上海一女子掏空公司3500万!养了上百只猫,还痴迷于“云祭祀”……

环球网资讯
2026-01-01 11:20:08
为什么Manus没有留在中国?

为什么Manus没有留在中国?

钛媒体APP
2025-12-31 19:37:50
“骗”了我们30年,韩红父亲原来是家喻户晓的他,难怪没人敢得罪

“骗”了我们30年,韩红父亲原来是家喻户晓的他,难怪没人敢得罪

付老师种植技术团队
2025-12-31 22:27:20
中国驻澳使馆回应澳政府涉台声明:停止纵容“台独”分裂行径

中国驻澳使馆回应澳政府涉台声明:停止纵容“台独”分裂行径

澎湃新闻
2026-01-01 11:44:04
快手打卡365天可领3650元?男子坚持300天,平台让“拉新人”被迫中断

快手打卡365天可领3650元?男子坚持300天,平台让“拉新人”被迫中断

大风新闻
2025-12-31 20:57:04
悲催!网传上海地铁裁员500多名保安,补偿金为N,仅保留安检人员

悲催!网传上海地铁裁员500多名保安,补偿金为N,仅保留安检人员

火山詩话
2025-12-31 21:37:21
天门女司机坠河身亡进展:女子车牌号被曝,网友认为谐音听着不顺

天门女司机坠河身亡进展:女子车牌号被曝,网友认为谐音听着不顺

奇思妙想草叶君
2025-12-31 14:43:05
“便宜到不像美国!”蜜雪冰城价格暴击北美市场,星巴克慌了?

“便宜到不像美国!”蜜雪冰城价格暴击北美市场,星巴克慌了?

聚焦真实瞬间
2025-12-31 23:26:54
昨晚,广州跨年太疯狂、太震撼了!

昨晚,广州跨年太疯狂、太震撼了!

房二娃
2026-01-01 10:05:16
保时捷女销冠2025年卖192台车再创纪录,本人回应:客户点名找我买;此前其因被合成不雅视频报警

保时捷女销冠2025年卖192台车再创纪录,本人回应:客户点名找我买;此前其因被合成不雅视频报警

新民晚报
2026-01-01 09:07:53
跟荒唐的2025说再见

跟荒唐的2025说再见

历史总在押韵
2025-12-31 01:19:35
恭喜!男演员在跨年舞台求婚成功!

恭喜!男演员在跨年舞台求婚成功!

深圳晚报
2026-01-01 08:55:23
岛内最新民调!高达六成三的台湾民众不愿自身或家人上战场

岛内最新民调!高达六成三的台湾民众不愿自身或家人上战场

海峡导报社
2025-12-31 17:56:08
吃相难看!闫学晶哭穷被喷后,再现狂傲言论,黑历史被扒后急眼了

吃相难看!闫学晶哭穷被喷后,再现狂傲言论,黑历史被扒后急眼了

冷紫葉
2025-12-30 18:20:03
凌晨3点半,大批市民出动!今天一早已经堵成深红色!朋友圈被这幕刷屏……

凌晨3点半,大批市民出动!今天一早已经堵成深红色!朋友圈被这幕刷屏……

19楼
2026-01-01 08:56:49
大陆一锤定音,美武器禁入台省,赖清德天塌了,国民党4人现原形

大陆一锤定音,美武器禁入台省,赖清德天塌了,国民党4人现原形

文雅笔墨
2025-12-31 11:56:06
2026-01-01 13:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12031文章数 142526关注度
往期回顾 全部

科技要闻

2026,冲刺商业航天第一股!

头条要闻

射击国家级教练因走私武器罪获刑10年 报关避开"枪"字

头条要闻

射击国家级教练因走私武器罪获刑10年 报关避开"枪"字

体育要闻

杨瀚森为球迷送新年祝福:深知自身差距

娱乐要闻

跨年零点时刻好精彩!何炅飞奔拥抱

财经要闻

巴菲特「身退,权还在」

汽车要闻

零跑汽车2025年全年交付达596555台 全年同比增长103%

态度原创

亲子
艺术
数码
教育
军事航空

亲子要闻

“元旦宝宝”相继报到!他们踩着2026年的脚步而来,满满的新生喜悦与希望

艺术要闻

Raimundo de Madrazo女性人物精选,19世纪西班牙著名画家

数码要闻

追觅首款智能戒指和运动相机将亮相CES 2026

教育要闻

初中期末考偷分秘籍:三招冲进全班前三,提前一个月准备刚刚好

军事要闻

泽连斯基新年致辞:不要"乌克兰的终结"

无障碍浏览 进入关怀版