网易首页 > 网易号 > 正文 申请入驻

字节音效生成模型来了,一键生成大片感音效!已上线即梦

0
分享至

机器之心发布

机器之心编辑部

在 AIGC 持续突破视频生成边界的当下,音效制作仍是制约行业发展的瓶颈。字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型,通过端到端架构实现了视频音效的智能生成,将 AI 视频创作带入「有声时代」。相关功能「AI 音效」已在即梦上线,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。

App 端

Web 端

效果展示

先「听」为快,这里展示了一些 SeedFoley 生成的视频音效效果。

视频链接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg

技术方案

SeedFoley 是一种端到端的视频音效生成架构,通过融合时空视频特征与扩散生成模型,实现了音效和视频的高度同步。首先,用固定的视频帧率对视频序列进行抽帧提取,然后使用一个视频编码器提取视频的表征信息,并通过多层线形变换将视频表征投射到条件空间,在改进的扩散模型框架中构建音效生成路径。

在训练过程,提取语音和音乐相关标签,作为 multi conditions 的形式输入,可以将音效和非音效进行解耦。SeedFoley 能支持可变长度的视频输入,并且在音效准确性,音效同步性和音效匹配度等指标上都取得了领先水平。

图 1:SeedFoley 的模型架构

视频编码器

SeedFoley 的视频编码器,采用了快慢特征组合的方式,在高帧率上提取帧间的局部运动信息,在低帧率上提取视频的语义信息。通过将快慢特征组合,既保留了运动特征,有效降低计算成本。通过这种方式,能在低计算资源性实现 8fps 的帧级别视频特征提取,实现精细动作定位。最后利用 Transformer 结构融合快慢特征,实现视频的时空特征提取。在提升训练效果和训练效率上,SeedFoley 通过在一个批次中引入多个困难样本,显著提升了语义对齐效果,同时使用了 sigmoid loss 而非 softmax loss,能在更低的资源上实现媲美大批次训练的效果。

图 2:SeedFoley 的视频编码器

音频表征模型

对于扩散模型而言,通常采用 VAE 生成的潜在表征(latent representation)作为音频特征编码。与基于梅尔频谱(mel-spectrum)的 VAE 模型不同,SeedFoley 采用原始波形(raw waveform)作为输入,经过编码后得到 1D 的表征,比传统 mel-VAE 模型在重构和生成建模上更有优势。这里,音频采用了 32k 的采样率,以确保高频信息的保留。每秒钟的音频提取到 32 个音频潜在表征,可以有效提升音频在时序上的分辨率,提升音效的细腻程度。

SeedFoley 的音频表征模型采用了两阶段联合训练策略:在第一阶段使用掩码策略,将音频表征中的相位信息进行剥离,将去相位后的潜在表征作为扩散模型的优化目标;在第二阶段则使用音频解码器从去相位表征中重建相位信息。这个做法可以有效降低扩散模型对表征的预测难度,最终实现音频潜在表征的高质量生成和还原。

扩散模型

SeedFoley 采用 Diffusion Transformer 框架,通过优化概率路径上的连续映射关系,实现了从高斯噪声分布到目标音频表征空间的概率匹配。相较于传统扩散模型依赖马尔可夫链式采样的特性,SeedFoley 通过构建连续变换路径,有效减少推理步数,降低推理成本。

在训练阶段,将视频特征与音频语义标签分别编码为隐空间向量;通过通道维度拼接(Channel-wise Concatenation)将二者与时间编码(Time Embedding)及噪声信号进行混合,形成联合条件输入。该设计通过显式建模跨模态时序相关性,有效提升了音效和视频画面在时序上的一致性以及内容的理解能力。

在推理阶段,通过调整 CFG 系数可调整视觉信息的控制强度以及生成质量之间的关系。通过迭代式优化噪声分布,将噪声逐步转换为目标数据分布。通过将人声以及音乐标签进行强行设定,可以有效避免音效中夹杂人声或者背景音乐的可能性,提升音效的清晰度和质感。最后将音频表征输入到音频解码中,得到音效音频。

结语

SeedFoley 实现了视频内容与音频生成的深度融合,能够精确提取视频帧级视觉信息,通过分析多帧画面信息,精准识别视频中的发声主体及动作场景。无论是节奏感强烈的音乐瞬间,还是电影中的紧张情节,都能精准卡点,营造出身临其境的逼真体验;另外,SeedFoley 可智能区分动作音效和环境音效,显著提升视频的叙事张力和情感传递效率。

「AI 音效」功能已上线即梦,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。在 AI 视频,生活 Vlog、短片制作和游戏制作等高频场景中,能有效摆脱 AI 视频的「无声尴尬」,便捷地制作出配有专业音效的高质量视频。

团队介绍

豆包大模型语音团队的使命是利用多模态语音技术丰富交互和创作方式。团队专注于语音和音频、音乐、自然语言理解和多模态深度学习等领域的前沿研究和产品创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1993年六位上将,还有三位健在,都快100岁了

1993年六位上将,还有三位健在,都快100岁了

文史茶馆2020
2026-02-15 16:43:24
扶老人被索赔22万?资深律师:初中生担责有据!

扶老人被索赔22万?资深律师:初中生担责有据!

闪电新闻
2026-02-21 10:15:27
于根伟:如果不是扣10分起步,不会换萨尔瓦多;保级是底线

于根伟:如果不是扣10分起步,不会换萨尔瓦多;保级是底线

懂球帝
2026-02-21 10:22:16
沙尘气团将影响长三角地区,上海将有短时中度及以上污染过程

沙尘气团将影响长三角地区,上海将有短时中度及以上污染过程

界面新闻
2026-02-21 22:53:44
正在逆袭!《镖人》票房连续逆跌,预测提升,吴京这一次又赌赢了

正在逆袭!《镖人》票房连续逆跌,预测提升,吴京这一次又赌赢了

得得电影
2026-02-19 19:34:29
全球最“倒霉”夫妻,花费240万买下“鬼屋”,没水没电没网,94个房间全是垃圾,7年后突然火爆全网!

全球最“倒霉”夫妻,花费240万买下“鬼屋”,没水没电没网,94个房间全是垃圾,7年后突然火爆全网!

背包旅行
2026-02-21 10:34:33
新加坡大满贯正赛首日赛程:22日上午6场下午2场

新加坡大满贯正赛首日赛程:22日上午6场下午2场

小僫搞笑解说
2026-02-21 10:25:16
内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

品读时刻
2026-02-11 17:18:30
尼泊尔“一妻多夫”该如何生活?妻子苦不堪言:一点都不幸福。

尼泊尔“一妻多夫”该如何生活?妻子苦不堪言:一点都不幸福。

百态人间
2025-11-06 05:45:02
SpaceX:猎鹰9号火箭从加州发射了25颗星链卫星

SpaceX:猎鹰9号火箭从加州发射了25颗星链卫星

每日经济新闻
2026-02-21 21:49:04
央视30集黑马剧今晚开播,演员阵容强大,想不火都难!

央视30集黑马剧今晚开播,演员阵容强大,想不火都难!

莉莉和奶奶
2026-02-21 19:49:51
两年了,为何许家印迟迟不判刑?真相比你想象的更复杂!

两年了,为何许家印迟迟不判刑?真相比你想象的更复杂!

李云飞Afey
2026-01-20 11:43:34
美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

保德全
2026-02-03 19:30:03
联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

梦在深巷aqa
2026-02-15 01:44:17
挪威斩获第17枚金牌,创造单届冬奥会一国夺金数量新纪录

挪威斩获第17枚金牌,创造单届冬奥会一国夺金数量新纪录

懂球帝
2026-02-21 00:06:54
场均19+10!前火箭队主力中锋发声:愿重返联盟!申京曾是他替补

场均19+10!前火箭队主力中锋发声:愿重返联盟!申京曾是他替补

熊哥爱篮球
2026-02-21 12:28:36
郑州10岁男孩8万压岁钱被父亲偷偷取走,用于再婚开销,男孩无奈起诉,法院:全额返还存款及利息

郑州10岁男孩8万压岁钱被父亲偷偷取走,用于再婚开销,男孩无奈起诉,法院:全额返还存款及利息

极目新闻
2026-02-20 17:01:59
这日剧含丝量极高!

这日剧含丝量极高!

贵圈真乱
2026-02-21 12:09:35
“命都快没了还炫耀!”这位家长真敢说!

“命都快没了还炫耀!”这位家长真敢说!

特约前排观众
2026-02-20 00:20:03
“抽象顶流”那艺娜的塌房之路:假扮“俄罗斯娜娜”出圈,请“嘎子”当嘉宾遭质疑

“抽象顶流”那艺娜的塌房之路:假扮“俄罗斯娜娜”出圈,请“嘎子”当嘉宾遭质疑

上游新闻
2026-02-21 13:43:15
2026-02-21 23:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12325文章数 142569关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

立陶宛总统继续"嘴硬":不会跪下认错 中方要展现诚意

头条要闻

立陶宛总统继续"嘴硬":不会跪下认错 中方要展现诚意

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

时尚
艺术
亲子
公开课
军事航空

一年中最不能错过的推送,超适合过年看!

艺术要闻

投资14.5亿!邻水县奥体中心,施工规模显现!

亲子要闻

2个能拯救孩子视力的方法,赶紧带孩子练起来

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

硬核揭秘!福建舰“一马当先”底气何在

无障碍浏览 进入关怀版