网易首页 > 网易号 > 正文 申请入驻

字节音效生成模型来了,一键生成大片感音效!已上线即梦

0
分享至

机器之心发布

机器之心编辑部

在 AIGC 持续突破视频生成边界的当下,音效制作仍是制约行业发展的瓶颈。字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型,通过端到端架构实现了视频音效的智能生成,将 AI 视频创作带入「有声时代」。相关功能「AI 音效」已在即梦上线,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。

App 端

Web 端

效果展示

先「听」为快,这里展示了一些 SeedFoley 生成的视频音效效果。

视频链接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg

技术方案

SeedFoley 是一种端到端的视频音效生成架构,通过融合时空视频特征与扩散生成模型,实现了音效和视频的高度同步。首先,用固定的视频帧率对视频序列进行抽帧提取,然后使用一个视频编码器提取视频的表征信息,并通过多层线形变换将视频表征投射到条件空间,在改进的扩散模型框架中构建音效生成路径。

在训练过程,提取语音和音乐相关标签,作为 multi conditions 的形式输入,可以将音效和非音效进行解耦。SeedFoley 能支持可变长度的视频输入,并且在音效准确性,音效同步性和音效匹配度等指标上都取得了领先水平。

图 1:SeedFoley 的模型架构

视频编码器

SeedFoley 的视频编码器,采用了快慢特征组合的方式,在高帧率上提取帧间的局部运动信息,在低帧率上提取视频的语义信息。通过将快慢特征组合,既保留了运动特征,有效降低计算成本。通过这种方式,能在低计算资源性实现 8fps 的帧级别视频特征提取,实现精细动作定位。最后利用 Transformer 结构融合快慢特征,实现视频的时空特征提取。在提升训练效果和训练效率上,SeedFoley 通过在一个批次中引入多个困难样本,显著提升了语义对齐效果,同时使用了 sigmoid loss 而非 softmax loss,能在更低的资源上实现媲美大批次训练的效果。

图 2:SeedFoley 的视频编码器

音频表征模型

对于扩散模型而言,通常采用 VAE 生成的潜在表征(latent representation)作为音频特征编码。与基于梅尔频谱(mel-spectrum)的 VAE 模型不同,SeedFoley 采用原始波形(raw waveform)作为输入,经过编码后得到 1D 的表征,比传统 mel-VAE 模型在重构和生成建模上更有优势。这里,音频采用了 32k 的采样率,以确保高频信息的保留。每秒钟的音频提取到 32 个音频潜在表征,可以有效提升音频在时序上的分辨率,提升音效的细腻程度。

SeedFoley 的音频表征模型采用了两阶段联合训练策略:在第一阶段使用掩码策略,将音频表征中的相位信息进行剥离,将去相位后的潜在表征作为扩散模型的优化目标;在第二阶段则使用音频解码器从去相位表征中重建相位信息。这个做法可以有效降低扩散模型对表征的预测难度,最终实现音频潜在表征的高质量生成和还原。

扩散模型

SeedFoley 采用 Diffusion Transformer 框架,通过优化概率路径上的连续映射关系,实现了从高斯噪声分布到目标音频表征空间的概率匹配。相较于传统扩散模型依赖马尔可夫链式采样的特性,SeedFoley 通过构建连续变换路径,有效减少推理步数,降低推理成本。

在训练阶段,将视频特征与音频语义标签分别编码为隐空间向量;通过通道维度拼接(Channel-wise Concatenation)将二者与时间编码(Time Embedding)及噪声信号进行混合,形成联合条件输入。该设计通过显式建模跨模态时序相关性,有效提升了音效和视频画面在时序上的一致性以及内容的理解能力。

在推理阶段,通过调整 CFG 系数可调整视觉信息的控制强度以及生成质量之间的关系。通过迭代式优化噪声分布,将噪声逐步转换为目标数据分布。通过将人声以及音乐标签进行强行设定,可以有效避免音效中夹杂人声或者背景音乐的可能性,提升音效的清晰度和质感。最后将音频表征输入到音频解码中,得到音效音频。

结语

SeedFoley 实现了视频内容与音频生成的深度融合,能够精确提取视频帧级视觉信息,通过分析多帧画面信息,精准识别视频中的发声主体及动作场景。无论是节奏感强烈的音乐瞬间,还是电影中的紧张情节,都能精准卡点,营造出身临其境的逼真体验;另外,SeedFoley 可智能区分动作音效和环境音效,显著提升视频的叙事张力和情感传递效率。

「AI 音效」功能已上线即梦,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。在 AI 视频,生活 Vlog、短片制作和游戏制作等高频场景中,能有效摆脱 AI 视频的「无声尴尬」,便捷地制作出配有专业音效的高质量视频。

团队介绍

豆包大模型语音团队的使命是利用多模态语音技术丰富交互和创作方式。团队专注于语音和音频、音乐、自然语言理解和多模态深度学习等领域的前沿研究和产品创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
偷情过后,男人和女人谁更想“再来一次”?答案很真实

偷情过后,男人和女人谁更想“再来一次”?答案很真实

心理观察局
2026-05-20 07:40:06
开业不到一周,济南青岛两地山姆购物区熟食、饮料疑遭偷吃,济南山姆客服:最近出现好多这种情况,将调查处理

开业不到一周,济南青岛两地山姆购物区熟食、饮料疑遭偷吃,济南山姆客服:最近出现好多这种情况,将调查处理

极目新闻
2026-05-21 17:07:16
2007年,韩岫岩因病去世,临终前最后一句话:王近山是我的好朋友

2007年,韩岫岩因病去世,临终前最后一句话:王近山是我的好朋友

历史龙元阁
2026-05-21 07:25:17
意大利媒体拆完张雪820RR,给出的评价有意思,用了三个“太”!

意大利媒体拆完张雪820RR,给出的评价有意思,用了三个“太”!

往史过眼云烟
2026-05-21 16:51:59
凯特王妃弃高跟鞋选它,34美元同款火遍全网

凯特王妃弃高跟鞋选它,34美元同款火遍全网

追星雷达站
2026-05-21 01:02:57
多地“520”结婚登记数据出炉

多地“520”结婚登记数据出炉

21世纪经济报道
2026-05-21 15:12:31
跳水100点!2个信号明显了!周五,A股迎来救赎了

跳水100点!2个信号明显了!周五,A股迎来救赎了

郭小凡财经
2026-05-21 15:01:04
iPhone 17 Pro再次降价,这可能是目前最香的iPhone了

iPhone 17 Pro再次降价,这可能是目前最香的iPhone了

刘奔跑
2026-05-21 20:24:57
追踪!重庆两江新区“生态修复变楼堂馆所”乱象违规细节全面暴露

追踪!重庆两江新区“生态修复变楼堂馆所”乱象违规细节全面暴露

大众新闻报社记者
2026-05-20 19:55:15
罕见撕破脸!波兰前总理突然公开爆粗口,怒骂两个女人害惨了欧盟

罕见撕破脸!波兰前总理突然公开爆粗口,怒骂两个女人害惨了欧盟

风雨与阳光
2026-05-21 17:07:05
纪委态度已定!公职人员工作时间接送孩子,算不算违规行为?

纪委态度已定!公职人员工作时间接送孩子,算不算违规行为?

华庭讲美食
2026-05-21 19:56:42
3-0!维拉终结44年等待,埃梅里5夺欧联杯,英超有望6队战欧冠

3-0!维拉终结44年等待,埃梅里5夺欧联杯,英超有望6队战欧冠

我的护球最独特
2026-05-21 04:52:36
继萝卜岗后,又出来“祖坟”岗?网友:谁能考上,一辈子有的吹了

继萝卜岗后,又出来“祖坟”岗?网友:谁能考上,一辈子有的吹了

马蹄烫嘴说美食
2026-05-21 10:26:43
没想到,马斯克离开中国才一天,78岁母亲一句话让中国网友破防

没想到,马斯克离开中国才一天,78岁母亲一句话让中国网友破防

林轻吟
2026-05-21 19:28:55
一场7比2的判决如何撕裂美国:1857年最高法院裁决引爆内战

一场7比2的判决如何撕裂美国:1857年最高法院裁决引爆内战

山野有晚风
2026-05-21 00:04:32
维尼修斯连续5个赛季进球数20+,皇马队史第8人

维尼修斯连续5个赛季进球数20+,皇马队史第8人

懂球帝
2026-05-21 13:32:23
广州,停雨时间确定!

广州,停雨时间确定!

新浪财经
2026-05-21 20:48:04
《主角》流出片酬单太讽刺!张嘉益500万秦海璐400万相声名角15万

《主角》流出片酬单太讽刺!张嘉益500万秦海璐400万相声名角15万

乐悠悠娱乐
2026-05-21 10:06:56
上海日料餐厅伤人案 目击者称人生最恐怖经历 受伤者按腹鲜血直流

上海日料餐厅伤人案 目击者称人生最恐怖经历 受伤者按腹鲜血直流

东瀛万事通
2026-05-21 14:26:05
黄仁勋的指甲冲上热搜!高清镜头曝光,网友吵翻!医生:这6种情况都可能

黄仁勋的指甲冲上热搜!高清镜头曝光,网友吵翻!医生:这6种情况都可能

上观新闻
2026-05-18 22:12:55
2026-05-22 01:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13054文章数 142651关注度
往期回顾 全部

科技要闻

小米YU7 GT正式发布:售价38.99万元

头条要闻

母亲阳台烧香后外出 引发火灾致2名子女死亡

头条要闻

母亲阳台烧香后外出 引发火灾致2名子女死亡

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

反转!金秀贤与金赛纶未成年时交往不实

财经要闻

潮水退去,裸泳的一定不止五粮液

汽车要闻

雷军:YU7首战Model Y八败两胜 输给全球销冠不丢人

态度原创

本地
亲子
房产
时尚
公开课

本地新闻

用云锦的方式,打开江苏南京

亲子要闻

《小满》山林子中中道德慧智教育诗

房产要闻

顺德澐璟楼王『澐冠』启幕|一场高阶共鸣的静奢美学之约

今年夏天最流行的4组搭配,谁穿谁好看!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版