网易首页 > 网易号 > 正文 申请入驻

字节音效生成模型来了,一键生成大片感音效!已上线即梦

0
分享至

机器之心发布

机器之心编辑部

在 AIGC 持续突破视频生成边界的当下,音效制作仍是制约行业发展的瓶颈。字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型,通过端到端架构实现了视频音效的智能生成,将 AI 视频创作带入「有声时代」。相关功能「AI 音效」已在即梦上线,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。

App 端

Web 端

效果展示

先「听」为快,这里展示了一些 SeedFoley 生成的视频音效效果。

视频链接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg

技术方案

SeedFoley 是一种端到端的视频音效生成架构,通过融合时空视频特征与扩散生成模型,实现了音效和视频的高度同步。首先,用固定的视频帧率对视频序列进行抽帧提取,然后使用一个视频编码器提取视频的表征信息,并通过多层线形变换将视频表征投射到条件空间,在改进的扩散模型框架中构建音效生成路径。

在训练过程,提取语音和音乐相关标签,作为 multi conditions 的形式输入,可以将音效和非音效进行解耦。SeedFoley 能支持可变长度的视频输入,并且在音效准确性,音效同步性和音效匹配度等指标上都取得了领先水平。

图 1:SeedFoley 的模型架构

视频编码器

SeedFoley 的视频编码器,采用了快慢特征组合的方式,在高帧率上提取帧间的局部运动信息,在低帧率上提取视频的语义信息。通过将快慢特征组合,既保留了运动特征,有效降低计算成本。通过这种方式,能在低计算资源性实现 8fps 的帧级别视频特征提取,实现精细动作定位。最后利用 Transformer 结构融合快慢特征,实现视频的时空特征提取。在提升训练效果和训练效率上,SeedFoley 通过在一个批次中引入多个困难样本,显著提升了语义对齐效果,同时使用了 sigmoid loss 而非 softmax loss,能在更低的资源上实现媲美大批次训练的效果。

图 2:SeedFoley 的视频编码器

音频表征模型

对于扩散模型而言,通常采用 VAE 生成的潜在表征(latent representation)作为音频特征编码。与基于梅尔频谱(mel-spectrum)的 VAE 模型不同,SeedFoley 采用原始波形(raw waveform)作为输入,经过编码后得到 1D 的表征,比传统 mel-VAE 模型在重构和生成建模上更有优势。这里,音频采用了 32k 的采样率,以确保高频信息的保留。每秒钟的音频提取到 32 个音频潜在表征,可以有效提升音频在时序上的分辨率,提升音效的细腻程度。

SeedFoley 的音频表征模型采用了两阶段联合训练策略:在第一阶段使用掩码策略,将音频表征中的相位信息进行剥离,将去相位后的潜在表征作为扩散模型的优化目标;在第二阶段则使用音频解码器从去相位表征中重建相位信息。这个做法可以有效降低扩散模型对表征的预测难度,最终实现音频潜在表征的高质量生成和还原。

扩散模型

SeedFoley 采用 Diffusion Transformer 框架,通过优化概率路径上的连续映射关系,实现了从高斯噪声分布到目标音频表征空间的概率匹配。相较于传统扩散模型依赖马尔可夫链式采样的特性,SeedFoley 通过构建连续变换路径,有效减少推理步数,降低推理成本。

在训练阶段,将视频特征与音频语义标签分别编码为隐空间向量;通过通道维度拼接(Channel-wise Concatenation)将二者与时间编码(Time Embedding)及噪声信号进行混合,形成联合条件输入。该设计通过显式建模跨模态时序相关性,有效提升了音效和视频画面在时序上的一致性以及内容的理解能力。

在推理阶段,通过调整 CFG 系数可调整视觉信息的控制强度以及生成质量之间的关系。通过迭代式优化噪声分布,将噪声逐步转换为目标数据分布。通过将人声以及音乐标签进行强行设定,可以有效避免音效中夹杂人声或者背景音乐的可能性,提升音效的清晰度和质感。最后将音频表征输入到音频解码中,得到音效音频。

结语

SeedFoley 实现了视频内容与音频生成的深度融合,能够精确提取视频帧级视觉信息,通过分析多帧画面信息,精准识别视频中的发声主体及动作场景。无论是节奏感强烈的音乐瞬间,还是电影中的紧张情节,都能精准卡点,营造出身临其境的逼真体验;另外,SeedFoley 可智能区分动作音效和环境音效,显著提升视频的叙事张力和情感传递效率。

「AI 音效」功能已上线即梦,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。在 AI 视频,生活 Vlog、短片制作和游戏制作等高频场景中,能有效摆脱 AI 视频的「无声尴尬」,便捷地制作出配有专业音效的高质量视频。

团队介绍

豆包大模型语音团队的使命是利用多模态语音技术丰富交互和创作方式。团队专注于语音和音频、音乐、自然语言理解和多模态深度学习等领域的前沿研究和产品创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人活多久,看喝酒就知道?寿命短的人,喝酒一般有这6个特征

人活多久,看喝酒就知道?寿命短的人,喝酒一般有这6个特征

芹姐说生活
2026-05-14 23:38:55
地下党范纪曼被判死刑,行刑前借口上厕所,看守摆手说:早去早回

地下党范纪曼被判死刑,行刑前借口上厕所,看守摆手说:早去早回

云霄纪史观
2026-05-23 19:45:39
两天内接连坠毁两架中国战机,巴基斯坦坚决认定:这绝非人为失误

两天内接连坠毁两架中国战机,巴基斯坦坚决认定:这绝非人为失误

荣亭小吏
2026-05-23 18:39:34
票房5700万,亏损近4亿,多位巨星主演也没用,年度最惨电影诞生

票房5700万,亏损近4亿,多位巨星主演也没用,年度最惨电影诞生

影视高原说
2026-05-23 18:46:13
“原配老板娘”出镜直播!洁丽雅公关部天塌了

“原配老板娘”出镜直播!洁丽雅公关部天塌了

广告创意
2026-05-21 18:13:30
刘国梁到底有多狠?弃用郝帅和陈玘,用天才前途换国乒的万无一失

刘国梁到底有多狠?弃用郝帅和陈玘,用天才前途换国乒的万无一失

老玮是个手艺人
2026-03-27 14:46:10
陈震请律师了,究竟有这必要吗?

陈震请律师了,究竟有这必要吗?

爱下厨的阿酾
2026-05-23 15:03:13
广东711!全部撤下并道歉

广东711!全部撤下并道歉

东莞好生活
2026-05-22 22:30:03
外国女人!天生就自带饱满骨架,和圆润线条

外国女人!天生就自带饱满骨架,和圆润线条

飛娱日记
2026-04-15 01:44:26
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
暴跌30%、库存堆成山!白酒彻底没人要,到底得罪了谁

暴跌30%、库存堆成山!白酒彻底没人要,到底得罪了谁

牛锅巴小钒
2026-05-23 14:41:33
“衣有五不穿,穿了人不顺”,5种衣服要少穿,记住别犯了迷糊!

“衣有五不穿,穿了人不顺”,5种衣服要少穿,记住别犯了迷糊!

小谈食刻美食
2026-05-18 17:45:43
何小鹏:做汽车很痛苦,利润都给了供应商

何小鹏:做汽车很痛苦,利润都给了供应商

硅屿手记
2026-05-23 03:19:36
后腰、中卫、门将全是B计划!决赛2-3留遗憾,国少三大漏洞有强人,两人因纪律落选

后腰、中卫、门将全是B计划!决赛2-3留遗憾,国少三大漏洞有强人,两人因纪律落选

林子说事
2026-05-23 10:21:48
黄仁勋送饮料给一个女生,为什么连问了两次人家:你喜欢养乐多吗

黄仁勋送饮料给一个女生,为什么连问了两次人家:你喜欢养乐多吗

西楼知趣杂谈
2026-05-19 06:57:24
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
斯洛特:有支球队和我们一样挣扎,但冬窗补强后没怎么输过

斯洛特:有支球队和我们一样挣扎,但冬窗补强后没怎么输过

懂球帝
2026-05-23 17:58:18
6米“贴脸”拦截!俄英战机为何上演“空中拼刺刀”?

6米“贴脸”拦截!俄英战机为何上演“空中拼刺刀”?

环球网资讯
2026-05-22 13:12:47
白米粥立大功!医生发现:糖尿病常喝白米粥,或能降低4种并发症

白米粥立大功!医生发现:糖尿病常喝白米粥,或能降低4种并发症

医学科普汇
2026-05-22 16:35:30
王炸!同济医院武汉新大楼,总建筑面积超7.4万平方米,预计10月竣工投用!

王炸!同济医院武汉新大楼,总建筑面积超7.4万平方米,预计10月竣工投用!

越乔
2026-05-22 22:54:41
2026-05-23 20:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13064文章数 142652关注度
往期回顾 全部

科技要闻

爆炸声中又迈一步!拆解马斯克“十二飞”

头条要闻

媒体:乌背地里与台湾方面小动作不断 两方关系正拉近

头条要闻

媒体:乌背地里与台湾方面小动作不断 两方关系正拉近

体育要闻

少年意气,正在改变中国足球

娱乐要闻

《浪姐7》三公,王濛赢麻了,张月实惨

财经要闻

股价暴跌!富途老虎是什么来头?

汽车要闻

与众07上市限时权益价10.99万起 首搭CEA架构

态度原创

旅游
健康
亲子
数码
公开课

旅游要闻

“一江一河”Citywalk上线,解锁海派城市新玩法

外泌体 ≠ 生长因子!它们之间究竟有何区别?

亲子要闻

孩子喜欢和父母唱反调?恭喜你,娃长大了!

数码要闻

网购iPad Air 开箱说明书外壳印Aqqle 商家:设备是官方标配 包装盒是后配的

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版