网易首页 > 网易号 > 正文 申请入驻

阿里通义实验室发布PrismAudio视频生成音频框架

0
分享至

IT之家 3 月 24 日消息,阿里巴巴通义实验室今日发布了 PrismAudio,这是一个视频生成音频(Video-to-Audio)框架,其研究重点是环境音 / 音效合成,比如马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音,而不是给人物配音。

IT之家附官方详细介绍如下:

PrismAudio 是首个将强化学习与思维链紧密结合的视频生成环境音框架。简单来说,我们教模型学会了“先思考,再发声”,并且有四位“老师”同时给它打分。

  • 语义老师盯着画面,教模型认准“这是马蹄声,不是鸟叫声”。
  • 时序老师拿着秒表,监督声音和动作必须严丝合缝。
  • 美学老师挑剔音质,要求声音自然、有层次、不刺耳。
  • 空间老师听声辨位,检查声音是不是从该来的方向来。

但问题来了:四个老师同时打分,如果要求不一样怎么办?比如语义老师说“这个声音像了”,时序老师说“但慢了半拍”,听谁的?

PrismAudio 的解法是:让模型先想清楚,再动手。

第一步:先写笔记,再发声

传统的配音模型是“端到端”的:输入视频,直接输出音频。模型内部发生了什么,没人知道,也没人控制。

但我们希望模型不是“瞎蒙”,而是“有思路”地生成。所以,我们没让模型一上来就生成音频,而是先让它“写笔记”。

这段视频里有什么?应该发出什么声音? 声音什么时候开始?什么时候结束?顺序怎么排? 声音应该是什么质感?清脆还是低沉?远近怎么处理? 声源在左边还是右边?有没有移动?

四份笔记写完,拼接成一份完整的“行动指南”,再交给音频生成模型去执行。这就是我们说的分解式思维链,不是让模型“一拍脑袋”出声音,而是让它把思考过程拆开、写下来,每一步都有据可依。

第二步:四位老师,持续打分

生成音频后,怎么判断它做得好不好?光靠“像不像真实声音”这一个标准,仍然会让模型再次陷入“顾此失彼”的老问题。所以,我们给每个老师配了一个“打分器”(奖励函数),让四个老师各自打分,互不干扰:

  • 语义老师用 MS-CLAP 打分,检查声音和画面内容是否匹配
  • 时序老师用 Synchformer 打分,精准测量声音和动作是否同步
  • 美学老师用 Meta Audiobox Aesthetics 打分,从清晰度、动态、丰富度等多个维度评估音质
  • 空间老师用 StereoCRW 打分,验证左右声道信息是否与画面中的声源位置一致

四个分数加在一起,形成一个综合评分。模型的目标,就是不断调整自己的生成策略,让这个总分越来越高。这样模型不会被单一标准牵着走,而是必须同时满足四个的要求,哪个维度都不掉队。

第三步:高效训练,解决效率瓶颈

有了打分机制,下一步就是用强化学习来优化模型。

但这里有一个现实问题:强化学习训练扩散模型,太慢了。

传统方法每一步都要做随机采样,成本极高。如果每一步都这么折腾,训练一轮可能要好几周。所以我们设计了一个高效训练算法 Fast-GRPO。

它的核心思路很简单:把随机探索限制在刀刃上。只在生成过程的极短时间内做随机采样,其余时间走快速通道。这样既保留了探索空间,又把训练时间大幅缩短。

结果显示:在单独优化某个指标时,Fast-GRPO 只用 200 步就达到了传统方法 600 步的性能水平。

效果怎么样?

我们做了严格的测试,在传统的 VGGSound 测试集上,PrismAudio 全面超越了现有最好方法:


在我们自己搭建的复杂场景测试集 AudioCanvas 上,差距拉得更大:


PrismAudio 只有 5.18 亿参数,生成 9 秒音频只要 0.63 秒,比那些动辄几十亿参数的模型更轻量、更实用。

这项研究已被顶级会议 ICLR 2026 收录,代码即将开源

论文地址:arXiv:2511.18833

开源地址:https://prismaudio-project.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世乒赛结束仅2天,新华社对梁靖崑使用特别称呼,日本主帅没说错

世乒赛结束仅2天,新华社对梁靖崑使用特别称呼,日本主帅没说错

观察鉴娱
2026-05-14 10:44:42
退机票被豆包“坑”600元,网友:起诉字节!

退机票被豆包“坑”600元,网友:起诉字节!

三言科技
2026-05-13 18:17:14
华谊兄弟得罪了这个大佬

华谊兄弟得罪了这个大佬

蓝钻故事
2026-05-13 15:35:51
大跌64%!阿里“失速”

大跌64%!阿里“失速”

杠杆游戏
2026-05-13 22:35:24
不接待,日本访华了

不接待,日本访华了

安安说
2026-05-13 10:50:38
河南球迷侮辱诅咒!曝成都蓉城已报警+立案 网友要求河南队道歉

河南球迷侮辱诅咒!曝成都蓉城已报警+立案 网友要求河南队道歉

念洲
2026-05-14 07:27:15
空腹抽血,喝水算不算破坏?很多人意外!检验科医生权威解答

空腹抽血,喝水算不算破坏?很多人意外!检验科医生权威解答

环球网资讯
2026-05-06 13:46:09
俄军火丑闻:中国零件不合格致3500万损失,5人被追责

俄军火丑闻:中国零件不合格致3500万损失,5人被追责

你的雷达站
2026-05-13 10:12:30
法国《世界报》八个版面,万字长文:“我们已经进入了中国世纪”

法国《世界报》八个版面,万字长文:“我们已经进入了中国世纪”

安然有思
2026-05-02 17:29:08
印媒:大尼科巴岛将成为中国的噩梦!

印媒:大尼科巴岛将成为中国的噩梦!

达文西看世界
2026-05-10 08:28:38
拿600万!全场5中1仅3分,拿到顶薪就躺平,球迷:在场上像没睡醒

拿600万!全场5中1仅3分,拿到顶薪就躺平,球迷:在场上像没睡醒

弄月公子
2026-05-14 07:42:59
141:0全票通过!欧盟突然对华重磅表态,中方直接正面回应

141:0全票通过!欧盟突然对华重磅表态,中方直接正面回应

花寒弦絮
2026-05-13 01:38:41
为了得到大哥的妻子旺达,伊卡尔迪究极付出了多大的代价?

为了得到大哥的妻子旺达,伊卡尔迪究极付出了多大的代价?

罗氏八卦
2026-05-01 18:05:03
“这真不是AI?”中南大学高考祝福视频火了,出镜男生太帅被质疑

“这真不是AI?”中南大学高考祝福视频火了,出镜男生太帅被质疑

妍妍教育日记
2026-05-14 09:56:16
赖昌星的情人蔡玲玲:悔不该委身于他,58岁的她现状如何?

赖昌星的情人蔡玲玲:悔不该委身于他,58岁的她现状如何?

细品名人
2026-04-29 07:06:35
央媒怒斥!把苦难当笑料的冒犯不是艺术,脱口秀跑偏该刹车了

央媒怒斥!把苦难当笑料的冒犯不是艺术,脱口秀跑偏该刹车了

一盅情怀
2026-05-13 13:59:02
杭州又一知名店面关门倒闭!曾经大排长龙

杭州又一知名店面关门倒闭!曾经大排长龙

麻辣下沙
2026-05-13 21:52:45
国台办:和平统一后,“台湾同胞无论在世界任何地方,都有强大祖国作为坚强后盾”

国台办:和平统一后,“台湾同胞无论在世界任何地方,都有强大祖国作为坚强后盾”

参考消息
2026-05-13 11:27:06
被中方制裁的鲁比奥,凭什么能随特朗普访华?官媒一句话说透了

被中方制裁的鲁比奥,凭什么能随特朗普访华?官媒一句话说透了

一个有灵魂的作者
2026-05-14 08:57:46
“1035元4只皮皮虾”事件最新进展:涉事出租车司机徐某已被开除;当事顾客称被网暴

“1035元4只皮皮虾”事件最新进展:涉事出租车司机徐某已被开除;当事顾客称被网暴

极目新闻
2026-05-13 13:15:20
2026-05-14 11:59:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
344168文章数 607205关注度
往期回顾 全部

科技要闻

马斯克:只有我和黄仁勋坐上了"空军一号"

头条要闻

媒体:特朗普开始访华 中方有一句话是说给全世界听的

头条要闻

媒体:特朗普开始访华 中方有一句话是说给全世界听的

体育要闻

哈登30+8+6创8纪录 第8次赢天王山

娱乐要闻

肖战提名金海燕奖,这一步走得太稳

财经要闻

片仔癀依旧困在“片仔癀”

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

健康
亲子
教育
时尚
艺术

干细胞能让人“返老还童”吗

亲子要闻

辅酶q10备孕是什么时间吃?39岁卵巢早衰还能怀孕吗?

教育要闻

想让躺平的孩子少花钱,只需做到一件事!

T恤+低腰阔腿裤、衬衫+低腰半裙,今年夏天最时髦的搭配,谁穿谁好看!

艺术要闻

充满光感的花卉油画 | 亚历山大·沙巴德伊

无障碍浏览 进入关怀版