网易首页 > 网易号 > 正文 申请入驻

能说会唱,AudioGPT惊艳亮相!浙大、北大、CMU等提出全新音频理解与生成系统

0
分享至

新智元报道

编辑:好困

【新智元导读】近日,来自浙大、北大、CMU和人大的研究人员提出了一种全新的音频理解与生成系统AudioGPT。不仅能够实现跨模态转换,以及音频模态的理解、生成,还能能够解决20+种多语种、多模态的AI音频任务。

最近几个月,ChatGPT、GPT-4横空出世,火爆出圈,大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出的非凡能力,引起了学界和业界的极大关注,也让人们看到了LLM在构建通用人工智能 (AGI) 系统方面的潜力。

现有的GPT模型具有极高的语言生成能力,是目前最为先进的自然语言处理模型之一,广泛应用于对话、翻译、代码生成等的自然语言处理领域。

除了书面语言,用户在自然对话中主要使用口语(Spoken Language),而传统大语言模型却无法胜任音频理解与生成任务:

  • GPT模态限制

用户在自然对话中主要使用口语,对口语理解与合成有极大需求,而单模态GPT不能满足对音频(语音、音乐、背景音、3D说话人)模态的理解、生成需求。

  • 音频数据、模型相对少

基础模型(Foundation Model)少或交互性差。相较于文本模态,用于重新训练语音多模态GPT的数据较少。

  • 用户交互性差

用户广泛的使用语音助手如Siri、Alexa基于自然对话高效地完成工作。然而目前GPT之间的交互大多根据键盘输入的文本,交互性差,口语交互更能拉进和用户之间的关系,提升模型易用性。

最近,浙江大学、北京大学、卡内基梅隆大学和中国人民大学的研究人员针对以上难题,提出了全新的音频理解与生成系统AudioGPT。

AudioGPT以ChatGPT充当负责对话与控制的大脑,语音基础模型协同以完成跨模态转换、以及音频(语音、音乐、背景音、3D说话人)模态的理解、生成,能够解决20+种多语种、多模态的AI音频任务。

论文地址:https://arxiv.org/pdf/2304.12995.pdf

Github:https://github.com/AIGC-Audio/AudioGPT

Huggingg Face: https://huggingface.co/spaces/AIGC-Audio/AudioGPT

听觉效果超炫

现在,HuggingGPT增加了Gradio演示:

话不多说,咱们直接看一个AudioGPT对话的例子,包括里面保含了文本、图像和语音三种模态的输入,AudioGPT能理解不同模态的输入,生成结果也能以文本、图像、音频相结合的方式展现给用户。

语音

Q1: Generate a speech with text "here we go".

A1:

Q2: Transcribe this speech.

A2: Here we go.

Q3: Separate each speech from the speech mixture.

A3:

音乐

Q4: Please generate a piece of singing voice. Text sequence is 小酒窝长睫毛AP是你最美的记号. Note sequence is C#4/Db4 | F#4/Gb4 | G#4/Ab4 | A#4/Bb4 F#4/Gb4 | F#4/Gb4 C#4/Db4 | C#4/Db4 | rest | C#4/Db4 | A#4/Bb4 | G#4/Ab4 | A#4/Bb4 | G#4/Ab4 | F4 | C#4/Db4. Note duration sequence is 0.407140 | 0.376190 | 0.242180 | 0.509550 0.183420 | 0.315400 0.235020 | 0.361660 | 0.223070 | 0.377270 | 0.340550 | 0.299620 | 0.344510 | 0.283770 | 0.323390 | 0.360340.

A4:

音效

Q5: Generate an audio of a piano playing.

A5:

Q6: Give me the description of this audio.

A6: The audio is recording of a goat bleating nearby several times.

3D说话人

Q7: Generate a talking human portrait video.

A7:

此外,论文中还有一个多轮对话与上下文理解的例子:

AudioGPT语音模型在现有模型中具有不同的优势:

  • 相较于文本GPT:

ChatGPT、GPT4等语言模型侧重于自然语言处理领域,在多模态理解与合成上福利少了一些,AudioGPT则将重点放在了音频多模态的理解与生成。

  • 相较于Siri等检索模型:

与简单检索并以语音回复检索模型相比,AudioGPT强大的生成式对话,使得用户能够更加实时地获取和处理与内容相关的音频。

  • 相较于视觉任务GPT:

图像不存在像音频一样的语种分类,音频中存在不同语种:如中文、英文、法语等,AudioGPT还需要进行语种管理

技术原理

AudioGPT在收到用户请求时使用ChatGPT进行任务分析,根据语音基础模型中可用的功能描述选择模型,用选定的语音基础模型执行用户指令,并根据执行结果汇总响应。借助ChatGPT强大的语言能力和众多的语音基础模型,AudioGPT能够完成几乎所有语音领域的任务。

可以说,AudioGPT为走向语音通用人工智能开辟了一条新的道路。

具体来说,AudioGPT运行过程可以分成4个阶段:模态转化、任务分析、模型分配和回复生成。

截至目前,AudioGPT涵盖了语音识别、语音合成、语音翻译、语音增强、语音分离、音频字幕、音频生成、歌声合成等任务。

实验结果证明了AudioGPT在处理多模态信息和复杂AI任务方面的强大能力。

目前多模态的LLM层出不穷,Visual ChatGPT,HuggingGPT等模型吸引了越来越多的关注,然而如何测评多模态LLM模型也成了一大难点。

为了解决这一难点,研究人员为多模态LLM的性能评估设计了测评准则和测评过程。具体来说,AudioGPT提出从三个方面测评多模态LLM:

  • 一致性(Consistency):

度量AudioGPT是否正确的理解用户意图,并为之分配所需的模型

  • 稳定性(Capabilitity):

度量基础的语音模型在其特定任务上的性能表现

  • 鲁棒性(Robustness):

度量AudioGPT是否能正确的处理一些极端的例子

针对一致性,研究人员设计了一套基于人工测评的流程。如下图所示:

针对稳定性,AudioGPT调研了各语音基础模型在单任务领域的性能表现。

针对鲁棒性,研究人员从四个方面进行评估:

  • 多轮对话的稳定性:

多模态LLM应该具备处理多轮对话的能力并且能处理上下文关系

  • 不支持的任务:

目前多模态LLM并非万能的,当收到无法解决的请求时,多模态LLM也应该给予用户反馈

  • 错误处理:

多模态基础模型可能由于不同的原因而失败,例如不支持的参数或不支持的输入格式。在这种情况下,多模态 LLM需要向用户提供合理的反馈,以解释遇到的问题并提出潜在的解决方案

  • 上下文中断:

多模态LLM被期望处理不在逻辑序列中的查询。例如,用户可能会在查询序列中提交随机查询,但会继续执行具有更多任务的先前查询

网友热评

最后,项目刚刚开源,可以在Github和Huggingface体验。对于这个新工具的诞生,网友们很是兴奋,有人表示:

AudioGPT是大语言模型在音频处理领域的福利。

还有网友认为,五音不全的也可以借助AudioGPT唱歌了:

有网友称,期待在个人PC上也能用到这样的模型,将能够创造出丰富多样的音视频内容。

参考资料:

https://arxiv.org/abs/2304.12995

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
仙剑哥二胎儿子的瓜!

仙剑哥二胎儿子的瓜!

八卦疯叔
2026-06-29 09:40:03
女老师穿“日系连衣裙”,家长们坐不住了:天气再热也不能这么穿

女老师穿“日系连衣裙”,家长们坐不住了:天气再热也不能这么穿

蝴蝶花雨话教育
2026-06-06 00:05:36
为什么加油机谈话中“六爷”引发热议?

为什么加油机谈话中“六爷”引发热议?

风铃草语
2026-06-29 06:31:14
美军在朝鲜吃了败仗,功德林里一位中将当场咬弯筷子、气晕过去

美军在朝鲜吃了败仗,功德林里一位中将当场咬弯筷子、气晕过去

今日养生之道
2026-06-29 13:07:44
女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

蝴蝶花雨话教育
2026-05-07 00:05:04
不卖了!雷霆预计执行多尔特球队选项 交易两人后薪资压力缓解

不卖了!雷霆预计执行多尔特球队选项 交易两人后薪资压力缓解

醉卧浮生
2026-06-29 21:40:27
自然界脑科学证实:雌性对某个雄性疯狂上瘾,压根不是情感在作祟,而是他偶然间点燃了她大脑深处一套隐秘的成瘾机制

自然界脑科学证实:雌性对某个雄性疯狂上瘾,压根不是情感在作祟,而是他偶然间点燃了她大脑深处一套隐秘的成瘾机制

心理观察局
2026-06-24 07:27:05
太惨了!福建海参厂老板被同学拉去赌球,输了2200万,烧炭自杀

太惨了!福建海参厂老板被同学拉去赌球,输了2200万,烧炭自杀

水晶的视界
2024-12-05 06:00:12
好后悔没重仓!为什么买得最少的,反而涨得最多?

好后悔没重仓!为什么买得最少的,反而涨得最多?

星图金融研究院
2026-06-28 21:04:14
吃他汀一颗花生不能碰?医生提醒:不止花生,这5样食物也要小心

吃他汀一颗花生不能碰?医生提醒:不止花生,这5样食物也要小心

健康之光
2026-06-29 14:56:03
马斯克:如果SpaceX没有显著超过里程碑,我会失望!网友:期待火星上有百万人类,这是最重要的里程碑

马斯克:如果SpaceX没有显著超过里程碑,我会失望!网友:期待火星上有百万人类,这是最重要的里程碑

大白聊IT
2026-06-29 17:52:47
百吨王组团冲卡后续,交警拦不住,还遭死亡威胁,司机个个不简单

百吨王组团冲卡后续,交警拦不住,还遭死亡威胁,司机个个不简单

有范又有料
2026-06-29 19:23:44
王楚然现阶段事业稳步攀升,情感保持低调清醒

王楚然现阶段事业稳步攀升,情感保持低调清醒

动物奇奇怪怪
2026-06-30 00:27:08
媒人介绍凤凰男,刚要拒绝,媒人冷笑:你那点家底不够他妹妹学费

媒人介绍凤凰男,刚要拒绝,媒人冷笑:你那点家底不够他妹妹学费

墨染尘香
2026-06-27 15:19:34
中共临汾市委组织部公示

中共临汾市委组织部公示

山西经济日报
2026-06-29 17:34:21
Nature Health:钟南山/杨子峰团队发布连花清瘟预防家庭内流感继发传播的临床研究结果

Nature Health:钟南山/杨子峰团队发布连花清瘟预防家庭内流感继发传播的临床研究结果

生物世界
2026-06-29 16:27:25
吃“春药”后,是什么感觉?医生说的2个案例,告诉你真实感受

吃“春药”后,是什么感觉?医生说的2个案例,告诉你真实感受

医学科普汇
2026-06-23 17:16:20
梅洛:维尼修斯是世界杯小组赛第二好球员,他在姆巴佩之上

梅洛:维尼修斯是世界杯小组赛第二好球员,他在姆巴佩之上

懂球帝
2026-06-29 11:26:17
伊媒:48架二手歼10B,伊朗全要,交货最快,可能有多大?

伊媒:48架二手歼10B,伊朗全要,交货最快,可能有多大?

万里繁华
2026-06-28 10:37:17
再这么搞下去,三桶油的内退潮或将无可避免!

再这么搞下去,三桶油的内退潮或将无可避免!

小蜜情感说
2026-06-28 14:23:28
2026-06-30 01:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15563文章数 66944关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

数码
健康
艺术
房产
公开课

数码要闻

珂芝三模矮轴机械键盘i98上市,首发价329 / 369元

狂吃“糯叽叽”小心肠梗阻!

艺术要闻

16幅 冉茂芹小幅风景油画写生

房产要闻

你敢想?海口房地产投资,暴跌5成!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版