网易首页 > 网易号 > 正文 申请入驻

AI研习丨智能音乐生成技术与元宇宙

0
分享至

文/张克俊

1 背景

1.1 元宇宙与音乐艺术

元宇宙为音乐艺术提供了生长的土壤,未来人们可以在上面自由创作,可以与更多人交流学习。同时,元宇宙中虚拟现实等一系列技术为艺术家提供了艺术展现的新方式,有望突破时空限制,使得我们可以很容易地打造一个音乐艺术的生态圈,进而极大地提升音乐创作者和听众的情感共鸣体验。比如,现场的报告通常比线上的体验好,因为线下不仅有分享者与听者之间的交流,还有听众与听众之间的交流(体验)。因此,我们认为,随着元宇宙技术的发展,AIGC领域特别是智能音乐生成领域将需要更多地考虑高质量生成、人机协作生成和个性化生成等问题。

1.2 元宇宙背景下音乐人机共创

有鉴于此,我们开始思考如何在元宇宙背景下开展智能音乐生成研究,并有效解决上述问题。我们认为,想要满足元宇宙中对音乐生成的要求,不但需要重视人机共创,也需要重视开放式协作。人机共创和开放式协作将相辅相成。下面从开放性协作、人机共创角度介绍我们实验室四个方面的工作。

第一,人机独立发展阶段(Guo,et al,2022)。人机独立创作无合作,依赖数据。

第二,知识融入阶段 (Chen,et al,2022)。将人类的创作知识融入AI,人与机器有协作。

第三,认知拓展阶段(Wang,et al,2022)。不仅有协作,还可以在其中找到更高层面的认知拓展-更高的需求。

第四,理解升级阶段。丰富创作策略,实现人机共创,达到人机融合。

值得一提的是,这四个阶段并没有严格界定的顺序或先后,仅是一个对人机协作范式不断迭代的过程。

值得一提的是,这四个阶段并没有严格界定的顺序或先后,仅是一个对人机协作范式不断迭代的过程。

2 研究

2.1 人机独立

人机独立阶段,我们主要研究由大数据引导的歌曲翻译任务(人机独立)。

相较于传统的文本翻译,歌曲翻译需要满足更多的要求。包括以下三点:①可信度,即翻译结果需要保留原始语义;②和谐度,即翻译得到的歌词与原曲所构成的有机整体是和谐的,尽量避免误听的情况;③艺术性,即歌词不能像普通文本一样平铺直叙,需要有美感,也就是看起来像“歌词”。其中,想要达到第二点和谐度,首先需要保证词曲的长度相近,避免难以对齐的情况;其次则需要使旋律节奏与歌词节奏相呼应;最后,旋律走向也需要与歌词音调走向呼应。因此,单纯基于文本翻译模型的歌词翻译系统会出现原有节奏被破坏、歌词无法唱出来等问题。为此我们从局部层面和全局层面挖掘乐理知识和翻译约束,采用无监督学习的方式,引导式地进行自动歌曲翻译。

首先,使用海量文本翻译数据训练一个翻译模型,以确保翻译可信度;其次,增加乐理约束以确保和谐度,具体来说,在训练阶段增加长度标签以控制模型输出长度,在解码阶段添加节奏和音高的对齐约束;然后,利用非对齐歌词数据及少量的歌词翻译数据对基础翻译模型的语言模型部分继续优化,以生成更像歌词的翻译结果。

模型可以被分解为:①训练阶段,风格化与长度约束的歌词翻译模型;②推理阶段,音高与节奏约束的波束搜索。

实际中,如图1所示,GagaST模型成功平衡语义和可唱性,在自动和人工评估中取得不错的效果,能够很好地找到某个英文用中文的哪些歌词来替代,既能达到意思相近又能达到旋律相近。

在这项研究中,人不需要参与,也不需要协作就可以实现预定目标,因此我们定义这类研究为“人机独立”。

2.2 知识融入

语言学家、音乐家研究表明,歌词与旋律关系集中在节奏、音高和结构三方面。因此,我们开始探索融合节奏、 音高和结构等音乐知识进行歌词到旋律的生成( 知识融入)。近 期, 我们提出了ReLyMe——即人类作词、机器作旋律,一种基于人类词曲创作知识(歌词)的旋律生成方法(见图 2)。ReLyMe对节奏、音高和结构这三方面的歌词旋律关系分别建模。音高方面,我们考虑三个不同的粒度:①单个声调的音高形状;②相邻声调的音高过渡;③完整句子的音高走向。节奏方面,首先强拍需对应关键字,弱拍对应助词;同时旋律的停顿位置与歌词断句位置也要相对应;结构方面,相同结构的歌词需要对应重复的旋律。客观实验结果与主观实验结果表明,ReLyMe提升了SongMASS、TeleMelody等歌词到旋律生成模型的表现,有效地将词曲关系纳入神经网络模型,提高听众对生成的旋律的感知度。如图2所示,蓝色表示音高;绿色表示旋律相近性。

值得一提的是,古时候的名家往往身兼词曲,就像《诗经》中所有的诗都是可以唱出来的。现在有很多人只会作词,不会作曲。未来,元宇宙背景下的“分工”将越来越细,因此对合作或者协作要求就越来越高。

2.3 认知拓展

那么, 如何实现人与机器更深度、 紧密的共创、协作(认知拓展)?比如人类作旋律、机器作伴奏,如何解决实时人机协作难题?解决这一难题对算法的要求非常高, 主要体现在机器伴奏需尽可能缩短延时、 保持高质量。于是, 我们提出了SongDriver。如图3所示,它借用了同声传译的思路,融合了同声传译中的人类经验提出并行机制,提升了伴奏的同步性;融合了申克理论提取的乐理知识作为特征——提升了伴奏的听感质量。也即消除了实时伴奏的逻辑延迟和误差累积,实现了较高的同步性、较稳定的听感质量。

2.4 理解升级阶段

最后,我们的工作聚焦于理解音乐本质,把音乐分析理论融入进来(理解升级),让音乐生成变得可分析、可控。在这项工作中,我们除了对单独的音乐特征进行抽取,更重视音乐特征之间的关系,从而满足更多的个性化需求。有鉴于申克/GTTM层级化的分析方式能将分离的元素联系起来,同时为用户的个性化需求留下空间,我们将其引入到我们最新的研究中,如图4所示。

具体来说,我们根据心理学实证调查了音乐底层存在的长期依赖结构,提出了知识增强的旋律骨架引导的层级式旋律生成模型,先预测骨干的发展,再填充骨干的间隙来完成旋律创作,提升了旋律的结构性和音乐性。通过实验验证,基于专业音乐知识提取的骨架具备有效性,且旋律生成的质量和可控性相比端到端更优。实际上,申克GTTM中的结构和延长,如同装修房间的硬装和软装,有稳定性一面、也有个性化一面。我们的房间会频繁装修,我们会改动硬件结构也会改动软件结构,要不断个性化、可控的装修(人机协作)。

3 结束语

人类和AI共同生活在这个世界已经成为共识,但并不是每个人都有音乐创作能力,但是每个人和AI组成的合体却能够迸发出巨大的艺术创作能力。在未来的元宇宙中,可能每个人都会携带自己的AI来与他人交流、合作和共创,因此音乐创作等艺术创作的形式也将会大不相同。同时,如图5所示,元宇宙中带来的情感共鸣提升,除了创作者之间的情感交流之外,也将体现在创作者和听众之间、听众和听众之间。

我们期待,未来元宇宙相关技术可以进一步打破时空隔阂,把我们的灵感融入到元宇宙人人共创。

(参考文献略)

选自《中国人工智能学会通讯》

2022年第12卷第12期

人工智能与生命科学专题

↓↓↓ 欢迎加入学会大家庭,获取更多会员专属福利

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
惊喜式穿搭,肉肉兔女郎准时配送

惊喜式穿搭,肉肉兔女郎准时配送

飛尚日记
2026-06-26 06:49:55
状元迪班萨正式亮相奇才!解释选4号球衣原因 蜘蛛侠让他爱上篮球

状元迪班萨正式亮相奇才!解释选4号球衣原因 蜘蛛侠让他爱上篮球

罗说NBA
2026-06-26 06:17:00
莫斯科被无人机暴打背后真相:不是俄军弱,是这题全世界都不会

莫斯科被无人机暴打背后真相:不是俄军弱,是这题全世界都不会

战域笔墨
2026-06-25 12:11:07
大A又涨出股灾了...

大A又涨出股灾了...

思哲与创富
2026-06-26 11:34:48
夏窗首签!罗马诺:曼城1.16亿镑抢下安德森 球员要求俱乐部放行

夏窗首签!罗马诺:曼城1.16亿镑抢下安德森 球员要求俱乐部放行

爱奇艺体育
2026-06-26 11:05:58
瑞典00后男爵世界杯小组赛打满3个全场:王位不重要,足球才是一生挚爱

瑞典00后男爵世界杯小组赛打满3个全场:王位不重要,足球才是一生挚爱

红星新闻
2026-06-26 17:48:09
“霸总专业户”退出短剧后摆摊卖菜,“我依然想演戏”

“霸总专业户”退出短剧后摆摊卖菜,“我依然想演戏”

极目新闻
2026-06-25 19:29:22
“结束近两个世纪历史”!英媒:耗资3.69亿英镑翻修白金汉宫,英国王夫妇决定不入住

“结束近两个世纪历史”!英媒:耗资3.69亿英镑翻修白金汉宫,英国王夫妇决定不入住

环球网资讯
2026-06-26 13:37:09
乌克兰踩过红线,与日本联合研制攻击无人机,中国给出明确回应

乌克兰踩过红线,与日本联合研制攻击无人机,中国给出明确回应

璀璨幻行者
2026-06-25 03:20:07
科技狂欢,散户哀嚎:每天4000家下跌,这个市场到底怎么了?

科技狂欢,散户哀嚎:每天4000家下跌,这个市场到底怎么了?

风风顺
2026-06-26 02:10:05
700万考生仅1人数学满分,提前保送清华,为何能引爆全网?

700万考生仅1人数学满分,提前保送清华,为何能引爆全网?

娱乐的宅急便
2026-06-26 03:49:07
全线下跌,超20万人爆仓

全线下跌,超20万人爆仓

每日经济新闻
2026-06-26 00:32:07
最新!福建两地发布一批人事任免

最新!福建两地发布一批人事任免

南安融媒
2026-06-25 23:11:57
武汉最“孤独”县城!离市区60公里仅17万人,高铁落地能否逆袭?

武汉最“孤独”县城!离市区60公里仅17万人,高铁落地能否逆袭?

笔墨V
2026-06-26 13:25:30
恶有恶报?日本突发6.9级强震,最大震度6强,东京高楼剧烈摇晃

恶有恶报?日本突发6.9级强震,最大震度6强,东京高楼剧烈摇晃

史行途
2026-06-26 14:49:59
说漏嘴了,真少了4架,印度空军军官:印度现有32架阵风战机

说漏嘴了,真少了4架,印度空军军官:印度现有32架阵风战机

爱迷彩的老虎
2026-06-26 16:17:42
30国派兵强援日本,韩国逼到帅位,美军没料到中方直接竖起东风

30国派兵强援日本,韩国逼到帅位,美军没料到中方直接竖起东风

小小科普员
2026-06-26 14:51:44
血管斑块脱落前,身体会亮起4盏红灯!任何一盏亮了,请立刻就医

血管斑块脱落前,身体会亮起4盏红灯!任何一盏亮了,请立刻就医

健康科普365
2026-06-26 18:20:08
英伟达芯片遇冷!B200算力租赁价格大跌超30%

英伟达芯片遇冷!B200算力租赁价格大跌超30%

快科技
2026-06-24 14:53:35
见过最毁三观的事情是啥?看网友讲述把我雷的瞳孔地震。

见过最毁三观的事情是啥?看网友讲述把我雷的瞳孔地震。

侃神评故事
2026-06-26 10:18:23
2026-06-26 19:32:49
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
4135文章数 1489关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

已有19支队伍晋级32强 盘点世界杯小组出线形势

头条要闻

已有19支队伍晋级32强 盘点世界杯小组出线形势

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

亲子
教育
时尚
家居
艺术

亲子要闻

科普|备孕第一步:读懂身体“悄悄话”

教育要闻

全程免费!面向河南等省高一高二学生,海军工程大学夏令营开始报名

盛夏,才要穿出松弛感!

家居要闻

绿意盎然 自然之境

艺术要闻

王羲之的7个儿子,只有他学到了父亲书法的神韵,水平不输王献之

无障碍浏览 进入关怀版