网易首页 > 网易号 > 正文 申请入驻

新加坡科技设计大学如何让机器读懂音乐的美与热度

0
分享至


这项由新加坡科技设计大学AMAAI实验室开展的研究,以预印本形式发布于2026年5月,编号为arXiv:2605.03395,感兴趣的读者可通过该编号查阅完整论文。

每天,数以百万计的AI生成歌曲涌现在Suno、Udio这样的平台上。有些歌曲被疯狂转发、收藏,有些却悄无声息地沉入信息海洋。这背后是否有规律可循?一首AI生成的歌,是否因为"好听"才变得流行?或者"流行"和"好听"根本是两回事?新加坡科技设计大学的研究者们决定正面回答这些问题,他们构建了一个叫做APEX的系统——一个能同时判断AI音乐"好不好听"和"会不会火"的智能框架。

一、为什么AI音乐的"流行预测"是一个全新难题

在人类音乐的世界里,预测一首歌会不会流行并不是什么新鲜事。学界甚至给这个研究方向起了一个颇具野心的名字——"热门歌曲科学"(Hit Song Science)。几十年来,研究者们尝试了各种手段:分析音频波形、提取节拍模式、结合歌词情感、追踪社交媒体讨论热度,甚至用神经科学仪器测量听众的生理反应。这些努力在一定程度上奏效,因为人类歌曲的流行背后有大量可以利用的"外部线索"——歌手的知名度、唱片公司的推广力度、历史播放数据、粉丝互动记录。

然而,当音乐的创作者从人类变成AI时,这些线索几乎全部失效。AI不会接受采访、不会举办演唱会、没有粉丝基础、也没有营销预算。Suno和Udio这类平台上,一首歌从无到有只需几秒钟,每天产出的歌曲数量可能超过一个传统唱片公司整年的产量。在这片茫茫音海里,什么决定了一首AI歌曲能获得更多播放量和点赞数?答案几乎只剩下一个方向——音乐本身的内在质量。

正是在这个背景下,研究团队意识到,专门针对AI生成音乐的流行预测模型,几乎是一片空白地带。传统模型无法迁移,而这个领域的数据规模、内容特征和评价维度都与人类音乐截然不同。他们决定从零开始,建立一个专属于AI音乐世界的预测体系。

二、"好听"和"会火"是同一件事吗?

在动手构建系统之前,研究团队面临一个根本性的哲学问题:音乐的审美质量(听起来有多好)和音乐的流行程度(实际上有多少人听),究竟是不是同一回事?

这个问题的答案,在人类音乐世界里就已经充满争议。有些制作精良、和声复杂的作品叫好不叫座,有些节奏单调甚至音质粗糙的歌曲却席卷全球。在AI音乐领域,这种张力更加突出:一首技术上无可挑剔、音色饱满、结构严谨的AI合成曲,未必能吸引普通听众反复收听;而一首带有某种"抓耳"感、旋律朗朗上口的作品,即便在专业眼光看来略显简单,也可能收获大量播放。

研究团队将这两个维度明确区分开来,并决定同时建模。代表"好听程度"的是来自SongEval这套评测体系的五个维度:连贯性(整首歌听起来是否前后一致、不突兀)、音乐性(是否具备基本的音乐美感)、记忆点(旋律是否容易留在脑海里)、清晰度(各个声部是否清晰可辨)、自然感(听起来是否像真实的音乐而非机器噪音)。每个维度由人类专家打分,范围从1分到5分。代表"会不会火"的则是实际的播放量和点赞量,来自真实平台的用户行为数据。

通过同时预测这七个维度,研究者希望弄清楚:这两类信号,在AI音乐的语境下,到底是相互促进、各自为政,还是存在某种隐秘的关联?

三、听音乐的"AI耳朵":MERT是怎样理解音乐的

要让机器预测一首歌的好坏与热度,首先要让机器真正"听懂"音乐。研究团队选择了一个叫做MERT的音乐理解模型作为整个系统的"耳朵"。

MERT的全称是"大规模自监督训练的声学音乐理解模型",它的设计思路可以用一个比喻来理解:如同一个同时精通声音物理学和音乐理论的专家,能从两个维度解读一首歌。在训练时,MERT同时向两位"老师"学习——一位负责教它辨别音色、音高、节奏等底层声学特征,另一位则帮它理解和弦进行、调式结构、音乐整体框架等高层次的音乐逻辑。这种双师训练让MERT既不失对声音细节的敏感,又具备对音乐结构的宏观把握。

在实际操作中,研究团队将每首歌切割成一段段30秒的片段,就像把一本书拆成若干页分别阅读。每个片段送入MERT之后,系统会从模型内部的四个不同"深度"层提取特征——分别是第3层、第6层、第9层和最终层。这个设计背后有明确的道理:浅层网络捕捉的是音色、音量这类直接感知到的声学现象,深层网络则处理节奏模式、和声走向这类需要"多想一步"才能感知的音乐特性。将这四层特征通过一个可学习的权重层融合成一个统一的向量,相当于从多个视角综合判断一首歌。

最终,同一首歌的所有片段向量会被平均合并成一个整体表示,代表这首歌的"音乐DNA"。这个整体表示,便是后续所有预测任务的输入基础。

四、APEX的结构:一个共享底层、分头判断的系统

有了MERT提供的音乐表示,APEX的核心架构就像一栋建筑:底层是所有任务共用的"公共大厅",向上延伸出七条专属通道,每条通道负责一个具体的判断任务。

公共大厅由两层或三层全连接神经网络构成,维度从768维逐步压缩至256维,每一层都配备了批归一化(让数据保持稳定)、GELU激活函数(增加非线性表达能力)以及30%的dropout(随机关闭部分神经元,防止模型死记硬背)。这个共享结构的作用,是从音乐表示中提炼出对所有任务都有用的通用特征。

从共享层往上,系统分出七条独立的输出分支:两条主任务分支分别预测"播放量分数"和"点赞量分数",五条辅助任务分支分别预测SongEval的五个审美维度。每条分支内部再经历256→128→64→1的三层网络,最终输出一个具体分数。播放量和点赞量分支的输出通过sigmoid函数映射到0到100之间,五个审美分支的输出则映射到1到5之间,与原始SongEval评分范围保持一致。

播放量和点赞量分数的计算方式颇费心思。原始数据是绝对的播放次数,但这在跨平台比较时意义不大——同一首歌在一个拥有百万用户的平台上获得1000次播放,和在一个只有一万用户的平台上获得1000次播放,意义截然不同。研究团队首先将每首歌的播放量在数据集内转换为百分位排名,然后用一个特殊的幂次函数进行变换,使得只有处于第80百分位的歌曲才能获得50分的中间分值。这个设计刻意"苛刻":只有在数据集中真正出类拔萃的歌曲,才能拿到高分。同样的处理方式也应用于点赞量,生成对应的点赞分数。这种标准化分数的好处在于可以跨平台通用,未来也可以用于强化学习或偏好优化等下游任务。

五、七个任务如何协调:损失函数的平衡艺术

训练一个同时承担七项任务的模型,面临一个棘手的问题:七个任务各自有各自的误差,如何把这些误差整合成一个统一的训练信号,让模型以合理的方式同步进步?

研究团队测试了三种不同的整合策略。第一种是最朴素的"一视同仁":直接把七个任务的误差加总,不做任何权重区分。这种做法简单透明,但潜在风险是容易被某个"嗓门大"(误差绝对值高)的任务主导,其他任务反而被忽视。

第二种策略是"手动调权":人为设定播放量和点赞量这两个主任务的权重为5倍,审美任务的权重为1倍,明确告诉模型"流行预测更重要,要优先学好"。这种做法直观,但权重的选择本身带有主观性,未必是最优解。

第三种策略来自计算机视觉领域的一项经典研究——"基于不确定性的自动权重"。这个方法的核心思路颇为优雅:不同任务的难度不同,难度可以用一个叫做"同方差不确定性"的量来衡量。难度越高、预测越不确定的任务,自动获得较低权重;难度较低、模型把握较大的任务,则相应承担更多训练责任。这些权重不是人工设定的,而是模型在训练过程中自己学会的——每个任务配有一个可学习的参数,训练时自动调整。这种机制能防止单一困难任务"拖垮"整个训练过程。

六、211,000首歌的训练数据:从哪里来,怎么处理

研究团队构建的训练数据集规模相当可观,来源于两个公开的AI生成音乐数据仓库:Udio-126K和Suno-307K,分别收录了来自Udio平台和Suno平台的海量歌曲,每首歌都附带播放量、点赞数等元数据。

原始数据并不能直接使用。研究者首先剔除了播放量为零的歌曲(没有人听过,无从判断流行与否)、重复歌曲、损坏的音频文件,以及在数据集发布前两周内刚刚上线的新歌(新歌的播放量还没来得及积累,会引入时间偏差)。经过清理,每个平台保留了约12.4万首歌曲。由于Suno的原始数据集远大于Udio,为了平衡,研究者对Suno进行了分层采样,确保两平台的歌曲在播放量分布上保持一致。

最终合并后约24.8万首歌按85%(训练)、10%(测试)、5%(验证)的比例分配,训练集约21.1万首,对应约1万小时的音频。这一规模在音乐理解类研究中属于相当大的数据集。

训练过程使用了AdamW优化器,学习率为0.0001,配合余弦退火学习率调度器。训练在4块NVIDIA Tesla V100 GPU上进行分布式并行训练,批量大小为每块GPU 512个样本,并启用混合精度训练以提升效率。一旦验证集上的损失停止下降,训练便提前结束。

七、24种配置的大横评:哪种组合效果最好

为了系统性地找到最优配置,研究团队将三个维度的选择完全交叉组合:三种损失策略(等权、手动权重、自动权重)、两种共享层深度(两层或三层)、两种输入模式(以片段为单位或以完整歌曲为单位),再加上两种任务配置(仅预测流行度、或同时预测流行度和审美),共构成了24种实验条件,每种都在相同数据上完整训练和评估。

从测试结果来看,整体趋势相当一致。在流行度预测上,播放量分数的预测误差(MSE)在699到714之间,平均绝对误差(MAE)在21到22.3之间,皮尔逊相关系数(衡量预测值和真实值走势是否一致)在0.33到0.35之间,斯皮尔曼相关系数(衡量排名顺序是否吻合)同样在此区间。点赞量分数的预测表现略好,误差更小,相关系数达到0.40到0.42之间。

在所有变量中,"以完整歌曲为单位还是以片段为单位"是影响最明显的因素。用整首歌的平均嵌入来训练,效果明显优于把每个片段单独当作训练样本。原因不难理解:一首歌的整体气质,往往在若干段落的叠加后才能显现,孤立地看某一段30秒,很可能错过歌曲的整体走向。

三层共享结构比两层略好,但提升幅度相当有限,说明表达能力达到一定程度后,简单地加深网络带来的边际效益会迅速递减。自动权重损失策略(即基于不确定性的方法)在大多数配置中都优于或至少持平于另外两种,印证了这种自适应机制的有效性。

最令人关注的发现是:全任务配置(同时预测流行度和审美)与仅预测流行度的配置相比,流行度预测性能几乎没有差异。换句话说,加入五个审美辅助任务,既没有拖累流行预测,也没有显著提升它——两组任务并行运作,互不干扰地学习。这个结果既说明流行度和审美质量确实是两个相对独立的信号,也说明APEX的多任务架构设计是成功的,共享层能够有效容纳两类不同性质的信息。

表现最佳的单一配置是"Model C"——自动权重损失、两层共享结构、歌曲级别输入、全任务模式。这个配置在流行度和审美预测两方面都达到了最优,成为后续跨平台泛化实验的代表模型。

八、审美维度:机器能打出接近专家的分数吗

如果说流行度预测的结果让人觉得"相关系数0.35似乎不够高",那么审美维度的预测结果则令人眼前一亮。

以Model C为例,五个SongEval维度的MSE最低仅为0.166(满分5分的量表上,平均偏差只有约0.4分),皮尔逊相关系数达到0.734至0.751,斯皮尔曼相关系数达到0.751至0.765。这意味着APEX预测的审美评分,与人类专家的打分有相当高的一致性——在排名顺序上,机器判断"这首歌比那首歌更自然"的准确率,远超过随机猜测。

五个维度中,"自然感"是最容易预测的,而"记忆点"是最难的。这个发现本身就有些意味深长:自然感衡量的是音乐是否听起来不像机器合成的,这恰恰是AI生成音乐最容易在技术上留下痕迹的地方,MERT的底层声学特征对这类差异非常敏感;而记忆点则涉及更复杂的心理机制,一段旋律是否会留在脑海,可能与听众的文化背景、心理状态、以往音乐经历都有关系,仅凭音频波形很难完全捕捉。

手动调权配置(Model B和Model E)是审美预测表现最差的,这提供了一个反向印证:强行给流行度任务加权,并不能改善其预测效果,反而因为占用了共享层的学习能力,使审美预测质量明显下滑。自动权重的优越性在此得到了进一步支持。

九、真正的考验:对未曾见过的AI系统,APEX还管用吗

所有之前的实验,都是在Suno和Udio的歌曲上进行训练和测试。真正的问题是:APEX学到的东西,能不能用在其他AI音乐系统产生的歌曲上?如果只对Suno和Udio的风格有效,那这个系统的价值就大打折扣。

为此,研究团队设计了一个完全独立的验证实验,使用的是"音乐竞技场"数据集——一个由另一个研究团队收集的真实人类偏好数据。这个数据集的规则很简单:给一个文字提示(比如"一段轻快的爵士钢琴即兴"),由两个不同的AI系统各自生成一首歌,让真实用户听完后选择更喜欢哪一首。这种"对决"的形式,直接反映了人类的实际偏好。

研究团队筛选了最近四个月的数据,去掉了"都不好"这类模棱两可的选项和音频文件缺失的记录,最终保留了1259场有效对决,其中780场是纯器乐,479场包含人声。参与对决的AI系统共11个,包括Sonauto、ACEStep、ElevenLabs、MusicGen、Riffusion和Lyria等,全部是训练阶段从未见过的系统。

实验设计的核心思路是:对每一场对决,用APEX对两首歌各打出10个维度的分数(播放量预测、点赞量预测、加权流行综合分、五个审美维度分、SongEval综合分、以及整体综合分),然后计算两首歌在每个维度上的差值和比值,还加入了"器乐/非器乐"的交互特征,共得到31个特征,再用这些特征训练分类器来预测人类会选哪首。

研究团队使用了五种分类器:逻辑回归、随机森林、XGBoost、AdaBoost和支持向量机(SVM),全部采用10折交叉验证确保结果可靠。同时还设置了一个"朴素规则基准"——直接比较哪首歌的某类预测分数更高,就认为那首更受欢迎,以此检验机器学习相对于简单规则的额外价值。

结果相当鼓舞人心。仅用朴素规则时,综合全部分数的AUC(曲线下面积,衡量分类器区分两类的能力,0.5代表瞎猜,1代表完美)达到0.535,优于仅用点赞量预测分数(AUC=0.518),说明审美维度本身就已经携带了超越纯粹流行指标的预测信息。

在机器学习分类器中,SVM取得了最好的成绩。加入审美特征后,SVM的整体AUC从0.614提升至0.642,F1分数从0.524提升至0.595。这个提升幅度不算惊天动地,但在所有五种分类器中,加入审美特征后表现都有所改善,方向完全一致。这种一致性比单个数字更有说服力——它表明审美特征所携带的信息,是真实且可泛化的。

器乐和人声歌曲之间存在明显的性能差距:SVM在器乐歌曲上的AUC达到0.686,而在人声歌曲上只有0.560。研究者认为这主要是因为AI生成的人声歌唱目前仍存在各种伪影和不自然之处,这些问题很难仅凭音频嵌入来捕捉和量化,是未来需要专门处理的方向。

尽管如此,APEX在面对训练时完全未曾接触过的11个AI系统时,依然能给出高于随机水平的流行倾向和审美质量判断,说明MERT提取的音乐特征确实触达了某些跨越不同生成架构的音乐普遍规律,而非仅仅记住了Suno和Udio的特定风格。

归根结底,这项研究告诉我们一件颇具启发性的事:音乐的"好听"和"流行"虽然并不完全重叠,但两者都可以从声音本身学到,而且同时学习它们,并不会让两件事互相拖后腿。在AI音乐每天以海量速度涌现的今天,一个能自动判断哪些歌曲更具审美价值、更可能获得听众青睐的工具,对平台推荐系统、AI模型的训练和优化、乃至普通用户发现高质量内容,都有切实的参考价值。当然,目前的预测相关系数还处于0.35左右的水平,距离"精确预测"仍有相当距离,毕竟"流行"这件事本身就充满了人类喜好的不确定性。而在人声歌曲上的表现明显弱于器乐,也提示下一步可以专门引入对人声质量的建模。APEX的代码和模型已经开源,有兴趣的研究者可以通过arXiv:2605.03395找到相关信息进行进一步探索。

Q&A

Q1:APEX模型预测AI生成音乐流行度的准确率大概有多高?

A:APEX在播放量预测上的皮尔逊相关系数约为0.33至0.35,点赞量预测约为0.40至0.42。这意味着模型预测值与真实流行度之间存在中等程度的正相关,能判断大方向但并非精确预测。流行本身受很多随机因素影响,目前这个水平在该领域已属合理范围。

Q2:APEX的审美评分和流行度评分是同一回事吗?

A:不是同一回事。审美评分衡量的是一首歌在连贯性、音乐性、记忆点、清晰度和自然感五个维度上的感知质量,由人类专家打分标准训练而来;流行度评分则来自真实平台的播放量和点赞量统计。实验结果表明两者捕捉的是互补但不重叠的信号,好听的歌不一定流行,流行的歌也不一定在审美维度上评分最高。

Q3:APEX只能用于Suno和Udio的歌曲吗?

A:不限于这两个平台。研究团队在音乐竞技场数据集上进行了跨平台验证,该数据集包含来自11个训练时从未见过的AI音乐系统,APEX仍然能给出高于随机水平的预测。这说明模型学到的特征具备一定的跨系统泛化能力,能反映音乐的普遍规律而非特定平台的风格。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“年度‘最绿’聊天记录”曝出!看懂的都笑破肚皮,反正,我笑了

“年度‘最绿’聊天记录”曝出!看懂的都笑破肚皮,反正,我笑了

胡侃社会百态
2026-05-11 16:39:23
冷白皮算什么?就这健康黑一般人都没有

冷白皮算什么?就这健康黑一般人都没有

飛娱日记
2026-04-06 11:14:07
开了十年麻将馆我算看透了!天天泡牌桌上的人,没一个命好的

开了十年麻将馆我算看透了!天天泡牌桌上的人,没一个命好的

欣悦广场舞
2026-04-17 16:25:41
4位伴娘婚礼前夜集体跑路,新娘指责其眼红,伴娘称待客太寒碜

4位伴娘婚礼前夜集体跑路,新娘指责其眼红,伴娘称待客太寒碜

观世记
2026-05-12 16:38:25
王上源半场喊话:去年是摆着踢赢的吗?谁不踢现在赶紧下去

王上源半场喊话:去年是摆着踢赢的吗?谁不踢现在赶紧下去

懂球帝
2026-05-12 18:00:11
35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

离离言几许
2026-04-21 19:53:18
维生素B12立大功!研究发现:老人吃维生素B12,或能缓解5慢性病

维生素B12立大功!研究发现:老人吃维生素B12,或能缓解5慢性病

健康之光
2026-05-11 13:33:31
科威特海上抓捕“伊朗渗透人员”,目标地点就在中国投资港口附近

科威特海上抓捕“伊朗渗透人员”,目标地点就在中国投资港口附近

桂系007
2026-05-12 21:49:20
多项研究显示:性生活频率过低,男女容易早衰且患癌风险增高!

多项研究显示:性生活频率过低,男女容易早衰且患癌风险增高!

灯锦年
2026-05-05 21:55:51
长腿美女,身材真好

长腿美女,身材真好

蓝色海洋009
2026-05-12 18:53:25
揭秘美总统外访阵仗有多夸张,血浆自带,安保足够打一场小型战争

揭秘美总统外访阵仗有多夸张,血浆自带,安保足够打一场小型战争

嫹笔牂牂
2026-05-12 16:44:04
世界纪录将被浙江企业改写!绍兴造世界最高楼冲刺1008米!

世界纪录将被浙江企业改写!绍兴造世界最高楼冲刺1008米!

天气观察站
2026-05-12 11:09:49
6位部长要求斯塔默辞职遭拒绝,斯塔默仍希望担任英国首相

6位部长要求斯塔默辞职遭拒绝,斯塔默仍希望担任英国首相

山河路口
2026-05-12 22:27:36
北京一男子意外收到7年前捐赠退款!受助人渡过难关后,向7000人返还近27万元善款并留言:感谢帮助,祝好心人一切顺遂

北京一男子意外收到7年前捐赠退款!受助人渡过难关后,向7000人返还近27万元善款并留言:感谢帮助,祝好心人一切顺遂

背包旅行
2026-05-12 17:18:04
常州多所学校停止招生!

常州多所学校停止招生!

常州大喇叭
2026-05-12 17:02:52
49岁蒋友柏罕晒房子!外形大变,家里规矩多,网友:好严格的人类

49岁蒋友柏罕晒房子!外形大变,家里规矩多,网友:好严格的人类

艺能八卦局
2026-05-12 06:10:27
英媒:穆帅与皇马正进行最后谈判;他目前是唯一被正式接触的候选人

英媒:穆帅与皇马正进行最后谈判;他目前是唯一被正式接触的候选人

懂球帝
2026-05-12 22:41:07
积雪刚化就开工!塔利班修路直冲中国大门,为何中方迟迟不愿接招

积雪刚化就开工!塔利班修路直冲中国大门,为何中方迟迟不愿接招

梁伫爱玩车
2026-05-12 12:36:27
5月12日,人社部、财政部关于2026年调整养老金通知下发了吗?

5月12日,人社部、财政部关于2026年调整养老金通知下发了吗?

虎哥闲聊
2026-05-12 14:55:31
性感穿搭:不是取悦谁,是自己的选择

性感穿搭:不是取悦谁,是自己的选择

疾跑的小蜗牛
2026-04-25 22:56:33
2026-05-13 00:35:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8320文章数 563关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

头条要闻

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

体育要闻

骑士终于玩明白了?

娱乐要闻

白鹿风波升级!掉粉20万评论区沦陷

财经要闻

利润再腰斩 京东干外卖后就没过过好日子

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

家居
时尚
旅游
教育
军事航空

家居要闻

极简主义下的居住场域与空间

普通人真该学学如何穿搭!多穿裙子比裤子更时髦,大方提气质

旅游要闻

湖南张家界天门山景区:5月12日起,景区山顶东线玻璃栈道停止开放

教育要闻

“5块钱能吃啥早餐?”小学儿子索要20元早餐费,家长却翻出烟盒

军事要闻

知情人士披露:美国或考虑恢复对伊朗军事行动

无障碍浏览 进入关怀版