近年来,AI 作曲与歌声合成技术突飞猛进,但现有的客观指标(梅尔谱失真、音高准确度、嵌入距离)只能衡量信号层面或结构层面的“对不对”,却无法回答听众更关心的“好不好听”。如何像人类一样评价一首“AI 歌曲”的美感始终是一大难题。为此,上海音乐学院人工智能音乐疗愈重点实验室与西北工业大学音频语音与语言处理研究组(ASLP@NPU)、萨里大学以及香港科技大学联合构建了 SongEval数据集,推动歌曲生成从“会写”走向“写得好听”的时代。
SongEval是一项迄今规模最大的完整歌曲美学评价数据集,收集了9种主流音乐风格的2,399 首中英双语歌曲(140小时),邀请 16 位专业音乐人从五大维度进行评估,并开源基于该数据集训练的自动美学评估工具包。SongEval 的发布,为 AI 歌曲生成提供了首个从专业音乐感知角度的衡量标尺,也为业界、学界带来全新研究范式。
在SongEval里,每一首歌都会被4位具备正规音乐教育背景的评委逐条打分,评委们依据“五维美学雷达”——五条既独立又有关联的审美刻度进行打分,包括整体连贯性、记忆性、呼吸与唱词的自然性、歌曲结构的清晰度以及整体音乐性。这种多维评价体系,使得SongEval在音乐审美评价上具有高度的准确性和可靠性。
上音人工智能音乐疗愈重点实验室主任刘灏教授提到,随着大模型、深度学习技术的突破性发展,高质量的数据集是这个时代最宝贵的资源,它将塑造AI模型的“世界观”和“判断力”。如今AI音乐生成模型有很多,对数据进行有效评判是帮助生成模型迭代进步的重要步骤,这是这项研究的基本出发点。
上音人工智能音乐疗愈重点实验室专家、西北工业大学音频语音与语言处理实验室(ASLP@NPU)负责人谢磊教授表示:“如何科学、系统地评估音乐的美学质量,一直是智能音乐生成领域的重要挑战。SongEval提出了这一大规模、开源的音乐美学评估基准,不仅填补了当前主观审美维度缺乏标注数据的空白,更通过多维度的评价体系,对歌曲的整体性、记忆度、自然性、结构清晰度和音乐性等关键指标进行量化分析。”
上音音乐人工智能方向博士研究生、SongEval研究组成员薛蕙心说:“过去的评判方式主要包括计算机基于客观指标的评价和具有音乐背景的真人主观评价,前者不太准确,后者相对准确但成本较高效率较低。因此我们希望将两种方式结合起来——训练一个能理解音乐审美的模型。此研究的这一批精标数据已为后续模型训练做好了充分准备,训练我们也已经开始并取得初步进展,后续也将与大家分享。”
论文题目:SongEval: A Benchmark Dataset for Song Aesthetics Evaluation
作者列表:姚继珣,马国斌,薛蕙心,陈华康,郝春博,姜月鹏,刘濠赫,袁锐斌,徐进,雪巍,刘灏,谢磊
论文原文:https://arxiv.org/pdf/2505.10793
数据集:https://huggingface.co/datasets/ASLP-lab/SongEval
Github仓库:
https://github.com/ASLP-lab/SongEval
供稿:上音人工智能音乐疗愈重点实验室
编辑:彭畅
审核:张卓
小音家族
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.