音乐生成正从单一旋律走向全链条创作。最新综述梳理了这一领域的核心挑战:如何用AI同时驾驭音符、和弦、曲式结构等多层级表示。
技术路线已分化出三大流派。符号方法直接操作MIDI事件,可控性强但丢失声学细节;音频端到端模型能输出逼真波形,却难以精细编辑;混合架构试图折中,在潜空间做高层规划再解码为声音。
![]()
评估困境比生成本身更难解。客观指标如FID、IS分数与 human 听感常脱节,主观评测又成本高昂。研究者呼吁建立跨任务的标准化基准,而非各说各话。
![]()
未来方向指向可控性与长程结构。当前模型能写4小节动机,却难维持10分钟的交响叙事。多模态融合——让AI同时"读懂"乐谱、音频、演奏视频——或许是突破关键。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.