近年来,大语言模型(LLMs)和音频语言模型取得了显著进展,特别是在歌词到歌曲的生成任务中。然而,现有方法在应对歌曲复杂结构方面仍存在困难,同时高质量数据的稀缺也导致生成结果在音质、音乐性、指令遵循性以及人声与伴奏协调性等方面存在局限性。为了解决这些挑战,清华携手腾讯提出了LeVo—一个基于语言模型的音乐生成框架。(链接在文章底部)
LeLM 能够并行建模两种类型的 token:混合 token(代表人声与伴奏的混合音频,用于实现声乐与伴奏的和谐),以及双轨 token(分别编码人声与伴奏,用于生成高质量的歌曲)。尽管 LeVo 在学术方法中表现最优,其音频质量仍受到数据质量不稳定和离散 token 表达能力有限的影响,与当前业界最先进的模型仍存在差距。另一个限制是,依赖 Qwen2-Audio 提供伪标签,这可能限制了模型对提示语的有效响应范围。
01 技术原理
LeVo系统能够根据歌词生成歌曲,并可选地补充文本描述和音频提示。如图所示,LeVo 包含一个LeLM(语言模型)和一个音乐编解码器(music codec)。其中,音乐编解码器的编码器部分用于从歌曲音频中提取三类 token作为LeLM的预测目标:混合 token(即 ),人生token( ),以及伴奏token( )。
![]()
为了在给定条件 的情况下并行预测混合 token 与双轨 token,提出了一个基于自回归解码器(AR decoder)的语言模型LeLM,其结构如图所示。歌词、可选的文本描述以及可选的音频提示将被拼接后作为前缀上下文输入至 LeLM。
在高效的 48kHz 低码率音乐编解码器MuCodec 的基础上,开发了LeVo 音乐编解码器,其结构如图所示。该编解码器由一个编码器和一个解码器组成。
编码器部分包括MuEncoder和一个残差向量量化模块(RVQ):MuEncoder 用于提取与音乐相关的表征信息,而 RVQ 则将这些表征离散化为一系列 token。这些 token 是 LeVo 系统中的核心中间表示,既作为 LeLM 的预测目标,也作为输入供解码器使用,从而实现高保真的音乐重建。
![]()
解码器部分由一个扩散式 Transformer和一个变分自编码器(VAE)解码器组成。扩散式 Transformer 首先从 token 推理出的嵌入中重建出 VAE 特征,随后 VAE 解码器将这些特征直接转换为音频。与依赖 Mel 频谱图作为音频重建中间表示的方法相比,该方案在生成速度上具有显著优势。
我也制作了一首(DeepSeek作词-生成一种类似赵雷民谣《程艾影》):
https://arxiv.org/pdf/2506.07520
https://github.com/tencent-ailab/songgeneration/
https://huggingface.co/spaces/tencent/SongGeneration欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.