![]()
Google DeepMind的音乐生成模型Lyria 3和Lyria 3 Pro今天正式向开发者开放。这是继2023年Lyria初代发布后的第三次重大迭代,也是Google首次将音乐生成能力完整塞进API和可视化工具里。
从"能响"到"能听":模型分档的逻辑
Google这次做了件很产品经理的事——把模型拆成两个SKU。Lyria 3主打延迟敏感场景,Lyria 3 Pro则给足算力换音质。开发者按场景选课,不用为不需要的品质买单。
两个版本都支持带人声的多段式生成:主歌、副歌、桥段能自动衔接,人声还能跨语言切换。Google的演示里,同一段旋律从英语切到西班牙语,唱腔的呼吸感和咬字逻辑保持一致。
这对做全球化音乐产品的团队是刚需。以前用其他工具,换语言等于重新抽卡,现在至少能保证"是同一个人唱的"。
自然语言控制:提示词工程的新战场
Lyria 3的核心升级是粒度控制。Google开放了四类自然语言指令:音乐风格、乐器编排、情绪标签、结构指令。你可以说"前30秒用钢琴铺底,副歌加弦乐推情绪,整体保持忧郁但不过度沉重"。
模型会解析这句话的层次:时间轴(前30秒/副歌)、配器(钢琴/弦乐)、情绪强度(忧郁但不过度)。这比早期音乐AI的"输入风格词抽盲盒"进步了一大截。
AI Studio里还藏了个实验功能:图生音乐。上传一张照片,模型提取视觉情绪生成配乐。Google没透露训练数据的来源,但强调所有输出都带SynthID水印——即使音频被剪辑、变速、混音,水印仍可被检测。
这个技术细节很关键:它试图解决AI音乐的溯源难题,但前提是行业愿意统一检测标准。
音乐人怎么看?合作名单里的信号
Google在公告里提了句"与行业专家紧密合作",但没给名单。这和竞争对手的做法形成对比:OpenAI的Jukebox、Suno、Udio都在发布时高调绑定知名音乐人或厂牌。
Google的低调可能源于2023年的教训。Lyria初代发布时,YouTube曾同步推出"Dream Track"实验,让少数创作者用AI克隆艺人声音生成短片配乐。项目引发音乐人集体抗议,最终没有扩大开放。
这次Lyria 3的授权条款也收紧了。开发者协议明确禁止:生成模仿特定艺人的内容、用于商业发行而无人工修改、绕过SynthID检测。Google在合规层面比Suno们走得更谨慎。
开发者能做什么?API定价未公开
目前Lyria 3通过Gemini API和AI Studio两种方式接入。API定价页面显示"联系销售",没有公开费率。AI Studio则需要付费API密钥才能解锁音乐生成功能。
从功能完整度看,Lyria 3瞄准的是B端场景:短视频自动配乐、游戏动态音乐、广告素材库。个人创作者更友好的Suno和Udio,在易用性上仍有优势。
Google的优势在于生态位。YouTube、Android、Google Ads都是潜在的分发渠道,Lyria 3生成的水印音频天然适配这套体系。但这也意味着,开发者实际拿到的能力,可能取决于Google各产品线的整合节奏。
一个值得观察的指标:Suno在2024年宣称月活超千万,Udio拿到a16z领投的融资。Google此时开放Lyria 3,是防御性跟进还是准备收割企业客户?
音乐人论坛里有个帖子被顶得很高:「如果水印能被检测,那被检测到的音乐会不会被平台降权?」Google没回答这个问题,而答案可能决定这套工具的真正边界。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.