网易首页 > 网易号 > 正文 申请入驻

“AI大神”李沐终于开源新模型,爆肝6个月,上线迅速斩获3.6k stars!

0
分享至

整理 | 褚杏娟

7 月 23 日,“AI 大神”李沐宣布开源了 Higgs Audio v2,这是一个音频基础模型,构建在 Llama-3.2-3B 基础之上,预训练数据包括超过 1000 万小时的音频以及丰富的文本数据。该模型目前在 Github 上已获得 3.6k stars。

“去年我们一直关注的是文本语言模型,让它智商足够高、能听从人的指示,一方面可以陪人玩游戏,另一方面也能帮忙处理一些文案工作,简单来说就是能读能写。今年我们在想,能不能让模型能听也能说。”李沐在 B 站发布的视频中说道。

随后,他表示,“语音是 AI 中一个相对比较悠久的领域,我其实并不是语音方面的专家。作为一个新手,我的想法很简单,就是我不要去训练单独的语音模型,而是在文本大语言模型训练时加入大量的语音数据,大力出奇迹,就想让文本语言模型智商不要下降,但同时掌握了用语音沟通的能力。”

李沐是全球知名 AI 深度学习科学家、深度学习框架 MXNet 作者之一,2008 年毕业于上海交通大学计算机系,曾于微软亚洲研究院实习。毕业后任香港科技大学研究助理,2011 年加入百度任高级研发;2012 年赴卡耐基梅隆大学攻读博士,期间在谷歌研究代码文档。2017 年获博士学位后加入亚马逊担任 AI 主任科学家,工作 7 年半后离职创立大模型公司 Boson AI。

据悉,在 EmergentTTS-Eval 测评中, Higgs Audio v2 在“情绪(Emotions)”和“提问(Questions)”两个类别中,相较于 “gpt-4o-mini-tts”,分别达到了 75.7% 和 55.7% 的胜率。同时,它在 Seed-TTS Eval 和情感语音数据集(Emotional Speech Dataset, ESD)等传统 TTS 基准测试中也取得了业界领先的成绩。

此外,该模型还展现出其他能力,包括多语种自然多说话人对话生成、旁白时自动语调适配、克隆声音的旋律哼唱,以及语音与背景音乐的同步生成等。

李沐在最新的视频中详细介绍了 Higgs Audio v2 背后的技术以及踩过的一些坑。

文本模型训练时

加入 1000 万小时语音数据

李沐开始介绍了 Higgs Audio v2 的架构。但在此之前,他先举例回顾了文本模型的原理。比如,问模型“中国的首都是?”,语言模型看到这个问题后,会下意识地开始回答,首先想到“北”,然后结合这个问题和“北”,再去预测下一个词是“京”。

但在实际使用中,通常不会让语言模型直接做这种文字接龙,因为这样不够可控。通常做法是把一个问题分成三个部分:在“system”部分,在这里告诉语言模型要做什么事情,比如让它回答问题,当然也可以让它做别的,比如闲聊、帮忙写一段文字等;在“user”部分,要把具体要做的事情告诉模型,比如具体要问的问题或者要写什么样的小说,而“system”就是模型的回复。还可以做成多轮交互,也就是再接一个“user”后,再接一个“system”。

让这个模型支持语音的输入和输出,就是给这个模型增加一个新任务。比如,给模型的系统命令:“把下面的文字转录成语音”,然后在用户的输入里把要转的文字告诉模型,希望模型能在“system”里输出对应的语音数据。

为什么要把语言模型改造成这个样子?李沐解释称,因为语音识别或者语音生成,都是一个单独的模型,它要做的事情就是把文字转语音或者语音转文字。像 Whisper 虽然也是基于 Transformer,但是它只干一件事情。

让一个文本的模型做额外的语音输出,坏处很明显:如果想让一个模型能够具有很好的语音处理能力,那么相对于纯语音模型来说这个模型会变大。同样地,一个文本模型加入语音数据很有可能让它的智商变低。

但是,这样做的好处也很明显。比如,下图显示了一个简化的任务版本:

在专业的语音录音时,导演会给专业的录音演员介绍录音的场景(这里是“小明和小红在吵架”),同时要说明这个人物的性格是什么样子?(这里是“小明性格比较急躁,小红比较腼腆一点”)。接下来是真正要录的一个对话,小明说什么、小红说什么,同时可能一些相应的动作音效都要加进去。那么,专业的录音演员不仅仅是要把这句话读出来,而且是要符合人设、符合场景,这样才能做到很好的一个表演。

上一代的文字转语音模型很可能比较难以理解这么复杂的设定。那么有了语言模型的加持之后,它很有可能可以理解,因为在文本领域大家一直是给模型特别复杂的设定:“你要帮我干 a、b、c、d、e、f、g,然后请你帮我干出来”,所以在模型训练时候会尽量让它能够遵从人的指示。如果保留了文本语言模型的能力,那么做语音输出的时候就也能够支持对复杂指令的理解。

此外,简单的文本转语音任务已经不能满足大家的需求了。我们可能不仅想要生成一段语音,还想写一首歌并把它唱出来,配乐也要跟上。这是生成方面的应用,在理解方面也可以发挥作用。

比如给到一段声音,让模型把里面人说的话提取出来,这是最简单的;接下来,还可以让模型分析里面在发生什么事情,比如说话的人是男性还是女性、年纪如何,他们是在吵架、对话还是在进行教学,根据环境音还能猜出是在室内、室外还是其他场景。语音中包含大量信号,人能够理解其整个上下文,而有了文本语言模型的加持后,模型也能够进行这种复杂的理解和推理。

更复杂一点的,我们和模型语音聊天,不希望模型只是机械地一轮一轮回应,而是能理解人们当前的心情,也能表现自身的情绪,而且希望它的延迟足够低,不会说一句话后要等一两秒才回答,而是可以像面对面交流一样。

李沐表示,所有这些任务都能够拆解成“system、user、assistant”这样的格式,使得语言模型能够统一处理,也就是“一个祖传的配方能够处理所有的问题”。团队希望用一个相对来说固定的简单的模型,然后通过加更多的数据,加入更多的算力,通过 Scaling Law 大力出奇迹。

模型如何理解和输出语音信号?

接下来,回答两个“怎么做”的事情:

  • 怎么让模型理解和输出整个语音信号或者声音信号?

  • 在训练模型的时候,要构造怎么样的数据,让模型真的能够把语音的信号和文本的信号很好地融合起来,然后它能理解这个语音到底在表达什么?

对于第一个问题,李沐先回顾了文字是怎样在语言模型里面表示的。

文字在语言模型中通过 token 或资源这种来表示,简单理解就是中文单字或英文词根可视为一个 token,输入文字被转化为 token 序列,语言模型的任务是预测序列中的下一个 token。token 是离散概念,它有一个包含了数万个 token 的词典,语言模型的输出是一个 Softmax,本质是一个多分类问题,每次从词典中选择一个词作为输出。

语音信号会麻烦一些,它是连续的信号。怎么把连续的信号表示成离散的 token?

一种简单方法是按固定时长(如 100 毫秒)切分语音片段,并基于声音在细粒度上重复出现的特性,为每个片段匹配一个预定义的、代表性的声音模板(即 token)来近似表示。比如,以 45 个语音片段作为模板,当输入 1 秒的语音引号后,将其切分为 10 个小片段,每个片段用 45 个模板中最匹配的模板编号表示,最终该秒语音转化为长度为 10 的编号序列。这种表示使语言模型能像处理文本 token 一样处理语音信号,无论是输入还是输出。

当然,实践中不会那么的简单,因为语音信号不是那么容易被表示的。比如,1 小时的信号用 128 BPS 的 MP3 存储,大概约 60MB(中等音质),若采用 64,000 个 token 表示,然后一秒钟的音频用 24 个 token 表示。那么用这种方式编码一段语音时,每个 token 仅需 log₂(64,000)≈16 比特,1 秒语音仅需 384 比特(24×16),1 小时压缩至 0.16MB,相较于 128kbps MP3 实现了 375 倍的压缩。

这样高的压缩必然严重损失信息,此时关键的问题在于:tokenizer 应优先保留声学信号(如说话的音调)还是语义信号(具体说的什么内容)? 李沐团队的结论是:语义信息优先。

声学信号只需少量特征即可保留核心风格,后续可通过其他方法还原。但语义信号千变万化,同一声音在不同场景下表达的内容可能截然不同,因此需尽量保持语义信息的完整性,确保语义 token 包含足够丰富的语义信息,使模型能早期建立语音与文本 token 的强语义关联,从而流畅实现语音与文本的相互转换。

将声音表示成 token 进入模型之后,接下来要关注的是模型怎样能很好地理解和生成这些声音。

声音转文字或者文字转声音,本质上是在做模态间的转换,所以语言模型能够将一个内容的语音表示和文字表示做映射。如今文本的大模型已经很强了,现在需要考虑的是将语音的语义尽量映射回文本,以继承模型在文本领域的强大能力。

可能有人问,如果做实时语音助手,听上去好像是我说一句、模型回一句,是不是直接在语音的空间做呢?实际上,现在的技术还是会回到文本的语音空间。因为做一个语音助手,那么人设是什么、什么东西该做、什么不该做,其实是用文字来控制。另外,实时互动的时候很有可能也是在文本空间。比如问“今天天气怎么样?”模型可能是在文本空间搜索,然后把结果返回来后,再映射回语音信号。因此,核心在于模型需要打通文本与语音的表示关联,使模型理解同一概念在不同模态的对应关系。

有了数据后,

怎么训练模型?

有了这个目标后,就可以考虑需要什么样的数据以及数据怎么表达。

“我觉得数据反正是越多越好。”李沐表示,团队未使用 B 站或 YouTube 的数据,不是因为质量不好,而是为了规避版权风险。其做法是要么采购合规数据,当然价格不能太贵,要么抓取允许公开获取的音频,但后者可能需要删掉 90% 的数据才能留下一些可用的。例如,为获取 1,000 万小时有效数据需抓取近 1 亿小时原始素材。

有了数据之后,团队是怎样进行模型训练呢?

举例来说,拿到一段语音进行模型训练时,通常会如下表达:系统层面说明这个声音的声学特征是什么、在聊什么、有哪些人以及这些人的特点等;接下来,用户输入的聊天文字作为输入,模型则输出对应的音频。

在这个任务中,团队希望模型能根据提供的整个场景描述和需要生成的文字,能够输出真实且符合场景的语音。

对于这些标签是怎么打出来的问题,李沐的建议是:如果是一名学生做研究,推荐把语音交给 OpenAI 的 GPT 或 Google 的 Jamila 让他们打标。但李沐坦言其团队做不了这个事情,背后有两个原因:第一个原因是对方明令禁止调用他们模型的输出去训练其他模型;第二个原因是成本太贵了,团队要处理的数据量远不止一千万条,可能上亿,这样的 API 代价承受不来。

李沐团队的做法是:采用同样的模型架构,额外训练一个语音理解模型。大家应该能想象这个语音理解模型的输入输出:在做语音生成时,是输入场景描述和用户要说的话,然后输出语音;现在是反过来,输入一段用户语音,要求模型分析场景(如有哪些人、这些人什么样、在说什么内容)以及说话时的情绪状态等,并输出所有这些信息。

这相当于把生成模型的输入输出对调了:生成模型的输入(场景描述和说话内容)变成了理解模型的输出,而生成模型的输出(语音)变成了理解模型的输入。

打个比方,要教会徒弟全套拳脚功夫,但一次教不全;于是我先教一个徒弟打拳,再教另一个徒弟踢腿,然后让他们天天对打,打着打着共同进步,最终两人都学会完整的拳脚功夫。

最后,回归到 Higgs Audio v2,其采用了下面架构图中所示的“生成式变体(generation variant)”。

该模型的性能表现主要得益于三项关键技术创新:

  • 团队开发了一套自动化标注流程,结合了多个语音识别(ASR)模型、声音事件分类模型,以及其自研的音频理解模型。通过这条流程,团队清洗并标注了 1000 万小时的音频数据,并将其称为 AudioVerse。自研的理解模型是在 Higgs Audio v1 Understanding 基础上微调而来,后者采用的是架构图中所示的“理解式变体(understanding variant)”。

  • 从零开始训练了一个统一的音频分词器(tokenizer),能够同时捕捉语义和声学特征。

  • 提出了 DualFFN 架构,在几乎不增加计算开销的前提下,显著增强了大语言模型(LLM)对声学 token 的建模能力。加入 DualFFN 后,其实现依然保留了原始大模型训练速度的 91%。

https://b23.tv/UdINLVV

https://github.com/boson-ai/higgs-audio

声明:本文为 AI 前线翻译整理,不代表平台观点,未经许可禁止转载。

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宝玉和袭人同房多次,为何一直都没怀孕?黛玉一句调侃道出真相

宝玉和袭人同房多次,为何一直都没怀孕?黛玉一句调侃道出真相

谈史论天地
2026-02-06 17:30:03
跟着电影打卡深圳!票房破5亿的《惊蛰无声》带火了这些地标

跟着电影打卡深圳!票房破5亿的《惊蛰无声》带火了这些地标

深圳晚报
2026-02-20 21:09:09
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
三峡大坝“账本”曝光:运行了20余年,2500亿投入如今回本了吗?

三峡大坝“账本”曝光:运行了20余年,2500亿投入如今回本了吗?

云舟史策
2026-02-20 07:21:50
月薪五千的朝鲜姑娘,和她们回不去的中国梦

月薪五千的朝鲜姑娘,和她们回不去的中国梦

百姓闻世界
2026-02-17 07:29:21
美国在阿拉斯加附近拦截多架俄罗斯军机

美国在阿拉斯加附近拦截多架俄罗斯军机

界面新闻
2026-02-20 14:12:24
被美国封为英雄!刘美贤披星条旗滑行:父亲是四川籍 代孕生5孩子

被美国封为英雄!刘美贤披星条旗滑行:父亲是四川籍 代孕生5孩子

风过乡
2026-02-20 10:06:46
面相师傅:无论男女,眉心有竖纹,预示着你后半生的3种命运

面相师傅:无论男女,眉心有竖纹,预示着你后半生的3种命运

卡西莫多的故事
2026-02-02 11:46:25
“空气香甜女”杨舒平,已被美国驱逐出境,如今回国下场大快人心

“空气香甜女”杨舒平,已被美国驱逐出境,如今回国下场大快人心

米果说识
2026-02-20 09:36:23
离婚率持续走高:不是不爱了,是这几个现实问题绕不开

离婚率持续走高:不是不爱了,是这几个现实问题绕不开

荷兰豆爱健康
2026-02-20 07:18:29
初四公公给我打电话让回家,回去的路上嫂子发来信息:不用回来了

初四公公给我打电话让回家,回去的路上嫂子发来信息:不用回来了

艺鉴在线
2026-02-20 18:46:25
新加坡大满贯签位:王楚钦林诗栋同区下半区弱,张本智和遇克星

新加坡大满贯签位:王楚钦林诗栋同区下半区弱,张本智和遇克星

郝小小看体育
2026-02-20 19:11:02
国家队祝贺王心迪:两次资格赛被挡在门外,如今已是脚下平川

国家队祝贺王心迪:两次资格赛被挡在门外,如今已是脚下平川

懂球帝
2026-02-20 22:50:10
韩媒道歉:林孝埈对不起!你是韩国最有天赋选手 本无罪却被封杀

韩媒道歉:林孝埈对不起!你是韩国最有天赋选手 本无罪却被封杀

念洲
2026-02-20 08:21:33
幸福!马龙携美丽妻子阿那亚度假,夏露打扮雍容华贵龙队一脸少年气

幸福!马龙携美丽妻子阿那亚度假,夏露打扮雍容华贵龙队一脸少年气

818体育
2026-02-20 10:34:46
74年彭德怀逝世,浦安修上门拜访聂荣臻,聂荣臻落泪:彭总有不足

74年彭德怀逝世,浦安修上门拜访聂荣臻,聂荣臻落泪:彭总有不足

谈古论今历史有道
2026-02-20 12:00:03
17岁韩国首金得主崔佳恩三处骨折,对未直播夺冠“有点失望”

17岁韩国首金得主崔佳恩三处骨折,对未直播夺冠“有点失望”

懂球帝
2026-02-20 16:31:05
龙门石窟一游客被抬上救护车,救援人员称因突发疾病导致,景区曾发公告称游客接近最大承载量停止售票

龙门石窟一游客被抬上救护车,救援人员称因突发疾病导致,景区曾发公告称游客接近最大承载量停止售票

极目新闻
2026-02-20 15:20:03
SU-30雷达差,但机动真不错,军媒:SU-30战机800米锁定外隐身机

SU-30雷达差,但机动真不错,军媒:SU-30战机800米锁定外隐身机

啸鹰评
2026-02-20 20:17:22
孙子初一外出打工,79岁爷爷哭红了眼,状态令人担忧,当事人发声

孙子初一外出打工,79岁爷爷哭红了眼,状态令人担忧,当事人发声

离离言几许
2026-02-20 21:12:14
2026-02-20 23:40:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1315文章数 127关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

女子下车接电话将900克黄金遗落在动车上 价值约135万

头条要闻

女子下车接电话将900克黄金遗落在动车上 价值约135万

体育要闻

宁忠岩:我拿过那么多银牌和铜牌 现在终于赢了

娱乐要闻

《将门独后》开拍,王鹤棣孟子义主演

财经要闻

太疯狂!“顾客不问价直接出手”

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

手机
旅游
本地
游戏
军事航空

手机要闻

春节后影像机皇之争:OPPO Find X9 Ultra与vivo X300 Ultra规格曝光

旅游要闻

来浦东过大年|看美展、逛雅集,来浦东沉浸式过马年

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

《尼尔机械纪元》新作终于来了?SE官宣"未完待续"

军事要闻

消息人士透露:美军赴黄海活动 解放军有效应对处置

无障碍浏览 进入关怀版