网易首页 > 网易号 > 正文 申请入驻

车圈最大AI「黑马」吉利:自研语音大模型登顶,性能超SOTA 10%

0
分享至

贾浩楠 发自 凹非寺
量子位 | 公众号 QbitAI

语音合成大模型赛道,王者一夜易主。

最新HAM-TTS大模型,在发音准确性、自然度和说话人相似度上对比之前SOTA成果VALL-E,有了大幅提升。

背后的主要科研团队却是LLM赛道今年最令人意外的一匹“黑马”:

吉利汽车

没错,不是AI原生公司,不是传统的科技巨头,是以汽车知名但正在不断展现硬科技实力的吉利。

吉利星睿AI大模型,有什么用?

吉利自研语音大模型HAM-TTS的全称是:

Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech,直译是基于token的零样本文字转语音分层声学建模,是星睿AI大模型体系下的重要一员。
顾名思义,对于智能座舱体验来说,这项技术作用在最关键的交互环节:“发音”

语音助手说的好不好,通常有这么几个评价指标:

发音准确度,通过Character Error Rate(CER)来评判,具体由知名端到端语音模型平台ESPNet来打分。

说话风格的一致性NMOS、音调一致性SMOS,以及整体分数MOS,是由研究团队招募的60人团队进行主观判断评分。

总体来看,同样在4亿参数左右的规模下,HAM-TTS模型相比SOTA的VALL-E模型,字符错误率下降1.5%左右。

完全体8亿参数的HAM-TTS模型,相比VALL-E,字符错误率直接下降2.3%。

在风格一致性、音调一致性以及整体得分上,HAM-TTS模型有10%左右的提升。

在智能座舱的交互场景中,比如联动虚拟形象、自定义人设、语音导航、新闻播报、绘本朗读、说书、直播等等,背后都离不开星睿语音大模型提供强大的技术支持能力。

星睿语音大模型有了更好的辨识能力,知道该如何更好地维持说话人声音的音色稳定性和连贯性,不会出现音色突变。

无论是新闻播报的专业场景讲段子的轻松氛围,还是读绘本的温馨时刻,还能够根据特定场景需求,智能调节语气、语调、停顿和情感等多维度参数。用户都能拥有更沉浸、自然、生动的个性化语音交互体验。

其次是跨语种无缝切换,不管用户提供哪个语种哪种方言,都能在保持音色一致的条件下,流畅使用中文或英文进行语音合成。

你说方言输入,系统能直接转换成普通话输出,甚至是其他不同的方言输出
现在已经支持四川话、粤语、东北话等多种方言合成,甚至还支持日韩及东南亚跨语种语音合成。

而且最重要的是,星睿语音模型在声音复刻能力上,最短仅需要3秒钟的样本输入,相比行业普遍的10s样本需求有了重大提升。

这其实是在用户体验层面,星睿语音大模型最大的学术价值——通过创新声音合成技术和数据增强策略,改善了TTS模型的性能和训练成本。

吉利怎么做到的?

TTS模型一直广泛应用在文字转语音的各种交互应用中,常规模式是“文本处理——提取声学特征——语音合成”三个步骤。

前两步都有标准可循的规则算法,一般都在最后语音合成这一步应用神经网络,通常模型也不大。比如语音合成模型的开山之作VALL-E,从16块V100 GPU的训练配置上看,规模并不算大,4亿参数左右。

但输入文本直接和语音token进行拼接作为大模型的输入,缺乏足够的语义信息来约束模型,或者说文本和语音没有做好“对齐”。这也就造成传统TTS模型存在发音准确率低、说话风格和音色不一致的问题。

这个问题可以通过大量多样化训练数据来解决,但这样一来研发周期和成本就会升高。

吉利的解决方法是在传统TTS模型结构中,引入分层声学建模方法

具体来说引入了一个Text-to-LVS predictor(文本到隐空间变量序列预测器),即由文本预测出蕴含重要的声学信息和语义信息的隐变量,作为补充信息。在推理阶段,这些隐变量信息与文本prompt信息一起,作为大模型的输入。

这样一来能够显著改善了合成语音中的发音错误和风格突变的问题。并且在训练过程中,还会替换和复制数据段,以提高音色的均匀性。

在训练阶段,模型中还引入一个对齐器*(Text-HuBERT Aligner)来生成监督LVS,用于辅助Text-to-LVS predictor的训练。它把文本(音素)序列与语音的HuBERT特征对齐,生成与音素序列长度相同的监督LVS序列。

在提取音频特征后,还引入了K-means聚类处理,目的是为了去除原始音频特征中的说话人个性化信息,使得模型更加关注于语音的共性特征,从而提高模型的泛化能力,以及合成语音的音色一致性。

提高语音合成准确性的同时,团队还采用了基于UNet架构的声音转换预训练模型,生成大量具有不同音色但内容相同的合成语音数据,以此来增加训练数据的多样性和数量,从而提高TTS模型的性能和泛化能力。

首先,从语音数据中提取HuBERT特征和基频(F0),然后将这些特征输入到一个ResNet模型中进行处理。随后,数据经过编码下采样和解码上采用过程,最终还原成音频信号。在解码器上采样阶段的每一步,引入目标说话人embedding特征,实现改变说话音色但不改变说话内容的效果。

一举三得,首先是解决真实数据不足的问题,其次是规避了版权、隐私风险,以及有效解决数据稀疏(如罕见的发音、特定的口音或语调)的问题。

使用不同组合和规模的真实(Real)和合成(Synthetic)数据训练HAM-TTS型,结果显示,真实和合成数据综合进行训练,模型性能效果提升最明显。

吉利的语音大模型SOTA了,怎么解读?

之前不被各个厂家重视的智能座舱corner case,吉利正在用算法能力提出解决方案,完成的是智能汽车“最后一公里”的体验提升。

这部分研发最耗时费力,对技术能力的要求也最高:

不但要明白最先进的模型好在哪,还要搞清楚它哪里不足,并且针对性提出改进

AI大模型这本书,大部分汽车厂家只翻开了“前言”就已经大呼头疼,但吉利不但吃透,还做起了“批注”。

而且是实打实的论文一作,团队绝大部分成员也都是吉利的科学家——星睿语音大模型的“归属权”没有争议。

“自研”反复被重新定义的车圈,吉利是一股清流。

按照这个思路追踪,发现这样的例子还有更多。

比如吉利星睿AI大模型体系,包括语言大模型、多模态大模型、数字孪生大模型3大基础模型,并由此衍生出NLP语言大模型、NPDS研发大模型、多模态感知大模型、多模态生成大模型、AI DRIVE大模型、数字生命大模型等等,构建起了整个智能汽车的AI技术底座。

再比如算力方面,睿智算中心的云端总算力已由去年的81亿亿次/秒,扩容到102亿亿次/秒。

星睿语音大模型背后体现出来的,是吉利“技术爆炸”:算法能力、大模型的体系化能力、数据能力领先行业,也给行业提供了新方案选择。

这是在电动化旗开得胜之后,吉利在智能化领域的一鸣惊人。

但对于吉利而言,整体开拓还不止于此,这几年不光是汽车业务相关的核心技术投入,在更广泛的底层科技层面,吉利也不断展现着龙头角色,在卫星、芯片、操作系统等最核心科技突破上,吉利之力,都越来越藏不住了。

是时候重新认知吉利了。

论文地址:https://arxiv.org/abs/2403.05989

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网红白冰偷税被查,相关细节被公开,4000万粉丝账号恐遭永久封禁

网红白冰偷税被查,相关细节被公开,4000万粉丝账号恐遭永久封禁

娱慧
2026-04-28 11:11:31
莫氏鸡煲不火了?二公主限时回归,老莫开始摆烂,博主实探现场

莫氏鸡煲不火了?二公主限时回归,老莫开始摆烂,博主实探现场

小怪吃美食
2026-04-28 00:06:13
狂胜32分!东部首个赛点诞生,塔图姆30+11+7,恩比德空砍26+10

狂胜32分!东部首个赛点诞生,塔图姆30+11+7,恩比德空砍26+10

篮球扫地僧
2026-04-27 23:25:41
高岗自杀后,彭德怀、林彪的表现令人感慨

高岗自杀后,彭德怀、林彪的表现令人感慨

深度报
2026-04-25 22:55:42
最新通知!5月1日起全国统一严查,车主出行一定要看

最新通知!5月1日起全国统一严查,车主出行一定要看

起喜电影
2026-04-28 16:22:20
吴化文起义前犹豫不决,地下党不解,吴妻却道:都是他小妾搞的鬼

吴化文起义前犹豫不决,地下党不解,吴妻却道:都是他小妾搞的鬼

云霄纪史观
2026-04-28 17:01:46
一季度净利润大跌40%!千亿光储龙头跳空低开,盘中跌超5%

一季度净利润大跌40%!千亿光储龙头跳空低开,盘中跌超5%

21世纪经济报道
2026-04-28 11:16:13
一封联名信送到德黑兰,苦口婆心劝最高领袖:再不谈伊朗真没活路

一封联名信送到德黑兰,苦口婆心劝最高领袖:再不谈伊朗真没活路

一念痴狂
2026-04-28 12:14:20
巴尔达诺点评皇马帅位候选:穆帅已成过去,克洛普也不太合适

巴尔达诺点评皇马帅位候选:穆帅已成过去,克洛普也不太合适

懂球帝
2026-04-28 14:49:22
伦敦世乒赛:4月28日赛程出炉!国乒迎2大利好,孙颖莎遭遇挑战

伦敦世乒赛:4月28日赛程出炉!国乒迎2大利好,孙颖莎遭遇挑战

青梅侃史啊
2026-04-28 14:19:46
美晚宴枪击案引爆全球舆论,马斯克力挺特朗普,各界大佬怒批警告

美晚宴枪击案引爆全球舆论,马斯克力挺特朗普,各界大佬怒批警告

谛听骨语本尊
2026-04-28 17:15:09
康凯:把“张飞”演成傻子,无戏可拍11年,如今现状令人唏嘘

康凯:把“张飞”演成傻子,无戏可拍11年,如今现状令人唏嘘

流云随风去远方
2026-04-18 15:35:50
如今不少制度设计的出发点,不是“怎么让工作做得更好”,而是“万一出事谁背锅”!

如今不少制度设计的出发点,不是“怎么让工作做得更好”,而是“万一出事谁背锅”!

碧翰烽
2026-04-26 19:31:18
湖南郴州两家酒店五一涉嫌价格违法被立案

湖南郴州两家酒店五一涉嫌价格违法被立案

界面新闻
2026-04-28 16:26:12
别再骂隋炀帝,他在位14年做的事,够中国吃1300年!

别再骂隋炀帝,他在位14年做的事,够中国吃1300年!

历史人文2
2026-04-27 19:44:41
我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

草莓解说体育
2026-04-12 17:05:01
广告使用“清朝长辫”被指辱华,法国品牌Lemaire致歉

广告使用“清朝长辫”被指辱华,法国品牌Lemaire致歉

南方都市报
2026-04-26 20:40:18
刺杀是自导自演?万斯跑得比特朗普快,高市早苗、赖清德吓得不轻

刺杀是自导自演?万斯跑得比特朗普快,高市早苗、赖清德吓得不轻

动漫里的童话
2026-04-28 11:57:13
日本媒体惊叹:曾经垄断全球40年的胃镜,被浙江小县城掀翻

日本媒体惊叹:曾经垄断全球40年的胃镜,被浙江小县城掀翻

近史博览
2026-04-28 00:29:35
故事:聂磊称霸青岛十几年,最后因惹上一个女人,踢到铁板就此灭亡

故事:聂磊称霸青岛十几年,最后因惹上一个女人,踢到铁板就此灭亡

红豆讲堂
2024-12-17 10:54:23
2026-04-28 18:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12549文章数 176458关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

14岁男生杀害女同学被判无期 听到宣判时几乎面无表情

头条要闻

14岁男生杀害女同学被判无期 听到宣判时几乎面无表情

体育要闻

季后赛最新局势:雷霆4-0晋级首队 4队3-1

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

政治局会议:加强算力网等规划建设

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

亲子
手机
数码
教育
健康

亲子要闻

2026-2027年全球母婴市场及中国母婴产业出海机遇报告

手机要闻

全球首款2K屏+天玑9500旗舰来了!iQOO 15T五月亮相

数码要闻

2026旗舰天花板?HyperX暗影精灵MAX 300W+性能深度解析

教育要闻

学生进教室时选择被迎接方式,老师给足了情绪价值,你们会选择哪种方式呢

干细胞治疗烧烫伤三大优势!

无障碍浏览 进入关怀版