网易首页 > 网易号 > 正文 申请入驻

最难方言温州话被攻克!中国电信语音大模型支持30种方言

0
分享至

白交 发自 凹非寺
量子位 | 公众号 QbitAI

更适配中文的语音大模型来了——

来自中国电信人工智能研究院,AI领域Fellow大满贯科学家李学龙带队,发布首个能听懂30多种多方言混说的大模型。

号称最难方言、“魔鬼的语言”的温州话,也不在话下。

还有超自然的语音生成能力。

在2024智算云生态大会上,星辰语音大模型被官宣发布并开源。



要知道,当前语音模型开源开放本来就少,而针对方言更是特定方言特定模型。

开源且支持30种方言,有且只有星辰这么一个。

作为首个完成大语言模型的研发且开源的央企,中国电信现在又在语音模态领域秀起了肌肉。

首个支持30种方言混说语音大模型

那就来说道此次发布的能支持最多方言的语音大模型,核心功能主要体现在识别上——

它打破了单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等30多种方言。

实际上,它早已获得国际权威赛事的能力认证,以及多个实际场景中落地。

它在国际语音顶会INTERSPEECH2024离散语音单元建模挑战赛上,星辰语音识别大模型斩获了语音识别赛道冠军。

同时在NIST(美国国家标准与技术研究院)举办的低资源粤语电话Babel语音识别任务上,取得业内最优结果。

并且已经在智能客服12345热线等场景中落地。

据介绍,星辰语音大模型已在北京、福建、江西、广西等地万号智能客服系统试点应用。它能秒懂方言然后服务用户,日均处理约200万通电话。

智能客服翼声平台也接入了星辰大模型的语音理解和分析能力,实现31省全覆盖,每天处理125万通客服电话。

传统语音识别模型的处理方式,是针对一种方言单独训练一个模型。

这样一方面对运营维护提出了不小的挑战。这就意味着通用语音客服场景下, 需要维护多个方言模型。

另一方面,很难触达更小众的方言,他们数据量本身比较少,标注成本非常高,增强合成挑战大,很难单独训练出比较好的识别效果。

但中国电信不仅发布并开源,性能水平位于业内前列,而且还十分落地,那么星辰语音大模型又是如何炼成的。

我们知道,这背后不仅是大模型训练,还有前期数据准备,后期推理加速等等一整套系统工程,对于企业是技术工程以及资源等综合能力体现。

在官方披露中,我们看到这些信息。

首先在大模型训练上,采用了这两个关键技术:超大规模语音预训练和多方言联合建模

超大规模语音预训练

Scaling Law成为共识,那么在大规模参数以及多样性数据集情下,很可能就会出现模型预训练坍缩问题,即输出生成质量下降,变得重复、无意义以及缺乏多样性。

为了解决这一问题,他们提出了“蒸馏+膨胀”联合训练算法,最终实现80层模型稳定训练。据介绍,这一算法是业内首创。

多方言联合建模

基于离散语音表征,语音识别大模型通过“从语音到token再到文本”的建模新范式,将推理时语音传输比特率降低数十倍。

另外,联合建模使得模型学习到了各个方言之间的共性,显著降低了对新方言标注数据的需求。实验显示,有标注数据需求量降低为1%。

这是星辰语音大模型能率先实现单一模型识别30种方言混说的关键。

这直接解决了部分方言语音难获得、标注成本高昂的难题。传统那种只针对单一方言的识别方言,可能需要十万小时的标注数据量才能实现比较好的效果。但这显然并不适合那些小众方言的识别场景。

而在数据准备上,中国电信AI研究院透露,他们已构建超30种、超30万小时的高质量方言数据库。

在算力基础设施上面,在官宣首个大模型开源时就曾披露过,中国电信作为国内最早进入云计算领域的运营商,积累了大量算力建设和算力调度的核心技术。

有数据算力资源、有技术能力和场景积累,再加上大佬把持,中国电信语音大模型由此得以炼成。

但是大模型多模态,视觉模型正热门的当下,中国电信为何选择方言这个看似“冷门”的赛道发力语音大模型呢?

为什么专为方言推出语音大模型?

在公开采访中,中国电信对这一问题做出了回应。

首先,技术价值驱动

宏观上看,我国是当前世界上语言资源更丰富的国家之一,拥有五大语系130多种语言。但是当下很多方言正面临着濒危或消亡,有数据统计,有25种使用人口不足千人,有的语言只剩下十几个人甚至几个人会说,这对方言的保护、文化的传承提出更大挑战。

在具体到我们日常的沟通。有这样一组数据值得关注。当前全国仍有约20%的人口尚未普及普通话,沟通效率比较低。这当中甚至还更多聚集在老年人群体,他们还面临着无法触及信息化服务困境。



大模型的技术范式,面对这两大刚需场景,提供了天然的解决出口。

大模型本身就是数据驱动,它能够更高效、系统地对方言进行整理归纳,是方言保护和传承的天然容器,以及极强的泛化能力。一个通用语音模型能同时实现多个任务,比如多语言/多方言语音识别、跨语言语音翻译、语种/情绪识别等,能够轻松覆盖多语种沟通交流。

为了进一步让技术普惠的加速,电信选择了开源的方式。

中国电信人工智能研究院语音大模型负责人李杰进一步解释了这方面的原因。

我们已将语音大模型全面开源,希望联合开发者共建覆盖更多方言的大模型,打破沟通壁垒,让老少边穷地区人们、老人等每个人都能享受到AI时代便利,也呼吁更多专家、方言爱好者及大众用户一起加入守护方言计划,共同传承语言文化,推动AI普惠。

其次,业务需求导向

作为头部运营商,中国电信最核心的业务场景就是智能客服。“每天都能接到几百万通电话,其中很大比例是方言或者有方言口音的普通话。”真正实践中他们发现,人们都还是更喜欢用方言来进行沟通。

因此语音大模型一面世,就率先落地到这一场景中去创造价值,逐步覆盖更多更广的地区之中。

除此之外,它还在对外输出能力以及更多场景赋能。

比如,大家所熟知的12345市场热线这个公共服务平台。据介绍,语音大模型已经赋能多地市的12345平台让每个客服人员听懂30种方言,更快地理解更多市民需求。

前段时间,语音大模型还应用到了防范校园霸凌中,在某小学防霸凌项目中,它采用亿级参数进行推理,可在嘈杂环境下精准识别关键词进行预报警。

还有它赋能的数字人,已经在多个展会亮相工作,曾在中国国际大数据产业博览会亮相,与康辉同台主持。

最后,战略部署。此举正是中国电信「通用智能」战略部署一环。

而他们一早也提出了自己大模型领域布局:1+1+1+M+N

1个智算云底座、1个通用大模型底座、1个数据底座、M个内部大模型、N个行业大模型。

最早在2022年12月就已启动了语义大模型的研发,去年数字科技生态大会上,他们发布了千亿参数星辰语义大模型,并相继开源7B、12B、52B大模型。



如今,随着包括语音大模型在内的发布,中国电信其实已经形成语义、语音、视觉以及多模态一整个全模态完备的大模型布局。

而他们最终的目标也很明确:

成为领先的通用人工智能服务提供商

中国电信在大模型的布局

随着端到端多模态大模型GPT-4o的亮相,通用多模态更成为一种共识趋势。而GPT-5也被爆料说将精通更多小语种和方言……

这实际与中国电信本身技术战略不谋而合。

如果讨论国产大模型玩家,中国电信一定是最为特殊的那个——

不是创业公司,也并非互联网大厂,却最早入局,而且进展频频剑指通用,在业内影响不小。

跟创业公司不同的是,电信有着天然的需求驱动和应用场景。有锤子也有钉子。

只是在纯自研星辰大模型亮相之前,大众对于电信的技术感知并非那么强烈。

实际上,他们背后搭建了一支700人的AI研发团队,70%以上来自头部互联网和AI明星企业。再加上,AI领域Fellow大满贯科学家李学龙加盟,出任电信CTO,并组建中国电信人工智能研究院(TeleAI)。



基于这样的人才储备,他们很快同大模型头部选手们站在同一阵营,并且落地速度贼快。

而同互联网企业相比,作为国产运营商的电信,其实优势则更为明显了。

一方面,运营商有丰富的网络和算力资源,相对来说训练、推理成本更低。尤其在大模型的建设方面,更容易发挥规模的优势。

目前,他们已打造基础模型+行业模型+应用模型的布局,除了自研本身,还采取生态合作的方式,联合头部生态构建了涵盖教育、政务、应急等20多个行业大模型,覆盖全行业500多个应用场景。

另一方面,有庞大的客户群体作为落地基底,以及丰富的2C、2H、2B的信息服务经验,能够更快地推动大模型在各个领域的落地,形成新的经济增长点。

这当中数据累积也构成了他们的核心壁垒。目前,他们已经完成了超500TB文本数据、12亿张图文数据、PB级视频数据的积累。

这些优势使运营商有动力在人工智能领域加大投入,驱动技术进步。

也正因这样的技术和经验底气,他们才能早早确立目标并且有着清晰的时间线规划。

就像最新语音大模型,他们就计划实现首个支持国内333个地市方言和主要少数民族语言(维藏等)的语音大模型。

关于语音大模型的进展,值得期待。

而对于AI的落地,中国电信值得关注。

开源链接:

Huggingface模型:https://huggingface.co/Tele-AI/TeleSpeech-ASR1.0

github代码:https://github.com/Tele-AI/TeleSpeech-ASR

gitee代码:https://gitee.com/Tele-AI/TeleSpeech-ASR

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东莞传奇水蛇姐:以五项绝技名震莞城,得罪某位大人物后离奇消失

东莞传奇水蛇姐:以五项绝技名震莞城,得罪某位大人物后离奇消失

吴学华看天下
2024-07-24 10:23:35
奥运游泳首项中国队就弃赛? 一剑化三清 冲击三块奖牌就得这么做

奥运游泳首项中国队就弃赛? 一剑化三清 冲击三块奖牌就得这么做

威猛孟巍
2024-07-27 00:45:21
巴黎奥运遭吐槽:史上最差开幕式!乏味无聊,艺术别抢体育风头

巴黎奥运遭吐槽:史上最差开幕式!乏味无聊,艺术别抢体育风头

奥拜尔
2024-07-27 13:17:42
这次英国又乳法了,太阳报等多家英媒吐槽奥运会开幕式

这次英国又乳法了,太阳报等多家英媒吐槽奥运会开幕式

懂球帝
2024-07-27 09:17:14
法国夫人出席奥运宴会!穿白裙撞衫00后谷爱凌,输了年龄不输气质

法国夫人出席奥运宴会!穿白裙撞衫00后谷爱凌,输了年龄不输气质

八八尚语
2024-07-26 17:19:40
建国前,钱学森的妻子蒋英,在上海大剧院举办个人独唱会

建国前,钱学森的妻子蒋英,在上海大剧院举办个人独唱会

大江
2024-07-22 08:25:41
“笑场了”,救灾转移群众被指摆拍,网友讽刺形式主义

“笑场了”,救灾转移群众被指摆拍,网友讽刺形式主义

芒果的爱pMgf
2024-07-27 00:45:29
马克龙发帖:这就是法国!

马克龙发帖:这就是法国!

观察者网
2024-07-27 08:56:05
史上第一位,国台办女副主任首次亮相,直接点出民进党“三宗罪”

史上第一位,国台办女副主任首次亮相,直接点出民进党“三宗罪”

时时有聊
2024-07-26 21:03:40
安徽:三个女生点一碗面,店家劝说不要聊天,双方争执,结果堪忧

安徽:三个女生点一碗面,店家劝说不要聊天,双方争执,结果堪忧

木槿夕先生
2024-07-26 16:18:06
一周人事观察|财政部现任领导班子迎来最年轻副部长;多位副省长履新

一周人事观察|财政部现任领导班子迎来最年轻副部长;多位副省长履新

大众日报
2024-07-27 09:06:32
看了博物馆这些藏品后,疯狂理解了妃子们宫斗的心理,谁不沦陷呢

看了博物馆这些藏品后,疯狂理解了妃子们宫斗的心理,谁不沦陷呢

热闹的河马
2024-07-27 11:48:22
机关食堂丰富堪比年夜饭

机关食堂丰富堪比年夜饭

花小萌和你聊情感
2024-07-26 20:10:10
欧盟拒绝俄罗斯石油进入匈牙利!德国重申部署战斧导弹

欧盟拒绝俄罗斯石油进入匈牙利!德国重申部署战斧导弹

项鹏飞
2024-07-26 18:08:43
台军演习被迫中止,台湾海峡出现异动,解放军随时准备登岛?

台军演习被迫中止,台湾海峡出现异动,解放军随时准备登岛?

说天说地说实事
2024-07-26 20:30:54
中共中央、国务院、中央军委决定,给汤洪波同志颁发“二级航天功勋奖章”,授予唐胜杰、江新林同志“英雄航天员”荣誉称号并颁发“三级航天功勋奖章”

中共中央、国务院、中央军委决定,给汤洪波同志颁发“二级航天功勋奖章”,授予唐胜杰、江新林同志“英雄航天员”荣誉称号并颁发“三级航天功勋奖章”

极目新闻
2024-07-26 17:20:04
丰满性感美女泳池别墅迷人写真,独自一人也玩得太嗨了吧!

丰满性感美女泳池别墅迷人写真,独自一人也玩得太嗨了吧!

甜美小甜甜
2024-07-17 20:52:06
董明珠的身材还是挺苗条的,70岁的她,保养的真的挺漂亮!

董明珠的身材还是挺苗条的,70岁的她,保养的真的挺漂亮!

人情皆文史
2024-07-26 02:23:17
NBA夫妻颜值天花板!凯文-乐福晒自己和妻子、友人的合照

NBA夫妻颜值天花板!凯文-乐福晒自己和妻子、友人的合照

直播吧
2024-07-27 17:08:14
刚刚,结束!明天起杭州持续一周以上......

刚刚,结束!明天起杭州持续一周以上......

杭州综合频道
2024-07-27 12:53:10
2024-07-27 17:30:44
量子位
量子位
追踪人工智能动态
9729文章数 175425关注度
往期回顾 全部

科技要闻

俞敏洪:以分手换安宁,剥离无法避免

头条要闻

男子在高速上开5码低速变道 致后车追尾1死1伤被公诉

头条要闻

男子在高速上开5码低速变道 致后车追尾1死1伤被公诉

体育要闻

奥运会能有今天,多亏了巴黎

娱乐要闻

《歌手2024》总决赛赛制被质疑好搞笑

财经要闻

董宇辉单飞,与辉同行到底值多少钱?

汽车要闻

售价18.27万/新外观 雪铁龙 天逸C5冠军版上市

态度原创

数码
家居
旅游
游戏
军事航空

数码要闻

英伟达 RTX 3050 A 移动显卡曝光:64-bit 位宽、4GB GDDR6 显存

家居要闻

复古优雅 塞纳法式风情

旅游要闻

麻路小镇,遗落人间的雪域明珠,邂逅边陲的诗与远方。

《怪物猎人》蛮颚龙很像地雷系少女?漫画家的创作让人捧腹

军事要闻

美国对乌克兰军事支持再“虚高”20亿美元

无障碍浏览 进入关怀版