网易首页 > 网易号 > 正文 申请入驻

百度贾磊:拼语音大模型,走另一条路丨AI·20人

0
分享至

经济观察报记者 任晓宁 实习记者 陶思羽

贾磊身上的标签看起来似乎并不在一个次元。

他是百度技术首席架构师,是国内稀缺的语音大模型带头人。与此同时,围绕在他身上的另一组标签,是中国互联网行业首位“全国劳动模范”,在外界看来这是百度“狼性工作”的经典写照。

贾磊在百度负责语音技术研发,他刚来百度时,语音技术在百度处于开拓期,那段时间,他“每天只要睁开眼睛就是工作,连走路坐车的时间都用来思考”,他一个人组建团队,写代码、建模、搭系统,6 个月后,百度上线了自主研发的语音搜索系统,这套系统也意味着中国的语音搜索技术实现突破,从无到有地跻身世界前列。

在国内AI语音领域,贾磊都是带头人,2023年他获得吴文俊人工智能科技进步奖特等奖。今年3月文心一言发布会上李彦宏展示的方言语音合成,以及文字生成视频中的语音生成能力,都由贾磊团队研发。

但最近他正在做一些更不一样的事情。

攻克难题

“旁白:掌柜的是一名老者,他正坐在柜前喝着酒。厅前还有个女孩擦拭桌椅,她见沈况进来,便礼貌的开口。

清脆女声:客人吃饭还是住店。

少年男声;住店。

旁白(伴随着轻柔音乐):那女孩年岁不大,估摸着比沈况小了几岁。见沈况进来,老者微微的睁了开眼。

老年男子声音:哈哈,一把好剑!……”

贾磊向经济观察报记者展示了这段2分钟的声音,这是他带领的百度语音团队最新研究成果。这段合成声音,展示的是混杂各种背景音及4个人的声情并茂的对话声音的一个小说对话过程。这段语音对话背后,是对互联网音频大数据的识别、理解、分析和合成的综合应用。

语音大模型做好之后的效果大概是,你把一本小说喂给它,它能迅速生成电影质感音频,不需要任何人工操作。

当下无论国内还是国外,无论是ChatGPT还是百度,人们使用最多、体验最多的都是文生文、文生图大模型,很少听到语音大模型的进展。贾磊很坦然地承认,这一波AI技术新浪潮中,世界范围内看,AI语音大模型技术的确慢了一步,“是人家图文先实现了突破。”

不过对此,他觉得也正常,技术之路总是此消彼长,此起彼伏。在上一波由深度学习技术突破而带来的AI浪潮中,就是语音技术先做了突破,然后图文技术再跟上。

算上中科院自动化所博士学习的时间,贾磊在AI语音这条路上已经走了20年。看到当下大模型的进展,他很感慨:技术变化真的太快了。

2021年至今,各种深度学习模型技术交替登场,贾磊所在的语音领域,也曾经尝试使用自然语言处理的方法做预训练和语音大模型,但是这比大语言模型更难。语音大模型在实际使用中,一直解决不了快速实时的模型计算问题。

最近在NLP领域的大模型技术发展的牵引下,贾磊打开了思路,通过对语音大模型的模型结构和训练算法的创新,实现了语音在线服务中的模型体积增加几十倍的突破,他告诉经济观察报记者,这个创新在世界范围内十分领先。

技术改变中国人

采访贾磊是在一个夏天的午后,他从百度科技园的办公室匆匆走出来,会议室里聊了一个多小时后,他又匆匆赶回办公室,道别时他特意为这种匆忙解释:“我得回去工作了。”

做AI研发是一件枯燥又压力极大的事情,对此贾磊并不讳言。现在的他,每天时间都花在处理、调试模型,设计实验,看论文,写程序这些事情上。上班就是工作,下班回家就是睡觉,20年如一日,循环往复,他调侃自己:感觉人生就是同一种模式。

这种人生模式早在20年前,他在中科院读博时就已经预知,但他乐此不疲。

贾磊选择语音是兴趣驱动的。贾磊硕士毕业后,考入中科院自动化所攻读博士学学位。他最初的研发方向是图像处理,涉猎了模式识别各学科方方面面的知识,也综合比较了图像、语音和NLP等学科的学科差异等。之后他逐渐开始对语音技术产生兴趣。贾磊师从现任中科院自动化研究所所长徐波,做广播语音识别、广播语音翻译,把电视节目经过语音识别翻译成英语,由此踏上AI语音的20年之路。

现在回看,贾磊很感激中科院自动化所宽松的研究氛围,带他进入了一个美丽新世界,这个世界竞争激烈但又成就感满满,“有些东西别人都没做出来,你做出来了,而且确实很有用,这种快乐其实是能超越很多事情的。”贾磊说。

更让他感到快乐的,是他研发的技术改变了很多中国人的生活。这也是他放弃国外高薪,选择回到国内的原因。贾磊在国外待过一段时间,他那时觉得,当地并没有“做出一个东西让大家都能用起来的氛围。”国内则不同,尤其是近5年,AI落地速度明显加快,他看到身边亲朋好友使用小度音箱对话,看到很多人用语音输入文字、检索信息,看到司机用自己喜欢的声音做地图导航……

或许使用技术的人感知并不明显,但作为研发一线,从无到有实现技术突破的人,贾磊觉得,他的内心成就感比做其他行业要大很多,这不是金钱可以获取的,这种成就感也是驱动他一直去从事AI工作最重要的原因。

讲到这里时,他的语速明显快了很多,虽然作为技术圈外人,很难准确理解技术成就感的冲击力有多大,但你很容易被他感染,这是一种单纯的技术人员看到技术进展后的快乐。现在已经成为AI大拿的贾磊,仍保留技术人员的特色,简单、纯粹,用他的话说,“20年前吃什么、穿什么,现在还吃什么、穿什么”。

大模型的出现,让贾磊的AI语音技术,得以加速发展和落地。他希望有朝一日,能够实现人对着计算机说话,像跟人说话一样自如。

他正在为此努力。

图为贾磊 受访者供图

【对话】

语音大模型下一步

经济观察报:百度是国内首个推出大语言模型的互联网大公司,您在其中做了什么?

贾磊:百度十几年前就开始进行AI研究了,文心一言是我们多年技术积累和应用实践的结果。文心大模型是一个体系,有很多成员,包括NLP大模型、语音大模型、图像大模型、跨模态大模型、生物计算大模型等。语音相关的有语音识别大模型、语音合成大模型。我主要是负责语音大模型的一些研究和探索。

经济观察报:之前大家熟悉的人工智能应用更多是在智能音箱产品,但为什么取得突破的是图文而不是语音?

贾磊:作为人类智化的几个标志能力,语音、语言、视觉图像能力都属于基本的人工智能范畴,图像跟语言都有大模型了,但语音大模型一直是难产的状态,它有一定的技术障碍。我们当前的识别只能基于此时此刻的一句语音,没有办法利用提示,也没有办法利用上下文。

语音会有一个时间过程,比如随着你说话,时间是在往后延续的。并且,你说话结束,语音识别结果立刻就要给出来。所以语音大模型的特点是,要瞬时地去做反馈,并且语音分帧计算使得语音模型加载量比图像和语言大很多,这就使得计算机加载模型的压力很大。

打个比方,大家现在开车去上班,如果你到了五环路,路很宽,就可以跑的很好。但是上到五环之前,大家从各个小区走出来的这些路很堵,导致你的车根本跑不到五环上去。现在语音大模型就卡在跑去五环的路上了。

比如说3秒钟的语音,语音模型加载到CPU进行计算的理论次数是300次,而对应这3秒语音的一张图或者一句话的深度学习计算,只需要做1次模型加载。而且语音大模型加进去之后,完成计算的时间必须很快,否则造成用户的过长等待和延迟。通常语音交互系统需要在0.4秒以内有反馈,否则用户就会觉得这个设备反应速度很慢,不愿意和设备进行语音交互。这是语音大模型难产的核心原因。

经济观察报:未来是否有解决方案?

贾磊:计算机模型加载的限制问题,从硬件上看无法从根本上解决,除非是物理世界发生了重大的突破。举一个例子,解决计算机的模型加载问题,类似于超导技术的突破,只有超导技术突破了,传输介质电阻很小或者近似为0,高压传输才能做到无损。但在算法上,我们提出了一个特殊的模型结构,在smlta2模型的基础上,把模型的循环加载变成一次性加载,训练时候该算法不假设任何先验,可以完全端到端训练,最终使得在满足在线语音服务延迟要求的前提下,语音语音大模型的参数量,比原先增加了几十倍,极大的提升了语音识别系统的准确率和鲁棒性。

大语言模型体现智能的一个重要表现,是当模型体积增加到一定规模后,涌现出很多原始训练集合中没有的新能力。语音大模型的智能化更多表现为多领域口语信息的准确识别能力、多口音的辨识能力。比如一个小区的名字,我说新兴家园你知道是哪两个字吗?这种同音字如果没有提示,你是无法知道是“新兴”还是“欣星”。如果有语音大模型,这种歧义的、似是而非的信息都可以通过一个人的历史轨迹得到提示。

我们这个模型结构,可能会改变语音领域的研究方向和研究方式,在语音大模型这个领域是领先的。

痛并快乐着

经济观察报:您在AI行业从业20年,您怎样评价这一波人工智能浪潮?它是跟之前几波浪潮会完全不一样吗?

贾磊:之前的AI是站在一个“我服务大家”的角度,未来AI可能站在“我服务你”的角度来做,我觉得这次还是非常令人兴奋的。

经济观察报:在您看来,做AI是一种什么样的体验?会觉得有压力或者很枯燥吗?

贾磊:首先是竞争带来压力。因为AI领域是各个国家投入很大的领域,所以竞争十分激烈。但如果你能做的比别人更好,你能得到更多的快乐。

其次是广泛应用带来的成就感。AI正在越来越多的落地,也有大量产品出现在每个人生活中,看到这些进展我内心的成就感,比做其他的行业要大得多,这不是金钱可以获取的,这种成就感是驱动我一直从事AI行业最重要原因。

做技术研究,枯燥是难以避免的,因为处理、调试模型,模型跑出来后设计实验,这个周期很长,要根据中间的反馈做预判,做方案选择,非常难。做这个事,说到底已经是生活的一部分,也已经习惯了。

经济观察报:您之前说过,要探求语音交互认知的本源。现在看,这个本源是什么?

贾磊:其实我一直在想,为什么语音识别率不高?为什么人们不想使用语音?人为什么见一个人喜欢先说话而不是用文字表达?这背后内在的逻辑是什么?如果我做语音技术,我希望这个技术无处不在,那我该怎么样做?单单一句话无法理解,它有上下文才行,怎么样引入上下文?这些东西随着我做语音技术的深入之后,我想的越来越多。我终极的梦想就是人们对着计算机说话,像对着人说话一样自如,人和计算机说话获得的信息量、获得的满足感,与和人说话也能一样。语音解决的是交流的问题,NLP解决的是思考的问题,图像解决的是视觉问题,机器人动起来,解决的是肢体支撑力的问题,等到这些问题都解决了,通用人工智能有可能就实现了。从事这个领域,我所做的一切,都是为了这一天的到来。

版权声明:以上内容为《经济观察报》社原创作品,版权归《经济观察报》社所有。未经《经济观察报》社授权,严禁转载或镜像,否则将依法追究相关行为主体的法律责任。版权合作请致电:【010-60910566-1260】。

任晓宁经济观察报记者

TMT新闻部资深记者
关注并报道TMT(科技、传媒、通信)领域重大事件,擅长行业分析、深度报道。
联系邮箱:renxiaoning@eeo.com.cn
微信号:tangtangxiaomo

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

另子维爱读史
2026-01-23 20:28:44
一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

百态人间
2026-02-05 15:39:14
ESPN预热梅西1000球:预计2028年实现!

ESPN预热梅西1000球:预计2028年实现!

氧气是个地铁
2026-02-20 22:10:13
曝俄罗斯列宁格勒军事司令部爆炸!两名高级军官身亡

曝俄罗斯列宁格勒军事司令部爆炸!两名高级军官身亡

项鹏飞
2026-02-18 19:39:38
重磅!乌克兰外长获中方邀请将访华,中乌高层互访提上日程

重磅!乌克兰外长获中方邀请将访华,中乌高层互访提上日程

老马拉车莫少装
2026-02-20 06:02:36
14亿人“生死”交给外资?若自来水和食盐被控制,后果有多严重?

14亿人“生死”交给外资?若自来水和食盐被控制,后果有多严重?

云景侃记
2026-02-04 22:34:38
美以最早本周末对伊朗动武?三大细节值得关注

美以最早本周末对伊朗动武?三大细节值得关注

新民晚报
2026-02-19 17:41:20
1954年的中央会议上,周恩来特意叮嘱陈赓:“你带枪坐在高岗身后”

1954年的中央会议上,周恩来特意叮嘱陈赓:“你带枪坐在高岗身后”

寄史言志
2026-01-27 11:08:17
就在今天!2月20日凌晨,WTT大满贯男单爆大冷 世界亚军1:3被淘汰

就在今天!2月20日凌晨,WTT大满贯男单爆大冷 世界亚军1:3被淘汰

皮皮观天下
2026-02-20 05:01:05
勇士队霍福德谈离开凯尔特人:若能重返波士顿,那绝对是一种荣幸

勇士队霍福德谈离开凯尔特人:若能重返波士顿,那绝对是一种荣幸

好火子
2026-02-21 00:20:07
人民币在朝鲜的购买力,到底有多强?一位中国游客的震撼之旅

人民币在朝鲜的购买力,到底有多强?一位中国游客的震撼之旅

番外行
2026-02-11 14:19:41
“我舍不得吃,你们凭什么送给外人”!评论区撕开父母穷大方的一面

“我舍不得吃,你们凭什么送给外人”!评论区撕开父母穷大方的一面

素十三儿
2026-02-16 12:35:05
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

丞丞故事汇
2025-12-28 00:13:54
王诗龄在英国过年,戴着30万的首饰吃年夜饭,生活越来越西式化了

王诗龄在英国过年,戴着30万的首饰吃年夜饭,生活越来越西式化了

小椰的奶奶
2026-02-20 22:52:30
美国首次申领失业救济人数创11月来最大降幅 表明劳动力市场企稳

美国首次申领失业救济人数创11月来最大降幅 表明劳动力市场企稳

财联社
2026-02-19 22:12:10
太尴尬了!大年初一,上海网友哭诉称大门被邻居贴两张“大字报”

太尴尬了!大年初一,上海网友哭诉称大门被邻居贴两张“大字报”

火山詩话
2026-02-19 15:05:12
默多克继承战结束,长子出血33亿美元,邓文迪26年的心机全部兑现

默多克继承战结束,长子出血33亿美元,邓文迪26年的心机全部兑现

电影烂番茄
2025-09-14 22:41:57
做完手术人就废了,这5种手术不需要做,别让无知害了自己

做完手术人就废了,这5种手术不需要做,别让无知害了自己

医学科普汇
2026-01-29 06:25:03
一商务车大年夜在上海市中心掉下1只帆布袋,沪上老夫妻拾起一看:不得了!赶快报警!真相出人意料

一商务车大年夜在上海市中心掉下1只帆布袋,沪上老夫妻拾起一看:不得了!赶快报警!真相出人意料

新民晚报
2026-02-20 15:13:11
为了“掏空”老百姓家底,而编造出来的“4大谎言”,谁信谁倒霉

为了“掏空”老百姓家底,而编造出来的“4大谎言”,谁信谁倒霉

精彩一网打尽
2026-02-20 22:46:04
2026-02-21 01:31:00
经济观察报 incentive-icons
经济观察报
经济观察报是专注于财经新闻与经济分析的全国性综合财经类媒体。聚焦商道、商技和商机。
113119文章数 1606488关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

女子下车接电话将900克黄金遗落在动车上 价值约135万

头条要闻

女子下车接电话将900克黄金遗落在动车上 价值约135万

体育要闻

金牌夫妻!王心迪徐梦桃赛后拥抱太甜了

娱乐要闻

《将门独后》开拍,王鹤棣孟子义主演

财经要闻

太疯狂!“顾客不问价直接出手”

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

家居
本地
游戏
手机
公开课

家居要闻

本真栖居 爱暖伴流年

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

巫师3杰洛特配音演员称:她才是主角最佳浪漫选择

手机要闻

春节后影像机皇之争:OPPO Find X9 Ultra与vivo X300 Ultra规格曝光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版