网易首页 > 网易号 > 正文 申请入驻

小米语音首席科学家:AI发展的本质像生物进化,不开源要慢1000倍

0
分享至

来源:市场资讯

(来源:量子位)

从生物进化的漫长历程到AI技术的疯狂迭代,两者遵循着惊人相似的底层逻辑。

在探寻下一代AI架构的关键时刻,著名的“Kaldi之父”、小米集团首席语音科学家、IEEE FellowDaniel Povey提出:

在本次量子位MEET2026智能未来大会上,他也将开源视为AI进化的核心加速器——

若没有开源,行业的进化速度恐怕要慢上一千倍;正是因为有了开源,技术才能像生物适应新环境一样,经历“长期停滞+瞬间爆发”的非线性跃迁。


至于如何在未来的竞争中生存,在他看来,大公司最明智的策略是“两条腿走路”——

一边利用Transformer赋能当下的产品,一边保留资源探索未知,赌中下一个颠覆世界的机会。

为了完整体现Daniel Povey的思考,在不改变原意的基础上,量子位对演讲内容进行了翻译和编辑整理,希望能给你带来更多启发。

MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主流媒体的广泛关注与报道。


以下为Daniel Povey演讲原文中译本

大家好,今天我想和大家分享一些关于“进化”和“AI”的思考,以及我们如何从生物演化中汲取关于AI未来的启示。我将主要从科研和模型本身的角度解读这个问题。

人们设计AI“配方”的过程,本质上主要还是一个不断试错的过程。

当人们有了新的理解,就会发表许多富含公式的论文,但其中99%的内容都没什么真正可操作的价值,最后能落地的通常只是“配方”本身。

所以设计AI“配方”的基本流程就是尝试不同变体,然后筛选出有效的进行发布,别人再照着做。


这其实和生物进化非常相似。

在生物进化中,进化过程也会和外部环境相互影响,例如地球上的进化会受到太阳辐射变化、大气成分变化的影响,而生命本身也会反过来影响这些环境因素,比如改变大气成分。

AI的进化也是如此,可能会受到硬件、数据等资源的限制;同时,AI也会通过商业效应、群体行为效应反作用于这些外部条件。

在历史上,生物进化甚至曾经多次“破坏”自身的生存环境,例如“大氧化事件”(Great Oxygenation Event),不过最终生命又从中恢复了过来。

(注:大氧化事件是指约26亿年前,大气中的游离氧含量突然增加的事件,其具体原因不明。该事件使地球上矿物的成分发生了变化,也使得日后动物的出现成为了可能。)


生物学中“世代间隔”(Generation time)类比到AI,就是复制一个新想法所需的时间,通常这个时间会持续数个月。

因为当你有了新的发现,往往要先写论文,而且一般是写完才对外公开,有些期刊甚至规定发表前不能先上传arXiv之类的预印本。

过去这样的周期可能需要大概两年,但现在可能缩短到了六个月

现在,有了PyTorch这样的工具,人们可以近乎完美地复现他人发布的“配方”。

当然,有时人们可能只给出了描述(而没有代码),这会使得复现过程稍慢一些,但整体上,代际周期的长短决定了进化的快慢。

就像世代间隔漫长的大型生物,往往进化缓慢;而那些能够快速繁衍的小型生物,进化速度则要快得多。


在自然界的进化中,往往存在一种“停停走走”的节奏,很长一段时间里几乎没有什么动静,随后突然发生剧变。

对于自然界的物种来说,这种变化通常是由迁移到新环境所导致的;但偶尔,它也源于生命“解锁”了某种新事物,比如光合作用演化出来时,整个进化的节奏便迅速发生了改变。

我从事AI领域大概有30年了,特别是在语音领域,也经历过长时间没有太大进展的阶段,当时我们甚至以为“这就是终点”。

当年我们做高斯混合模型、判别式训练时,以为语音识别的最终形态就是那样了,没人能想象未来的改变。所以也许十年后,也会出现今天谁都无法想象的全新模型。

AI的发展中,不同任务之间的相互作用非常重要,比如视觉领域的新方法,后来可能会用于语音、语言等任务。


最近一个典型例子就是Transformers,它最初是专门为语言模型设计的,后来却在各种任务中大放异彩。

在进化中也是如此,海豚绝无可能仅在海洋里就进化成型,因为它那些呼吸空气的机能,原本是为了适应陆地生活才演化出来的。但当它重返海洋后,却成了最成功的顶级捕食者。

这说明,有时候你确实需要暂时去做一些截然不同的事情,最终才能在原本的目标上取得成功

当然,拿生物进化做类比也有局限性。毕竟我们可以主动去理解事物,可以利用数学推导,或者改进可视化和调试工具,从而加速技术的发展。


此外,提速也非常关键。实验跑得越快,进化的迭代就越快,这对研究价值巨大。

而在这一点上,开源起到了至关重要的作用。

如果每家公司都得自己从头重复造轮子,研究速度恐怕要慢上一千倍。

我们可以设想一个平行世界,如果大公司决定不开源PyTorch,我也没有开源Kaldi项目,那AI研发的局面会很不相同。

不过,不开源在某些行业确实是常态,尤其是涉及实体工程的领域,因为开发一款工具往往极其昂贵,可能要砸出数百万美元,所以没人会把他们的模型开源出来。

其实,2012年我之所以离开工业界,就是因为这个问题。当时的大公司普遍对开源都不怎么感冒,所以我转去学术界待了一段时间。

但如今很多公司都开始拥抱开源了,像小米就非常支持我的工作,也支持开源,所以我又回到了工业界。

回到关于进化的比喻,我刚才吐槽过论文中的那些数学理论往往不够具体,没法落地。那么,我们到底能从中能学到什么实实在在的东西呢?

有一点很关键,那就是我们需要在各种不同的任务上不断探索新思路。

因为在进化这件事上,很难预判哪种生物最终会胜出。就像啮齿类动物,起初可能只是为了吃竹子种子这种极具体的目的而进化的。

但结果谁曾想,这反而让它们演化出了一种极强的“通才”式生存能力,最终遍布全球、无所不能。

可在当时,谁能想到吃竹子种子这事儿能带来这么大的突破呢?这种事真的太难预测了。

所以说,关键就在于要多尝试不同的任务,因为我们为了突破某个任务特有限制研发出的解决方案,可能最后会被证明具有极高的通用价值。


我们需要关注进化过程中“通才”与“专才”之间的权衡,我并非要分出孰优孰劣,但是从长远来看,不同的进化策略能够适应不同的环境——

如果环境长期稳定,自然界往往会涌现出大量像熊猫这样的“专才”,它们虽然只吃一种食物,却能做到极致适应;

可一旦环境变得动荡多变,像老鼠这种适应力极强的“通才”往往更具生存优势。

所以,这两种生存策略很可能是缺一不可的。

对于AI而言,我们应该让模型在多个不同的生态位里同时演进,这就像自然界在不同环境中进行的进化一样。毕竟,每个物种通常都有其最适应的特定生存空间。

如果我们能同时保留多种不同的技术路线,说不定其中某一条在经过进一步打磨后,就能带来巨大的回报。但这事儿很难提前预判,没人知道眼下哪个模型会在未来称王。

出于同样的理由,我们也应该维持模型架构的多样性。这就像大自然保留了丰富多样的物种一样,因为我们根本无法确定,到底哪一种架构会孕育出下一轮的重大突破。

在我看来,大多数大型机构采取两头并重的策略是比较明智的——既要沿用像Transformer等当前最顶尖的成熟模型,同时也得投入一些资源去做探索性研究,去寻找下一个技术突破口。

在我看来,Transformer这种技术领域的竞争现状,就像是“抢椅子”——只要音乐还在响,你就得跟着一直跳。

毕竟在Transformer和LLM依然称霸的当下,任何一家公司都绝无可能把身家性命都押在别的路线上。

但大家心里也都清楚,音乐迟早有停下来的那一天。

所以,小米在LLM上的研究主线很明确,那就是利用SOTA级别的AI和大模型技术,去全方位赋能我们的“人车家全生态”。

我个人其实并没有深度参与这些工作,因为我和团队主要负责的是探索性研究。我们尝试了大量不同的方向,就是希望能找到能产生巨大影响的成果,但这事的成功率向来极低。

回首我的整个研究生涯,尝试过的点子恐怕得有上万个。现在回头看,其中有一两个如果当时我能推广得再好一点,说不定真能成为颠覆性的技术。

比如,早在大家连BatchNorm都还没开始用的时候,我们组其实就已经设计出了一种类似于LayerNorm的归一化模块。

但我也不想像Jürgen Schmidhuber那样说“我在所有人之前发明了一切”。

(注:Jurgen Schmidhuber是著名计算机科学家、LSTM之父,喜欢在AI领域出现新成果时发表文章或评论,列举自己上世纪的论文,表示“这个东西我几十年前就发明过了”。)

因为作为一名研究人员,有责任去判断哪些是有价值的想法,并对其进行妥善推广。如果你没做到,那就得承认是自己的失误。

言归正传,我的团队目前正在研发一种针对语音的新模型架构,叫Zapformer,是一个通用声音基座。

相较于我们去年推出的Zipformer而言,Zapformer实现了三大跨越:

我不想把话说太满,说它就是“下一个大热门”,但它确实包含了不少有意思的想法。

当然,我们希望能押中下一个“大杀器”,但这事儿谁也没法打包票。

所有这些成果全都是开源的,因为我是开源的坚定信徒。除了我的项目,小米还有很多其他的开源项目。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成年人的社交潜规则|无论谁帮了你,一定要送礼,不收也要送

成年人的社交潜规则|无论谁帮了你,一定要送礼,不收也要送

杏花烟雨江南的碧园
2026-04-11 16:15:03
教育部通知!9月入学迎来颠覆性改革,孩子上学不用再拼家底了

教育部通知!9月入学迎来颠覆性改革,孩子上学不用再拼家底了

今朝牛马
2026-04-10 22:35:42
匈牙利大选投票率创历史新高,欧尔班前途未卜

匈牙利大选投票率创历史新高,欧尔班前途未卜

山河路口
2026-04-12 18:38:44
以军士兵在镜头前假装与巴勒斯坦儿童互动,身旁儿童光着脚丫止不住颤抖

以军士兵在镜头前假装与巴勒斯坦儿童互动,身旁儿童光着脚丫止不住颤抖

观威海
2026-04-12 10:04:16
赛力斯官宣“车载厕所”专利:从“移动的家”到“全套的家”

赛力斯官宣“车载厕所”专利:从“移动的家”到“全套的家”

新浪财经
2026-04-12 14:39:35
医生告诫:每天睡前玩手机的人,不用半年时间,睡眠或有这6变化

医生告诫:每天睡前玩手机的人,不用半年时间,睡眠或有这6变化

白话电影院
2026-04-05 15:34:47
特朗普:即刻起,美军阻止任何船只进出霍尔木兹海峡!美国将开始“摧毁”伊朗人在霍尔木兹海峡布设的水雷

特朗普:即刻起,美军阻止任何船只进出霍尔木兹海峡!美国将开始“摧毁”伊朗人在霍尔木兹海峡布设的水雷

大象新闻
2026-04-12 22:45:03
曾捧上神坛炒至10万,如今白菜价也没人要,外媒:低估中国是犯错

曾捧上神坛炒至10万,如今白菜价也没人要,外媒:低估中国是犯错

果壳
2026-04-12 15:48:16
红帽撤离中国,一个时代的落幕。

红帽撤离中国,一个时代的落幕。

开源中国
2026-04-10 15:36:24
韩国总统怒了,转发抨击以色列虐杀儿童的视频

韩国总统怒了,转发抨击以色列虐杀儿童的视频

远方青木
2026-04-12 00:01:55
陪睡3年被公开羞辱!买超翻脸和邵晴切割,张嘉倪离婚翻盘成赢家

陪睡3年被公开羞辱!买超翻脸和邵晴切割,张嘉倪离婚翻盘成赢家

精彩背后的故事
2026-04-10 16:35:55
全员“梓涵”消失不见,老师崩溃!新一批烂大街名字再次来袭

全员“梓涵”消失不见,老师崩溃!新一批烂大街名字再次来袭

谭老师地理大课堂
2026-04-12 20:21:47
荷兰没回头路了!中国子公司宣布:正式换国内供应商,不再合作!

荷兰没回头路了!中国子公司宣布:正式换国内供应商,不再合作!

傲傲讲历史
2026-04-12 08:05:50
美国副总统万斯延长在巴基斯坦停留时间

美国副总统万斯延长在巴基斯坦停留时间

新京报
2026-04-12 08:38:11
扛不住了?巴拿马总统突然发声,对中国说了句让所有人意外的话

扛不住了?巴拿马总统突然发声,对中国说了句让所有人意外的话

究竟谁主沉浮
2026-04-13 02:32:14
多名院士调查发现:吃一根油条,就等于喝一勺油,真的假的?

多名院士调查发现:吃一根油条,就等于喝一勺油,真的假的?

岐黄传人孙大夫
2026-04-12 17:05:03
CBA最新排名!广东升第3,北京掉第5,浙江渔翁得利,3队争第12

CBA最新排名!广东升第3,北京掉第5,浙江渔翁得利,3队争第12

兵哥篮球故事
2026-04-12 22:39:39
18!预测第18顺位啊!中国男篮下一个首轮秀

18!预测第18顺位啊!中国男篮下一个首轮秀

篮球实战宝典
2026-04-12 17:19:01
损伤闺蜜6.8万紫貂大衣女子发声:她工作丢了,要把闺蜜送进去

损伤闺蜜6.8万紫貂大衣女子发声:她工作丢了,要把闺蜜送进去

江山挥笔
2026-04-12 09:32:03
鄭則仕重現《金裝大酒店》甩手點煙名場面,一個動作型足38年!

鄭則仕重現《金裝大酒店》甩手點煙名場面,一個動作型足38年!

粤睇先生
2026-04-12 21:56:52
2026-04-13 03:16:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2836746文章数 6605关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

本地
游戏
健康
家居
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

太宠玩家:《红沙》BUG被转正成技能!玩家舒服了

干细胞抗衰4大误区,90%的人都中招

家居要闻

复古风格 自然简约

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版