网易首页 > 网易号 > 正文 申请入驻

小米语音首席科学家:AI发展的本质像生物进化,不开源要慢1000倍

0
分享至

  • 编辑部 整理自 MEET2026
    量子位 | 公众号 QbitAI

从生物进化的漫长历程到AI技术的疯狂迭代,两者遵循着惊人相似的底层逻辑。

在探寻下一代AI架构的关键时刻,著名的“Kaldi之父”、小米集团首席语音科学家、IEEE FellowDaniel Povey提出:

  • 就像生物进化一样, AI“配方”的设计本质上就是一个不断试错的过程,而进化的速度,取决于“复制”一个新想法所需的时间。

在本次量子位MEET2026智能未来大会上,他也将开源视为AI进化的核心加速器——

若没有开源,行业的进化速度恐怕要慢上一千倍;正是因为有了开源,技术才能像生物适应新环境一样,经历“长期停滞+瞬间爆发”的非线性跃迁。



至于如何在未来的竞争中生存,在他看来,大公司最明智的策略是“两条腿走路”——

一边利用Transformer赋能当下的产品,一边保留资源探索未知,赌中下一个颠覆世界的机会。

为了完整体现Daniel Povey的思考,在不改变原意的基础上,量子位对演讲内容进行了翻译和编辑整理,希望能给你带来更多启发。

MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主流媒体的广泛关注与报道。

核心观点梳理
  • AI的演进和自然界生物的进化过程非常相似,通过尝试不同的技术变体,然后筛选出在目标任务上表现更优的方案;
  • 类比生物进化中的“间断平衡”,AI的发展并非连续,而是“长期停滞+突然跃迁”,停滞期也不会永远持续;
  • 开源对进化速度至关重要,如果每家公司都闭源,那么研究速度可能会降低为原来的千分之一;
  • 不要押注单一任务或单一路线,在进化过程中找到AI“通才”与“专才”的平衡,保留多种不同模型架构的存续,从而增加发掘实用新技术的机会;
  • 大公司双管齐下是有意义的,一方面使用当前业界领先的技术方案,另一方面进行探索性研究,以寻找下一个重大突破。



以下为Daniel Povey演讲原文中译本

像生物进化一样快速试错

大家好,今天我想和大家分享一些关于“进化”和“AI”的思考,以及我们如何从生物演化中汲取关于AI未来的启示。我将主要从科研和模型本身的角度解读这个问题。

人们设计AI“配方”的过程,本质上主要还是一个不断试错的过程。

当人们有了新的理解,就会发表许多富含公式的论文,但其中99%的内容都没什么真正可操作的价值,最后能落地的通常只是“配方”本身。

所以设计AI“配方”的基本流程就是尝试不同变体,然后筛选出有效的进行发布,别人再照着做。



这其实和生物进化非常相似。

在生物进化中,进化过程也会和外部环境相互影响,例如地球上的进化会受到太阳辐射变化、大气成分变化的影响,而生命本身也会反过来影响这些环境因素,比如改变大气成分。

AI的进化也是如此,可能会受到硬件、数据等资源的限制;同时,AI也会通过商业效应、群体行为效应反作用于这些外部条件。

在历史上,生物进化甚至曾经多次“破坏”自身的生存环境,例如“大氧化事件”(Great Oxygenation Event),不过最终生命又从中恢复了过来。

(注:大氧化事件是指约26亿年前,大气中的游离氧含量突然增加的事件,其具体原因不明。该事件使地球上矿物的成分发生了变化,也使得日后动物的出现成为了可能。)



生物学中“世代间隔”(Generation time)类比到AI,就是复制一个新想法所需的时间,通常这个时间会持续数个月。

因为当你有了新的发现,往往要先写论文,而且一般是写完才对外公开,有些期刊甚至规定发表前不能先上传arXiv之类的预印本。

过去这样的周期可能需要大概两年,但现在可能缩短到了六个月

现在,有了PyTorch这样的工具,人们可以近乎完美地复现他人发布的“配方”。

当然,有时人们可能只给出了描述(而没有代码),这会使得复现过程稍慢一些,但整体上,代际周期的长短决定了进化的快慢。

就像世代间隔漫长的大型生物,往往进化缓慢;而那些能够快速繁衍的小型生物,进化速度则要快得多。



去不同领域寻找AI突破口

在自然界的进化中,往往存在一种“停停走走”的节奏,很长一段时间里几乎没有什么动静,随后突然发生剧变。

对于自然界的物种来说,这种变化通常是由迁移到新环境所导致的;但偶尔,它也源于生命“解锁”了某种新事物,比如光合作用演化出来时,整个进化的节奏便迅速发生了改变。

我从事AI领域大概有30年了,特别是在语音领域,也经历过长时间没有太大进展的阶段,当时我们甚至以为“这就是终点”。

当年我们做高斯混合模型、判别式训练时,以为语音识别的最终形态就是那样了,没人能想象未来的改变。所以也许十年后,也会出现今天谁都无法想象的全新模型。

AI的发展中,不同任务之间的相互作用非常重要,比如视觉领域的新方法,后来可能会用于语音、语言等任务。



最近一个典型例子就是Transformers,它最初是专门为语言模型设计的,后来却在各种任务中大放异彩。

在进化中也是如此,海豚绝无可能仅在海洋里就进化成型,因为它那些呼吸空气的机能,原本是为了适应陆地生活才演化出来的。但当它重返海洋后,却成了最成功的顶级捕食者。

这说明,有时候你确实需要暂时去做一些截然不同的事情,最终才能在原本的目标上取得成功

如果不开源,AI得慢上一千倍

当然,拿生物进化做类比也有局限性。毕竟我们可以主动去理解事物,可以利用数学推导,或者改进可视化和调试工具,从而加速技术的发展。



此外,提速也非常关键。实验跑得越快,进化的迭代就越快,这对研究价值巨大。

而在这一点上,开源起到了至关重要的作用。

如果每家公司都得自己从头重复造轮子,研究速度恐怕要慢上一千倍。

我们可以设想一个平行世界,如果大公司决定不开源PyTorch,我也没有开源Kaldi项目,那AI研发的局面会很不相同。

不过,不开源在某些行业确实是常态,尤其是涉及实体工程的领域,因为开发一款工具往往极其昂贵,可能要砸出数百万美元,所以没人会把他们的模型开源出来。

其实,2012年我之所以离开工业界,就是因为这个问题。当时的大公司普遍对开源都不怎么感冒,所以我转去学术界待了一段时间。

但如今很多公司都开始拥抱开源了,像小米就非常支持我的工作,也支持开源,所以我又回到了工业界。

寻找Transformer之后的下一个颠覆者

回到关于进化的比喻,我刚才吐槽过论文中的那些数学理论往往不够具体,没法落地。那么,我们到底能从中能学到什么实实在在的东西呢?

有一点很关键,那就是我们需要在各种不同的任务上不断探索新思路。

因为在进化这件事上,很难预判哪种生物最终会胜出。就像啮齿类动物,起初可能只是为了吃竹子种子这种极具体的目的而进化的。

但结果谁曾想,这反而让它们演化出了一种极强的“通才”式生存能力,最终遍布全球、无所不能。

可在当时,谁能想到吃竹子种子这事儿能带来这么大的突破呢?这种事真的太难预测了。

所以说,关键就在于要多尝试不同的任务,因为我们为了突破某个任务特有限制研发出的解决方案,可能最后会被证明具有极高的通用价值。



我们需要关注进化过程中“通才”与“专才”之间的权衡,我并非要分出孰优孰劣,但是从长远来看,不同的进化策略能够适应不同的环境——

如果环境长期稳定,自然界往往会涌现出大量像熊猫这样的“专才”,它们虽然只吃一种食物,却能做到极致适应;

可一旦环境变得动荡多变,像老鼠这种适应力极强的“通才”往往更具生存优势。

所以,这两种生存策略很可能是缺一不可的。

对于AI而言,我们应该让模型在多个不同的生态位里同时演进,这就像自然界在不同环境中进行的进化一样。毕竟,每个物种通常都有其最适应的特定生存空间。

如果我们能同时保留多种不同的技术路线,说不定其中某一条在经过进一步打磨后,就能带来巨大的回报。但这事儿很难提前预判,没人知道眼下哪个模型会在未来称王。

出于同样的理由,我们也应该维持模型架构的多样性。这就像大自然保留了丰富多样的物种一样,因为我们根本无法确定,到底哪一种架构会孕育出下一轮的重大突破。

在我看来,大多数大型机构采取两头并重的策略是比较明智的——既要沿用像Transformer等当前最顶尖的成熟模型,同时也得投入一些资源去做探索性研究,去寻找下一个技术突破口。

在我看来,Transformer这种技术领域的竞争现状,就像是“抢椅子”——只要音乐还在响,你就得跟着一直跳。

毕竟在Transformer和LLM依然称霸的当下,任何一家公司都绝无可能把身家性命都押在别的路线上。

但大家心里也都清楚,音乐迟早有停下来的那一天。

所以,小米在LLM上的研究主线很明确,那就是利用SOTA级别的AI和大模型技术,去全方位赋能我们的“人车家全生态”。

我个人其实并没有深度参与这些工作,因为我和团队主要负责的是探索性研究。我们尝试了大量不同的方向,就是希望能找到能产生巨大影响的成果,但这事的成功率向来极低。

回首我的整个研究生涯,尝试过的点子恐怕得有上万个。现在回头看,其中有一两个如果当时我能推广得再好一点,说不定真能成为颠覆性的技术。

比如,早在大家连BatchNorm都还没开始用的时候,我们组其实就已经设计出了一种类似于LayerNorm的归一化模块。

但我也不想像Jürgen Schmidhuber那样说“我在所有人之前发明了一切”。

(注:Jurgen Schmidhuber是著名计算机科学家、LSTM之父,喜欢在AI领域出现新成果时发表文章或评论,列举自己上世纪的论文,表示“这个东西我几十年前就发明过了”。)

因为作为一名研究人员,有责任去判断哪些是有价值的想法,并对其进行妥善推广。如果你没做到,那就得承认是自己的失误。

言归正传,我的团队目前正在研发一种针对语音的新模型架构,叫Zapformer,是一个通用声音基座。

相较于我们去年推出的Zipformer而言,Zapformer实现了三大跨越:

  • 从“人声”到“万声”的跨越:从专注于人声建模,到成为能同时理解人声、环境音等多元信息的通用声音基座;
  • 从优化结构到创新理论的跨越:通过引入梯度流(Gradient Flow)理论指导模型设计,在已属业界标杆的Zipformer基础上,将语音识别精度再次显著提升10%-15%;
  • 从专用优化到通用健壮的跨越:为适应海量数据训练移除了Dropout层,增强了大数据拟合能力,同时将优化器升级为TransformAdam,在保持极速收敛的同时,大幅提升了训练的通用性与稳定性。

我不想把话说太满,说它就是“下一个大热门”,但它确实包含了不少有意思的想法。

当然,我们希望能押中下一个“大杀器”,但这事儿谁也没法打包票。

所有这些成果全都是开源的,因为我是开源的坚定信徒。除了我的项目,小米还有很多其他的开源项目。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
73年,周总理与邓小平密谈:张春桥是叛徒,但主席不让查,为什么

73年,周总理与邓小平密谈:张春桥是叛徒,但主席不让查,为什么

文史季季红
2026-02-01 15:55:03
失业的人越来越多了

失业的人越来越多了

曹多鱼的财经世界
2025-12-24 14:56:20
谈崩了,哈梅内伊很紧张!!!

谈崩了,哈梅内伊很紧张!!!

山河路口
2026-01-29 19:17:53
曼联英超唯一全勤铁人出人意料!新续命狂人,三要素让玻璃人变强

曼联英超唯一全勤铁人出人意料!新续命狂人,三要素让玻璃人变强

罗米的曼联博客
2026-02-01 09:45:55
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
钻石女星的开房记录曝光!沈腾成为惊弓之鸟!

钻石女星的开房记录曝光!沈腾成为惊弓之鸟!

八卦疯叔
2026-01-31 13:26:27
乔治禁赛25场后续:仍有可能被交易 76人冲季后赛容错率低到极点

乔治禁赛25场后续:仍有可能被交易 76人冲季后赛容错率低到极点

罗说NBA
2026-02-01 06:40:35
《太平年》突停更引全网骂战,央视排播调整才是真因

《太平年》突停更引全网骂战,央视排播调整才是真因

启迪你的思维
2026-02-01 13:03:44
英伟达宣布放弃对OpenAI千亿投资,“循环泡沫”终于演不下去了?

英伟达宣布放弃对OpenAI千亿投资,“循环泡沫”终于演不下去了?

凑近看世界
2026-02-01 09:17:53
人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

另子维爱读史
2026-01-23 20:28:44
1958年,张治中对主席说:有个人借我3000元未还,他官很大

1958年,张治中对主席说:有个人借我3000元未还,他官很大

芊芊子吟
2026-01-31 12:30:06
我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

三农老历
2026-01-30 11:25:43
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
历史上最惨烈的经济危机,往往不是在最糟糕的时候爆发

历史上最惨烈的经济危机,往往不是在最糟糕的时候爆发

流苏晚晴
2026-01-18 19:16:29
西方又给中国人下“迷魂药”!内幕太可耻了,这下别再被骗

西方又给中国人下“迷魂药”!内幕太可耻了,这下别再被骗

毛豆论道
2026-01-14 18:04:10
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
李亚鹏直播再登带货榜首,单场卖茶1.6亿;全程没有套路喊麦,没有疯狂逼单,反劝粉丝“理性消费”

李亚鹏直播再登带货榜首,单场卖茶1.6亿;全程没有套路喊麦,没有疯狂逼单,反劝粉丝“理性消费”

930老友记
2026-01-31 23:01:26
大汉奸请客吃饭,吃死8个日本高官,28年后日本首相来中国找他

大汉奸请客吃饭,吃死8个日本高官,28年后日本首相来中国找他

浩渺青史
2026-01-29 19:22:27
申花前锋官宣留洋,加入西乙队,曾入选国足,战非洲杯

申花前锋官宣留洋,加入西乙队,曾入选国足,战非洲杯

桃叶渡春
2026-02-01 13:30:42
借调组织部3年,以为能顺利入编,却被科长告知名额给了关系户

借调组织部3年,以为能顺利入编,却被科长告知名额给了关系户

故事那点事
2026-01-30 11:55:08
2026-02-01 18:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12092文章数 176369关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

开年首月连打张又侠等十"虎" 反腐没有"禁区特区盲区"

头条要闻

开年首月连打张又侠等十"虎" 反腐没有"禁区特区盲区"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

时尚
本地
健康
数码
亲子

伊姐周六热推:电视剧《年少有为》;电视剧《有罪之身》......

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

耳石症分类型,症状大不同

数码要闻

REDMI Turbo 5 Max媒体评价汇总,大家认为客观吗?

亲子要闻

班主任察觉:全职妈妈与职场妈妈的育儿效果,二者天差地别

无障碍浏览 进入关怀版