网易首页 > 网易号 > 正文 申请入驻

AI教父Hinton首爆十年前拍卖:我早已内定谷歌必赢!

0
分享至


新智元报道

编辑:桃子

【新智元导读】AI界「双神会」来了!一场NeurIPS 2025炉边谈话,AI教父Hinton和Jeff Dean同台,亲口爆料了AI革命「那些年」,还有更多鲜为人知的轶事。

NeurIPS 2025那场轰动一时的访谈,如今终于放出来了!

AI教父Hinton和DeepMind首席科学家Jeff Dean,两位AI圈关键人物,曾经合作多年的老友聚在一起。


现场,Hinton直接抛出了一个尖锐的问题——

谷歌是否后悔发表Transformer论文?

Jeff Dean给出了干脆的回应,「不后悔!因为它对世界产生了巨大的影响」。

不仅如此,Hinton还公开透露,自己关于Scaling的顿悟,源于Ilya的一场演讲。


在近1小时的对话中,两位大佬回顾了从ML早期突破,到当今塑造该领域的挑战、机遇等等。

他们还分享了,一些非常精彩的轶事——

从卧室运行AlexNet的两块GPU,到谷歌大脑(Google Brain)的早期岁月。

AI教父Scaling顿悟,来自Ilya

对话的开场,先从一个有趣的共同点开始:

两位Geoff和Jeff都对「反向传播」(backpropagation)着迷。

这一概念的论文虽在1986年于Nature正式发表,但其实早在1982年就已提出。


论文地址:https://www.nature.com/articles/323533a0

Jeff Dean回忆起自己的本科毕业论文——

1990年,他先修了并行算法课程,仅用一周时间接触神经网络,就被深深吸引。

于是,他向明尼苏达大学Vipin Kumar教授申请做荣誉论文,主题是「用于训练神经网络的并行算法」。

那时,Jeff Dean使用了一台32个处理器的超立方体计算机,原以为算力翻32倍,就能做出惊人的神经网络。


论文地址:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view?pli=1

但现实,给了他一记教训。

在扩展处理器(算力)的同时,没有同步扩大模型规模。

他仅是把10个神经元的层,硬拆到32个处理器上,结果性能惨不忍睹。

Jeff Dean还发明了早期的两个概念:「数据并行」和「模型并行」(当时称之为「模式划分」)。

另一边,Hinton则分享了自己对算力觉醒的「迟到」。他表示,「自己本该在80年代末,就意识到算力的重要」。


当时,有两个世界级团队:一个是伯克利ICSI团队,另一个是剑桥团队。

他们用并行计算,构建出更好的语音声学模型,刷新业界SOTA,超越常规方式训出的神经网络的性能。

但由于模型规模扩大,编程和硬件复杂也会急剧上升,他们没有坚持下去。

直到2014年,听完Ilya Sutskever的报告,Hinton才彻底醒悟——

Scaling至关重要,并且这种趋势会一直持续下去。

AlexNet出世

ML一夜征服「图像识别」

接下来,对话的焦点转向了2012年AlexNet,那个AI大爆炸的时刻。

Hinton回忆道,Vlad Nair先用英伟达GPU在道路识别、航拍图像上大获成功,证明了「多层网络远胜单层」。


AlexNet便是一个8层的神经网络

当时,他申请这一项目的资助续期,却被评审驳回——

这个项目不值得资助,因为它不可能产生任何工业影响。

现场,Hinton笑称,我真想告诉他,这项技术去年贡献了美国股市80%的增长。

随后,学生Alex Krizhevsky在做「微型图像」的识别任务,当时用MNIST数据集训练。

但Alex尝试失败,Hinton发现权重衰减参数设错,纠正了这一问题。

当时,Ilya表示,「为什么不直接上ImageNet?这么大数据集肯定可以,我们得在Yann LeCun之前做」。

与此同时,LeCun也一直试图让实验室博士后和学生把卷积神经网络用到ImageNet上,但大家认为还有更重要的事要做。


于是,Ilya负责数据预处理,将图像统一成固定尺寸,结果效果非常出色。

Hinton调侃道,「接下来,我做了我这辈子最成功的一次管理决策」。

只要每周在ImageNet上提升1%的性能,允许Alex拖延写论文综述。

结果,一周一周不断成功迭代。


至于训练硬件,就是众所周知的「两块英伟达GTX 580 GPU」。

当时,Alex在自家的卧室里,用这两块GPU完成了AlexNet的训练。Hinton幽默地表示,「当然,GPU我们买单,电费Alex父母付,纯属为多伦多大学省钱」。


茶水间一次闲聊

催生「谷歌大脑」

差不多同一时间,在谷歌一个全新团队——谷歌大脑(Google Brain)正在酝酿而生。

Jeff Dean回忆,Google Brain雏形源于一次茶水间偶遇的闲聊

那天,Andrew Ng时任斯坦福教授(每周来谷歌一天),他们恰巧撞见。

Andrew提到,「自己的学生用神经网络,已经做出了不错的成果」。

这句话立即点醒了Jeff Dean,他想到——我们有的是海量CPU,为什么不训练超大神经网络?


于是,他们训练了一个系统,支持模型并行+数据并行,扩展到上千台机器上。

这个著名的实验:在1000万YouTube视频帧上无监督学习,让神经网络学会识别「猫」。

他们没有用卷积,而采用了「局部连接」的方式来做视觉,导致参数达20亿。

为了完成这次训练,他们用了16000个CPU核心。


Jeff表示,「我们已观察到,模型越大,效果越好。只不过,当时还没把它正式总结成Scaling Laws」。

我们甚至有句口头禅,某种意义上也挺像Scaling Laws:更大的模型、更多的数据、更多的算力。


也就是说,在AlexNet出世一年前,Google Brain早已验证了Scaling Laws。

64岁实习生,加入谷歌

2012年夏天,Andrew Ng转向了教育平台Coursera,因为他认为那才是未来。

于是,他便推荐了Hinton接棒。

有趣的是,Hinton本想做访问科学家,但必须满职6个月才可以开薪。

于是,64岁的Hinton,成为了谷歌的「实习生」。而且,还是Jeff Dean的实习生。


加入谷歌之后,Hinton还得和实习生们一起上培训课。

一个大房间里坐满了学生,有来自IIT的,也有来自清华的,总之是一大堆特别聪明的人。

培训第一天,讲师说「用你的LDAP和OTP登录」,Hinton当场就懵了,什么是LDAP?什么是OTP?

大概过了十分钟,他们决定:其中一个助教专门负责我。

其他学生都在四处张望,看着这个明显什么都不懂、而且年纪是他们三倍的人。说实话,有点尴尬。

更尬的是,午饭时间,Hinton还碰巧遇到了,此前教的一位本科学生。

直到入职的第二天,Jeff Dean和Hinton在Palo Alto越南餐厅初见。


赌场拍卖,谷歌必赢

AlexNet爆火后,多家公司都在争抢Hinton的团队。

但后来,他们发现,如果把自己包装成一家「公司」,其实可以拿到更多的钱。

「所以我们决定:我们要当『收购标的』」。

当时,Hinton成立了DNN Research,举办了一场拍卖会,谷歌、微软、百度等多家公司参与争夺。

有趣的是,地点定在了南太浩湖(South Lake Tahoe)的赌场。

楼下老虎机声音不断,楼上每次加价必须至少加100万。

Hinton透露,「但我其实心里早就决定了:谷歌必须赢」。


最核心的原因,便是那年夏天「实习生」的经历。

所以我们在拍卖快结束的时候,当那两拨人离开、看起来可能会让「不该赢的人」赢的时候,我们就直接把拍卖停了。


Google Brain早期合影

并入谷歌之后,Hinton参与了众多项目,现场他还分享了失败的案例——Capsules(胶囊网络)项目。

他投入「巨大的决心」,在这一项目上执着多年,尽管Jeff和Ilya劝阻,最终一无所获。

此外,Hinton在职期间也为谷歌做了一些有价值的工作,比如「模型蒸馏」(distillation)

大概在2014年,这篇论文提交到NeurIPS后,却被组委会拒稿。

审稿人完全不理解其想法,如今事实证明,它已成为LLM核心技术之一。


另外,Hinton和Abdelrahman Mohamed做了一个优秀的「语音声学模型」,决定将其推销给黑莓(BlackBerry),也遭对方拒绝——

因为我们有键盘

后来,Navdeep Jaitly在谷歌用GPU证明了其价值,大获成功。

从Transformer到Gemini

若要说Google Brain产出对世界影响最深远的一篇研究,当属Transformer!

Jeff Dean回忆道,Transformer灵感来源于Ilya Sutskever、Oriol Vinyals和Quoc Le的「序列到序列」(seq2seq)工作。

它使用深层LSTM,在机器翻译上大获成功。但LSTM存在瓶颈,即顺序依赖和状态压缩。

如果你把所有状态都保存下来,然后对它们施加注意力(attention),那可能会是一个更好的方案。

事实上,在谷歌之外,已经有一些关于注意力机制的早期工作了。

注意力机制,早期由Bahdanau等人引入,保留了整个上下文。

后来,这一思想被整合到seq2seq中,最终演变成了Transformer:也就是保存所有状态,然后对其进行注意力计算。


Jeff Dean表示,这被证明非常优雅——

因为可以并行地计算所有状态,而不再受到严格的顺序依赖。

同时,还能回看所有经历过的状态,从而更好地理解你在解码什么;对于编码器模型来说,也意味着可以利用到更丰富的状态信息。

Hinton坦言,Transformer刚出来后,自己没太重视——因为大脑不会存储每一步向量,我更关心生物启发。

但论文一出就展现了,用少10到100倍的算力即可达到同等,甚至更好的效果。

这显然是一件大事。

然而内部视角,Transformer只是众多突破之一,并未被视为「鹤立鸡群」。

他表示,我甚至也不太确定它是不是「更重要」——它确实非常有用。

在ChatGPT之前,谷歌早已有了强大聊天机器人,但从搜索视角看,幻觉和事实性问题让它难以对外发布。

Jeff解释道,「搜索核心是准确」。

直到2023年,ChatGPT出世让谷歌瞬间傻眼。内部拉响了「红色警报」,Jeff 写了一页备忘录:

我们现在有点「自己犯傻」了。

因为我们早就知道,算力规模和训练好模型之间是强相关的:你能用的算力和数据越多,模型就越好。


而且,谷歌内部多个团队Google Brain、DeepMind、谷歌研究员都在这一领域做出了探索性尝试。

但问题是,我们把研究想法和人力切得太碎了,也把算力切得太碎了。

于是,一次内部大重组迅速完成,Google Brain+DeepMind=Google DeepMind

这直接催生了Gemini:合并团队、共享算力,打造出世界最强的多模态模型。

这时,Hinton打断问道,「谷歌是否后悔发表Transformer论文」?

Jeff坚定有力回答,「不会,因为它对世界产生了很好的影响」。


紧接着主持人又一回击,「从那之后谷歌就没怎么发表论文了?还是说这不是真的」?

Jeff澄清道,「我们仍发表论文,今年NeurIPS就有上百篇」。

对于那些主要在商业上最关键、尤其是面向「最大规模模型」的论文,我们会更谨慎一些。

公开发表是竞争优势,能吸引人才、获得社区反馈。 谷歌全栈护城河,坚不可破

最近几周,谷歌Gemini连发,让世界重新认识到谷歌的强大。尤其是,背后硬件优势——TPU。


Jeff Dean现场强调了硬件-模型「协同设计」(co-design)的优势——

谷歌研究人员与硬件团队紧密合作,提前去布局潜力方向,预测未来2-6年后的趋势。

甚至,他们用强化学习去优化芯片布局布线,并在多带TPU上应用。

这不仅提升了芯片质量,也加速了研发的流程。

下一个20年

在炉边对话压轴部分,主持人问了一个所有人最关心的问题——

AI领域接下来会往哪走?Transformer会被取代吗?20年后,世界会变成什么样?

Jeff Dean最兴奋的方向之一,Scaling注意力机制的触达范围,从百万Token到数万亿。

让模型直接访问所有科学论文、所有视频,而非将数万亿token塞进几千亿个权重里。

他承认,这当然需要硬件的创新,还需更节能、性价比更高的推理芯片。


Jeff Dean还指出,目前模型缺乏「持续学习」,即训练后固定不变。

MoE模型往往是一堆大小都一样的专家:分出去,再合回来,再分出去。这个结构说实话也不算太有意思。

未来,他们还将探索更动态、脑启发的架构。

对于20年后的预测,Hinton总结道——

如果有人真的造出来了,要么我们从此幸福快乐地生活下去,要么我们全部灭亡。


20年后到底会有什么影响,没人说得准,特别是对社会的影响。

很明显,很多工作会消失。但不清楚它会不会创造出足够的新工作来替代。

Jeff Dean则乐观于科学加速,「AI连接不同领域、自动化发现闭环,将让突破更快发生」。

他们两人一直认为,医疗与教育变革最剧烈。

Hinton最后补充道,「大模型压缩巨量知识,发现人类未见的共通性,它们会非常有创造力——抓到希腊文学与量子力学的远距离类比」。

参考资料:

https://x.com/JeffDean/status/2001389087924887822

https://www.youtube.com/watch?v=ue9MWfvMylE

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
短道速滑混接失误瞬间!林孝埈捂脸低头,王濛眼含热泪请求别指责

短道速滑混接失误瞬间!林孝埈捂脸低头,王濛眼含热泪请求别指责

篮球资讯达人
2026-02-11 00:25:23
上海市静安区原党组成员、副区长杨毅涉嫌受贿,被公诉

上海市静安区原党组成员、副区长杨毅涉嫌受贿,被公诉

澎湃新闻
2026-02-10 20:02:26
一车土豆被认定为土豆种子绿色通道走不了,司机被收费站拦下缴5000多元通行费;大风新闻介入后称能退费

一车土豆被认定为土豆种子绿色通道走不了,司机被收费站拦下缴5000多元通行费;大风新闻介入后称能退费

大风新闻
2026-02-10 20:45:16
太难了!南京又一大型医院停业!开业仅8年

太难了!南京又一大型医院停业!开业仅8年

牛锅巴小钒
2026-02-11 03:05:31
4年8000万贵吗?连续4场5+助攻,华莱士抓住伤病机会表现井喷

4年8000万贵吗?连续4场5+助攻,华莱士抓住伤病机会表现井喷

奕辰说球
2026-02-11 11:17:42
高铁座椅间隙钻出活蜥蜴,女子直呼“那一瞬间心跳都快停了”;12306:初步判断旅客偷带上车,将核查

高铁座椅间隙钻出活蜥蜴,女子直呼“那一瞬间心跳都快停了”;12306:初步判断旅客偷带上车,将核查

大风新闻
2026-02-10 18:07:07
叫了几十年“马踏飞燕”,为何改名为平庸的“铜奔马”?

叫了几十年“马踏飞燕”,为何改名为平庸的“铜奔马”?

收藏大视界
2026-02-09 17:07:12
揭秘中国十大食品造假!这些你天天吃的东西很多都是“科技狠活”

揭秘中国十大食品造假!这些你天天吃的东西很多都是“科技狠活”

房产衫哥
2026-02-10 18:08:06
突发!托卡耶夫重磅宣布,哈萨克斯坦换政体,彻底放弃超级总统制

突发!托卡耶夫重磅宣布,哈萨克斯坦换政体,彻底放弃超级总统制

娱乐小可爱蛙
2026-02-11 07:09:12
俩法国小伙徒步500多天走到上海,到达外滩时已有百余名同行者

俩法国小伙徒步500多天走到上海,到达外滩时已有百余名同行者

半岛晨报
2026-02-09 15:26:36
百亿投入力争“向上”,在价值竞争时代结束观望的鑫源汽车胜算几何?

百亿投入力争“向上”,在价值竞争时代结束观望的鑫源汽车胜算几何?

AutoBusiness
2026-02-11 10:32:20
一家长打开孩子圆珠笔发现锋利尖刀,设计隐蔽性极强,很容易带进学校,网友:赶紧回去看看自己孩子的文具盒

一家长打开孩子圆珠笔发现锋利尖刀,设计隐蔽性极强,很容易带进学校,网友:赶紧回去看看自己孩子的文具盒

观威海
2026-02-10 10:10:12
作弊被发现!两韩国运动员使用违禁物质,冬奥会成绩被取消

作弊被发现!两韩国运动员使用违禁物质,冬奥会成绩被取消

全景体育V
2026-02-11 06:05:51
呼吁对中国搞个“广场协议” 法国又抽哪门子风?

呼吁对中国搞个“广场协议” 法国又抽哪门子风?

看看新闻Knews
2026-02-10 23:22:07
汪峰吃惊!46岁章子怡年前6天高调官宣喜讯

汪峰吃惊!46岁章子怡年前6天高调官宣喜讯

荒野老五
2026-02-11 09:14:24
55分+14板+14助,又一次无缘全明星!哈登要逆天改命冲击总冠军

55分+14板+14助,又一次无缘全明星!哈登要逆天改命冲击总冠军

世界体育圈
2026-02-11 10:24:19
禁赛10场!美记谈黄蜂活塞冲突:斯图尔特损失195万,小乔至少3场

禁赛10场!美记谈黄蜂活塞冲突:斯图尔特损失195万,小乔至少3场

球盲姐
2026-02-11 10:53:22
父死子继!

父死子继!

求实处
2026-02-10 22:27:25
网友称青海一事业编岗位招聘要求“独立抓捕野牦牛”引热议,当地:是2020年的招聘信息,野牦牛是种牛场用来科研的野生牦牛,并非纯野生

网友称青海一事业编岗位招聘要求“独立抓捕野牦牛”引热议,当地:是2020年的招聘信息,野牦牛是种牛场用来科研的野生牦牛,并非纯野生

极目新闻
2026-02-10 17:20:53
从长春走出的中国教练,带领意大利队站上冬奥之巅

从长春走出的中国教练,带领意大利队站上冬奥之巅

澎湃新闻
2026-02-11 09:59:28
2026-02-11 11:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14508文章数 66620关注度
往期回顾 全部

科技要闻

中芯国际去年营收673亿元 净利50亿增长36%

头条要闻

男子回老家祭祖被猎捕装置电死 脚上挂着一根细铁丝

头条要闻

男子回老家祭祖被猎捕装置电死 脚上挂着一根细铁丝

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

汪峰吃惊!章子怡年前6天高调官宣喜讯

财经要闻

Seedance2.0产业冲击波

汽车要闻

应用于190KW四驱Ultra版 方程豹钛7搭载天神之眼5.0

态度原创

亲子
时尚
本地
公开课
军事航空

亲子要闻

欣欣16个月|中泰宝宝勇敢满分+小叶最喜欢的嵊州美食居然是它?

伊姐周日热推:电视剧《重返青春》;电视剧《女神蒙上眼》......

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:若美伊谈判失败 或再派一支航母打击群

无障碍浏览 进入关怀版