网易首页 > 网易号 > 正文 申请入驻

AI教父Hinton首爆十年前拍卖:我早已内定谷歌必赢!

0
分享至


新智元报道

编辑:桃子

【新智元导读】AI界「双神会」来了!一场NeurIPS 2025炉边谈话,AI教父Hinton和Jeff Dean同台,亲口爆料了AI革命「那些年」,还有更多鲜为人知的轶事。

NeurIPS 2025那场轰动一时的访谈,如今终于放出来了!

AI教父Hinton和DeepMind首席科学家Jeff Dean,两位AI圈关键人物,曾经合作多年的老友聚在一起。


现场,Hinton直接抛出了一个尖锐的问题——

谷歌是否后悔发表Transformer论文?

Jeff Dean给出了干脆的回应,「不后悔!因为它对世界产生了巨大的影响」。

不仅如此,Hinton还公开透露,自己关于Scaling的顿悟,源于Ilya的一场演讲。


在近1小时的对话中,两位大佬回顾了从ML早期突破,到当今塑造该领域的挑战、机遇等等。

他们还分享了,一些非常精彩的轶事——

从卧室运行AlexNet的两块GPU,到谷歌大脑(Google Brain)的早期岁月。

AI教父Scaling顿悟,来自Ilya

对话的开场,先从一个有趣的共同点开始:

两位Geoff和Jeff都对「反向传播」(backpropagation)着迷。

这一概念的论文虽在1986年于Nature正式发表,但其实早在1982年就已提出。


论文地址:https://www.nature.com/articles/323533a0

Jeff Dean回忆起自己的本科毕业论文——

1990年,他先修了并行算法课程,仅用一周时间接触神经网络,就被深深吸引。

于是,他向明尼苏达大学Vipin Kumar教授申请做荣誉论文,主题是「用于训练神经网络的并行算法」。

那时,Jeff Dean使用了一台32个处理器的超立方体计算机,原以为算力翻32倍,就能做出惊人的神经网络。


论文地址:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view?pli=1

但现实,给了他一记教训。

在扩展处理器(算力)的同时,没有同步扩大模型规模。

他仅是把10个神经元的层,硬拆到32个处理器上,结果性能惨不忍睹。

Jeff Dean还发明了早期的两个概念:「数据并行」和「模型并行」(当时称之为「模式划分」)。

另一边,Hinton则分享了自己对算力觉醒的「迟到」。他表示,「自己本该在80年代末,就意识到算力的重要」。


当时,有两个世界级团队:一个是伯克利ICSI团队,另一个是剑桥团队。

他们用并行计算,构建出更好的语音声学模型,刷新业界SOTA,超越常规方式训出的神经网络的性能。

但由于模型规模扩大,编程和硬件复杂也会急剧上升,他们没有坚持下去。

直到2014年,听完Ilya Sutskever的报告,Hinton才彻底醒悟——

Scaling至关重要,并且这种趋势会一直持续下去。

AlexNet出世

ML一夜征服「图像识别」

接下来,对话的焦点转向了2012年AlexNet,那个AI大爆炸的时刻。

Hinton回忆道,Vlad Nair先用英伟达GPU在道路识别、航拍图像上大获成功,证明了「多层网络远胜单层」。


AlexNet便是一个8层的神经网络

当时,他申请这一项目的资助续期,却被评审驳回——

这个项目不值得资助,因为它不可能产生任何工业影响。

现场,Hinton笑称,我真想告诉他,这项技术去年贡献了美国股市80%的增长。

随后,学生Alex Krizhevsky在做「微型图像」的识别任务,当时用MNIST数据集训练。

但Alex尝试失败,Hinton发现权重衰减参数设错,纠正了这一问题。

当时,Ilya表示,「为什么不直接上ImageNet?这么大数据集肯定可以,我们得在Yann LeCun之前做」。

与此同时,LeCun也一直试图让实验室博士后和学生把卷积神经网络用到ImageNet上,但大家认为还有更重要的事要做。


于是,Ilya负责数据预处理,将图像统一成固定尺寸,结果效果非常出色。

Hinton调侃道,「接下来,我做了我这辈子最成功的一次管理决策」。

只要每周在ImageNet上提升1%的性能,允许Alex拖延写论文综述。

结果,一周一周不断成功迭代。


至于训练硬件,就是众所周知的「两块英伟达GTX 580 GPU」。

当时,Alex在自家的卧室里,用这两块GPU完成了AlexNet的训练。Hinton幽默地表示,「当然,GPU我们买单,电费Alex父母付,纯属为多伦多大学省钱」。


茶水间一次闲聊

催生「谷歌大脑」

差不多同一时间,在谷歌一个全新团队——谷歌大脑(Google Brain)正在酝酿而生。

Jeff Dean回忆,Google Brain雏形源于一次茶水间偶遇的闲聊

那天,Andrew Ng时任斯坦福教授(每周来谷歌一天),他们恰巧撞见。

Andrew提到,「自己的学生用神经网络,已经做出了不错的成果」。

这句话立即点醒了Jeff Dean,他想到——我们有的是海量CPU,为什么不训练超大神经网络?


于是,他们训练了一个系统,支持模型并行+数据并行,扩展到上千台机器上。

这个著名的实验:在1000万YouTube视频帧上无监督学习,让神经网络学会识别「猫」。

他们没有用卷积,而采用了「局部连接」的方式来做视觉,导致参数达20亿。

为了完成这次训练,他们用了16000个CPU核心。


Jeff表示,「我们已观察到,模型越大,效果越好。只不过,当时还没把它正式总结成Scaling Laws」。

我们甚至有句口头禅,某种意义上也挺像Scaling Laws:更大的模型、更多的数据、更多的算力。


也就是说,在AlexNet出世一年前,Google Brain早已验证了Scaling Laws。

64岁实习生,加入谷歌

2012年夏天,Andrew Ng转向了教育平台Coursera,因为他认为那才是未来。

于是,他便推荐了Hinton接棒。

有趣的是,Hinton本想做访问科学家,但必须满职6个月才可以开薪。

于是,64岁的Hinton,成为了谷歌的「实习生」。而且,还是Jeff Dean的实习生。


加入谷歌之后,Hinton还得和实习生们一起上培训课。

一个大房间里坐满了学生,有来自IIT的,也有来自清华的,总之是一大堆特别聪明的人。

培训第一天,讲师说「用你的LDAP和OTP登录」,Hinton当场就懵了,什么是LDAP?什么是OTP?

大概过了十分钟,他们决定:其中一个助教专门负责我。

其他学生都在四处张望,看着这个明显什么都不懂、而且年纪是他们三倍的人。说实话,有点尴尬。

更尬的是,午饭时间,Hinton还碰巧遇到了,此前教的一位本科学生。

直到入职的第二天,Jeff Dean和Hinton在Palo Alto越南餐厅初见。


赌场拍卖,谷歌必赢

AlexNet爆火后,多家公司都在争抢Hinton的团队。

但后来,他们发现,如果把自己包装成一家「公司」,其实可以拿到更多的钱。

「所以我们决定:我们要当『收购标的』」。

当时,Hinton成立了DNN Research,举办了一场拍卖会,谷歌、微软、百度等多家公司参与争夺。

有趣的是,地点定在了南太浩湖(South Lake Tahoe)的赌场。

楼下老虎机声音不断,楼上每次加价必须至少加100万。

Hinton透露,「但我其实心里早就决定了:谷歌必须赢」。


最核心的原因,便是那年夏天「实习生」的经历。

所以我们在拍卖快结束的时候,当那两拨人离开、看起来可能会让「不该赢的人」赢的时候,我们就直接把拍卖停了。


Google Brain早期合影

并入谷歌之后,Hinton参与了众多项目,现场他还分享了失败的案例——Capsules(胶囊网络)项目。

他投入「巨大的决心」,在这一项目上执着多年,尽管Jeff和Ilya劝阻,最终一无所获。

此外,Hinton在职期间也为谷歌做了一些有价值的工作,比如「模型蒸馏」(distillation)

大概在2014年,这篇论文提交到NeurIPS后,却被组委会拒稿。

审稿人完全不理解其想法,如今事实证明,它已成为LLM核心技术之一。


另外,Hinton和Abdelrahman Mohamed做了一个优秀的「语音声学模型」,决定将其推销给黑莓(BlackBerry),也遭对方拒绝——

因为我们有键盘

后来,Navdeep Jaitly在谷歌用GPU证明了其价值,大获成功。

从Transformer到Gemini

若要说Google Brain产出对世界影响最深远的一篇研究,当属Transformer!

Jeff Dean回忆道,Transformer灵感来源于Ilya Sutskever、Oriol Vinyals和Quoc Le的「序列到序列」(seq2seq)工作。

它使用深层LSTM,在机器翻译上大获成功。但LSTM存在瓶颈,即顺序依赖和状态压缩。

如果你把所有状态都保存下来,然后对它们施加注意力(attention),那可能会是一个更好的方案。

事实上,在谷歌之外,已经有一些关于注意力机制的早期工作了。

注意力机制,早期由Bahdanau等人引入,保留了整个上下文。

后来,这一思想被整合到seq2seq中,最终演变成了Transformer:也就是保存所有状态,然后对其进行注意力计算。


Jeff Dean表示,这被证明非常优雅——

因为可以并行地计算所有状态,而不再受到严格的顺序依赖。

同时,还能回看所有经历过的状态,从而更好地理解你在解码什么;对于编码器模型来说,也意味着可以利用到更丰富的状态信息。

Hinton坦言,Transformer刚出来后,自己没太重视——因为大脑不会存储每一步向量,我更关心生物启发。

但论文一出就展现了,用少10到100倍的算力即可达到同等,甚至更好的效果。

这显然是一件大事。

然而内部视角,Transformer只是众多突破之一,并未被视为「鹤立鸡群」。

他表示,我甚至也不太确定它是不是「更重要」——它确实非常有用。

在ChatGPT之前,谷歌早已有了强大聊天机器人,但从搜索视角看,幻觉和事实性问题让它难以对外发布。

Jeff解释道,「搜索核心是准确」。

直到2023年,ChatGPT出世让谷歌瞬间傻眼。内部拉响了「红色警报」,Jeff 写了一页备忘录:

我们现在有点「自己犯傻」了。

因为我们早就知道,算力规模和训练好模型之间是强相关的:你能用的算力和数据越多,模型就越好。


而且,谷歌内部多个团队Google Brain、DeepMind、谷歌研究员都在这一领域做出了探索性尝试。

但问题是,我们把研究想法和人力切得太碎了,也把算力切得太碎了。

于是,一次内部大重组迅速完成,Google Brain+DeepMind=Google DeepMind

这直接催生了Gemini:合并团队、共享算力,打造出世界最强的多模态模型。

这时,Hinton打断问道,「谷歌是否后悔发表Transformer论文」?

Jeff坚定有力回答,「不会,因为它对世界产生了很好的影响」。


紧接着主持人又一回击,「从那之后谷歌就没怎么发表论文了?还是说这不是真的」?

Jeff澄清道,「我们仍发表论文,今年NeurIPS就有上百篇」。

对于那些主要在商业上最关键、尤其是面向「最大规模模型」的论文,我们会更谨慎一些。

公开发表是竞争优势,能吸引人才、获得社区反馈。 谷歌全栈护城河,坚不可破

最近几周,谷歌Gemini连发,让世界重新认识到谷歌的强大。尤其是,背后硬件优势——TPU。


Jeff Dean现场强调了硬件-模型「协同设计」(co-design)的优势——

谷歌研究人员与硬件团队紧密合作,提前去布局潜力方向,预测未来2-6年后的趋势。

甚至,他们用强化学习去优化芯片布局布线,并在多带TPU上应用。

这不仅提升了芯片质量,也加速了研发的流程。

下一个20年

在炉边对话压轴部分,主持人问了一个所有人最关心的问题——

AI领域接下来会往哪走?Transformer会被取代吗?20年后,世界会变成什么样?

Jeff Dean最兴奋的方向之一,Scaling注意力机制的触达范围,从百万Token到数万亿。

让模型直接访问所有科学论文、所有视频,而非将数万亿token塞进几千亿个权重里。

他承认,这当然需要硬件的创新,还需更节能、性价比更高的推理芯片。


Jeff Dean还指出,目前模型缺乏「持续学习」,即训练后固定不变。

MoE模型往往是一堆大小都一样的专家:分出去,再合回来,再分出去。这个结构说实话也不算太有意思。

未来,他们还将探索更动态、脑启发的架构。

对于20年后的预测,Hinton总结道——

如果有人真的造出来了,要么我们从此幸福快乐地生活下去,要么我们全部灭亡。


20年后到底会有什么影响,没人说得准,特别是对社会的影响。

很明显,很多工作会消失。但不清楚它会不会创造出足够的新工作来替代。

Jeff Dean则乐观于科学加速,「AI连接不同领域、自动化发现闭环,将让突破更快发生」。

他们两人一直认为,医疗与教育变革最剧烈。

Hinton最后补充道,「大模型压缩巨量知识,发现人类未见的共通性,它们会非常有创造力——抓到希腊文学与量子力学的远距离类比」。

参考资料:

https://x.com/JeffDean/status/2001389087924887822

https://www.youtube.com/watch?v=ue9MWfvMylE

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全红婵发布与妈妈病床牵手画面 配文"爱你妈妈"

全红婵发布与妈妈病床牵手画面 配文"爱你妈妈"

看看新闻Knews
2026-05-15 09:20:06
68岁工地大爷哭诉:每月5000块钱退休金,却还要为养老的问题发愁

68岁工地大爷哭诉:每月5000块钱退休金,却还要为养老的问题发愁

施工员小天哥
2026-05-13 11:16:37
山东大姐这事干的漂亮!被美国FBI悬赏!赏金1.5亿超过3个本拉登

山东大姐这事干的漂亮!被美国FBI悬赏!赏金1.5亿超过3个本拉登

马尔科故事会
2025-03-27 15:21:29
用户向豆包咨询机票退票手续费,导致损失600元,并向法院起诉豆包运营公司,豆包相关负责人:案例已处置,涉及金融、退款等会有风险提示

用户向豆包咨询机票退票手续费,导致损失600元,并向法院起诉豆包运营公司,豆包相关负责人:案例已处置,涉及金融、退款等会有风险提示

极目新闻
2026-05-14 16:30:33
干啥啥不行,投诉第一名!七问大兴发展

干啥啥不行,投诉第一名!七问大兴发展

坤舆商业
2026-05-15 11:59:23
海口市水务局二级主任科员蔡智接受纪律审查和监察调查

海口市水务局二级主任科员蔡智接受纪律审查和监察调查

蓬勃新闻
2026-05-15 16:44:16
泽连斯基称俄罗斯可能从白俄罗斯发起进攻,并袭击乌克兰决策中心

泽连斯基称俄罗斯可能从白俄罗斯发起进攻,并袭击乌克兰决策中心

山河路口
2026-05-15 23:16:45
“最美婴儿”走红,像是在娘胎里整了容,网友:看一眼就想抱走

“最美婴儿”走红,像是在娘胎里整了容,网友:看一眼就想抱走

大果小果妈妈
2026-04-23 13:35:47
央视三胎宣传片惹争议,脱离现实强行把孕妇塑造成超人式幸福?

央视三胎宣传片惹争议,脱离现实强行把孕妇塑造成超人式幸福?

今朝牛马
2026-05-07 20:36:33
二战时期,唯一一个没有参战的世界性强国,当时它到底在忙什么?

二战时期,唯一一个没有参战的世界性强国,当时它到底在忙什么?

云霄纪史观
2026-05-14 17:55:31
Apple Watch12代再挤牙膏,还能买吗?

Apple Watch12代再挤牙膏,还能买吗?

互联网放大镜
2026-05-15 20:29:00
中美互利共赢:200架波音订单与C919适航前景

中美互利共赢:200架波音订单与C919适航前景

晓踏就是我
2026-05-15 18:06:31
世界杯版权6000万美元什么水平?低于日韩的估价,与西班牙相同

世界杯版权6000万美元什么水平?低于日韩的估价,与西班牙相同

懂球帝
2026-05-15 18:31:29
特朗普称美伊停火系“应其他国家要求”

特朗普称美伊停火系“应其他国家要求”

澎湃新闻
2026-05-15 22:33:27
媒体人:周琦、王哲林对决让人感慨,曾凡博对比张镇麟相形见绌

媒体人:周琦、王哲林对决让人感慨,曾凡博对比张镇麟相形见绌

懂球帝
2026-05-16 00:34:12
网红瓜妈与高种姓印度老公离婚后续:短视频粉丝锐减,已停止更新

网红瓜妈与高种姓印度老公离婚后续:短视频粉丝锐减,已停止更新

小徐讲八卦
2026-05-11 10:22:16
49岁马伊琍“爆炸式”官宣,文章携新欢亮相,各自安好!

49岁马伊琍“爆炸式”官宣,文章携新欢亮相,各自安好!

骄阳之夏明
2026-05-14 22:52:13
中央下令严查宅基地!2026年新规执行,每家每户都要注意

中央下令严查宅基地!2026年新规执行,每家每户都要注意

王嚾晓
2026-03-18 23:31:04
斯卢茨基:李可血管里有栓塞;米内罗之前肌肉也有一些问题

斯卢茨基:李可血管里有栓塞;米内罗之前肌肉也有一些问题

懂球帝
2026-05-15 16:25:12
世界正在发生一个极其恶心的变化!印度最终可能会成为地球大患

世界正在发生一个极其恶心的变化!印度最终可能会成为地球大患

世界圈
2026-05-04 16:42:27
2026-05-16 01:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15220文章数 66869关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

特朗普称中方同意购买200架波音飞机 外交部回应

头条要闻

特朗普称中方同意购买200架波音飞机 外交部回应

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

健康
艺术
手机
家居
军事航空

专家揭秘干细胞回输的安全风险

艺术要闻

法国女神苏菲·玛索,性感魅力无人能敌!

手机要闻

iPhone 17系列全系跳水,最高立减2500!

家居要闻

110㎡淡而有致的生活表达

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版