网易首页 > 网易号 > 正文 申请入驻

为什么现代 AI 能做成?Hinton 对话 Jeff Dean

0
分享至

全文 3,000字 | 阅读约 8 分钟


(Jeff Dean与Geoffrey Hinton炉边对话精彩片段)

2025 年 12 月初,圣地亚哥 NeurIPS 大会。

Geoffrey Hinton(神经网络奠基人、2024年诺贝尔物理学奖得主)与Jeff Dean(Google首席科学家、Gemini模型联合负责人、TPU架构师)的炉边对谈,成为这场大会的重要时刻。

对话聚焦一个关键问题:

现代 AI 为什么能从实验室走向数十亿用户?

从 AlexNet 在学生卧室的两块 GPU 上训练,到 Google 在餐巾纸上算出TPU需求;从学术圈的小众实验,到支撑全球亿级应用的基础设施。

这是一次对 AI 工业化进程的系统性复盘。

他们给出的答案是:现代 AI 的突破从来不是单点奇迹,而是算法、硬件、工程同时成熟后的系统性涌现。强算法必须与强基础设施结合,才能真正走向规模化。

沿着时间线,我们梳理三个关键阶段:

  • 起点突破:硬件如何让 AI 从想法变成现实

  • 系统成熟:算法、组织、工具如何协同推进

  • 未来门槛:规模化之后要突破的三道关卡

看清这条路径,你就能理解AI为什么是今天这个样子。

第一节|AI的突破,起于一块GPU板

Geoffrey Hinton 说,现代 AI 真正的转折,不在某篇论文里,而是在他学生 Alex 的卧室里:两块 NVIDIA GPU 板,插在父母家电脑上,训练图像识别模型。电费,还是家里人掏的。

那是 2012年 ,ImageNet 比赛。

别人用的是手工特征提取,他和学生团队用的是深度神经网络。参数比别人多十倍,算力也超出好几倍,准确率远超对手。AlexNet 由此奠定了深度学习的地位。

而这场胜利证明了一件事:没有足够算力,什么结构都只是想象。

Jeff Dean 的回忆更早:1990 年他还在做本科论文,就开始琢磨怎么用并行算法训练神经网络。他做了两个方向,一个现在叫数据并行,一个叫模型并行,但当时没人用这些词。他用的是一台 32 处理器的超立方体计算机。

问题是:他分了 32 份算力,却只用了 10 个神经元。

“我犯了个很大的错误。”

这次失败的经验,让他在二十多年后设计TPU 时,从一开始就考虑如何让算力和模型规模真正匹配。

二十多年后,类似的算力问题再次出现,但这次是在推理端。

2013 年,Jeff Dean 在餐巾纸做了一次计算:如果未来全球有 1 亿人每天用语音助手,每人说 3 分钟话,要用现在的模型上线,仅这一个应用就需要让谷歌的服务器总量翻倍。

这是真实的物理成本。

他没有等预算开会。他拦下了谷歌当时的 CFO Patrick Pichette,说:我们得自己造硬件,现在就要。

TPU 项目就此启动。2015 年,第一代 TPU 专注于推理,而非训练。它比同期 CPU 和 GPU 的推理能效高出 30-80 倍。直到 2017 年的 TPU v2,Google 才开始在自研硬件上大规模训练模型。

这是一条垂直整合的路线。十年之后,TPU 已经进化到第七代。Pathways系统让一个Python进程能统一调度分布在跨城市数据中心的数万颗TPU芯片,就像操作一台超大型计算机。

与此同时,NVIDIA GPU 路线也在持续演进。

从 AlexNet 的两块 GPU 板卡,到 2023 年的 H100、2024年的 H200,以及2025年开始交付的 B200,NVIDIA GPU 仍然支撑着 OpenAI、Meta 等公司的大规模训练。值得注意的是,AI 基础设施已经呈现多元化:Anthropic 在 AWS 的Trainium 芯片和 Google TPU 之间分配训练任务,各家都在寻找最适合自己的路线。。

两条路线各有优势:

  • NVIDIA GPU生态开放、适配性强,让创业者和研究者都能用上 AI 算力;

  • 定制芯片如TPU、Trainium则为特定需求深度优化,在能效和成本上有独特价值。

从卧室里的两块 GPU 板,到遍布全球的 AI 算力网络,AI 的突破第一步不是理解语言,也不是创造内容,而是拥有足够算力完成训练

第二节|从 AlexNet 到 Gemini,三条曲线如何交汇

现代 AI 能大规模应用,不是靠某一个天才灵感,而是三条技术曲线在 2017-2023 年间密集交汇:

1、算法架构找到了可扩展的形态

从AlexNet 到Transformer,核心变化不是更聪明,而是更易规模化。

  • 卷积神经网络擅长图像,但参数量和层数成正比,很难做大;

  • 循环神经网络能处理序列,但必须一个字一个字处理,算不快。

Transformer 的突破在于:它把顺序处理变成了并行处理。所有token同时计算,既快,又能充分利用GPU/TPU的并行能力。

在 Jeff Dean 看来,同样的准确率,Transformer 用的计算量可以比LSTM少10-100倍。这不是小优化,而是让大规模训练从理论可能变成“工程可行”。

Geoffrey Hinton 起初并不看好。他觉得这种“保存所有状态”的设计不像大脑。

但他后来意识到:不用管像不像人脑,重要是它真的让 Scaling law 成立了。

2、组织方式从分散变成集中

2022 年 ChatGPT 发布前,Google 内部已经有一个聊天机器人,8万员工在用。技术上已经可行,为什么没推向市场?

Jeff Dean说 ,他们被搜索业务的思维限制住了,太过纠结准确性和幻觉问题,反而忘了它可以做很多不是搜索的事情。

更关键的问题是:当时Google有三个团队在各自训练模型:Brain、Research、DeepMind。每个团队的算力都不够大,也各自为战。ChatGPT 上线一周后,Dean 写了一页纸的备忘录:我们其实早就能做出这个,但我们没把资源合起来。

Gemini 团队就此诞生。算力、模型、人才第一次真正集中到一个目标上。

技术突破往往不是技术问题,而是组织问题。

3、工程工具栈形成了闭环

AI 不只是模型,还需要一整套让它能运行、能调试、能复用的基础设施:

  • JAX:让研究员能用数学语言直接写代码

  • Pathways:让 2 万颗 TPU 能被一个Python 进程调度

  • 蒸馏技术:把千亿参数模型压缩到能跑在手机上

这些工具的价值,不只是提升效率,而是降低了AI 的准入门槛。有了 JAX,研究员不需要成为系统工程师;有了 Pathways,不需要手动管理上万个设备;有了蒸馏,不需要每个应用都依赖云端算力。

为什么是这三条?因为它们形成了一个闭环:

  • Transformer 让模型能规模化,但需要更大算力支撑;

  • 更大算力需要组织资源集中,同时催生了更好的工具;

  • 更好的工具提升训练效率,反过来支撑了更大模型的训练。

缺任何一条,AI 都不会从实验室走到 10 亿用户手里。

第三节|能效、记忆、创造:AI规模化后的三道门槛

模型已经能运行起来,也能用在现实中。那接下来要突破什么?

Jeff Dean 和 Hinton在这场对话中,不约而同指出了三个还未解决的方向。这不是更大模型的问题,而是三道看不见的门槛:

01|能效:规模化的物理极限

AI 模型越来越大,带来的直接后果是越来越贵、越来越耗电。

Gemini的训练动用了上万颗 TPU 芯片。每一次模型升级,意味着消耗更多电力、更多时间、更多预算。

Dean 指出,虽然 Google 在2013年就通过自研TPU把推理能效提升了30-80倍,但今天这个问题变得更严峻了:要让 AI 真正普及,不能靠继续叠加计算,而是要换一种方式训练和部署。

Google 现在把最常用的模型推理控制在FP4这种超低精度格式上运行。 背后的逻辑很简单:只要结果对,过程可以模糊。

但这还不够。Dean 认为下一代推理硬件需要在能效上再提升一个数量级。

02|记忆:上下文的深度限制

现在的模型上下文窗口,最强的也不过几百万个token。

Dean 认为:现在的模型理解力,仍然受限于一次能看到多少信息。就像人一次只能翻 5 页书,AI 也只能看一段、忘一段。

Hinton 也强调,它们还不能真正像人一样长期记住事物。

想要让 AI 真正帮助科学研究、复杂决策,必须能一次处理更深、更长的信息,比如整本教科书、整年财报、或一百篇相互关联的论文。

Dean 的思路是:让模型能覆盖数十亿甚至万亿个token。这背后的挑战不是如何算得更快,而是如何让模型记得更深、理解得更远。

而要实现这一点,不只是算法层面的优化,芯片本身的注意力计算架构也需要重新设计。

03|创造:从模仿到联想

Hinton 最关注的是另一个维度:AI 会不会联想。

他说,人类大脑最厉害的地方,不是记忆,不是推理,而是能把看似无关的东西联系起来。

“训练这些大模型,实际上是把海量知识压进一个相对有限的空间里。你必须找到不同事物之间的共同点,才能压得进去。”

这意味着,AI 在训练过程中会自动学到很多人类没意识到的类比。

Hinton 说

“也许某个模型发现了希腊文学和量子力学之间的共同结构。人类专家可能永远都不会把它们放在一起看。”

很多人说 AI 只是模仿,不具创造力。

Hinton 不同意:把遥远的事物联系起来,本身就是创造。Dean 也认同这一点,并指出这将是 AI 下个阶段的关键应用方向:让 AI 在科学研究中发现跨领域的联系,加速突破的发生。

这三道门槛分别卡在不同层面:能效是物理成本问题,记忆是架构能力问题,创造是认知边界问题。

但它们不是孤立的:

  • 能效不突破,长上下文训不起

  • 长上下文做不到,深度联想没有基础

  • 联想能力不行,AI 就永远只是个更快的搜索引擎

突破这些门槛,需要的不只是工程优化,更是长周期的技术积累。

Dean 在对话中反复提到一个事实:Google 今天依赖的大部分技术,从互联网协议到芯片架构,本质上都来自早年的学术研究。深度学习的爆发,不是因为某一天突然有了新想法,而是很多 30 年前没人重视的研究,一起开始发挥作用。。

AI 的未来不能只靠烧钱建数据中心,同样需要对基础研究的持续投入。

结语|不是一瞬间成了,是很多事同时准备好了

从卧室里的 GPU,到谷歌数万颗 TPU 的算力网络;从被拒稿的蒸馏论文,到今天压缩部署的标配;从研究型实验室,到能服务 10 亿用户的产品。

现代 AI 能成,不靠某个爆点,而是长期对准了几件关键事:算法能落地、算力能支撑、研究环境能留住人。

不是哪个时刻决定一切,而是很多件事情共同推动,让 AI 真正从想法变成了能用的产品。

Hinton 说,大模型的本质,是在训练中把海量知识压进有限空间,而要做到这种压缩,就得找到看似不相关的事物之间的共同规律。

Dean 则表示,AI 下一步要突破的,不是答案,而是理解的范围。

真正重要的,不是模型的大小,而是能否把技术突破转化为人人可用的产品。

识自AI

本文由AI深度研究院出品,内容整理自Jeff Dean与Geoffrey Hinton在NeurIPS 2025的炉边对话(由Radical Ventures主办)等网上公开素材,属评论分析性质。内容为观点提炼与合理引述,未逐字复制原对话材料。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料:

https://www.youtube.com/watch?v=ue9MWfvMylE&t=1483s

https://www.youtube.com/watch?v=9u21oWjI7Xk

https://sdtechscene.org/event/jeff-dean-geoff-hinton-in-conversation-with-jordan-jacobs-of-radical-ventures/

https://www.linkedin.com/posts/radicalventures_the-next-episode-of-radical-talks-drops-this-activity-7406799924111220737-Fph0

https://x.com/JeffDean/status/1997125635626639556?referrer=grok-com

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编: 图灵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马科斯怎么都想不到!在仁爱礁坐滩27年的破船,却意外助力了中国

马科斯怎么都想不到!在仁爱礁坐滩27年的破船,却意外助力了中国

蜉蝣说
2026-04-29 17:04:07
吴法宪出狱后,安置在济南,同时告诉他有四个安排

吴法宪出狱后,安置在济南,同时告诉他有四个安排

历史甄有趣
2026-04-24 07:25:10
总闻到这种味道?当心!你可能被癌症盯上了

总闻到这种味道?当心!你可能被癌症盯上了

凤凰卫视
2026-04-30 14:14:16
泽连斯基彻底没招了,俄军大杀器横扫战场

泽连斯基彻底没招了,俄军大杀器横扫战场

上视韬说
2026-04-30 23:30:04
旗袍是我的杀手锏:不是武器,是底气

旗袍是我的杀手锏:不是武器,是底气

疾跑的小蜗牛
2026-05-01 23:04:54
追梦格林:科尔两年内做过八九次手术 他可能真的快熬不住了

追梦格林:科尔两年内做过八九次手术 他可能真的快熬不住了

北青网-北京青年报
2026-05-01 11:05:03
男子自驾游至海南遇美女搭车,同行三天后,他才知道自己逃过死劫

男子自驾游至海南遇美女搭车,同行三天后,他才知道自己逃过死劫

林林故事揭秘
2025-04-10 14:49:38
95岁的巴菲特,准备了3700亿美元,等待美国股市大崩盘

95岁的巴菲特,准备了3700亿美元,等待美国股市大崩盘

月满大江流
2026-04-14 07:00:03
AI生成《黑神话:潘金莲》美图 性感风骚的美人

AI生成《黑神话:潘金莲》美图 性感风骚的美人

3DM游戏
2026-05-01 06:10:08
辽宁86-102惨败山东,诞生3个不可思议和2个事实,双方进决胜场

辽宁86-102惨败山东,诞生3个不可思议和2个事实,双方进决胜场

刘哥谈体育
2026-05-02 01:21:49
苏宁陨落:南京不仅是政治的短命王朝,也是商业首富们的短命王朝

苏宁陨落:南京不仅是政治的短命王朝,也是商业首富们的短命王朝

道术意义
2026-05-01 07:32:15
兰州一餐馆悬挂钱学森和袁隆平照片,顾客直呼“这才是真正的明星”,老板回应:因为有他们我们才有饭吃

兰州一餐馆悬挂钱学森和袁隆平照片,顾客直呼“这才是真正的明星”,老板回应:因为有他们我们才有饭吃

极目新闻
2026-05-01 20:08:28
孙杨风波再发酵!家境被扒底朝天,父母身份曝光,马頔的话没说错

孙杨风波再发酵!家境被扒底朝天,父母身份曝光,马頔的话没说错

一盅情怀
2026-05-01 16:20:21
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
北影30年后再聚首:陈坤老了,黄晓明精致了,意想不到的人也来了

北影30年后再聚首:陈坤老了,黄晓明精致了,意想不到的人也来了

往史过眼云烟
2026-04-30 19:28:05
仅差1千万!腾讯互联网第一宝座快被超越

仅差1千万!腾讯互联网第一宝座快被超越

快科技
2026-05-01 21:19:04
朱温被杀前夜,叫儿媳王氏前来服侍,儿媳告诫:小心你父亲要杀你

朱温被杀前夜,叫儿媳王氏前来服侍,儿媳告诫:小心你父亲要杀你

铭记历史呀
2026-05-02 00:11:01
为什么现金受贿还是会被查到?监委的3个手段你根本想不到

为什么现金受贿还是会被查到?监委的3个手段你根本想不到

细说职场
2026-04-29 19:07:44
美伊还没打完,第二个伊朗出现!对华使出卸磨杀驴,反向收割中企

美伊还没打完,第二个伊朗出现!对华使出卸磨杀驴,反向收割中企

闻识
2026-05-02 01:33:16
“穷人炫富,难掩心酸!”男大学生炫耀坐高铁一等座,因长相被嘲

“穷人炫富,难掩心酸!”男大学生炫耀坐高铁一等座,因长相被嘲

妍妍教育日记
2026-04-24 09:05:03
2026-05-02 05:59:00
AI深度研究员 incentive-icons
AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
448文章数 171关注度
往期回顾 全部

科技要闻

DeepSeek发布多模态论文又连夜删除

头条要闻

美国也搞起"人肉代购" "去墨西哥买中国车"教程疯传

头条要闻

美国也搞起"人肉代购" "去墨西哥买中国车"教程疯传

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

亲子
游戏
本地
教育
旅游

亲子要闻

豌豆的球掉进小水坑,很难过,一只青蛙帮她把球捡了回来

PS玩家团结起来!请愿复活第一方3A 耗时7年却被取消

本地新闻

用青花瓷的方式,打开西溪湿地

教育要闻

高考地理概念:地下水

旅游要闻

一张票根全年玩转宝山!今日起,持邮轮登船证享全城超值优惠

无障碍浏览 进入关怀版