为什么现代 AI 能做成？Hinton 对话 Jeff Dean|算法|大模型|现代汽车|神经网络|hinton

为什么现代 AI 能做成？Hinton 对话 Jeff Dean

2025-12-19 07:59:53　来源: AI深度研究员

上海举报

分享至

全文 3,000字 | 阅读约 8 分钟

（Jeff Dean与Geoffrey Hinton炉边对话精彩片段）

2025 年 12 月初，圣地亚哥 NeurIPS 大会。

Geoffrey Hinton（神经网络奠基人、2024年诺贝尔物理学奖得主）与Jeff Dean（Google首席科学家、Gemini模型联合负责人、TPU架构师）的炉边对谈，成为这场大会的重要时刻。

对话聚焦一个关键问题：

现代 AI 为什么能从实验室走向数十亿用户？

从 AlexNet 在学生卧室的两块 GPU 上训练，到 Google 在餐巾纸上算出TPU需求；从学术圈的小众实验，到支撑全球亿级应用的基础设施。

这是一次对 AI 工业化进程的系统性复盘。

他们给出的答案是：现代 AI 的突破从来不是单点奇迹，而是算法、硬件、工程同时成熟后的系统性涌现。强算法必须与强基础设施结合，才能真正走向规模化。

沿着时间线，我们梳理三个关键阶段：

起点突破：硬件如何让 AI 从想法变成现实
系统成熟：算法、组织、工具如何协同推进
未来门槛：规模化之后要突破的三道关卡

看清这条路径，你就能理解AI为什么是今天这个样子。

第一节｜AI的突破，起于一块GPU板

Geoffrey Hinton 说，现代 AI 真正的转折，不在某篇论文里，而是在他学生 Alex 的卧室里：两块 NVIDIA GPU 板，插在父母家电脑上，训练图像识别模型。电费，还是家里人掏的。

那是 2012年，ImageNet 比赛。

别人用的是手工特征提取，他和学生团队用的是深度神经网络。参数比别人多十倍，算力也超出好几倍，准确率远超对手。AlexNet 由此奠定了深度学习的地位。

而这场胜利证明了一件事：没有足够算力，什么结构都只是想象。

Jeff Dean 的回忆更早：1990 年他还在做本科论文，就开始琢磨怎么用并行算法训练神经网络。他做了两个方向，一个现在叫数据并行，一个叫模型并行，但当时没人用这些词。他用的是一台 32 处理器的超立方体计算机。

问题是：他分了 32 份算力，却只用了 10 个神经元。

“我犯了个很大的错误。”

这次失败的经验，让他在二十多年后设计TPU 时，从一开始就考虑如何让算力和模型规模真正匹配。

二十多年后，类似的算力问题再次出现，但这次是在推理端。

2013 年，Jeff Dean 在餐巾纸做了一次计算：如果未来全球有 1 亿人每天用语音助手，每人说 3 分钟话，要用现在的模型上线，仅这一个应用就需要让谷歌的服务器总量翻倍。

这是真实的物理成本。

他没有等预算开会。他拦下了谷歌当时的 CFO Patrick Pichette，说：我们得自己造硬件，现在就要。

TPU 项目就此启动。2015 年，第一代 TPU 专注于推理，而非训练。它比同期 CPU 和 GPU 的推理能效高出 30-80 倍。直到 2017 年的 TPU v2，Google 才开始在自研硬件上大规模训练模型。

这是一条垂直整合的路线。十年之后，TPU 已经进化到第七代。Pathways系统让一个Python进程能统一调度分布在跨城市数据中心的数万颗TPU芯片，就像操作一台超大型计算机。

与此同时，NVIDIA GPU 路线也在持续演进。

从 AlexNet 的两块 GPU 板卡，到 2023 年的 H100、2024年的 H200，以及2025年开始交付的 B200，NVIDIA GPU 仍然支撑着 OpenAI、Meta 等公司的大规模训练。值得注意的是，AI 基础设施已经呈现多元化：Anthropic 在 AWS 的Trainium 芯片和 Google TPU 之间分配训练任务，各家都在寻找最适合自己的路线。。

两条路线各有优势：

NVIDIA GPU生态开放、适配性强，让创业者和研究者都能用上 AI 算力；
定制芯片如TPU、Trainium则为特定需求深度优化，在能效和成本上有独特价值。

从卧室里的两块 GPU 板，到遍布全球的 AI 算力网络，AI 的突破第一步不是理解语言，也不是创造内容，而是拥有足够算力完成训练。

第二节｜从 AlexNet 到 Gemini，三条曲线如何交汇

现代 AI 能大规模应用，不是靠某一个天才灵感，而是三条技术曲线在 2017-2023 年间密集交汇：

1、算法架构找到了可扩展的形态

从AlexNet 到Transformer，核心变化不是更聪明，而是更易规模化。

卷积神经网络擅长图像，但参数量和层数成正比，很难做大；
循环神经网络能处理序列，但必须一个字一个字处理，算不快。

Transformer 的突破在于：它把顺序处理变成了并行处理。所有token同时计算，既快，又能充分利用GPU/TPU的并行能力。

在 Jeff Dean 看来，同样的准确率，Transformer 用的计算量可以比LSTM少10-100倍。这不是小优化，而是让大规模训练从理论可能变成“工程可行”。

Geoffrey Hinton 起初并不看好。他觉得这种“保存所有状态”的设计不像大脑。

但他后来意识到：不用管像不像人脑，重要是它真的让 Scaling law 成立了。

2、组织方式从分散变成集中

2022 年 ChatGPT 发布前，Google 内部已经有一个聊天机器人，8万员工在用。技术上已经可行，为什么没推向市场？

Jeff Dean说，他们被搜索业务的思维限制住了，太过纠结准确性和幻觉问题，反而忘了它可以做很多不是搜索的事情。

更关键的问题是：当时Google有三个团队在各自训练模型：Brain、Research、DeepMind。每个团队的算力都不够大，也各自为战。ChatGPT 上线一周后，Dean 写了一页纸的备忘录：我们其实早就能做出这个，但我们没把资源合起来。

Gemini 团队就此诞生。算力、模型、人才第一次真正集中到一个目标上。

技术突破往往不是技术问题，而是组织问题。

3、工程工具栈形成了闭环

AI 不只是模型，还需要一整套让它能运行、能调试、能复用的基础设施：

JAX：让研究员能用数学语言直接写代码
Pathways：让 2 万颗 TPU 能被一个Python 进程调度
蒸馏技术：把千亿参数模型压缩到能跑在手机上

这些工具的价值，不只是提升效率，而是降低了AI 的准入门槛。有了 JAX，研究员不需要成为系统工程师；有了 Pathways，不需要手动管理上万个设备；有了蒸馏，不需要每个应用都依赖云端算力。

为什么是这三条？因为它们形成了一个闭环：

Transformer 让模型能规模化，但需要更大算力支撑；
更大算力需要组织资源集中，同时催生了更好的工具；
更好的工具提升训练效率，反过来支撑了更大模型的训练。

缺任何一条，AI 都不会从实验室走到 10 亿用户手里。

第三节｜能效、记忆、创造：AI规模化后的三道门槛

模型已经能运行起来，也能用在现实中。那接下来要突破什么？

Jeff Dean 和 Hinton在这场对话中，不约而同指出了三个还未解决的方向。这不是更大模型的问题，而是三道看不见的门槛：

01｜能效：规模化的物理极限

AI 模型越来越大，带来的直接后果是越来越贵、越来越耗电。

Gemini的训练动用了上万颗 TPU 芯片。每一次模型升级，意味着消耗更多电力、更多时间、更多预算。

Dean 指出，虽然 Google 在2013年就通过自研TPU把推理能效提升了30-80倍，但今天这个问题变得更严峻了：要让 AI 真正普及，不能靠继续叠加计算，而是要换一种方式训练和部署。

Google 现在把最常用的模型推理控制在FP4这种超低精度格式上运行。背后的逻辑很简单：只要结果对，过程可以模糊。

但这还不够。Dean 认为下一代推理硬件需要在能效上再提升一个数量级。

02｜记忆：上下文的深度限制

现在的模型上下文窗口，最强的也不过几百万个token。

Dean 认为：现在的模型理解力，仍然受限于一次能看到多少信息。就像人一次只能翻 5 页书，AI 也只能看一段、忘一段。

Hinton 也强调，它们还不能真正像人一样长期记住事物。

想要让 AI 真正帮助科学研究、复杂决策，必须能一次处理更深、更长的信息，比如整本教科书、整年财报、或一百篇相互关联的论文。

Dean 的思路是：让模型能覆盖数十亿甚至万亿个token。这背后的挑战不是如何算得更快，而是如何让模型记得更深、理解得更远。

而要实现这一点，不只是算法层面的优化，芯片本身的注意力计算架构也需要重新设计。

03｜创造：从模仿到联想

Hinton 最关注的是另一个维度：AI 会不会联想。

他说，人类大脑最厉害的地方，不是记忆，不是推理，而是能把看似无关的东西联系起来。

“训练这些大模型，实际上是把海量知识压进一个相对有限的空间里。你必须找到不同事物之间的共同点，才能压得进去。”

这意味着，AI 在训练过程中会自动学到很多人类没意识到的类比。

Hinton 说

“也许某个模型发现了希腊文学和量子力学之间的共同结构。人类专家可能永远都不会把它们放在一起看。”

很多人说 AI 只是模仿，不具创造力。

Hinton 不同意：把遥远的事物联系起来，本身就是创造。Dean 也认同这一点，并指出这将是 AI 下个阶段的关键应用方向：让 AI 在科学研究中发现跨领域的联系，加速突破的发生。

这三道门槛分别卡在不同层面：能效是物理成本问题，记忆是架构能力问题，创造是认知边界问题。

但它们不是孤立的：

能效不突破，长上下文训不起
长上下文做不到，深度联想没有基础
联想能力不行，AI 就永远只是个更快的搜索引擎

突破这些门槛，需要的不只是工程优化，更是长周期的技术积累。

Dean 在对话中反复提到一个事实：Google 今天依赖的大部分技术，从互联网协议到芯片架构，本质上都来自早年的学术研究。深度学习的爆发，不是因为某一天突然有了新想法，而是很多 30 年前没人重视的研究，一起开始发挥作用。。

AI 的未来不能只靠烧钱建数据中心，同样需要对基础研究的持续投入。

结语｜不是一瞬间成了，是很多事同时准备好了

从卧室里的 GPU，到谷歌数万颗 TPU 的算力网络；从被拒稿的蒸馏论文，到今天压缩部署的标配；从研究型实验室，到能服务 10 亿用户的产品。

现代 AI 能成，不靠某个爆点，而是长期对准了几件关键事：算法能落地、算力能支撑、研究环境能留住人。

不是哪个时刻决定一切，而是很多件事情共同推动，让 AI 真正从想法变成了能用的产品。

Hinton 说，大模型的本质，是在训练中把海量知识压进有限空间，而要做到这种压缩，就得找到看似不相关的事物之间的共同规律。

Dean 则表示，AI 下一步要突破的，不是答案，而是理解的范围。

真正重要的，不是模型的大小，而是能否把技术突破转化为人人可用的产品。

识自AI

本文由AI深度研究院出品，内容整理自Jeff Dean与Geoffrey Hinton在NeurIPS 2025的炉边对话（由Radical Ventures主办）等网上公开素材，属评论分析性质。内容为观点提炼与合理引述，未逐字复制原对话材料。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料：

https://www.youtube.com/watch?v=ue9MWfvMylE&t=1483s

https://www.youtube.com/watch?v=9u21oWjI7Xk

https://sdtechscene.org/event/jeff-dean-geoff-hinton-in-conversation-with-jordan-jacobs-of-radical-ventures/

https://www.linkedin.com/posts/radicalventures_the-next-episode-of-radical-talks-drops-this-activity-7406799924111220737-Fph0

https://x.com/JeffDean/status/1997125635626639556?referrer=grok-com

来源：官方媒体/网络新闻

排版：Atlas

编辑：深思

主编: 图灵

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.