作者 | Big Technology Podcast
编译 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)
如果说 Sam Altman 是 AI 时代的布道者,善于用宏大的愿景点燃公众的想象力;那么 Demis Hassabis 更像是一位在实验室里盯着显微镜的科学家,冷静、严谨,对“炒作”有着天然的免疫力。
一年前,当整个硅谷都在因为 ChatGPT 的红利期似乎见顶而焦虑,甚至开始讨论“大语言模型(LLM)是否撞墙”时,Demis 却感到困惑。在他看来,进步从未停止。他掌舵的 Google DeepMind 刚刚经历了 AlphaFold 3 的高光时刻,正试图将 AI 的触角从简单的聊天机器人延伸到生物学、物理学乃至材料科学的最深处。
在达沃斯的一间木质会议室里,Demis 近期接受了 Big Technology 播客的专访。这场对话的特别之处在于,他没有回避那些尖锐的问题:现在的 AI 是不是只有“金鱼记忆”?谷歌会不会为了财报在 Gemini 里塞满广告?所谓的 AGI 究竟是营销话术还是科学定义?
![]()
最令人印象深刻的是他对“智能载体”的断言。在纪录片《The Thinking Game》中,这位曾开发出 AlphaGo 的天才不得不拿着手机,笨拙地对着物体询问 AI。他在采访中直言不讳:“这种体验太蠢了。” 他预言,智能眼镜才是 AI 的终极形态,而这个未来甚至不需要等到明年。
不同于外界对“AI 泡沫”的恐慌,Demis 展现出了一种巨头的从容:“如果泡沫破裂,那是 PPT 公司的灾难。对于谷歌这样拥有深厚技术栈和庞大业务底座的公司,无论何种情况,我们都处于有利位置。”
以下是这场对话的完整记录,涵盖了从技术架构到人类未来的方方面面。
![]()
打破“撞墙论”与 AI 的“金鱼记忆”
Alex Kantrowitz: 让我们把时间拨回一年前。当时行业里弥漫着一种质疑声,大家都在问:AI 的进步是不是要停滞了?大语言模型(LLM)是不是要撞墙了?但这一年过去了,这种质疑似乎已经被事实打破了。你能告诉我们,具体发生了什么,让 AI 行业从去年的质疑时刻走到了今天的繁荣?
Demis Hassabis: 说实话,对于我们 DeepMind 内部来说,我们要澄清一点:我们从未质疑过这一点。
我们一直看到性能在稳步、巨大的提升。所以,当我们听到外界这种“撞墙论”时,甚至感到有些困惑。当时人们主要的担忧是数据枯竭——认为互联网上的高质量文本数据已经被训练光了。这确实有一定道理,人们担心如果没有新数据,或者合成数据(Synthetic Data)不够好,模型就会停滞。
但事实证明,我们可以从现有的架构和数据中“榨取”出更多的果汁。无论是在预训练(Pre-training)阶段,还是后训练(Post-training)阶段,亦或是思维链(Thinking Paradigms)的引入,甚至是将这些技术组合的方式上,都还有巨大的优化空间。仅仅是利用我们已知的技术进行微调和创新,我们就已经获得了巨大的提升,而且这种提升空间依然很大。
Alex Kantrowitz: 这里我想扮演一下怀疑论者的角色。批评者会说,过去一年的很多进步,其实是在 LLM 上面加了一层“技巧”。比如现在的 AI 可以联网搜索了,但这通常是通过“脚手架”(Scaffolding)或“编排”(Orchestration)来实现的。
最典型的例子是:AI 虽然能用工具去搜索网页,但它记不住它学到的东西。一旦我关掉这个对话窗口,它就忘得一干二净。这就像是“金鱼的记忆”。 这难道不是大语言模型范式的一个根本性局限吗?
Demis Hassabis: 我完全理解这个观点。事实上,我自己也属于那个阵营:我认为在通往 AGI(通用人工智能)的道路上,我们可能还需要一两个巨大的突破。
仅仅靠把现有的模型做大(Scaling),可能不足以解决所有问题。我认为这些突破将发生在以下几个方向:
持续学习(Continual Learning): 让模型在部署后还能通过交互更新自己的权重。
更好的记忆机制: 不是简单地把所有东西都塞进上下文窗口(Context Window),而是像人脑一样,只记住重要的、关键的信息。这才是更高效的记忆方式。
长期规划与推理(Long-term Planning and Reasoning): 让 AI 能够为了一个长远目标进行多步推理。
现在的争论焦点在于:是简单地通过扩大现有技术的规模就能涌现出这些能力?还是我们需要发明全新的架构? 如果你非要逼我选边站,我会倾向于后者——我们需要一些新的发明。
但是,无论你属于哪个阵营,有一点我是确信的:大模型(Foundation Models)将是最终 AGI 系统的核心组件。 我不同意像 Yann LeCun 那样的观点,认为大模型是死胡同。我认为哪怕有新突破,大模型也会是那个最重要的基石。DeepMind 的优势在于,我们有足够深厚的研究底蕴,可以双管齐下:一边将现有的 Transformer 架构推向极致,一边探索那些全新的、蓝天般的架构创新。
Alex Kantrowitz: 如果一个系统里有很多硬编码(Hard-coded)的东西,它还能被称作 AGI 吗?
Demis Hassabis: 这取决于你对“很多”的定义。我对混合系统(Hybrid Systems),或者叫神经符号系统(Neuro-symbolic)非常感兴趣。
你看我们的 AlphaFold 和 AlphaGo,它们其实就是混合系统。它们结合了神经网络(深度学习)和经典的搜索算法(如蒙特卡洛树搜索)。这种结合创造了历史。
但我认为,是否属于 AGI 的核心在于“学习”。学习是智能的同义词。如果我们说一个系统是通用的(General),那意味着它必须具备通用学习能力。它必须能学习新知识,并且能跨领域学习。如果一个系统只能靠工程师手动写入规则,那它肯定不是 AGI。
Alex Kantrowitz: 关于持续学习,你刚才提到这是目前的短板。现在的模型只要会话结束就“失忆”了。你对于如何解决这个问题有理论了吗?
Demis Hassabis: 我们有一些线索,也在非常努力地攻克它。
如果你看 AlphaZero(AlphaGo 的进阶版),它就是从零开始学习的。它不需要人类的棋谱,完全通过自我对弈来积累知识。但问题是,游戏是一个非常封闭、规则明确的领域。现实世界则要混乱得多。
我们目前知道的方法在狭窄领域(如游戏)是有效的,但能否扩展(Scale)并泛化(Generalize)到混乱的现实世界,还有待观察。但我们目前的 AI 系统已经能做很多令人印象深刻的事情了。现在的挑战是,能否将这种“从经验中学习”的能力,融合进预训练的大模型中。
目前的大模型,虽然在训练阶段是在“学习”,但我们更希望它能在“出厂”后,在与用户的交互中继续学习。这不仅仅是把你的数据放进上下文窗口那么简单,而是要让模型本身发生改变。这一步,目前还没有被完美解决。
![]()
AGI 不是营销术语,而是要能拿诺贝尔奖
Alex Kantrowitz: 我们已经多次提到 AGI 了。去年年底我采访 Sam Altman 时,他说 AGI 的定义其实很模糊,他甚至希望大家能达成一个共识:既然定义不清,不如这就当做我们已经“嗖”地一下经过了 AGI,直接迈向超级智能了。你同意这种说法吗?
Demis Hassabis: (笑)我肯定他希望大家这么想。但我绝对不同意。AGI 不应该被变成一个为了商业利益服务的营销术语。
AGI 应该有一个科学的定义。我的定义一直是:一个能够执行人类所能做的所有认知任务的系统。
请注意,我说的是“所有”。这意味着它不仅要能像现在的 AI 这样写代码、画图,它还要能达到人类创造力的巅峰。
它不仅要能解一道已知的数学题,还要能像 拉马努金 那样,凭借直觉提出全新的数学猜想。
它不仅要能解决已知的科学问题,还要能像 爱因斯坦 提出广义相对论那样,提出全新的物理理论。
它不仅要能模仿艺术风格,还要能像 毕加索 或 莫扎特 那样,开创前所未有的艺术流派。
目前我们的系统,无论解决了多少像 AlphaFold 这样的难题,距离这种真正的“创造性突破”还有很长的路要走。人类的大脑做到了这一点,最聪明的人类做到了,所以这在物理上是可行的。但 AGI 必须具备在任何领域都能做到这一点的潜力。
此外,我还要加上物理智能(Physical Intelligence)。不仅仅是脑力劳动。看看达沃斯街头的运动员,或者普通的蓝领工人,他们对身体的控制能力、在物理世界中的灵巧性,是目前的机器人望尘莫及的。AGI 必须包含这种与物理世界交互的能力。
所以我认为,真正的 AGI 离我们还有 5 到 10 年的距离。
Alex Kantrowitz: 如果一个系统能做到你说的这一切——提出相对论、开创艺术流派、像运动员一样运动——那这不已经是“超级智能”了吗?为什么你觉得这还是 AGI?
Demis Hassabis: 不,这只是达到了人类智能的巅峰。
所谓的超级智能(Superintelligence),在我看来,是指那些人类大脑完全无法理解的维度。 比如,人类很难在 14 维空间里进行直观思考;人类无法直接将大脑连接到气象卫星上处理海量数据。如果一个系统能做到这些人类生理结构做不到的事情,那才是超级智能。那是 AGI 之后的话题。
Alex Kantrowitz: 在 Google DeepMind 的播客里,有人问你现在有没有哪个系统接近 AGI。你的回答让我很惊讶。你没有说 Gemini Ultra,你说的是 Nano Banana(注:DeepMind 内部的一个图像生成模型代号)。为什么一个画图的模型会比大语言模型更接近 AGI?
Demis Hassabis: (笑)那是开玩笑的名字,有时候你得给这些项目起点有趣的名字。
但我提它是有原因的。不仅仅是图像生成,还有我们的视频生成模型 Veo。 如果你仔细想想,一个视频模型能生成一段 10 秒、20 秒极其逼真的视频,这意味着什么?这意味着它内部构建了一个物理世界的模型(World Model)。它拥有了“直觉物理学”——它知道杯子掉在地上会碎,水倒出来会流,物体之间有遮挡关系。
这种对物理世界因果关系和运作机制的“理解”,是实现 AGI 的关键。 想象一下机器人技术。如果你想要一个能为你做家务的机器人,它必须能在脑海中“模拟”未来:如果我这么做,会发生什么?它需要预测未来的轨迹。目前的语言模型虽然能写诗,但缺乏这种对物理世界的扎实理解。
所以,多模态模型(Gemini 从一开始就是原生多模态)之所以重要,是因为它试图将视觉、听觉、视频和语言融合在一起,形成一个完整的世界认知。这才是通往通用助手的必经之路。
![]()
智能眼镜的“iPhone 时刻”与广告的信任危机
Alex Kantrowitz: 让我们聊聊产品。我看了你们的纪录片《The Thinking Game》,有 300 多万人也看了。片子里有个细节特别逗:你和你那个才华横溢的团队,居然还得像普通游客一样,拿着手机对着某个物体,然后问 AI 助手“这是什么?”或者“发生了什么?”。
我在屏幕前都忍不住喊:“这哥们需要一副眼镜啊!”手机这个形态显然不对劲。
Demis Hassabis: 你完全说到了点子上。这也正是我们在内部“狗粮”(Dogfooding,意为内部测试)产品时得出的结论。
当你真的在现实生活中使用这些多模态 AI 时,你会发现举着手机去探索世界、去获得推荐,虽然技术上很神奇,但体验上很笨重、很傻。
我心中的杀手级应用是“通用数字助理”。它应该是一个时刻伴随你的助手,无论你是在电脑前工作,还是在城市里漫步,亦或是你在做饭。 对于后者——当你在物理世界移动时——智能眼镜显然是最佳形态。你需要解放双手。
谷歌有着悠久的做眼镜的历史(Google Glass),也许我们在过去做得太早了。那时的眼镜太笨重、电池不行、样子也奇怪。但现在,这些硬件问题基本解决了。
Alex Kantrowitz: 你的愿景是什么?这款眼镜什么时候能普及?
Demis Hassabis: 我们的愿景是让 AI 能够“看”你所看,“听”你所听。 想象一下,你在一个陌生的城市,你不需要掏出手机,只需要问一句:“前面那栋建筑是什么?”或者你在做饭,眼镜直接告诉你这一步该放多少盐。甚至对于视障人士,这简直是上帝的礼物,能帮他们理解周围的世界。
要实现这种无缝的体验,必须是眼镜。我们正在与 Warby Parker、Gentle Monster 以及三星等伙伴合作,打造下一代设备。我认为这会是一个全新的、定义品类的技术产品。至于时间点,既然我们已经在使用原型机了,我相信很快——也许就在今年——你就能看到成熟的产品。
Alex Kantrowitz: 接下来说个敏感话题:广告。 就在我们见面之前,有新闻报道说谷歌计划在 Gemini 聊天机器人中引入广告。而在最近的财报电话会上,Sundar Pichai 也暗示了这一点。 有人在社交媒体上嘲讽说:如果这真的是改变世界的技术,为什么还要靠广告赚钱?这就好比在发明电的时候,想着怎么在电灯泡上贴广告。你怎么看?
Demis Hassabis: 首先我要澄清:我们目前没有在 Gemini App 中加入广告的计划。
我们要非常小心。这里存在一个核心矛盾:如果你想要一个真正为你服务的、全能的私人助理,信任(Trust)是第一位的。 你需要确信这个 AI 助理是在为你工作,它是站在你的立场上,为你争取最大利益。
如果广告模式渗入其中,导致用户产生困惑——“这是 AI 觉得最好的建议,还是因为有人付了钱让它这么说的?”——那就会瞬间摧毁这种信任关系。一旦信任崩塌,你就不会愿意把你的生活、你的隐私交给这个助理。
当然,这并不是非黑即白的。在某些特定的场景下,比如我问 AI:“我要去圣地亚哥过周末,帮我推荐住处。”在这个语境下,Airbnb 或者酒店的广告其实是有用信息。用户甚至可能希望在对话中直接完成预订。
但这必须建立在用户完全知情、且完全可控的前提下。这种“原生”的商业模式创新是可能的,而不是简单地在对话框里贴横幅广告。
不过,作为 DeepMind 的负责人,我的首要任务是确保基础技术的强大和通用性。至于商业模式,谷歌内部有很多人在思考,但我个人的看法是:千万不要让商业化损害了用户对 AI 助理的核心信任。
![]()
反击 Anthropic 与“泡沫论”
Alex Kantrowitz: 既然提到了竞争,我们不得不提 Anthropic。他们的 Claude 在编程领域表现非常出色,甚至有前亚马逊高管说他用 Claude 在一个周末就写出了一个 CRM 系统。这种“一人抵十人”的生产力爆发正在发生。谷歌怎么应对?
Demis Hassabis: 首先,我要给 Anthropic 点赞,Claude 是一个非常优秀的模型。
但我们对 Gemini 3 的编程能力也非常有信心。事实上,我自己最近就在用 Gemini 来写代码原型,做一些小游戏。这让我也找回了当年做游戏开发者的乐趣。这种“Vibe Coding”(凭感觉编程)的趋势非常令人兴奋,它让没有深厚编程背景的人也能释放创造力。
我们最近发布了 AlphaCode 的相关技术,以及内部使用的开发工具。虽然 Anthropic 现在在这个垂直领域(Coding)备受关注,但这只是 AI 巨大版图中的一块。我们看到的是更广泛的战场:从多模态搜索、到 YouTube 的创作工具、再到安卓系统的底层整合。
而且,我们正在将 AI 深度整合进谷歌现有的庞大产品线中。比如 Gmail 的“帮我写”、Docs 的自动摘要。这些不仅是新功能,更是 AI 落地的最佳场景。
Alex Kantrowitz: 我有一个关于 AI 行业崩溃的理论,想听听你的看法。 第一步:大家发现大模型训练的回报率开始下降(边际效应递减)。 第二步:像 Gemini Flash 这样的“闪电模型”让 AI 推理变得极其便宜,甚至接近免费。 第三步:巨头们投入的数千亿基建(显卡、数据中心)因此变得过剩,导致巨大的资本浪费和行业崩盘。 你觉得这个剧本合理吗?
Demis Hassabis: 这是一个合理的推演,但我认为这不是最可能发生的情况。
关于“泡沫”,我的看法是:这不是非黑即白的问题。确实,当我们看到一些初创公司,手里没有核心技术,只有几张 PPT,却能拿到数十亿美元的种子轮融资,这看起来非常像泡沫,也是不可持续的。这种狂热最终会冷却。
但是,对于像 Alphabet(谷歌母公司)这样拥有深厚技术积累和庞大业务底座的公司来说,无论泡沫是否破裂,我们都能赢。 为什么?因为即使明天 AI 的进步突然停止(虽然我认为这不可能),仅仅是现有的技术,就已经足够让我们的搜索、YouTube、办公套件等业务产生巨大的效率提升和体验变革。
我们是在“实业”的基础上做 AI,而不是靠 AI 的概念去融资。那些没有护城河、仅靠 API 套壳的公司可能会在泡沫破裂中消失,但这只会让拥有底层模型和基础设施的巨头变得更强。
![]()
宇宙的本质是信息,人类的未来在何方?
Alex Kantrowitz: 我之前听你说过一个非常哲学的观点,我想请你详细解释一下。你说你有一个理论:信息(Information)才是宇宙最基本的单元,而不是能量或物质。 这是什么意思?
Demis Hassabis: 这确实是我世界观的核心。虽然只有两分钟可能讲不完,但我尽量简述。
如果你看物理学,能量和物质通常被认为是守恒的、基础的。但我认为,信息才是理解宇宙演化的钥匙。 看看生物学。生命系统是什么?生命本质上是一个信息处理系统。我们在做什么?我们在抵抗热力学第二定律(熵增)。我们在混乱的宇宙中,努力维持自身的结构,维持信息的有序性。
这就是进化的本质:通过选择压力,筛选出那些能够稳定保存和复制信息的结构。 再把视角放大到宇宙。行星、恒星、星系的形成,其实也是在引力等物理法则的作用下,从混沌中涌现出的“信息结构”。
为什么这很重要?因为如果我们把宇宙看作是一个信息处理过程,那么 AI 就是这一过程的加速器。AI 本质上是在帮助我们以更高效的方式,去解构、理解和重组宇宙中的信息。
以 AlphaFold 为例。蛋白质折叠问题困扰了人类 50 年。蛋白质的结构数量几乎是无限的,如同大海捞针。但 AlphaFold 通过学习已知数据的“信息拓扑结构”,找到了其中的规律,从而预测了所有已知蛋白质的结构。这不仅是生物学的胜利,更是“信息论”视角的胜利。
我们正在用 AI 这个工具,去破解物质、能量、生命背后的信息密码。这将帮助我们发现新材料(比如室温超导体)、设计新药、解决气候变化。
Alex Kantrowitz: 最后一个问题。你的 AlphaGo 曾击败了李世石,那是围棋界的“悲伤时刻”,李世石甚至因此退役。现在,AI 开始进入知识工作领域,甚至能写代码、画画。人类会面临同样的命运吗?我们会变得多余吗?
Demis Hassabis: 我不这么看。我们要换个角度。
虽然深蓝(Deep Blue)早在 90 年代就击败了卡斯帕罗夫,但今天国际象棋比以往任何时候都更受欢迎。甚至因为 AI 的辅助训练,人类棋手的水平也提高了。没人爱看两台电脑下棋,我们依然热衷于看人类大师的对决,看那其中的心理博弈、失误和天才灵感。
在科学领域,AI 是工具,就像望远镜。哈勃望远镜没有夺走天文学家的工作,它让他们看得更远了。AlphaFold 预测了蛋白质结构,并没有让生物学家失业,而是让他们跳过了枯燥、耗时数年的晶体衍射测定工作,直接去研究疾病机理和药物设计。
这就是我看到的未来:AI 负责那些繁重、枯燥的信息处理工作,让人类腾出手来。我们将有更多的时间去思考更高级的科学问题,去创造更有意义的艺术,去寻找真正的目的和意义。
如果 AI 能帮我们解决疾病、能源和气候问题,哪怕那是“它的功劳”,我想也是值得的。这可能是一次堪比工业革命的剧变,甚至影响力大 10 倍,但人类总是擅长适应。我们将重新定义什么是“有意义的工作”,就像我们在农业社会转向工业社会时所做的那样。
视频链接:https://www.youtube.com/watch?v=bgBfobN2A7A
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.