
整理|冬梅
编者按:
在人工智能迅猛发展的当下,六位对 AI 影响最深远的思想家——黄仁勋(Jensen Huang)、约书亚·本吉奥(Yoshua Bengio)、杰弗里·辛顿(Geoffrey Hinton)、李飞飞(Fei-Fei Li)、扬·勒昆(Yann LeCun)以及比尔·达利(Bill Dally),齐聚伦敦,参加《金融时报》(FT)主办的 “未来人工智能峰会”(FT Future of AI Summit),与 FT 人工智能编辑 Madhumita Murgia 进行了一场独家对话。
在这场深具历史意义的圆桌讨论中,他们共同回顾了数十年来从神经网络到生成式 AI 的发展历程,探讨了人工智能技术在伦理、社会与经济层面所带来的深远影响——这些正是他们亲手缔造的技术所引发的变革。
六位嘉宾连同约翰·霍普菲尔德(John Hopfield)教授,因在机器学习与人工智能领域的奠基性贡献,荣获 2025 年“伊丽莎白女王工程奖”(Queen Elizabeth Prize for Engineering)。
![]()
以下为访谈实录,经由 InfoQ 翻译和整理:
主持人:大家好,无论您身处午后还是清晨,很高兴由我来为各位介绍在座这些卓越的杰出人士。今天我们齐聚一堂的六位嘉宾,堪称当今世界最具智慧、最具影响力的顶尖人物——我认为这样的赞誉毫不夸张。
他们正是 2025 年伊丽莎白女王工程奖的获奖者,此奖项旨在表彰在座各位杰出人士对当代人工智能技术产生的非凡影响。鉴于诸位在先进机器学习与人工智能领域取得的开创性成就,以及你们助力打造的创新科技如何重塑着我们今日的生活,相信所有人都明白,能邀请到大家共聚一堂是何等难得与令人振奋。
就我个人而言,非常期待聆听各位对当下这个人人争相探索、试图理解的时代进行反思,也渴望了解引领你们走到今天的奋斗历程。同时,我也希望能深入理解你们的研究成果与个人智慧如何相互启迪,又如何影响了彼此创建的企业与研发的技术。最后,更期待各位展望未来,帮助我们更清晰地洞察即将到来的科技图景——而你们正是最适合描绘这幅蓝图的人。
衷心感谢各位今日的莅临,我已迫不及待想要开启这场对话。现在让我们从宏观视角转向个人经历——我想邀请在座每一位分享职业生涯中的“顿悟时刻”:那个影响了你研究方向、成为事业转折点,最终引领你坐在此处的关键瞬间。不论它是早年科研生涯的灵光一现,还是近期工作中的豁然开朗,请告诉我们那个唤醒你潜能的时刻。
Yoshua,不如就从您开始好吗?
1 回顾职业生涯的关键时刻
Yoshua Bengio:我想分享两个关键时刻。第一个是在我研究生时期,当时正在寻找有意义的研究方向。读到杰夫·辛顿的早期论文时,我深受震撼——这领域太令人振奋了!或许就像物理定律那样,存在着某些简明法则,能帮助我们理解人类智能并构建智能机器。
第二个转折点发生在两年半前。当 ChatGPT 问世后,我突然意识到:我们究竟在创造什么?如果制造出能理解语言、拥有自主目标的机器,而人类却无法掌控这些目标,将会发生什么?当机器比我们更聪明时,当人们滥用这种力量时,世界会变成怎样?正是这种担忧让我彻底转变了研究方向与职业生涯,决心为此尽己所能。
Bill Dally:我也来分享两个重要时刻。第一个是 90 年代末在斯坦福期间,当时我致力于突破所谓的"内存墙"难题——即从内存读取数据所需的能耗和时间远高于数据运算本身。这让我萌生了将计算重构为流式连接内核的想法,从而实现在少量内存访问下完成大规模算术运算。这个构想最终催生了流处理器架构,并奠定了 GPU 计算的基础。我们最初就设想将 GPU 应用于通用科学计算,而不仅限于图形处理。
第二个转折发生在与斯坦福同事安德鲁·英共进早餐时。当时他在谷歌运用名为"神经网络"的技术,动用 16000 个 CPU 进行互联网图像识别——费院士对此也有贡献。安德鲁成功说服我相信这项技术的巨大潜力,于是我们与布莱恩·肯佐在英伟达用 48 块 GPU 复现了实验。当看到实验结果时,我坚信这正是英伟达应该专注的方向:我们必须为深度学习优化 GPU 架构,因为这项技术远不止于图像识别,将在各个领域产生深远影响。这正是我们全力投身 GPU 专业化研发的顿悟时刻。我记得早餐会谈在 2010 年,复现实验是在 2011 年。
Geoffrey Hinton:我职业生涯中一个至关重要的时刻发生在 1984 年。当时我尝试运用反向传播算法,让模型学习预测文本序列中的下一个词语——这可以说是一个微型语言模型的雏形。令人惊奇的是,仅仅通过预测符号序列中的下一个词,这个模型就自发学会了提取词语语义的特征表示。它能够将单词转化为蕴含语义的特征集合,并通过这些特征之间的交互来预测后续词语的特征表征。
这个 1984 年末诞生的微型语言模型,在我看来正是当今大语言模型的前身。基本原理完全一致,只是规模极小——我们当时仅用了 100 个训练样本。然而为实现今日的成就,我们整整走了四十年。这四十年间,我们既缺乏足够的算力支撑,也没有海量数据资源,当时甚至未能意识到这些局限。那时我们始终困惑:为何反向传播算法不能解决所有问题?
主持人:这个话题想请黄仁勋先生接着谈一谈,过去四十年我们缺乏算力,而您现在正致力于解决这个问题。请谈谈您领悟到关键契机的时刻吧。
黄仁勋:就我的职业生涯而言,作为第一代能够运用高层级表征和设计工具来开发芯片的工程师,这个身份对我产生了深远影响。当 2010 年前后,我几乎同时收到来自多伦多大学、纽约大学和斯坦福大学三个实验室的合作请求时,那段经历让我对软件开发产生了全新认知。我观察到他们正在使用某种框架化、结构化的设计方法开创新软件模式——后来这被证实正是深度学习的早期形态。
我敏锐地意识到,这种基于高层级表征构建深度学习网络的软件开发模式,与芯片设计领域的方法论存在惊人的相似性。当时我就预见,我们可以借鉴数十年积累的芯片设计规模化经验,来构建具有强大扩展性的软件体系——这对我而言是个决定性的转折点。
主持人:您认为芯片技术从何时开始真正推动当今大语言模型的发展?您刚提到 2010 年,而这距离现在已有十五年历程。
黄仁勋:英伟达架构的精妙之处在于:一旦某个算法能在单 GPU 上高效并行运行,就能自然扩展到多 GPU 协同工作。这种在单 GPU 内多处理器间扩展算法的设计哲学,可以无缝复用到多 GPU 系统,进而延伸到多数据中心集群。当我们确认这种扩展机制确实有效后,接下来的发展就变成了充满想象力的工程推演:我们拥有多少数据?网络规模能扩展到多大?能捕捉多少维度特征?能解决哪些类型的问题?所有这些本质上都是工程化实现。
深度学习的惊人效能犹如火花,而后续发展归根结底是工程化的外延拓展。
李飞飞:我同样想分享两个关键时刻。第一个转折点发生在 2006 至 2007 年,当时我刚从研究生转型为助理教授。作为第一批机器学习专业的研究生,我潜心研读约书亚、杰夫等先驱的论文,完全沉醉于攻克机器视觉识别这一难题——即让机器能够理解日常图像中的物体含义。我们在机器学习泛化能力方面遭遇了巨大挑战:模型在有限样本上训练后,能否准确识别全新样本?
我们尝试了当时所有主流算法,从贝叶斯到支持向量机再到神经网络。最终我与学生发现核心症结在于数据匮乏。回想生物智能的演进,人类在发育早期就接收海量数据刺激,而当时的机器却处于"数据饥荒"状态。于是我们做出了当时看来疯狂的决定:耗时三年构建互联网级规模数据集 ImageNet,汇集全球志愿者手工标注的 1500 万张图像,涵盖 2.2 万个类别。这个顿悟让我坚信:大数据是驱动机器学习的关键,如今它已成为所有算法的基础构建模块,也是当代 AI 扩展定律的核心要素。
第二个觉醒时刻在 2018 年。作为谷歌云首任 AI 首席科学家,我负责的业务覆盖医疗、金融、娱乐、制造、农业、能源等所有垂直领域。那时正值 ImageNet 引发突破的数年后,AlphaGo 战胜人类棋手的余波未平。我深刻意识到:这已不仅是技术革新,更是将重塑每个个体与所有行业的文明级技术。当人类即将迈入 AI 时代时,我们需要怎样的指导框架,才能确保在创新同时,让这项强大技术普惠众生?
正是这个思考促使我重返斯坦福,联合创立“以人为本人工智能研究院”,提出“以人为本”的 AI 发展框架——旨在将人性与人类价值置于技术发展的核心位置。这不仅关乎技术研发,更关乎影响评估与未来规划,这也正是我们所有人正在共同努力的方向。
Yann LeCun:我的故事可能要追溯到更早的时期。本科阶段我就对人工智能乃至智能本质这些问题深深着迷,并发现早在五六十年代就有学者尝试用训练而非编程的方式构建机器智能。这个理念让我无比着迷——或许是因为我自知不够聪明或不够勤勉,无法从零构建智能机器吧。让机器通过自我训练或自组织来发展智能,这本就是生命智能形成的自然方式。
但当我从工程学院毕业时(当时我主攻芯片设计),却找不到从事相关研究的研究生导师。直到后来结识了一些志同道合的研究者,才接触到 Jeff 的论文——1983 年我开始读研时,他是我最想见的人。两年后我们终于相遇……
主持人:现在你们算是朋友了吧?
Yann LeCun:何止是朋友!1985 年共进午餐时,我们就已经能接上对方的半句话了。当时我在一场国际会议上发表了法语论文,而作为主旨演讲人的他竟能读懂其中的数学推导——那是一种类似反向传播的多层网络训练方法。自 60 年代以来,机器学习的主要局限就在于无法有效训练多层网络,这成了我们共同痴迷的课题。正是通过那篇论文的数学表达,我们建立了学术联系。
主持人:这便奠定了您的研究路径吗?
Yann LeCun:确实如此。当掌握复杂系统训练方法后,我们开始思考如何让其实现实用价值,比如图像识别。80 年代末我作为博士后与杰夫共事时,我们曾有过一场著名辩论:我认为监督学习才是唯一严谨的机器学习范式(即给机器输入图像并告知正确答案);而他坚持无监督学习才是突破关键。当时我对此不以为然。
直到 2000 年代中期,我与 Yoshua 、Jeff 重新凝聚深度学习社群时,我们实际上将赌注压在了无监督学习或自监督范式上——这正是当前大语言模型的训练本质:通过预测下一个词让系统自主发现数据结构,而非针对特定任务进行训练。
主持人:但这里没有奖励机制吗?从强化学习角度来讲?
Yann LeCun:预测正确本身即是奖励。不过后来李飞飞院士创建的 ImageNet 标注数据集,意外使得监督学习展现出超预期的效果,导致我们暂时搁置了无监督学习路线——整个产业界和学术界都转向了监督式深度学习。直到 2016-2017 年左右,我们才重新觉醒:监督学习无法带我们抵达终点,必须回归自监督学习。大语言模型就是最佳例证。
现在我们正将这种范式拓展到视频、传感器等新型数据——这恰是大语言模型尚未突破的领域,也是未来几年的新挑战。
2 AI 领域会出现泡沫破裂吗?
主持人:这正好引向当下——AI 已从技术革新演变为全球热潮、商业风暴乃至地缘战略。黄先生,首先您能分享下:英伟达如今日更频现,成为全球市值第一的企业,您是否担忧人们盲目跟风导致泡沫破裂?当前 AI 需求与互联网泡沫有何本质区别?
黄仁勋:我认为需要从根本上区分当前 AI 热潮与互联网泡沫时期的关键差异。回顾互联网泡沫时代,当时部署的光纤中绝大多数处于闲置状态——行业建设量远超实际需求。而如今,几乎每一块 GPU 都在全速运转并创造价值。
要理解这一现象,我们需要回归 AI 的本质。对大多数人而言,AI 可能仅意味着 ChatGPT 或图像生成工具,这些固然是 AI 的应用场景,但更深层次的意义在于:近年来 AI 不仅实现了记忆与泛化能力飞跃,更发展出推理思维与科研落地的能力。它现在能产出更具价值的解决方案,而像 Cursor 这样的 AI 编程工具已实现可观的盈利,Bridge、Open Evidence 等企业在医疗健康领域也取得显著成果——这些都印证了 AI 能力的实质性突破。
我们正见证两个指数级增长曲线的交汇:一方面,生成 AI 答案所需的算力正在激增;另一方面,AI 模型的实际使用量也呈指数上升。这两股力量共同催生了对算力的海量需求。
若将当前 AI 产业与传统软件行业对比,其根本差异在于:传统软件是预先编译的静态产品,所需算力有限;而 AI 要发挥效能必须具备情境感知能力——智能必须实时生成,无法预先制作存储(那只能称为内容)。正因如此,我们这个行业需要构建真正的“智能工厂”来生产这些实时智能。这是史无前例的变革:计算机首次成为工厂的核心设备。我们需要投入数千亿美元建设这类基础设施,才能支撑未来数万亿美元规模的智能产业。
传统软件本质是被人使用的工具,而 AI 则是增强人类能力的智能体——它直接参与劳动,改变工作本质。这种根本性的范式转移,正是当前 AI 需求与互联网泡沫最本质的区别。
主持人:所以您不认为这是泡沫,对吧?
黄仁勋:我认为我们正处于智能基建的起步阶段。现实情况是,目前绝大多数人尚未真正使用 AI。而在不远的将来,我们日常生活的每个瞬间都将与 AI 产生交互——从当前较低的使用渗透率,发展到未来无时无刻的智能伴随,这中间蕴藏着巨大的建设空间。
主持人:即便大语言模型的发展路径走到尽头,您是否认为现有的 GPU 和您正在构建的基础设施,依然能适用于全新的技术范式?接下来我想邀请其他嘉宾共同探讨。
黄仁勋:大语言模型只是人工智能技术的一个组成部分。完整的人工智能系统是由多种模型构成的协同体系,大语言模型虽然占据重要位置,但最终需要各类模型共同发挥作用。
要让人工智能在现有基础上实现更大突破——不论我们如何命名这种技术——仍需要开发大量尚未攻克的技术模块。
主持人:哪位嘉宾想就这个话题接着分享?
Yoshua Bengio:我认为我们不应再将其简单称为“大语言模型”。它们早已超越单纯的语言模型范畴——尽管预训练阶段确实以语言为基础,但近期的重要突破在于使其具备了智能体特性。
这意味着它们能够通过一系列交互步骤,在环境中主动达成目标:当前主要通过对话与人交互,但正日益深入地与计算基础设施进行协同。技术形态已发生根本性演变,与三年前相比已是天壤之别。
我们确实难以精准预测未来 2 年、5 年或 10 年的技术发展轨迹,但演进趋势清晰可见。为此我正联合国际专家团队,共同追踪 AI 技术演进路径、潜在风险及应对方案。从当前各项基准测试来看,技术迭代趋势明确——尽管过去我们取得了显著突破,但这不意味着未来会延续相同的发展曲线。
若现实进展未达预期,短期内或许会引发市场调整。但就长期发展而言,我完全认同(基础设施建设的核心价值)。
主持人:那么请问在座各位,基于你们对技术及应用层面的理解,认为当前的市场估值是否合理?
Bill Dally:我认为有三重趋势可以解释当前的发展态势。首先,模型正变得越来越高效。以注意力机制为例,从原始注意力机制发展到分组查询注意力(GQA)再到多维注意力机制(MLA),用更少的计算量就能获得相同甚至更好的效果。这使得许多原本因成本过高而难以落地的应用,现在都具备了商业化可行性,AI 的应用边界正在持续拓展。
其次,模型能力本身也在持续进化。无论未来是继续优化 Transformer 架构还是出现全新架构,技术演进都不会倒退。即使完全基于 Transformer 的模型依然需要 GPU 支撑——事实上,相比专用芯片,GPU 因其卓越的灵活性与模型协同进化的能力,反而能创造更大价值。
最关键的是,我们在应用探索方面才刚触及表面。几乎人类生活的每个维度都能通过 AI 赋能得到提升,无论是专业领域还是日常生活。目前我们可能只开发了最终需求的 1%,随着应用场景的持续扩张,市场需求将呈现爆发式增长。
因此我并不认为存在泡沫。正如 Jenson 所言,我们正处在多重指数增长曲线的起点,这个趋势将会持续向前推进。
主持人:从某些方面来看,英伟达正是抓住了这个核心优势——即使技术范式发生变革,出现全新的人工智能形态和架构,底层硬件始终是不可或缺的基石。这个逻辑确实成立。李飞飞院士,您想接着谈谈吗?
李飞飞:确实,从市场角度来看,任何领域都会有其自身的发展规律和阶段性调整。但若我们着眼于长期趋势,必须认识到人工智能整体上仍是一个非常年轻的学科。走进这个房间时,我们看到墙上挂着物理学公式——物理学是历经四百多年积淀的古老学科,即便是现代物理学也已有百余年历史。而人工智能若从艾伦·图灵算起,不过约 75 年光景。
这意味着前方还有无数新边疆等待开拓。正如 Jenson 和 Yoshua 谈到大语言模型与智能体,这些仍主要基于语言维度。但若深入反思人类智能的本质,就会发现智能的范畴远超越语言层面。我长期研究的空间智能,正是感知与行动之间的关键纽带——人类与动物拥有远超语言范畴的非凡能力,能够感知、推理、交互并创造立体世界。
即便当今最强大的语言模型或大语言模型,在基础空间智能测试中仍然表现不佳。从这个维度来看,作为一门科学与学科,人工智能仍有太多有待攻克和开拓的疆域,而这必将催生更广阔的应用场景。
主持人:Yann LeCun,您身兼研究者与企业家的双重身份。是否认同当前发展趋势的合理性?您认为这是技术发展的必然结果,还是觉得现有路径已接近尽头需要寻找新方向?
Yann LeCun:我认为可以从多个维度来审视这个问题。从某些方面来看,当前确实不存在泡沫——基于大语言模型的应用开发仍处于爆发期,这正是当下主导的技术范式,其中蕴藏着巨大潜力。正如比尔所言,用现有技术改善人类日常生活仍需持续突破,这为软件和基础设施领域的投资提供了充分依据。
试想当每个人都配备智能穿戴设备,根据 Jenson 描述的图景,支撑这些设备所需的计算量将呈指数级增长。从这个角度看,当前的基础设施投资具有长期价值。
但另一方面,某种程度的泡沫确实存在——主要体现在人们认为仅靠现有 LLM 范式就能实现人类级别智能的预期。我个人对此持怀疑态度。要真正实现人类乃至动物所展现的智能水平,我们仍需多项根本性突破。目前甚至没有机器人能达到猫的智能水平,这说明我们仍然缺失某些关键认知模块。
因此人工智能的进步不仅是增加算力、数据投入或延续现有范式的问题,更是一个关乎科学本质的命题:我们该如何推动下一代人工智能的真正突破?这需要基础理论的革命性进展。
3 多少年后,AI 智能水平能与人或动物匹敌?
主持人:这也正是诸位齐聚于此的意义——你们正是这场技术革命的奠基者。虽然当前产业重点偏向工程应用,但您刚才指出我们需要回归技术本源。关于人类级智能的问题,由于时间有限,我想做个快速问答:请各位预估实现人类对等智能或达到章鱼等高等动物智能水平还需要多少年?请直接给出时间预期。
Yann LeCun:或许未来五到十年内,我们能在新范式探索上取得重大进展。但若要实现根本性突破,很可能需要比预期更长的时间。
李飞飞:机器智能在某些方面会超越人类,但在另一些方面永远无法与人类智能等同——因为它们的设计目标本就不同。关于何时实现超越?其实部分能力现在已经实现。在座有几人能识别 22000 种不同物体?
主持人:您认为成年人无法识别 22000 种物体吗?考虑到识别的精细度和准确度的话。
李飞飞:确实不能。又有多少成年人能翻译上百种语言?这个要求更高。因此我们需要更辩证地看待这个问题,就像飞机能飞行却不像鸟儿般振翅,基于机器的智能将展现强大能力,但人类智能在文明社会中永远具有不可替代的核心价值。
黄仁勋:我们现有的通用智能水平,已足以在未来数年将这项技术转化为海量社会应用。事实上,这个过程今天已经在发生。我认为答案包含两个层面:其一,某些领域我们已经实现突破;其二,这个问题本身已不再重要——此刻这更像学术探讨。关键在于我们将持续应用并优化技术,从此刻起解决众多重大课题。
所以我的答案是“无需纠结”,也“正在发生”——如何理解,取决于每个人不同的判断。
Geoffrey Hinton:若将问题具体化为“何时能与机器辩论却始终落败”,我认为 20 年内必然实现。虽然现在尚未达到,但我确信二十年内就会出现这样的机器。倘若将此作为通用人工智能的标准——即机器能在任何辩论中胜过人类——我们很可能用不了二十年就能达成这个目标。
Bill Dally:我基本赞同 Jenson 的观点——这本身可能就是个错误命题。我们的目标从来不是创造替代人类或超越人类的 AI,这本质上是个科学探索课题。关键不在“是否会取代”,而在于"作为文明社会能否构建这样的智能"。但核心宗旨始终是:打造增强人类能力的 AI。
我们需要的是与人类能力形成互补的智能系统。人类无法识别 2.2 万种分类,大多数人也解不开奥数难题——这些正是 AI 的用武之地。而人类则可以专注于唯有人类擅长的领域:发挥创造力、共情力,理解并维系现实世界中的人际互动。
在我看来,AI 或许永远无法真正掌握这些特质,但它能成为人类最得力的助手。
Yoshua Bengio:关于这一点请允许我提出不同见解。我认为没有任何理论能证明我们永远无法造出具备人类全部能力的机器。虽然在空间认知和机器人领域目前确实存在差距,但这并非根本性的理论限制。
关于时间线确实存在诸多不确定性,我们需要做好相应规划。但有一组数据值得关注:过去六年来,AI 在不同时间维度上的规划能力正呈指数级增长。若保持这个趋势,预计五年内 AI 就能达到普通雇员的工作水平——当然这仅指工程类任务,其他关键能力仍需突破。
有个可能改变游戏规则的因素是:许多公司正致力于让 AI 具备从事 AI 研究的能力,包括工程开发、计算机科学乃至设计下一代 AI 系统。我并非断言这一定会实现,但 AI 在编程和算法理解领域的进步速度确实惊人,这可能为其他领域的突破打开通道。
我们应当保持开放态度,避免武断结论——未来存在太多可能性。
https://www.youtube.com/watch?v=0zXSrsKlm5A
声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。
会议预告
12 月 19~20 日,AICon 2025 年度收官站 · 北京见。两天时间,聊最热的 Agent、上下文工程、AI 产品创新等等话题,与头部企业与创新团队的专家深度交流落地经验与思考。2025 年最后一场,不容错过。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.