AI教父Hinton最新万字精彩访谈：直觉，AI创新的洞见和思考，未来（附全文+视频）

分享至

‍p ‍未经授权请勿转载，务必保留原文出处和公众号按钮

文：天空之城·城主

在最近几天的最新访谈里， AI教父Geoffrey Hinton分享了他在人工智能研究、人才选拔以及与合作伙伴共事方面的独到见解。这个采访很有点形而上的意味，并不仅仅其他AI界访谈一样停留在大模型的缩放定律或某些应用前景的话题上，而是在一个更高的角度谈论大脑以及人工智能的本质，非常精彩，推荐给大家。

B站传送门：【精校】AI教父Hinton 5月最新访谈 | @SANA【中英】-哔哩哔哩】

https://b23.tv/0Tlu5W8

Hinton强调，在选拔人才时，直觉扮演着至关重要的角色。他以他的学生Ilya为例，表示Ilya的直觉和对事物的理解给他留下了深刻的印象。Hinton还回忆起他在卡内基梅隆大学的经历，那里的学生对未来充满信心，这让他感到十分新奇。

谈到他对大脑工作方式的探索时，Hinton表示他从生理学到哲学，再到人工智能，一直在寻找答案。他提到了自己的几位重要合作伙伴。通过与他们的合作，Hinton在研究玻尔兹曼机、探讨大脑工作原理以及改变神经网络中的连接权重等方面取得了重要进展，也对人工智能有了更深入的理解。

Hinton特别提到了他与Ilya在研究反向传播算法时的合作。Ilya的直觉和解决问题的能力给他留下了深刻印象，他们的合作也为人工智能和神经科学研究带来了新的突破。

规模和算法是科技进步的关键因素。他认为Ilya Sutskever关于系统规模足够大就能更好运作的观点已被证实。尽管Transformer等新想法很重要，但数据和计算规模才是决定性因素。

Hinton回顾了他与Ilya和James Martins在2011年发表的一篇论文，该论文使用字符级预测和维基百科数据进行实验，结果令人惊讶。他解释说，这种方法并非错误，而是一种有效的学习方式。事实上，Hinton是第一个使用嵌入和反向传播的神经网络语言模型的创造者。

他进一步阐述了这种模型的工作原理，即通过预测下一个符号来理解问题，这与传统的自动完成功能有很大不同。Hinton认为，这种模型的理解方式与人类非常相似，尽管许多人认为这些模型只是在预测下一个符号，而没有进行推理。

谈到大型语言模型的工作原理时，Hinton解释说它们通过寻找共同的结构来提高编码效率。他以GPT-4回答问题为例，说明这种模型如何通过理解看似不同事物之间的类比来进行创新。

Hinton还提到了AlphaGo的例子，解释了强化学习如何使其超越当前状态。他认为，这可能是当前数据实验室所缺少的组件，但并非完全必要。他还提到了一个实验，即使训练数据中有一半的答案是错误的，反向传播也能将误差降低到5%或更低，这表明大型神经网络实际上具有超越训练数据的能力。

为了提高这些模型的推理能力，Hinton提出了两种可能的方法:一种是在模型之上添加启发式方法，另一种是增加模型本身的规模。本文主要讨论了大型语言模型的推理能力、多模态学习、语言与认知的关系以及早期使用GPU进行神经网络训练的直觉。

Hinton认为，随着模型规模的扩大，其推理能力会得到提升。这种推理能力的提升类似于 AlphaGo 或 AlphaZero 的工作方式，它们通过蒙特卡罗推演来修改评估函数，从而提高推理精度。大型语言模型也应该开始通过推理来训练，而不仅仅是模仿人类的行为。

在多模态学习方面，Hinton 认为引入图像、视频和声音等多种模式将极大地改变模型的理解和推理能力，特别是在空间理解方面。多模态模型可以通过更多的数据和更少的语言来进行学习，这将使其在未来占据主导地位。

在语言与认知的关系上，Hinton 提出了三种观点:符号观点、向量观点和嵌入观点。他认为，最合理的模型是将符号转换成大向量，但保留符号的表面结构，这样可以更好地理解和预测下一个符号。

Hinton 回顾了他在 2009 年提出使用 GPU 进行神经网络训练的早期直觉。他发现，使用 GPU 可以将运算速度提高 30 倍，这对于机器学习研究人员来说至关重要。他在 NIPS 会议上公开推荐了 NVIDIA 的 GPU，并向 NVIDIA 请求赞助，最终得到黄仁勋的支持。

Hinton 提出，模拟计算可以在较低的功率下运行大型语言模型，但每个硬件的特性都会有所不同，因此学习过程需要利用硬件的特定属性。然而，这种方法的局限性在于，当一个人去世后，他的大脑中的权重对其他人没有用处。

相比之下，数字系统可以通过共享权重来提高效率，因为一旦有了权重，就可以在不同的计算机上复制相同的计算过程。这种方式使得数字系统在知识共享方面远胜于人类。

Hinton 还讨论了神经科学的时间尺度问题，指出在大脑中，权重改变的时间尺度很多，这是我们的神经模型尚未实现的。大脑使用快速权重进行临时记忆，而我们的模型由于需要处理大量不同的情况，所以无法实现这一点。

此外，Hinton 反驳了乔姆斯基的观点，认为大脑并不需要所有的先天结构，而是可以通过学习从数据中获取大量信息。这种观点对于理解大脑的工作方式具有重要意义。

Hinton 探讨了人工智能助手的可能性，认为如果助手具有自我反省的能力，那么它们也可能有感觉。他还提出了一个新的感觉模型，即如果没有限制我们会采取的行动，这就是感觉的真正含义。在 1973 年，Hinton 在爱丁堡见证了一个机器人的 "情感" 表现。这个机器人能够组装玩具车，但如果零件堆砌在一起，它会先将它们散落一地，然后再重新组装。这种行为让 Hinton 联想到人类在面对不理解的情况时的反应。

Hinton 曾将人类和大规模语言模型 (LLM) 比作类比机器。他认为，他一生中最有影响力的类比是宗教信仰和符号处理信仰之间的类比。他认为，我们正在进行符号处理，但并非通过匹配符号，而是通过为符号提供嵌入向量，并使用这些嵌入向量组件之间的交互进行思考。

Hinton 和他的学生一起完成了一些最有意义的研究，这主要得益于他与学生的良好合作，以及他选择优秀学生的能力。他选择问题的方式是寻找每个人都同意但感觉不对的东西，然后研究它，看看他是否能详细说明为什么他认为它是错的。

Hinton 认为，我们不使用快速权重的做法听起来很可疑，我们只有两个时间尺度。这完全是错误的，这根本不像大脑的工作方式。他认为我们将不得不拥有更多的时间尺度。他相信大脑会获得梯度。但是大脑是如何获得梯度的?这是一个悬而未决的大问题。

Hinton 认为他对玻尔兹曼机的看法是错误的，但他很高兴自己花了很长时间研究它。关于如何获得梯度，有比反向传播更漂亮的理论。但他认为事实并非如此。

Hinton 觉得科学家应该做一些对社会有益的事情，但实际上这并不是进行最佳研究的方式。当好奇心驱使时，人们会进行最好的研究。最近，他意识到这些东西既能带来很多好处，也能带来很多坏处，他更加担心它们对社会的影响。但这不是他的动机。他只是想了解，大脑究竟是如何学习做事的?这正是他想要知道的。

Hinton 认为医疗保健是最有前途的应用领域，因为社会对医疗保健的需求几乎无穷无尽。人工智能的发展可能会带来更多的医疗保健需求。新的工程项目和新材料的开发，如改进太阳能电池板或超导性能的材料，也将产生巨大影响。然而，他担忧有人可能会利用这些技术进行恶意行为，如制造杀人机器人、操纵舆论或进行大规模监控。

Hinton 认为人工智能助手会大大提高研究效率。在人才选拔方面，他依赖直觉，他认为优秀的学生并不只有一种类型，我们需要的是各种不同类型的研究生。

-以下是全部访谈的 Web3天空之城书面整理版-

主持人

您是否曾经思考过如何选拔人才？或者，这对您来说主要是依赖直觉？比如，当Ilya出现后，您就会立即想到，他是个聪明人，我们应该一起合作。或者，您对此进行了深思熟虑？

Hinton：

我记得我第一次从英国来到卡内基梅隆大学的情景。在英国的一个研究单位，到了六点钟，大家都会去酒吧喝酒。然而，在卡内基梅隆大学，我记得我刚到那里几个星期后的一个星期六晚上，我还没有朋友，也不知道该做什么。于是，我决定去实验室做一些编程，因为我有一台Lisp机器，你不能在家里编程。所以我在星期六晚上九点左右去了实验室，那里人山人海，所有的学生都在那里。他们之所以在那里，是因为他们所研究的是未来，他们都相信，他们接下来所做的事情将改变计算机科学的进程。这与英格兰的情况完全不同，所以这对我来说非常新鲜。

让我回到最初的问题，当Geoff在剑桥试图了解大脑的时候，那是什么样的感觉？

那是非常令人失望的。所以我学了生理学。在夏季学期，他们要教我们大脑是如何工作的，他们教我们的只是神经元如何传导动作电位。这很有趣，但它并没有告诉你大脑是如何工作的，所以这非常令人失望。然后我转到哲学，我想也许他们会告诉我们思维是如何运作的，这同样令人失望。我最终去了爱丁堡做人工智能，那更有趣，至少你可以模拟事物，所以你可以测试理论。

你还记得是什么让你对人工智能感兴趣吗？是一篇论文吗？还是某个特定的人向你介绍了这些想法？

我想那是我读过的唐纳德·赫布写的一本书，这本书对我影响很大。他对如何学习神经网络中的连接强度非常感兴趣。我早期也读过约翰·冯·诺依曼的一本书，他对大脑如何计算非常感兴趣，以及它与普通计算机有何不同。

您是否确信这些想法会在那时实现？或者，您在爱丁堡时的直觉是什么？

在我看来，大脑必须有一种学习方式，显然，这不是通过将各种东西编入其中，然后使用逻辑推理规则。在我看来，这从一开始就很疯狂。所以我们必须弄清楚大脑如何学会修改神经网络中的连接，这样它就可以做复杂的事情。冯·诺依曼相信这一点，图灵也相信这一点。因此，尽管冯·诺依曼和图灵都非常擅长逻辑，但他们并不相信这种合乎逻辑的方法。

您在研究神经科学思想方面是如何分工的？并且只做看起来对AI来说很好的算法。你早期获得了多少灵感？

因此，我从未深入研究过神经科学。我总是受到我所学习的关于大脑工作方式的启示。大脑中有许多神经元，它们执行相对简单的操作。这些神经元是非线性的，但它们会收集输入，对输入进行加权，然后输出取决于加权输入的结果。问题在于，你如何改变这些权重以使整个系统正常运作？这似乎是一个相当简单的问题。

你还记得当时的合作伙伴吗？

我在卡内基梅隆大学的主要合作伙伴实际上是来自卡内基梅隆大学以外的人。我与约翰霍普金斯大学巴尔的摩分校的Terry Sinofsky有很多交流。大约每月一次，他或我都会开车去匹兹堡，那里距离约250英里。我们会一起度过一个周末，研究玻尔兹曼机。这是一次美妙的合作，我们都相信这就是大脑的工作方式。这是我做过的最令人兴奋的研究。虽然有很多技术成果都非常有趣，但我认为这并不是大脑的工作方式。

我还与非常优秀的统计学家Peter Brown进行了非常好的合作。他在IBM从事语音识别工作，然后作为一名更成熟的学生来到卡内基梅隆大学攻读博士学位。但他已经知道很多了。他教了我很多关于演讲的知识，事实上，他还教了我隐马尔可夫模型。我认为我从他身上学到的东西比他从我身上学到的东西多。这就是你想要的那种学生。当他教我隐马尔可夫模型时，我正在用隐藏层做反向传播。只是那时它们不叫隐藏层。我认为他们在隐马尔可夫模型中使用的名称对于你不知道它们在做什么的变量来说是一个很好的名字。这就是神经网络中隐藏层名称的由来。我和彼得认为这是神经网络中隐藏层的一个好名字。但我从彼得那里学到了很多关于语言的知识。

让我们回到伊利亚出现在你办公室的那一天。

我当时在办公室，可能是星期天，我想我正在编程。然后有人敲门，不是普通的敲门声，而是有点紧急的敲门声。所以我去开门，这就是那个年轻学生。他说他夏天会做炸薯条，但他更愿意在我的实验室工作。所以我说，好吧，你为什么不约个时间，然后我们再聊聊呢？于是Ilya说，现在怎么样？这就是Ilya的性格。

于是我们聊了一会儿。我给了他一篇关于反向传播的《自然》论文。我们一周后又开了一次会。他回来后说，我不明白。我非常失望。我想，他看起来像个聪明人，但这只是链式法则，这并不难理解。他表示：“不，不，我明白你的意思。我只是不明白为什么我们不将梯度交给一个合理的函数优化器。” 这是我们花了好几年时间去思考的问题。Ilya一直都是这样，他对事物的直觉总是很好。

你认为是什么让Ilya有了这些直觉？

我也不知道。我认为他总是为自己着想。他从小就对人工智能感兴趣，显然他擅长数学，但具体原因很难知道。

你们两人的合作情况，以及各自扮演的角色是怎么样的？

这是一个很有趣的问题。我记得有一次我们试图做一件复杂的事情，制作数据地图。我有一种混合模型，所以你可以把同样的相似之处做成两张地图。在一张地图上，银行可能接近贪婪，而在另一张地图上，银行可能接近河流。因为在一张地图上，你不可能让它接近两者，因为河流和贪婪相距甚远。所以我们会有混合地图。我们在 MATLAB 中做这件事，这需要对代码进行大量重组才能正确执行矩阵乘法。Ilya 对此感到厌烦，于是有一天他来找我说，他要为 MATLAB 编写一个界面。所以我用这种不同的语言编程，然后我有一个可以将其转换为 MATLAB 的东西。我告诉他，这需要你一个月的时间才能完成，我们必须继续这个项目，不要被这个分散注意力。但Ilya说，没关系，他今天早上就做到了。

这真是太不可思议了。这些年来，最大的转变不一定只是算法，还有规模。这些年来你是如何看待这种规模的？

Ilya很早就有了这种直觉。所以Ilya总是说，只要把它做大一点，它就会工作得更好。我一直认为这是一种逃避，你也必须有新的想法。但事实证明，Ilya基本上是对的。新的想法很有帮助，像Transformer这样的东西帮了大忙。但实际上，问题在于数据的规模和计算的规模。当时，我们不知道计算机的速度会提高十亿倍，我们认为它们的速度可能会提高一百倍。我们试图通过提出巧妙的想法来解决问题，如果我们拥有更大规模的数据和计算，这些想法就会自行解决。

大约在 2011 年，Ilya 和另一名研究生 James Martins 和我发表了一篇使用字符级预测的论文。因此，我们采用了维基百科，并尝试预测下一个 HTML 字符。结果非常好，我们总是对它的效果感到惊讶。那是在 GPU 上使用一个花哨的优化器。我们从来不相信它理解了任何东西，但它看起来好像理解了。这可能让人难以置信。

你能否告诉我们，这些模型是如何被训练以预测下一个单词的？为什么这被视为错误的思考方式？

实际上，我并不认为这是错误的方式。事实上，我认为我是第一个使用嵌入和反向传播的神经网络语言模型的制作者。这个模型使用的是非常简单的数据，只是三元组。它将每个符号转换为嵌入，然后让嵌入相互作用以预测下一个符号的嵌入。然后从中预测下一个符号。接着，它通过整个过程反向传播来学习这些三元组。我已经证明了它可以进行概括

大约10年后，Yoshio Bengio使用了一个非常相似的网络并展示了它可以处理真实文本。大约10年后，语言学家开始接受嵌入的概念。这是一个缓慢的过程。

我认为它不仅仅是预测下一个符号的原因是，那么，预测下一个符号需要什么？特别是如果你向我提问，然后答案的第一个词是下一个符号，你必须理解这个问题。所以我认为通过预测下一个符号，它与传统的自动完成功能有很大的不同。

传统的自动完成功能会存储一组三元组单词。然后，如果你存储了一对单词，你会看到不同的单词出现在第三位的频率，这样你就可以预测下一个符号。这就是大多数人认为的自动完成功能。但现在，情况已经不再是这样了。要预测下一个符号，你必须理解所说的内容。所以我认为你通过让它预测下一个符号来强迫它理解。我认为它的理解方式与我们非常相似。

很多人会告诉你这些东西和我们不一样。他们只是预测下一个符号。他们不像我们一样推理。但实际上，为了预测下一个符号，它必须进行一些推理。我们现在已经看到，如果你制造大型机器，而不放入任何特殊的东西来进行推理，它们已经可以进行一些推理。我认为随着你把它们做得越来越大，它们将能够进行越来越多的推理。

现在除了预测下一个符号外，还做了其他什么吗？

我认为这就是学习的方式。你在预测下一个视频帧。你在预测下一个声音。但我认为这是关于大脑如何学习的一个相当合理的理论。

那么，是什么使这些模型能够学习如此广泛的领域？

这些大型语言模型所做的是寻找共同的结构。通过找到共同的结构，它们可以使用共同的结构对事物进行编码，这样效率更高。

让我给你举个例子。如果你问GPT-4，为什么堆肥堆像原子弹？大多数人都无法回答这个问题。大多数人没有想过……他们认为原子弹和堆肥堆是非常不同的东西。但GPT-4会告诉你，能量尺度非常不同，时间尺度也非常不同。但相同的是，当堆肥堆变热时，它会更快地产生热量。当原子弹产生更多的中子时，其产生中子的速度也会随之加快。这就引出了链式反应的概念。我相信大家都能理解，这些都是链式反应的表现形式。通过这种理解，所有的信息都被压缩到权重中。如果这样做，那么它将能够对我们尚未见过的数百种类比进行处理，尽管它已经看到了这些类比。这就是你能从中获得创造力的地方，从看到这些看似非常不同的事物之间的类比中获取。因此，我认为当GPT-4变得更大时，它将变得非常有创造力。我认为，认为它只是在重复它所学到的东西，只是将它已经学过的文本拼凑在一起，这种想法是完全错误的。它更有创造力。

你可能会说，它不仅会重复我们迄今为止开发的人类知识，而且还会超越这一点。我认为这是我们还未见过的事物。我们已经开始看到一些例子，但在很大程度上，我们仍然处于当前的科学水平。你认为什么能让它超越这一点呢？

我们在更有限的环境中已经看到了这一点。以AlphaGo为例，在与李世石的那场著名比赛中，AlphaGo在第37步做出了一个所有专家都认为一定是错误的举动。但实际上后来他们意识到这是一步绝妙的举动。所以这是在那个有限的领域内富有创造力的举动。我认为随着这些事情变得越来越大，我们会看到更多这样的举动。

AlphaGo的不同之处在于它使用了强化学习，这使它能够超越当前状态。所以它从模仿学习开始，观察人类如何玩游戏，然后通过自我对弈，发展到超越这一点。你认为这是当前数据实验室缺少的组件吗？

我认为这很可能是一个缺失的组件，是的。AlphaGo和AlphaZero的自我对弈是它能够做出这些创造性举动的重要原因。但我认为这不是完全必要的。很久以前我做过一个小实验，训练神经网络识别手写数字。我很喜欢这个例子，MNIST的例子。你给它训练数据，其中一半的答案是错误的。问题是，它能学得多好？你把一半的答案弄错一次，然后保持这种状态。所以它不能通过只看同一个例子来平均化错误率，但有时答案正确，有时答案错误。当它看到那个例子时，一半的例子，当它看到这个例子时，答案总是错的。所以训练数据的误差为50%。但是如果你训练反向传播，误差会降到5%或更低。换句话说，从标记不良的数据中，它可以得到更好的结果。它可以看到训练数据是错误的。这就是聪明的学生能比他们的导师更聪明的原因。他们的导师告诉他们所有这些东西，而对于导师告诉他们的一半，他们认为，不，是胡说八道，他们听从另一半，然后他们最终比导师更聪明。因此，这些大型神经网络实际上具有超越训练数据的能力，这是大多数人未曾意识到的。

那么，我们如何期望这些模型能够获得推理能力呢？一种可能的方法是在这些模型之上添加某种启发式方法。目前，许多研究都在尝试这种方法，即你有一个思维链，只需将其推理反馈到模型自身中。另一种可能的方法是在模型本身中增加规模。那么，你对此有何看法？

我的直觉告诉我，随着我们扩大这些模型的规模，它们的推理能力会得到提升。如果问人们这是如何工作的，大致上，我们有这些直觉，我们可以进行推理，我们用推理来纠正我们的直觉。当然，我们在推理过程中也会使用直觉。但如果推理的结论与我们的直觉相冲突，我们就会意识到需要改变我们的直觉。这与AlphaGo或AlphaZero的工作方式类似，它们有一个评估函数，只需看一眼棋盘，然后判断“这对我来说有多好？”但是，当你进行蒙特卡罗推演时，你会得到一个更准确的想法，你可以修改你的评估函数。因此，你可以通过让模型接受推理的结果来训练它。

我认为这些大型语言模型必须开始这样做，他们必须开始通过推理来训练他们对下一步应该做什么的原始直觉，并意识到这是不对的。这样，他们就可以获得更多的训练数据，而不仅仅是模仿人们所做的。这正是AlphaGo能够做出第37步创新的原因，它拥有更多的训练数据，因为它使用推理来检查下一步应该是什么。

那么，你对多模态有何看法？我们谈到了这些类比，而这些类比往往远远超出了我们所能看到的范围。模型发现的类比远远超出了人类的能力，可能是在我们永远无法理解的抽象层面上。现在，当我们将图像、视频和声音引入其中时，你认为这会如何改变模型？你认为它将如何改变它能够进行的类比？

我认为这将带来很大的改变。例如，我认为它将使模型更好地理解空间事物。仅从语言角度来看，很难理解一些空间事物。尽管值得注意的是，即使在成为多模态之前，GPT-4也能做到这一点。但是，当你让模型成为多模态时，如果你让它既能做视觉，又能伸手抓东西，如果它能拿起物体并翻转它们等等，它就会更好地理解物体。因此，虽然你可以从语言中学到很多东西，但如果你是多模态的，学习起来会更容易。事实上，你需要的语言更少。YouTube上有很多关于预测下一帧的视频，或者类似的东西。因此，我认为这些多模态模型显然会占据主导地位。你可以通过这种方式获得更多数据，它们需要更少的语言。因此，从哲学角度来看，你可以仅从语言中学习出一个非常好的模型，但从多模态系统中学习要容易得多。

您如何看待这将对模型推理产生的影响？

例如，我认为这将使模型能够更好地进行空间推理。如果你尝试去拿起一个物体，你会得到各种有用的训练数据，这将有助于推理出如果你拿起物体会发生什么。

您认为是人类大脑进化得能很好地处理语言，还是语言进化得能很好地处理人类大脑？

我认为这是一个非常好的问题，是语言进化得能与大脑协同工作，还是大脑进化得能与语言协同工作。我认为两者都发生了。我曾经认为我们可以在完全不需要语言的情况下进行大量的认知活动，但现在我对此有了一些改变。

那么，我将给出三种不同的语言观点以及它们与认知的关系。

一种观点是老式的符号观点，即认知包括使用某种经过清理的逻辑语言中的符号串，这些语言没有歧义，并应用推理规则。这就是认知，只是对语言符号串之类的事物进行符号操作。这是一种极端观点。

另一种极端观点是，一旦你进入头脑，它就全是向量。所以符号进来了，你把这些符号转换成大向量，里面的所有内容都是用大向量完成的，然后如果你想产生输出，你又会生成符号。在2014年左右，机器翻译中有一个点，当时人们使用循环神经网络，单词会不断进入，它们会有一个隐藏状态，它们会在这个隐藏状态下不断积累信息。因此，当它们读完一个句子时，它们会得到一个大的隐藏向量，它捕捉到了该句子的含义，然后可以用来生成另一种语言的句子。这被称为思维向量。这是对语言的第二种看法，你将语言转换成一个与语言完全不同的大向量，这就是认知的全部内容。

但是还有第三种观点，也是我现在所相信的，即你采用这些符号，将符号转换成嵌入，并使用多层嵌入，这样你就得到了这些非常丰富的嵌入。但是嵌入仍然与符号相关联，从某种意义上说，你有一个用于这个符号的大向量，以及一个用于那个符号的大向量，这些向量相互作用产生下一个单词的符号的向量。这就是理解。理解就是知道如何将符号转换成这些向量，并知道向量的元素应该如何相互作用以预测下一个符号的向量。这就是理解，无论是在这些大型语言模型中，还是在我们的大脑中。这是一个介于两者之间的例子。你继续使用符号，但将它们解释为这些大向量，这就是所有工作所在。所有的知识都在于你使用的向量以及这些向量的元素如何相互作用，而不是符号规则。但这并不是说你完全摆脱符号，而是说你将符号变成大向量，但你保留符号的表面结构。这就是这些模型的工作方式。在我看来，这也是人类思维更合理的模型。

您是最早想到使用GPU的人之一，我知道Jensen（黄仁勋）很喜欢你。早在2009年，你就告诉Jensen，这可能是训练神经网络的一个非常好的想法。让我们回顾一下使用图形处理单元（GPU）训练神经网络的早期直觉。

实际上，我记得在2006年，我有一位研究生，他是一位非常优秀的计算机视觉专家。我曾在一次会议上与他交谈，他建议我考虑使用图形处理卡，因为它们在矩阵乘法方面表现出色，而我所做的基本上都是矩阵乘法。我考虑了一会儿，然后我们开始研究那些配备四个GPU的Tesla系统。

最初，我们只是购买了游戏用的GPU，发现它们使运算速度提高了30倍。然后我们购买了一个配备四个GPU的Tesla系统，并在此基础上进行了一次演讲，效果非常好。2009年，我在NIPS会议上发表了演讲，我告诉在场的一千名机器学习研究人员，你们都应该去购买NVIDIA的GPU，因为它们是未来，你们需要它们来进行机器学习。然后我实际上给NVIDIA发了一封邮件，说我已经告诉一千名机器学习研究人员去购买你们的主板，你们能否免费给我一个？他们并没有回复。

但是，当我后来把这个故事告诉Jensen时，他免费给了我一个。

这真是太好了。我认为同样有趣的是，GPU是如何随着这个领域的发展而发展的。那么，你认为我们在计算领域的下一步应该如何发展呢？

在我在谷歌的最后几年里，我一直在思考如何尝试进行模拟计算。这样，我们可以使用30瓦的功率（例如大脑），而不是使用一兆瓦的功率，并且可以在模拟硬件中运行这些大型语言模型。我从未让它发挥作用，但我开始真正欣赏数字计算。

因此，如果你要使用这种低功耗的模拟计算，那么每个硬件都会有所不同。这个想法是，学习将利用该硬件的特定属性。这就是发生在人们身上的事情。我们所有人的大脑都是不同的，因此，我们不能将你大脑中的权重放入我的大脑中。硬件不同，各个神经元的精确属性也不同。学习已经学会了利用所有这些。因此，我们终有一死，因为我脑中的权重对其他任何脑都毫无用处。当我死后，这些权重就毫无用处了。

我们可以很低效地将信息从一个人传递给另一个人，我写句子，你想办法改变你的权重，这样你就会说同样的话。这叫做提炼，但这是一种非常低效的知识交流方式。而对于数字系统，它们是不朽的，因为一旦你有了一些权重，你就可以扔掉计算机，只需将权重存储在某个磁带上，然后建造另一台计算机，把同样的权重放进去。如果它是数字的，它可以计算与其他系统完全相同的东西。因此，数字系统能够共享权重，这种方式的效率极高。假设你有一大批数字系统，它们各自进行微量的学习，从相同的权重开始，进行微量的学习，然后再次共享权重，这样它们都能知道其他系统学到了什么。然而，我们人类无法做到这一点，因此在知识共享方面，这些数字系统远胜于我们。

许多已经在该领域实施的想法其实都是非常传统的，这些想法在神经科学中一直存在。那么，你认为还有哪些想法可以应用于我们正在开发的系统呢？

因此，我们仍需在变化的时间尺度上赶上神经科学。在几乎所有的神经网络中，都存在一个快速的活动变化时间尺度。因此，当输入进来后，活动和嵌入向量都会发生变化，然后有一个缓慢的时间尺度会改变权重。这就是长期学习。你只有这两个时间尺度。然而在大脑中，权重会改变的时间尺度很多。

例如，如果我说了一个意想不到的词，比如“黄瓜”，五分钟后，你戴上耳机，会听到很多噪音，而且单词非常模糊，但你会更好地识别“黄瓜”这个词，因为我五分钟前说过这个词。那么，大脑中的这些知识是如何存储的呢？这些知识显然是突触的暂时变化，而不是神经元在重复“黄瓜”这个词。你没有足够的神经元来做这件事。这是权重的暂时变化。你可以用暂时的权重变化做很多事情，我称之为快速权重。

在我们的神经模型中，我们并不会这样做，原因是如果对依赖于输入数据的权重进行临时更改，则无法同时处理大量不同的情况。目前，我们采用大量不同的字符串，将它们堆叠在一起，然后并行处理它们，因为这样我们可以进行矩阵乘法，效率要高得多。而正是这种效率阻止了我们使用快速权重。但大脑显然将快速权重用于临时记忆。而且，你可以通过这种方式做各种我们目前不做的事情。我认为这是你必须学习的最重要的事情之一。我非常希望像Graphcore这样的设备，如果它们采用顺序方式并只进行在线学习，那么它们就可以使用快速权重。但这还没有奏效。我认为当人们使用电导作为权重时，它最终会奏效。

了解这些模型如何工作以及了解大脑如何工作对你的思维方式有何影响？

我认为有一个很大的影响，这是在一个相当抽象的层面上，那就是多年来，人们非常鄙视拥有一个大型随机神经网络，只要给它大量的训练数据，它就会学会做复杂的事情的想法。如果你和统计学家或语言学家，或者大多数人工智能领域的人交谈，他们会说，那只是一个白日梦。如果没有某种先天知识，没有很多架构限制，你就不可能学会真正复杂的事情。然而，事实证明这是完全错误的。你可以采用一个大型随机神经网络，你可以从数据中学习一大堆东西。因此，随机梯度下降的想法，即使用梯度反复调整权重，可以学习东西，而且可以学习非常复杂的东西，这些大型模型已经证实了这一点。这是对大脑理解的一个非常重要的观点。大脑并不需要拥有所有的先天结构。现在，虽然大脑确实拥有许多先天结构，但对于易于学习的事物，它并不需要这些先天结构。

因此，乔姆斯基的观点是，除非所有的知识都已经深深植根并且已经成熟，否则你无法学习任何像语言这样复杂的事物。然而，这种观点现在显然是荒谬的。

我相信乔姆斯基会很高兴你称他的观点是荒谬的。

实际上，我认为乔姆斯基的许多政治观点非常明智。我总是很惊讶，为什么一个在中东问题上有如此明智观点的人在语言学方面会犯如此大的错误。

你认为什么会让这些模型更有效地模拟人类的意识？想象一下，如果你有一个你一生中与之交谈过的人工智能助手。而不是像现在的ChatGPT那样，删除对话的记忆，每次都从头开始。它有自我反省的能力。有一天，你去世了，其他人把这件事告诉了助手，你认为助手在那个时候会有感觉吗？

是的，我认为他们也会有感觉。所以我认为，就像我们有这种感知的内在剧场模型一样，我们也有一个感觉的内在剧场模型。这些是我能体验到的东西，但其他人却不能。我认为那个模型同样是错误的。

所以我认为，假设我说，我想打加里的鼻子，我经常这样做。让我们试着从内心剧场的概念中抽象出这一点。我真正想告诉你的是，如果不是因为我的额叶受到抑制，我就会采取行动。所以当我们谈论感觉时，我们实际上是在谈论如果没有限制我们会采取的行动。这就是感觉的真正含义，如果没有限制我们会采取的行动。所以我认为你可以对感觉做出同样的解释，没有理由说这些东西不能有感觉。

事实上，在1973年，我看到一个机器人有情感。在爱丁堡，他们有一个带有两个夹子的机器人，如果你把零件分开放在一块绿色毛毡上，它可以组装一辆玩具车。但是如果你把它们堆在一起，它的视力就不足以弄清楚发生了什么。所以它把夹子放在一起，然后开始工作！它把它们敲碎，让它们散落一地，然后又把它们拼凑在一起。如果你在一个人身上看到这一点，你会说，这是因为不理解情况，所以它与情况不符，所以它摧毁了情况。这很深刻。

在我们之前的谈话中，你把人类和LLM描述为类比机器。你认为你一生中发现的最有力的类比是什么？

在我的一生中？我想可能对我影响很大的一种弱类比是宗教信仰和符号处理信仰之间的类比。所以当我很小的时候，我来自一个无神论家庭，上学时就面临着宗教信仰。在我看来，这简直是无稽之谈。即使我再次审视，我仍然认为这是无稽之谈。

当我将符号处理视为对人们工作方式的解释时，我认为这种观点依然是无稽之谈。我并不认为现在的观点完全是无稽之谈，因为我确信我们正在进行符号处理。我们只是通过将这些大的嵌入向量赋予符号来实现这一点。但我们实际上是在进行符号处理。

然而，这并不像人们想象的那样，你匹配符号，一个符号的唯一属性是它与另一个符号相同或不同。这是符号的唯一属性。我们并不是这样做的。我们使用上下文为符号提供嵌入向量，然后使用这些嵌入向量组件之间的交互进行思考。

然而，谷歌有一位非常优秀的研究员，名叫Fernando Pereira，他认为，我们确实在进行符号推理，我们的唯一符号就是自然语言。自然语言是一种符号语言，我们用它来推理。我现在相信这一点。

你已经进行了一些计算机科学史上最有意义的研究。你能给我们讲讲，比如，你是如何选择合适的问题来解决的？

首先，我要纠正一下，我和我的学生一起完成了很多最有意义的研究。这主要得益于我与学生的良好合作，以及我选择优秀学生的能力。在70年代、80年代、90年代和21世纪，很少有人研究神经网络。因此，少数研究神经网络的人可以挑选最优秀的学生。这是一件幸运的事。

我选择问题的方式基本上是，当科学家谈论他们的工作原理时，他们会有关于他们如何工作的理论，这可能与事实没有太大关系。但我的理论是，我寻找的是每个人都同意但感觉不对的东西。只是有一点直觉，觉得它有问题。然后我研究它，看看我是否能详细说明为什么我认为它是错的。也许我可以用一个小的计算机程序做一个小演示，显示它不像你预期的那样工作。

让我举一个例子。大多数人认为，如果你给神经网络添加噪音，它就会变得更糟。例如，如果每次你进行训练示例时，让一半的神经元保持沉默，效果就会更糟。实际上，我们知道如果这样做的话，它的概括效果会更好。你可以用一个简单的例子来证明这一点。这就是计算机模拟的优点。

你可以证明，你的想法是，增加噪音会使情况变得更糟，而去掉一半的神经元会使它工作得更糟，短期内确实如此。但如果你这样训练它，最终它会工作得更好。你可以用一个小型计算机程序来证明这一点，然后你可以认真思考为什么会这样，以及它如何阻止复杂的协同适应。

但我认为这是我的工作方法。找到听起来可疑的东西并对其进行研究，看看你是否可以给出一个简单的演示来说明为什么它是错误的。

现在有什么听起来可疑的呢？

我们不使用快速权重的做法听起来很可疑，我们只有两个时间尺度。这完全是错误的，这根本不像大脑的工作方式。从长远来看，我认为我们将不得不拥有更多的时间尺度。这只是一个例子。

假设你今天有一群学生，他们来找你，问你，我们之前讨论过的汉明问题，你的领域中最重要的问题是什么？你建议他们接下来接受和研究什么？我们谈到了推理、时间尺度。你会给他们什么最高优先级的问题？

对于我来说，现在的问题和我过去30年来一直存在的问题是一样的，那就是大脑会进行反向传播吗？我相信大脑会获得梯度。如果你得不到梯度，你的学习效果就会比得到梯度时差很多。但是大脑是如何获得梯度的？它是以某种方式实现某种近似版本的反向传播，还是某种完全不同的技术？这是一个悬而未决的大问题。如果我继续做研究，这就是我要研究的内容。

当你现在回顾你的职业生涯时，你会发现你在很多事情上都是对的。但是你错在什么地方，以至于你希望自己花更少的时间追求某个方向？好吧，这是两个独立的问题。一是你错在什么地方？二，你希望自己花更少的时间在这上面吗？

我认为我对玻尔兹曼机的看法是错误的，我很高兴我花了很长时间研究它。关于如何获得梯度，有比反向传播更漂亮的理论。反向传播很普通，很明智，它只是一个链式法则。玻尔兹曼机非常聪明，它是一种获取梯度的非常有趣的方法。我希望大脑也能这样工作，但我认为事实并非如此。

您是否也花了很多时间想象这些系统开发后会发生什么？您是否曾经想过，如果我们能让这些系统运行良好，我们就能让教育民主化，我们就能让知识更容易获得，我们可以解决医学上的一些难题，或者对您来说，这更多的是了解大脑？

是的，我觉得科学家应该做一些对社会有益的事情，但实际上这并不是您进行最佳研究的方式。当好奇心驱使时，您会进行最好的研究。您只需要了解一些事情。最近，我意识到这些东西既能带来很多好处，也能带来很多坏处，我更加担心它们对社会的影响。但这不是我的动机。我只是想了解，大脑究竟是如何学习做事的？这正是我想要知道的。但我有点失败了。作为那次失败的副作用，我们得到了一些不错的工程。

是的，这对世界来说是一次很好的失败。如果你从真正可能顺利的事情的角度来看，你认为最有前途的应用是什么？

我认为医疗保健显然是一个很大的应用。对于医疗保健，社会可以吸收的医疗保健几乎是无穷无尽的。以一位老年人为例，他们可能需要五位全职医生的照顾。因此，当人工智能在某些领域的表现超过人类时，我们会期待它能在更多领域发挥更大的作用。这可能意味着我们需要更多的医生。如果每个人都能拥有三位专属的医生，那将是极好的。我们有望实现这一目标，这也是医疗保健领域的优势之一。

此外，新的工程项目和新材料的开发，例如用于改进太阳能电池板或超导性能的材料，或者仅仅是为了更深入地了解人体的运作机制，都将产生巨大的影响。这些都是积极的一面。然而，我担心的是，有人可能会利用这些技术做出恶意的行为。利用人工智能制造杀人机器人，操纵舆论或进行大规模监控。这些都是非常令人担忧的问题。

你是否担心，如果我们放慢这个领域的发展速度，也会阻碍其积极的发展？

当然，我有这样的担忧。我认为这个领域的发展速度不太可能放慢，部分原因是它具有国际性。如果一个国家选择放慢发展速度，其他国家并不会跟随。因此，中国和美国之间显然存在竞争，双方都不会选择放慢发展速度。有人提出我们应该放慢六个月的发展速度，但我并未签署这一提议，因为我认为这种情况永远不会发生。尽管如此，我可能应该签署这一提议，因为即使这种情况永远不会发生，它也提出了一个政治观点。为了表达观点，有时候我们需要提出一些无法实现的要求，这往往是一种有效的策略。但我不认为我们会放慢发展的步伐。

你认为有了这些人工智能助手，会对AI研究过程产生什么影响？

我认为它们会大大提高研究效率。有了这些助手，AI研究将变得更加高效，它们不仅能帮助你编程，还能帮助你思考问题，甚至可能在解决方程式方面为你提供很大帮助。

你是否考虑过人才选拔的过程？这对你来说主要是依赖直觉吗？例如，当Ilya出现在门口时，你会觉得他很聪明，于是决定与他一起工作。

在人才选拔方面，有时候你就是能感觉到。与Ilya交谈不久后，我就觉得他非常聪明。再深入交谈几句，他的直觉、数学能力都非常出色，这让我觉得他是理想的合作伙伴。

还有一次，我参加了一次NIPS会议。我们有一张海报，有人走过来，他开始询问有关海报的问题。他提出的每一个问题都深入地揭示了我们的错误。五分钟后，我就给他提供了一个博士后职位。那个人就是David McKay，他非常聪明。他去世了，这让人感到非常遗憾，但他的才华是显而易见的，你会希望能与他一起工作。然而，有时候，情况并不总是那么明显。我确实学到了一件事，那就是人与人是不同的。优秀的学生并不只有一种类型。有些学生可能没有那么有创造力，但他们在技术上非常强，能够让任何事情都成功。有些学生在技术上可能并不出色，但他们却拥有极高的创造力。理想的情况下，我们希望找到的是既有技术实力又具备创造力的学生，但实际上，这样的学生并不总是那么容易找到。然而，我认为在实验室环境中，我们需要的是各种不同类型的研究生。

我始终坚信我的直觉，有时候，你只需要和某人进行一次交谈，他们就能理解你的意思。这就是我们所期待的。

你是否曾经思考过，为什么有些人的直觉会更强呢？他们是否只是比其他人拥有更好的训练数据？或者，你是如何培养自己的直觉的？

我认为，部分原因在于他们不容忍胡说八道。因此，这里有一种获取错误直觉的方式，那就是盲目相信你被告知的一切，这是非常危险的。你必须能够……我认为有些人就是这样做的。他们有一个理解现实的完整框架。当有人告诉他们某件事情时，他们会试图弄清楚这件事如何融入他们的框架。如果无法融入，他们就会予以拒绝。这是一个非常好的策略。

那些试图将他们被告知的一切都融入自己的框架的人，最终会得到一个非常模糊的框架，并且会相信一切。这是无效的。因此，我认为，对世界有强烈的看法，并试图操纵传入的事实以符合你的观点是非常重要的。显然，这可能会导致你陷入深刻的宗教信仰和致命的缺陷等等，就像我对玻尔兹曼机器的信仰一样。但我认为这是正确的做法。如果你有良好的直觉，你应该相信它们。如果你的直觉不好，无论你做什么都没用，所以你最好相信它们。

这是一个非常好的观点。

当你看到今天正在进行的研究类型时，你是否认为我们把所有的鸡蛋都放在一个篮子里，我们应该在这个领域更加多样化我们的想法？或者你认为这是最有前途的方向？所以让我们全力以赴。

我认为拥有大型模型并在多模态数据上训练它们，即使只是为了预测下一个单词，也是一种非常有前途的方法，我们应该全力以赴。显然，现在有很多人在做这件事。有很多人似乎在做疯狂的事情，这很好。但我认为大多数人走这条路是可以的，因为它效果很好。

你认为学习算法真的那么重要吗，还是只是一个尺度？我们是否有数百万种方法可以达到人类水平的智能，或者我们需要发现少数几种？

是的，所以我不知道这个问题的答案，即特定的学习算法是否非常重要，或者是否有各种各样的学习算法可以完成这项工作。但在我看来，反向传播在某种意义上是正确的做法。获得梯度以便更改参数使其更好地工作，这似乎是正确的做法，而且它取得了惊人的成功。可能还有其他学习算法，它们是获得相同梯度的替代方法，或者将梯度转移到其他东西上，并且也有效。我认为现在这一切都是开放的，也是一个非常有趣的问题，关于是否还有其他你可以尝试和最大化的东西可以为你提供良好的系统，也许大脑这样做是因为这样更容易。但反向传播在某种意义上是正确的做法，我们知道这样做效果很好。

最后一个问题，当您回顾您几十年的研究历程，您最引以为豪的成就是什么？是你学生的成就吗？或者是您的研究成果？在您的整个职业生涯中，您最引以为豪的是什么？

我的回答是玻尔兹曼机的学习算法。这个算法非常优雅，尽管在实践中可能并不实用，但这是我和Terry共同开发的过程中最享受的事情，也是我最引以为豪的成就，即使它可能是错误的。

（彩蛋）那么，您现在最常思考的问题是什么？

我应该在Netflix上看什么节目？

哈哈！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.