《纽约客》丨人工智能真的在思考吗？|超级智能|人工神经网络

分享至

The Case That A.I. Is Thinking

ChatGPT 并无内在生命，但它似乎清楚自己在谈论什么。

本文即将刊登于2025 年 11 月 10 日的《纽约客》杂志，印刷版标题为“

Open Mind

”。

作者：

作家兼计算机程序员詹姆斯·萨默斯从 2018 年开始为《纽约客》撰稿。

当一种“理解的假象”逼真到何种程度时，你才会不再将其称为假象？

人工智能公司Anthropic的首席执行官达里奥·阿莫代伊预测，到2027年，在生物学、数学、工程学、写作等领域“比诺贝尔奖得主更聪明”的人工智能或许会投入使用。他设想数百万个模型副本高速运转，每个副本都在开展独立研究，形成一个“数据中心里的天才国度”。今年6月，OpenAI的萨姆·奥尔特曼撰文称，人工智能行业即将打造出“数字超级智能”。他断言：“2030年代很可能会与以往任何时代都截然不同。”与此同时，大多数人目前日常接触的人工智能工具，让人不禁想起微软办公软件曾推出的“助手”Clippy——它实际上更像个爱纠缠的角色。Zoom的一款人工智能工具会提示你向它提问“有哪些会议破冰问题？”，或是指令它“写一条表达感谢的短消息”。Siri擅长设置提醒，但在其他方面用处不大。我的一位朋友在Gmail中看到一个按钮，上面写着“致谢并讲述趣闻”。他点击后，谷歌的人工智能编造了一个关于他去土耳其旅行的有趣故事，而他从未去过那里。

人工智能仓促且不均衡的推出，营造出一种迷雾氛围，让人很容易得出“这里没什么值得关注——全是炒作”的结论。诚然，炒作确实不少：阿莫代伊预测的时间线带有科幻色彩（人工智能模型的改进速度并没有那么快）。但认为大型语言模型只是在随意拼凑文字，同样是一种一厢情愿的想法。我过去曾认同这种观点，也曾从“人工智能与真正的智能或理解毫无关系”这一想法中寻求慰藉，甚至还为它的缺陷感到庆幸——就像在为人类“主队”加油。后来，作为一名程序员，我开始在工作中使用人工智能，因为担心不这样做就会落后。（我所在的雇主是一家贸易公司，对包括Anthropic在内的多家人工智能公司有投资，也建立了合作关系。）许多人认为，编写代码是人工智能最擅长的领域；代码比散文更具结构性，而且通常能通过自动化方式验证某个程序是否可行。我对人工智能的看法很快发生了转变。起初，我会咨询人工智能模型，而非自己去查找资料；接着，我会让它们处理一些独立的小问题；最终，我把真正的工作——那些我整个职业生涯都在学习处理的工作——也交给了它们。我看到这些模型能在几秒钟内理解数千行代码中的复杂细节，它们能发现细微的漏洞，还能设计出复杂的新功能。后来，我被调到一个快速发展的团队，该团队旨在更好地利用人工智能工具，并开发我们自己的工具。

据说科幻作家威廉·吉布森曾提出，未来早已到来，只是尚未均匀分布——这或许能解释为何人工智能似乎催生了两种截然不同的群体：一种对此不屑一顾，另一种则为之着迷。在日常生活中，能预订假期或申报税务的人工智能“代理”并不成功，但我的一些同事在编写代码时，大部分工作都依赖人工智能，有时还会同时运行多个编程代理。这些模型有时会犯低级错误，或陷入无意义的循环，但随着我学会高效使用它们，曾经需要一个月完成的工作，现在一个晚上就能搞定。不久前，我在完全不懂如何开发iOS应用的情况下，做出了两款iOS应用。

我曾有一位上司说，求职面试应考察应聘者的优势，而非纠结于其是否存在缺点。大型语言模型确实有很多缺点：众所周知，它们会编造看似合理的虚假信息；即便你出错，它们也可能一味顺从；简单的谜题就能将它们难住。但我还记得，如今人工智能模型所具备的显著优势——流畅的表达、自然的衔接、“理解”他人意图的能力——在过去曾被视为难以实现的“圣杯”。当你亲身体验到这些优势时，就会不禁思考：当一种“理解的假象”逼真到何种程度时，你才会不再将其称为假象？

今年夏天一个酷热难耐的日子，我的朋友马克斯和家人在公园游玩。不知为何，儿童洒水器没有开启，而马克斯的妻子之前向大家保证，她丈夫能修好它。面对满脸通红、年龄在六到七岁之间的孩子们，马克斯走进工具棚，希望能找到一个显眼的“开启”开关。然而，他看到的却是一堆错综复杂的旧管道和阀门。就在他准备放弃时，突然心血来潮，拿出手机，将洒水器的照片以及自己遇到的问题描述一起输入ChatGPT-4o。人工智能“思考”了片刻——也可能并没有真正思考——但它随即表示，马克斯看到的是灌溉系统中常见的防回流装置。它问马克斯是否看到底部那个黄色的球阀，认为那个阀门很可能控制着水流。马克斯按照提示操作，水流随即喷出，公园里顿时响起孩子们的欢呼声。

ChatGPT是在毫无意义地拼凑文字，还是真的理解了这个问题？这个答案或许能让我们对“理解”本身有重要的认识。加州大学伯克利分校的神经科学教授多丽丝·曹（音译）告诉我：“神经科学家必须面对这个令人清醒的事实：机器学习的进展，比神经科学在过去一百年间的任何发现，都更能让我们了解智能的本质。”多丽丝·曹最知名的研究是破解恒河猴感知面部的机制。她的团队成功预测出猴子看到特定面部时哪些神经元会被激活；更令人惊叹的是，只要知道神经元的激活模式，他们就能还原出对应的面部图像。他们的研究借鉴了关于“人工智能模型如何表征面部”的相关成果。如今，她最喜欢问别人的一个问题是：“你从ChatGPT中获得的最深刻洞见是什么？”她表示：“我自己的答案是，我认为它彻底揭开了思考的神秘面纱。”

关于我们如何走到如今这一步，最基础的解释大致如下：20世纪80年代，一小群认知心理学家和计算机科学家尝试在机器中模拟思考过程。其中较知名的有戴维·鲁梅尔哈特、杰弗里·辛顿和詹姆斯·麦克莱兰，他们后来在加州大学圣迭戈分校成立了一个研究小组。他们认为，大脑是一个庞大的网络，神经元以特定模式激活，进而引发其他神经元群的激活，如此循环往复；这种模式的动态变化就是思考。大脑通过改变神经元之间连接的强度来实现学习。关键在于，这些科学家通过构建人工神经网络，并应用一种名为“梯度下降”的简单算法来提高其预测准确性，从而模拟了大脑的这一学习过程。（可以将该算法比作一个从山顶走向山谷的徒步者：要最终找到下山的路，一个简单的策略就是确保每一步都朝着地势更低的方向前进。）在大型网络中使用这类算法的技术，被称为深度学习。

人工智能领域的其他研究者曾怀疑，神经网络是否足够复杂，能否应对现实世界的任务。但随着网络规模不断扩大，它们开始解决此前无法攻克的难题。过去，有人会花费整篇博士论文的篇幅，研究区分手写数字或识别图像中人脸的技术；而后来，深度学习算法只需消化相关数据，就能掌握问题的核心细节，让那些研究项目显得过时。很快，深度学习在语音识别、翻译、图像描述、棋类游戏等领域取得突破，甚至解决了蛋白质折叠预测这一难题。

如今最先进的人工智能模型，是通过一种名为“下一个token预测”的技术，在互联网的大量数据上训练而成的。模型通过猜测接下来会出现的内容，再将猜测结果与实际出现的内容进行对比，以此完成学习。一旦猜测错误，神经元之间连接的强度就会调整，这正是梯度下降算法的作用。最终，模型在文本预测方面变得极为精准，以至于看起来仿佛真的具备知识储备，且表达富有逻辑。这一点值得我们思考：一群研究者致力于探寻大脑运作的奥秘，当他们构建的模型规模接近大脑大小时，模型开始展现出那些曾被认为只有大脑级智能才能实现的能力。难道他们真的找到了一直在寻找的答案？

对于这种将人工智能简单化、理想化的解读，人们难免会持反对态度。泰德·蒋曾有力地反驳过这一观点，他在2023年初为本刊撰写了一篇文章，标题为《ChatGPT不过是互联网的模糊JPEG格式文件》。他的言下之意带有贬低意味：ChatGPT仅此而已。你把整个互联网的数据输入一个程序，它只是将这些数据不完美地“反刍”出来，就像一张照片经过多次复制后变得模糊——但它的表达能力足以让你误以为这个程序具备智能。今年春天，语言学家埃米莉·M·本德和社会学家亚历克斯·汉纳在合著的《人工智能骗局》一书中，也提出了类似观点。本德最知名的言论，是将大型语言模型描述为“随机鹦鹉”。《大西洋月刊》的书评作者泰勒·奥斯汀·哈珀宣称：“大型语言模型过去没有、现在没有、将来也永远不会‘理解’任何事物。”这些模型“生成文字并非通过思考，而是基于统计规律，猜测下一个词汇可能是什么”。哈珀在这些技术层面的论点之外，还加入了道德层面的批判：人工智能让强者更富，消耗的能源加速了气候变化，还导致劳动者被边缘化。他最终得出结论：“人工智能行业的根基就是一场骗局。”

一位顶尖神经科学家认为，ChatGPT“彻底揭开了思考的神秘面纱”。

但从道德层面反对人工智能，或许最终比从技术层面反对更有说服力。哈佛大学认知科学家塞缪尔·J·格什曼并非人工智能的盲目吹捧者，他告诉我：“‘随机鹦鹉’这种说法早该过时了。只有最顽固的怀疑论者，才会否认这些系统实现了许多人曾认为无法实现的功能。”普林斯顿大学的认知神经科学家乔纳森·科恩承认人工智能存在局限性，但他认为，在某些情况下，大型语言模型似乎模拟了人类大脑中一个庞大且重要的区域。科恩表示：“大致来说，大脑的新皮层就是一个深度学习机制。”相对于体型而言，人类的新皮层比其他动物大得多；而新皮层最大的物种——大象、海豚、大猩猩、黑猩猩、狗——也恰好是最具智能的物种。

2003年，机器学习研究者埃里克·B·鲍姆出版了一本名为《何为思考？》的书（我在大学图书馆的书架上偶然发现了它，书名瞬间吸引了我）。鲍姆论点的核心在于：理解即压缩，压缩即理解。在统计学中，若要理解图表上的数据点，可以采用线性回归技术，在这些点之间绘制一条“最佳拟合线”。如果数据中存在潜在规律——比如你在绘制鞋码与身高的对应关系——这条最佳拟合线就能简洁地呈现这一规律，并预测新数据点可能出现的位置。我们可以将新皮层理解为一种“提炼”工具：它从海量原始体验（声音、图像及其他感官信息）中提取核心，形成类似“最佳拟合线”的模型，用于进行预测。婴儿探索世界时，会尝试猜测玩具的味道，或是食物掉落到地上后会滚向何方。当预测出错时，神经元之间的连接就会调整。久而久之，这些连接逐渐捕捉到数据中的规律，形成一个对世界的压缩模型。

人工神经网络与真实的神经网络一样，也能对体验进行压缩。目前最优秀的开源人工智能模型之一DeepSeek，能够创作小说、提供医疗诊断建议，还能以数十种语言进行母语级别的交流。它是通过“下一个token预测”技术，在数太字节的数据上训练而成的。但当你下载这个模型时，会发现它的大小仅为训练数据的六百分之一。它就像是互联网的“精华版”，经过压缩后可以安装在笔记本电脑上。泰德·蒋将早期版本的ChatGPT比作“互联网的模糊JPEG”，这种说法有一定道理——但在我看来，这正是这些模型变得越来越智能的原因。蒋在文章中指出，若要压缩一个包含数百万道算术题的文本文件，你不会将其制成压缩文件，而是会编写一个计算器程序。他写道：“只有理解了文本内容，才能实现最高程度的压缩。”或许，大型语言模型已经开始做到这一点。

想到一个计算机程序真的能理解、真的能思考，人们可能会觉得反常，甚至反感。通常，我们认为“思考”是一种有意识的行为，比如像乔伊斯作品中那样的内心独白，或是像普鲁斯特式白日梦那样的感官记忆流动；也可能认为思考是一种推理过程：一步步解决问题。在讨论人工智能时，我们常常将这些不同类型的思考混为一谈，导致判断过于草率。有一种观点认为，ChatGPT显然不会思考，因为它显然不会像普鲁斯特那样陷入遐想；另一种观点则认为，ChatGPT显然会思考，因为它解决逻辑谜题的能力比人类更强。

但实际情况要微妙得多。我不认为ChatGPT有内在生命，但它似乎确实清楚自己在谈论什么。“理解”——即明白正在发生的事情——是一种未被充分重视的思考方式，因为它大多发生在无意识层面。印第安纳大学认知科学与比较文学教授道格拉斯·霍夫施塔特常说，认知的本质就是识别。霍夫施塔特因《哥德尔、埃舍尔、巴赫：集异璧之大成》一书闻名，该书于1980年获得普利策奖，探讨了心智与意识的奥秘。霍夫施塔特经过数十年研究提出，“看作”是思考的核心。你将一块色斑“看作”汽车，将另一块色斑“看作”钥匙扣；无论字母“A”以何种字体呈现，或是书写得多么潦草，你都能认出它。霍夫施塔特认为，同样的过程也存在于更抽象的感知层面。国际象棋大师审视棋盘时，多年的经验让他能瞬间“看出”：白方的象处于弱势；这个残局很可能是平局。你看到河中的漩涡，就知道此处不宜过河；你意识到正在参加的会议是“皇帝的新衣”式的闹剧；我将近两岁的儿子发现，上午晚些时候推婴儿车散步时，或许能有机会吃到可颂面包，于是便会提出相应要求。在霍夫施塔特看来，这就是智能的本质。

霍夫施塔特是最早对人工智能持“贬低态度”的人之一，我过去的怀疑态度也深受他的影响。他曾表示，大多数人工智能研究与真正的思考毫无关系，21世纪初我上大学时，也认同这一观点。但也有例外：他认为加州大学圣迭戈分校的研究小组很有研究价值，同时也钦佩一位不太知名的芬兰裔美国认知科学家彭蒂·卡内瓦的成果——卡内瓦发现了高维空间数学的一些特殊属性。在高维空间中，任意两个随机点可能相距极远；但反常的是，每个点周围都存在大量“邻近点”，因此只要你足够“靠近”某个点，就能轻松找到它。这让卡内瓦联想到记忆的运作方式。在1988年出版的《稀疏分布式记忆》一书中，卡内瓦提出，思想、感官体验和记忆可以表现为高维空间中的坐标。大脑似乎是存储这类信息的理想“硬件”：每段记忆都有一个独特的“地址”，这个地址由你回忆时激活的神经元决定。新的体验会激活新的神经元群，形成新的“地址”。两个“地址”可能在多个方面存在差异，但在某些方面又具有相似性；一种感知或一段记忆，会触发与之相近的其他记忆。干草的气味会让你想起夏令营的回忆；贝多芬《第五交响曲》的前三个音符响起，你就会联想到第四个音符；一个你从未见过的象棋棋局，会让你想起过去的对局——并非所有对局，而是那些与当前棋局“相似”的对局。

霍夫施塔特意识到，卡内瓦所描述的，本质上是一种“看作”机器。他在为卡内瓦著作撰写的序言中表示：“彭蒂·卡内瓦的记忆模型让我深受启发，这是我首次看到有研究能让我隐约感受到，理解大脑整体运作机制这一遥远目标或许并非无法实现。”无论是乔伊斯式的内心独白、普鲁斯特式的遐想，还是逻辑推理，任何形式的思考都依赖于“相关事物在恰当的时机出现在脑海中”。正是通过这种方式，我们才能判断自己所处的情境。

后来，卡内瓦的著作逐渐被淡忘，霍夫施塔特本人的影响力也有所下降——除非他偶尔站出来批评某款新的人工智能系统。2018年，他在谈到谷歌翻译及类似技术时表示：“这种方法存在一个核心缺陷，用一个词就能概括：理解。”但2023年推出的GPT-4，彻底改变了霍夫施塔特的看法。他最近告诉我：“这些系统的某些表现让我感到震惊，即便在十年前，这都是无法想象的。”最坚定的“贬低者”也无法再坚持原来的观点：眼前的程序能达到专业水平的翻译效果，能进行类比、即兴发挥、归纳总结。我们凭什么说它不具备理解能力？他说：“它们的行为与思考极为相似，你甚至可以说，它们在思考，只是方式与人类有所不同。”

大型语言模型的核心，似乎正是这种“看作”机器。它们用一系列数字来表示每个词在高维空间中的坐标——即“向量”。在GPT-4中，一个词向量拥有数千个维度，这些维度描述了该词与其他所有词在相似度和差异度上的细微差别。在训练过程中，每当大型语言模型出现预测错误，就会调整某个词的坐标；在文本中同时出现的词，在空间中会被调整得更接近。这就形成了一种极为密集的用法和语义表征——在这种表征中，类比变成了一个几何问题。一个经典例子是：若取“巴黎”的词向量，减去“法国”的词向量，再加上“意大利”的词向量，得到的结果最接近的向量就是“罗马”。大型语言模型还能通过对图像内容、氛围甚至人物表情进行编码，为图像生成“向量”，编码的细节足够丰富，既能让模型以特定风格重新绘制图像，也能让它写出一段关于图像的描述文字。

当马克斯在公园向ChatGPT求助解决洒水器问题时，这个模型并非只是在输出文字。它会将管道的照片与马克斯的问题描述一同压缩成一个向量，这个向量捕捉了问题最核心的特征。该向量就像一个“地址”，用于调用空间中相近的词汇和概念；这些概念又会进一步调用其他相关概念，帮助模型逐步理解当前场景，并结合这些“在脑海中”的概念组织回答。

几个月前，我看到一篇对Anthropic研究员特伦顿·布里肯的采访。他曾与同事合作，深入研究该公司旗下系列人工智能模型“克劳德”的内部机制（他们的研究尚未经过同行评审，也未在科学期刊上发表）。他的团队发现了多组人工神经元，或称“特征”，这些特征会在克劳德准备表达特定内容时被激活。研究发现，这些“特征”就像控制概念的“音量旋钮”——把某个“旋钮”调大，模型就会只围绕对应的概念展开表述。（在一项类似“思维控制”的实验中，研究人员调大了代表“金门大桥”的特征；当一名用户向克劳德索要巧克力蛋糕食谱时，模型给出的配料清单中竟包含“1/4杯干雾”和“1杯温海水”。）

布里肯在采访中提到了谷歌的“Transformer架构”——这是构建神经网络的一套技术方案，目前主流的人工智能模型都以其为基础（ChatGPT中的“T”即代表“Transformer”）。他认为，Transformer架构核心的数学原理，与数十年前彭蒂·卡内瓦在《稀疏分布式记忆》中提出的模型高度相似。

人工智能与人类大脑存在相似性，这值得惊讶吗？毕竟，大型语言模型是人工神经网络，而其研发过程也有心理学家和神经科学家参与。更令人意外的是：当这些模型在反复练习“预测词汇”这种机械任务时，竟开始表现出与大脑相似的行为模式。如今，神经科学与人工智能领域正逐渐交融，大脑研究专家甚至将人工智能当作一种“模式生物”来使用。麻省理工学院的神经科学家埃夫莉娜·费多伦科就利用大型语言模型研究大脑处理语言的机制。她告诉我：“我从没想过自己这辈子能研究这类问题，也从没想过我们能拥有足够先进的模型。”

人们常说人工智能是“黑箱”，但事实或许恰恰相反：科学家可以探测单个人工神经元的活动，甚至对其进行修改。普林斯顿大学神经科学家肯尼斯·诺曼表示：“拥有一个能体现人类智能理论的可运行系统，这是认知神经科学领域的梦想。”诺曼曾构建过海马体（大脑中储存情景记忆的区域）的计算机模型，但过去的模型过于简单，他只能向模型输入对人类思维的粗略模拟数据。他说：“现在，你可以给记忆模型输入与给人类输入的完全相同的刺激信息。”

莱特兄弟在早期研发飞机时曾研究鸟类。他们发现，鸟类会逆风起飞——尽管普通人可能会认为它们应该顺风起飞；鸟类还会调整翼尖来保持平衡。这些发现为他们设计早期滑翔机提供了启发。之后，他们建造了一个6英尺长的风洞，得以在精确控制的条件下测试多组人工机翼。此后，他们的滑翔机飞行实验成功率大幅提升。有趣的是，直到他们成功造出可飞行的机器后，人们才真正弄明白鸟类飞行的原理。

人工智能让科学家得以在“风洞”中研究“思考”本身。Anthropic的研究人员发表过一篇标题颇具争议的论文——《论大型语言模型的生物学属性》。他们观察了克劳德对各类问题的响应过程，并描述了模型中的“电路”——即一系列特征的连锁反应，这些反应共同完成复杂的计算（调用正确的记忆是思考的第一步，而通过“电路”组合和处理这些记忆，或许就是思考的下一步）。

长期以来，对大型语言模型的一项批评是：由于模型必须逐个生成“token”来构成回答，它们无法进行规划或推理。但当你让克劳德为一首诗续写押韵的对句时，模型中的某个“电路”会先确定新句子的最后一个词，以确保押韵，随后再反向推敲整句内容。Anthropic的研究人员认为，这一现象证明他们的模型确实具备规划能力。只要稍加观察，你或许会第一次感觉到：我们能窥见“思维”的内在运作过程。

不过，这种“窥见”需要极大的努力。诺曼告诉我：“我担心的是，人们的态度从‘极度怀疑’一下子变成了‘完全不加防备’。还有很多问题有待解决。”我或许就是诺曼所说的这类人（或许我太容易被《稀疏分布式记忆》与Anthropic模型之间的“相似性”打动）。在过去一两年里，我开始认同杰弗里·辛顿的观点。辛顿近期因在人工智能领域的研究获得诺贝尔奖，他在2020年对记者卡伦·豪表示：“深度学习将无所不能。”

但我们也发现，模型并非越大越好。绘制“模型性能与规模关系”的曲线已开始趋于平缓。要找到模型尚未消化的高质量数据变得越来越难，且计算成本也日益高昂。今年8月，GPT-5发布时，仅实现了小幅改进——这一巨大的失望甚至可能刺破人工智能领域的投资泡沫。当下，我们需要一种“适度的怀疑”：既要正视如今人工智能模型的能力，也不能认为所有难题都已解决。

在这些待解难题中，最关键的或许是：如何设计出能像人类一样高效学习的模型。据估算，GPT-4在训练过程中接触了数万亿个词；而儿童只需接触数百万个词就能流畅表达。认知科学家表示，新生儿的大脑具备某些“归纳偏置”，这些偏置能加速学习过程（当然，大脑本身是数百万年进化的产物——进化过程本身也可视为一种“训练数据”的积累）。

例如，人类婴儿会默认“世界由物体构成”，且“其他生物拥有自己的信念和意图”。当妈妈说“香蕉”时，婴儿会将这个词与妈妈正看着的整个黄色物体关联——而非仅仅关联物体的尖端或果皮。婴儿还会进行“小实验”：这个东西能吃吗？那个东西能扔多远？驱动他们的是欲望、好奇心、挫败感等情绪。儿童总在尝试做略微超出自己能力范围的事。他们的学习之所以高效，是因为这种学习是“具身的”“自适应的”“有意识的”且“持续的”。或许，要真正理解世界，就必须亲身参与其中。

相比之下，人工智能的“体验”极其匮乏，甚至不配被称为“体验”。大型语言模型的训练数据本身已经过高度提炼。加州大学伯克利分校的神经科学家多丽丝·曹告诉我：“我认为这些模型之所以能发挥作用，是因为它们借助了语言的力量。”语言就像“预先咀嚼过的体验”，其他类型的数据则缺乏如此密集的语义信息。哈佛大学认知科学家格什曼提出疑问：“为什么在视频数据推理领域，我们没有看到类似的突破？目前的视觉模型在常识性物理推理方面仍存在困难。”

深度思维公司近期推出的一款模型，能生成“正确混合颜料”“解决迷宫”的视频，但视频中也会出现“杯子撞击后没有碎裂反而弹起”“绳子被揉成一团却形成结”等违背物理规律的画面。曾任职于微软研究院的认知神经科学家伊达·莫门内贾德做过一项实验：她让大型语言模型“虚拟参观”一栋建筑，随后询问模型关于建筑内路线和捷径的问题——这类空间推理对人类而言轻而易举。但除了最简单的场景，人工智能要么答错，要么会编造不存在的路线。她说：“它们真的会规划吗？其实不会。”

在与神经科学家交流的过程中，我能感受到他们的一种担忧：人工智能行业的发展有些操之过急，缺乏深思熟虑。普林斯顿大学认知科学家布伦登·M·莱克告诉我，如果目标是打造与人类智能相当的人工智能，那么“我们目前的训练方式是错误的”。人工智能完成训练后，其神经网络“大脑”就会被“冻结”。即便你告诉模型关于自己的一些信息，它也不会调整内部神经元的连接方式，而是会采用一种简单的替代方案：记录一段文字（比如“用户有一个学步儿童，正在学习法语”），并在你发出后续指令时参考这段记录。

人类大脑则会持续更新自身，关于这一点，有一个精妙的理论：睡眠时，大脑会将部分情景记忆“回放”给新皮层，以完成对新皮层的训练。回放的记忆会在你的高维思维空间中留下“印记”；醒来后，你看待世界的方式会发生细微变化。

人工智能领域已对“飞速进展”产生依赖，且在经济上投入巨大，以至于有时会假装“进步是必然的”“已无科学问题可解”。但科学有一个棘手的特点：它有时会陷入停滞。硅谷或许会将人工智能公司称为“实验室”，将部分员工称为“研究员”，但从本质上讲，该行业的文化是“工程导向”的——即“不管用什么方法，先做出成果再说”。科恩表示：“机器学习领域的研究者很少关注认知科学的历史，更谈不上尊重，这一点令人震惊。”

如今的人工智能模型之所以能成功，得益于数十年前关于大脑的研究发现，但它们与大脑仍有本质区别。哪些差异是“非核心的”，哪些是“根本性的”？每个神经科学研究团队都有自己偏爱的理论，而这些理论如今终于有了验证的可能——这在过去是无法实现的。尽管如此，没人指望能轻易找到答案。普林斯顿大学的诺曼表示，要解决人工智能目前面临的难题，“需要先精准找出模型在哪些方面未能达到我们期望的智能水平，然后针对性地改进。而这一过程，仍需要人类科学家参与。”

20世纪90年代，数十亿美元被投入“人类基因组计划”，人们认为基因测序或许能解决医学领域最棘手的问题：癌症、遗传病，甚至衰老。那是一个充斥着大话与自信的时代——多莉克隆羊诞生，《侏罗纪公园》上映，生物技术崛起，评论界开始讨论“人类是否应该扮演上帝的角色”。但生物学家很快发现，现实远比想象中复杂。我们没有治愈癌症，没有找到阿尔茨海默病或自闭症的病因。我们意识到，DNA只是生命故事的一部分。事实上，有人可能会说，生物学曾一度陷入“基因狂热”——因为我们掌握了研究和理解DNA的技术，便过分关注DNA。

但没人会认为弗朗西斯·克里克错了。1953年，他协助证实了DNA的双螺旋结构，当天他走进剑桥的一家酒吧，宣称自己“发现了生命的奥秘”。他和同事对“揭开生命神秘面纱”所做的贡献，几乎超过任何人。在他们的发现之后的数十年里，科学领域取得了前所未有的丰硕成果，充满活力。“DNA”成为家喻户晓的词汇，每个高中生都知道双螺旋结构。

如今，在人工智能领域，我们再次陷入这样一个“大话与自信并存”的时代。萨姆·奥尔特曼表示，计划筹集5000亿美元，在美国建造名为“星门”的新一代人工智能数据中心集群。人们讨论“超级智能竞赛”时，语气庄重且急迫，这种态度有时显得缺乏依据，甚至有些荒谬。但我猜想，阿莫代伊、奥尔特曼等人之所以发表这种“救世主式”的言论，是因为他们相信：智能的基本原理已经被破解，剩下的只是细节问题。

甚至一些神经科学家也认为，我们已经跨越了一个关键的门槛。普林斯顿大学的尤里·哈森与科恩、诺曼、莱克是同事，他认为神经网络“或许是解释认知的正确模型”。这种观点既让他感到兴奋，也让他不安。他说：“我的担忧与大多数人相反。我担心的不是这些模型与我们相似，而是我们与这些模型相似。”如果通过简单的训练技术，就能让程序表现出人类般的行为，那或许人类并不像我们想象的那样特殊。这是否也意味着，人工智能不仅会在知识层面超越我们，还会在判断力、创造力、洞察力上超越我们——并因此获得超越人类的权力？

令我意外的是，哈森告诉我，他“近来担心我们可能真的会弄明白大脑的运作方式。对人类而言，探寻这个问题或许是一个巨大的错误”。他将人工智能研究者比作20世纪30年代的核科学家：“对这些人来说，这是他们一生中最有趣的时代。与此同时，他们也清楚自己正在研究的东西，可能对人类产生严重影响。但出于求知欲，他们无法停止。”

霍夫施塔特有一本我很喜欢的书，名为《流动的概念与创造性类比：思维基本机制的计算机模型》。上大学时，这本书让我深受触动。它的核心观点是：“何为思考？”这类问题并非单纯的哲学问题，而是有切实答案的。1995年该书出版时，霍夫施塔特和他的研究团队只能隐约指出答案可能是什么。回想这本书，我不禁好奇：看到人工智能研究者或许已经实现了他所渴望的目标——用机械原理解释思考的基本机制，霍夫施塔特会感到兴奋吗？

但在我们的交谈中，他却显得极为失望，甚至恐惧。他表示，当前的人工智能研究“虽然印证了我的许多观点，却也剥夺了人类的独特魅力”。“我年轻时，非常想知道创造力的基础是什么，想了解创造力的机制。这对我来说是一个圣杯。但现在，我希望它能一直是个谜。”或许，思考的奥秘比任何人想象的都要简单——简单到一个高中生，甚至一台机器，都能理解。♦

说明：本号刊发来自各方的文章，是为了获得更全面的信息，不代表本号支持文章中的观点。由于微信公众号每天只能推送一次，无法即时更新，本站目前在腾讯新闻发布最新的文章，每天24小时不间断更新，请收藏以下地址（请完整复制），随时刷新：

https://news.qq.com/omn/author/8QIf3nxc64AYuDfe4wc%3D

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.