千脑智能理论：开启创造机器智能的路线图 | 《千脑智能》|细胞|神经元|皮质柱

分享至

导语

当人们谈论人工智能时，往往热衷于算法优化、模型迭代、算力提升，海量参数的复杂网络仿佛就是人工智能的发展方向。然而，这就是真正的智能吗？计算机科学家与神经科学家杰夫·霍金斯在《千脑智能》中提出了一种关于大脑和智能的理论——千脑智能理论。霍金斯团队发现，大脑使用类似地图的结构来建立一个世界的模型——不仅仅是一个模型，而是成千上万个我们所知道的一切的模型。这一发现为创造机器智能提供了清晰的路线图，将改变我们对大脑和人工智能的未来的理解。

研究领域：人工智能，脑科学

Jeff Hawkins| 作者

廖璐、熊宇轩、马雷| 译者

邓一雪|编辑

自成立之初，Numenta 公司就期望发展一种普适的理论，论述大脑新皮质是如何工作的。神经科学家每年都会发表数千篇论文描述有关大脑的各种细节，却缺乏一条系统的理论将这些细节串起来。我们决定先关注单根皮质柱。皮质柱物理结构复杂，工作方式也很复杂。在不了解单根皮质柱工作方式的情况下 (我在第2章讲过类似分层的模式) ，就探究它为何无序地连接在一起，就如同在对人类一无所知的情况下，研究社会的工作方式一样，这种做法显然毫无意义。

现在，我们对皮质柱的功能已有了很多了解。我们知道了，每根皮质柱都是一个感觉 -运动系统，每根皮质柱都会学习成百上千个物体模型，这些模型都是基于参考系的。一旦我们了解了皮质柱的运行机制，整个新皮质的工作方式就和我们之前所认为的截然不同了。这种新的观点就叫作“千脑智能理论”。

在阐释什么是千脑智能理论之前，我们得先知道它取代了什么。

现有的新皮质理论

在现有的大脑新皮质理论中，最普遍的看法是新皮质就像一个流程图。感觉信息逐步经过处理从新皮质的一个区域传递到下一个区域。科学家称之为特征检测器的一层。人们通常是从视觉的角度来描述这个过程的：视网膜上的每个细胞从图像的某一小部分检测到光的存在，再将光的输入映射到新皮质上。新皮质中最先接收到该输入的区域叫作V1 区。V1区的个神经元只从视网膜的某一小部分接收输入，这就像透过一根吸管看整个世界。

事实表明，V1区的皮质柱并不能识别物体的全貌。这样V1区的功能就具有局限性了，它只能检测微小的视觉特征，如某张图片局部的线条、边界等。接着，V1 区的神经元将这些特征传递到新皮质的其他区域。下一个视觉区叫作V2，它把从 V1 区接收的简单信息聚合成更复杂的特征，如角点或弧形。这个过程会在更多区域中重复更多次，直到神经元能够理解整个物体。有种设想认为，从简单特征到复杂特征再到整个物体的这个过程，在触觉和听觉中同样适用。这种认为新皮质是特征检测器的一层的理论已盛行了半个多世纪。

该理论最大的弊端在于认为视觉是个静止的过程，就像拍一张照片一样，但事实并非如此。眼睛每秒会快速转动约三次 (扫视) 。每次扫视时，眼睛传递到大脑的信息完全不同。我们每次向前走或左右摇头时，视觉输入也会改变。特征检测器理论则忽略了这些变化，认为视觉输入似乎就是一次拍一张照片，然后再给照片贴个标签。哪怕是随意的观察也表明，视觉是个互动的过程，依赖移动。例如，要了解一个新的物体长什么样，我们需要把它握在手里，不断旋转，从不同角度来观察它的样子。只有通过移动，新皮质才能学习一个物体的模型。

许多人之所以会忽略视觉动态的一面，原因之一是，我们有时不移动眼睛就能识别出图像，如在显示屏上短暂闪过的图片，但这只是一个特例，并不普遍。正常情况下，视觉是主动的感觉 - 运动过程，不是静态过程。

对于触觉和听觉，感觉 - 运动过程的重要作用体现得更为明显。如果有人将一个物体放在你张开的手上，除非动一动手指，否则你将无法识别出它是什么。同理，听觉也是一个动态过程。不仅听觉内容 (如口语会话) 是由随时间变化的声音定义的，当我们聆听时，我们也会移动头部主动完善所听到的内容。目前尚不清楚特征层次理论是如何应用于触觉和听觉的。对于视觉层面，你至少可以想象大脑正在处理类似图片的图像，但对于触觉和听觉，就没什么可类比的了。

有很多其他研究表明，特征层次理论需要进一步完善。以下几个缺点均与视觉相关：

• 第一和第二视觉区(V1 和 V2)是人类新皮质中最大的区域。它们在大脑中所占面积比其他可识别完整物体的视觉区要大得多。为什么检测数量有限的小特征比识别数量多且完整的物体需要更多的大脑区域？在某些哺乳动物 (如老鼠) 中，这种失衡情况更为严重。老鼠的 V1 区占据了整个大脑新皮质的很大一部分。相比之下，老鼠大脑中的其他视觉区占比都很小，就好像老鼠几乎所有的视觉行为都发生在 V1 区中。

• 当研究人员将图像投射到被麻醉的动物眼前并同时记录 V1 区神经元的活动时，发现了 V1 区的特征检测神经元。他们发现，神经元在检测到一些简单的特征时，如检测到图片中一小部分的边缘时，会变得异常活跃。由于神经元仅在很小的区域内对简单的特征做出反应，研究人员认为完整的物体必然是在其他区域被识别出来的，从而引出了特征层次模型。但在这些实验中，V1 区的大多数神经元并没有对任何明显的物体做出反应，它们可能会不时地发射脉冲，或者连续发射脉冲，一段时间后停止。大多数神经元无法用特征层次理论来解释，因而它们大多被忽略了。但 V1 区所有无法解释的神经元一定发挥着重要的作用，而不仅仅是特征检测。

• 当眼睛从一个注视点扫视到另一个注视点时，V1 区和 V2 区的一些神经元的某些行为引起了研究人员的注意。在视线移到新的注视点之前，这些神经元似乎就知道它们将会看到什么。尽管视觉输入还没有进入视野，这些神经元就已经变得活跃起来，仿佛它们已经可以看到新的视觉输入。发现该现象的科学家非常震惊。这一现象表明， V1 区和 V2 区的神经元不只了解物体某一小部分的知识，还能知道它们即将看见的整个物体的知识。

• 视网膜的中央比边缘有更多的光感受器。我们可以将眼球想象成一个拥有鱼眼镜头的照相机。实际上，视网膜的某些部分没有光感受器，例如，眼球中视神经穿过的地方和视网膜中血管穿过的地方，会形成盲点。因此，我们并不能将新皮质的视觉输入简单类比为一张照片。真正的视觉输入就好比由高度变形的、不完整的图块铺成的毯子。然而，我们并没有意识到这种变形和缺失的部分，因为我们所感知的世界是一致且完整的。特征层次理论并不能解释上述现象，我们将该问题称为“绑定问题” (binding problem) 或“感官融合问题” (sensor-fusion problem) 。更通俗点来说，绑定问题探究的是：来自不同感官的信息分散在新皮质的各处，且伴有各种各样的变形，这些信息是怎样融为我们所体验到的单一且完整的知觉的？

• 正如我在第 1 章中所指出的，尽管新皮质各功能区之间的某些连接呈现流程图式逐步分层的结构，但大多数连接并非如此。例如，低层次的视觉区和低层次的触觉区之间也存在连接。但从特征层次理论的角度来看，这些连接并没有什么意义。

• 尽管特征层次理论可能解释了新皮质识别图像的机制，却无法解释我们如何学习物体的三维结构、物体如何由其他物体组合而来，以及物体如何随着时间的推移而发生变化等。此外，特征层次理论也无法解释我们如何想象出某个物体旋转或发生变形后的样子。

既然特征层次理论存在上述矛盾和缺点，为什么这一理论仍得到了广泛应用呢？我们总结出了以下 4 种原因：(1)该理论与大量的观察数据相符，尤其是很久以前收集的数据；(2)该理论存在的问题随着时间的推进慢慢积累，这导致人们很容易将一些新出现的问题当作小问题，从而忽略；(3)这是我们迄今为止所建立起来的最好的理论，既然没有更好的理论可以替代它，那就只能使用它；(4)该理论并非完全错误，只不过我们需要进行大量修正，本章后续部分将对此展开讨论。

参考系下的新皮质理论

我们关于皮质柱存在参考系的观点，为探究新皮质的工作方式提供了一种全新的思路。我们认为，所有皮质柱，即使是低层次的感觉区的皮质柱，都能够学习和识别完整的物体。一个只感知到物体一小部分的皮质柱可以通过长期整合其输入来学习整个物体的模型，就像我们通过访问一个又一个地点来了解一个新的城市一样。因此严格来说，学习物体的模型并不需要皮质区的层次结构。我们的理论解释了老鼠的视觉系统大多只有一层，它为何能看到并识别出世界上的物体。

新皮质中有许多针对具体某个物体的模型。这些模型位于不同的皮质柱中。它们并非完全相同，而是互为补充。例如，一个从指尖获得触觉输入的皮质柱，可以学习一个手机的模型，包括手机的形状、手机表面的纹理，以及手机按钮在按下时如何移动；一个从视网膜获得视觉输入的皮质柱也可以学习一个手机的模型，包括手机的形状。但是，与从指尖获得输入的皮质柱不同，从视网膜获得输入的皮质柱所学习的模型还包括手机不同部分的颜色以及屏幕上的图标在使用过程中的变化。视觉皮质柱无法学习电源开关的凹陷，触觉皮质柱无法学习图标在显示屏上的变化。

任何单独的皮质柱都不可能学习世界上每个物体的模型。首先，单根皮质柱能够学习多少物体是有限制的。我们还不知道这个范围有多大，但我们的模拟研究表明，单根皮质柱可以学习数百个复杂的物体。这比你所知道的物体的数量要少得多。其次，一根皮质柱所学习的东西受到其输入的限制。例如，一根触觉皮质柱不能学习云朵的模型，一根视觉皮质柱也无法学习旋律的模型。

即使在一个单一的感觉模态中，如视觉，皮质柱也会得到不同类型的输入，并学习不同类型的模型。例如，有些视觉皮质柱获得色彩输入，而有些皮质柱则获得黑白输入。又或者，V1 区和 V2 区的皮质柱都获得了来自视网膜的输入。 V1 区的皮质柱从视网膜中一个非常小的区域获得输入，就像它是通过一根细细的吸管看世界一样。 V2 区的皮质柱从视网膜中一个更大的区域获得输入，就像它是通过一根更宽的吸管看世界一样，但看到的图像更模糊。现在想象一下，你正在阅读你能看清的最小字号的文本。我们的理论表明，只有 V1 区的皮质柱能够识别最小字号的字母和单词，透过 V2 区看到的图像太模糊了。当我们调大字号时，V2 区和 V1 区都能识别该文本。如果字号继续变大，那么 V1 区就更难识别文本，但 V2 区仍能识别。因此，V1 区和 V2 区的皮质柱也许都能学习物体的模型，如字母和单词，但模型因大小比例不同而不同。

大脑中的知识存储在哪

大脑中的知识是分布式存储的。所有知识都不会只存储在一个地方，如存储在一个细胞或皮质柱中，也没有像全息图那样在任一地方存储所有东西。关于一个物体的知识会分布在成千上万根皮质柱中，但这只是所有皮质柱中的一小部分。

再来想想咖啡杯。大脑中关于咖啡杯的知识存储在哪里呢？视觉区中有许多皮质柱，它们从视网膜接收信息。每根皮质柱都会观察杯子的一部分，并学习杯子的模型，再尝试识别它。同样，如果你握住杯子，那么新皮质触觉区中的数十种到数百种模型都会活跃起来。没有单一模型的咖啡杯。你对咖啡杯的了解存储在成千上万个模型中，即存储在成千上万根皮质柱中，但这些仍然只占新皮质中所有皮质柱的一小部分。这就是我们称其为“千脑智能理论”的原因：关于任何特定物体的知识都分布在成千上万个互补的模型中。

打个比方，现在有一座住着 10 万居民的城市。这座城市有一套由管道、泵、水箱和过滤器组成的输水系统，可以为每家每户输送干净的水。这套输水系统需要通过维护来保持良好的工作状态。关于如何维护输水系统的知识存储在哪里呢？如果只有一个居民知道这些知识，这种做法显然并不明智，但让每个居民都知道这些知识又不切实际。解决方案是，将这些知识“分散”传授给很多人，但人数也不要过多。在这种情况下，我们假设水利部门有 50 名员工。借着这个比喻，我们假设输水系统有 100 个小部分，即 100 个泵、阀门、水箱等，而水利部门50 名员工中的每个人都知道如何维护和修理不同但相互之间存在重叠的 20 个部分。

那么，关于输水系统的知识存储在哪里呢？这 100 个部分中的每一部分都会有大约 10 个不同的人知道。即使有一天有一半的员工请了病假，还是很可能会有大约 5 个员工来修理任一特定的部分。每个员工可以独自维护和修理 20% 的输水系统，无须监督。关于如何维护和修理输水系统的知识分配给了一小部分居民，这些知识分配能够防止员工的大量流失造成的损害。

请注意，水利部门可能会有一些监管制度，但阻止任何自主权的实施或将所有知识只分配给一两个人都是不明智的。当知识和行动广泛分布在许多但不是太多的元素中时，复杂系统的工作效果就能达到最好。

大脑系统就是这样工作的。例如，神经元从不依赖单个突触，相反，它可能需要30 个突触来识别一个模式。这样一来，即使其中 10 个突触失效，神经元仍然能够识别这种模式。神经元网络的工作从不依赖单个细胞。在我们创建的模拟网络中，即使损失 30% 的神经元，对网络功能的影响通常也很小。与此类似，新皮质并不依赖单根皮质柱。即使脑卒中或创伤摧毁了大脑中的数千根皮质柱，大脑也能继续工作。

因此，我们不应该对大脑不依赖任何物体的单一模型感到惊讶。我们对物体的知识分布在数千根皮质柱中。这些皮质柱不是多余的，也不是彼此的副本。最重要的是，每一根皮质柱都是一个完整的感觉 - 运动系统，就像水利部门的每个员工都能够独自修理供水基础设施的某些部分一样。

大脑中的“投票”机制

如果我们拥有上千种模型，为什么还能获得某一种感知？当我们举起一个咖啡杯，仔细端详它，为什么我们会感觉它是一个物体，而不是上千个物体？如果我们将杯子放在桌子上，发出声音，那么声音如何与咖啡杯的外形和触感结合在一起？换句话说，我们的感觉输入如何被绑定到某种单一的知觉上？科学家一直假设，大脑新皮质的各种输入一定会汇聚到大脑中的单个地方，人们会在这个地方感知到咖啡杯之类的东西。这个假设也是特征层次理论的一部分。然而，大脑新皮质中的连接并非如此。这些连接会向四面八方延伸，不会汇聚到同一个位置。这也正是“绑定问题”悬而未决的原因之一。在这里，我们提出了一种可能的解释：皮质柱会进行“投票”，即感知是皮质柱通过投票达成的共识。

让我们回顾一下以纸质地图做类比的例子。你有一组不同小镇的地图，这些地图会被切割成一些小方格，然后混在一起。假设你在某个未知的地点下车，看到了一家咖啡店。如果你在多个地图方格上找到了看上去相似的咖啡店，你就无法得知自己身处何方。如果 4 个不同的小镇上都有相似的咖啡店，那么你肯定处于这 4 个小镇中的一个，但你并不能确定自己究竟在哪一个小镇中。

现在，假设有 4 个人也和你一样。他们也拥有这些小镇的地图，并且与你在同一个小镇下车，但是他们的下车地点是随机且不同的。和你一样，他们并不知道自己身处哪个小镇。他们摘下眼罩四处张望。其中一个人看到了一个图书馆，在查阅地图方格后，他发现有 6 个小镇都有图书馆。另一个人看到了一个玫瑰花园，而他发现 3 个不同的小镇都有玫瑰花园。另外两个人也经历了类似的境遇。没有人知道自己身处哪个小镇中，但是他们都为自己可能身处的小镇做了一个列表。然后，所有人会进行投票。你们 5 个人的手机上都有一个应用程序，这个应用程序上列出了你们可能会在的小镇和地点。每个人从应用程序中都可以看到其他人的列表。投票结果显示，只有 9 号小镇同时出现在了每个人的列表中，因此所有人都知道了自己身处 9 号小镇。简而言之，通过对比每个人可能身处的小镇列表，找出同时出现在每个人列表上的小镇，就会立刻知道自己究竟身处哪个小镇。我们将这个过程称为“投票”。

在这个例子中，这 5 个人就好比 5 个触碰到某个物体不同位置的手指。它们无法独自确定触碰到的是什么物体，但如果将它们的感知合在一起就可以确定该物体了。如果你仅用一根手指触碰某物，你就必须在物体上移动手指，才能识别该物体。但是，如果你用整只手抓住这个物体，你就可以立即识别出来。在大多数情况下，使用 5 根手指完成任务比仅使用一根手指需要的动作更少。与此类似，如果你透过一根吸管观察某个物体，你就不得不通过移动这根吸管才能识别该物体。但是如果你观察这个物体时视野开阔，通常你就可以在不需要移动的情况下识别该物体。

我们回到前面的例子中。想象一下，在镇上下车的 5 个人中，有一个人只具有听觉，这个人的地图方格上标有在每个地点他会听到的声音。每当听到喷泉声、树上的鸟鸣声，或是从酒吧传来的音乐声，他就会在地图上标出可能听到这些声音的地方。同样，如果有两个人只具有触觉，他们的地图上就标有在不同地点可能会有的触感。最后的两个人只具有视觉，他们的地图方格上标有在每个地点可能会看到的东西。所以这 5 个人具有了三种不同的知觉：视觉、触觉、听觉。 5 个人都可以感知到某些事物，但他们并不能确定自己身处哪个小镇中。于是，他们决定通过投票解决这个问题。这里的投票机制与我在前文中的描述完全相同，他们只需找出同时出现在每个人列表上的小镇，其他细节都无关紧要。可见，“投票”在感官模式的情况下也有效。

请注意，你并不需要十分了解其他人。你无须知道他们拥有哪种知觉，也不需要知道他们有多少张地图。你不需要知道他们地图上的方格比你多还是少，不需要知道他们的地图方格代表更大的区域还是更小的区域，也不需要知道他们是怎样移动的。也许，有些人可以跳过方格，而有些人只能沿对角线移动。这些细节都无关紧要，只需每个人将他们认为自己所处小镇的列表分享出来就可以了。皮质柱中的投票机制解决了“绑定问题”，该机制使大脑可以将各种感觉输入结合起来，形成对所感知事物的单一表征。

当你手握某个物体时，表征手指的触觉皮质柱还会共享另一种信息——手指之间的相对位置，这使我们更容易知道手指触摸的是什么。假设这“5名探险者”在某个未知的小镇下车。他们很有可能会看到在许多小镇中都存在的地点，例如两家咖啡店、一个图书馆、一个公园以及一个喷泉。通过投票，他们可以排除所有不具备这些特征的小镇。由于具备所有上述 5个地点的小镇有若干个，所以这些“探险者”仍然不知道自己究竟身处何方。如果这“5 个探险者”知道各自的相对位置，那么他们就可以排除所有相对位置信息中不具备这些特征的小镇。我们猜想，某些皮质柱之间也会共享相对位置的信息。

投票是融合在大脑中完成的

回想一下，皮质柱中的大多数连接在各层之间上下移动，主要停留在皮质柱的边界内。这条规则有一些众所周知的例外。某些层中的细胞将轴突发送到新皮质内非常远的地方。这些细胞可能会将轴突从大脑的一侧发送到另一侧，例如，在分别代表左右手的两个脑区之间，或者，它们可能会将轴突从初级视觉区 V1 发送到初级听觉区 A1 。我们认为，这些具有长距离连接的细胞在进行投票。

只有特定的某些细胞进行投票才有意义。皮质柱中的大多数细胞无法表征可以投票的那类信息。例如，一根皮质柱的感觉输入不同于其他皮质柱的感觉输入，因此接收这些感觉输入的细胞不会投射到其他皮质柱。但是那些表征正在感知的物体的细胞可以投票，并且将被广泛地投射到其皮质柱。

关于皮质柱是如何进行投票的这个基本想法其实并不复杂。使用远程连接，皮质柱能广泛传递它对正在观察的东西所做出的猜测。皮质柱通常具有不确定性，在这种情况下，它的神经元会同时发送多种可能性。同时，该皮质柱接收来自其他皮质柱的映射，这些映射表示来自这些皮质柱的猜测。最常见的猜测会胜过最不常见的猜测，直到整个网络确定一个答案。令人惊讶的是，皮质柱不需要将其投票发送给其他每一根皮质柱。即使远程轴突连接到的是一个很小的、其他皮质柱随机选择的分支神经元，投票机制也能很好地工作。投票也需要一个学习阶段。在已发表的论文中，我们描述了软件模拟过程，从而显示学习如何发生以及投票如何快速且可靠地进行。

稳定的感知

皮质柱投票解释了有关大脑的另一个奥秘：为什么当大脑的输入发生变化时，我们对世界的感知似乎依然是稳定的？当我们的眼睛扫视时，新皮质的输入会随着每次眼动而改变，因此活跃的神经元也一定会改变。然而我们的视觉感知却是稳定的。当我们的眼睛转动时，呈现在我们眼前的世界似乎并没有跳动。大多数时候，我们完全不会意识到我们的眼睛在转动。触觉也会产生类似的感知稳定性。想象一下桌子上有一个咖啡杯，你正用手握住它，你在感知这个杯子。现在你漫不经心地在杯子上移动了手指。当你这样做时，新皮质的输入会发生变化，但你依然会感觉杯子是稳定的。你并不会认为杯子在变化或移动。

那么，为什么我们的感知是稳定的？为什么我们没有意识到来自皮肤和眼睛的输入的变化呢？识别物体意味着各根皮质柱会进行投票，然后就它们所感知到的物体达成一致。每根皮质柱中的投票神经元都会形成一个稳定的模式，表征物体和它与你的相对位置。投票神经元的活动并不会随着你的眼睛和手指的移动而改变，只要它们感知的是同一个物体即可。每根皮质柱中的其他神经元会随着感官移动而变化，但表示物体的投票神经元则不会。

如果你能俯视新皮质，你会在一层细胞中看到一种稳定的活动模式。这种稳定性扩展的面积非常大，会覆盖数千根皮质柱，这些是投票神经元细胞。其他层中细胞的活动将在每根皮质柱中快速变化。我们所感知到的信息基于稳定的投票神经元。来自这些神经元的信息会广泛传递到大脑的其他区域，在那里转化为语言或存储在短期记忆中。我们不会自发意识到每一根皮质柱中不断变化的活动，因为它停留在皮质柱内并且无法传递到大脑的其他部分。

为了阻止癫痫发作，医生有时会切断患者新皮质左右两侧的连接。手术后，这些癫痫患者就像拥有了两个大脑一样。实验表明，大脑的左右两侧具有不同的想法，会得出不同的结论。皮质柱投票机制可以解释这种情况产生的原因。左右两侧的新皮质之间的连接用于投票，当它们被切断时，双方就失去了投票的通道，所以它们各自会得出不同的结论。

一直处于活跃状态的投票神经元数量很少。如果你是一名科学家，观察负责投票的神经元时，你可能会发现有 98% 的细胞处于静止状态，只有 2% 的细胞处于持续活跃状态。皮质柱中其他细胞的活动会随着输入的变化而变化。你会很容易将注意力集中在不断变化的神经元上，而忽略了投票神经元的重要性。

大脑想要达成共识。你以前可能见过图 7-1 中的这张图片，你从中既可以看到一个花瓶，也可以看到两张人脸。在这样的例子中，皮质柱无法确定哪个是正确的物体。就好像它们有两个小镇的两张不同的地图，但至少在某些地点，这两张地图是相同的。“花瓶小镇”和“面孔小镇”是相似的。投票层想要达成共识，它能使两个可能的物体同时处于活动状态，所以它会选择其中一种。你可以感知到人脸或花瓶，但不能同时感知到两者。

图7-1：人脸 / 花瓶

大脑的注意力

人的感官部分受阻是很常见的，例如，当你看着站在车门后面的人时，虽然你只看到了半个人，但你知道一个完整的人站在门后。看到人的皮质柱会进行投票，然后确定这个物体是一个人。投票神经元投射到输入被遮挡住的皮质柱，现在每根皮质柱都知道车门后有人。即使是被挡住的皮质柱也可以预测如果没有车门它们会看到什么。

片刻之后，我们会将注意力转移到车门上。就像“人脸 / 花瓶”这张图片一样，信息输入也会有两种。我们的注意力可以在“人”和“车门”之间来回转移。每次转移，投票神经元都会选择不同的物体。我们会感知到两种物体都在那里，即使一次只能关注其中一个。

大脑可以关注视觉场景中较小或较大的部分。例如，我们可以关注整个车门，我们也可以只关注车把手。大脑究竟是如何做到这一点的，我们目前还不清楚，但它涉及大脑中被称为丘脑的部分，丘脑与新皮质的所有区域紧密相连。

注意力在大脑学习模型中起着至关重要的作用。在你度过每一天时，你的大脑会快速且不断地关注不同的事情。例如，当你阅读时，你的注意力会集中在一个个文字上。当你看着一座建筑物时，你的注意力从整个建筑物转移到窗户、门、门闩，再回到门等。我们认为，每当你注意一个不同的物体时，你的大脑会确定该物体相对于之前关注的物体的位置。这是一个自发的过程，是注意力集中过程的一部分。例如，我进入餐厅，我可能会先看到其中一把椅子，然后再看到桌子。我的大脑先识别出一把椅子，然后识别出一张桌子。但是，大脑也会计算椅子与桌子的相对位置。当我环顾餐厅时，大脑不仅在识别房间里的所有物体，而且在确定每个物体相对于其他物体和房间本身的位置。只需环顾四周，大脑就会创建一个房间模型，其中包括我注意到的所有物体。

你所学习的模型通常是临时的。假设你在餐厅坐下来与家人共进晚餐。你环顾整个餐桌，看到各种各样的菜肴。然后我请你闭上眼睛告诉我，土豆在哪里。你几乎肯定能够做到这一点，这证明你在环顾餐桌的短时间内学习了餐桌模型及其内容。几分钟后，在圆桌上的菜被转了一圈之后，我请你闭上眼睛，再次指向土豆。这时你将指向一个新的位置，即你最后一次看到土豆的位置。这个例子要说明的一点是，我们会不断地学习我们感知到的一切事物的模型。如果模型中的特征排列保持固定，比如咖啡杯上的标志，那么该模型可能会被大脑记住很长时间。如果特征的排列发生变化，比如餐桌上的菜肴，那么相应的模型就是临时的。

新皮质永远不会停止学习模型。每一次注意力的转移，无论你是在环顾餐桌上的菜肴、走在街上，还是注意到咖啡杯上的标志，都在为学习某物的模型添加一项新的信息。无论模型是短暂的还是持久的，学习的过程都相同。

千脑智能理论中的层次结构

几十年来，大多数神经科学家都坚持特征层次理论，这是有充分理由的。这个理论虽然存在许多问题，但是拟合了很多数据。我们的理论提出了一种思考新皮质的全新视角。千脑智能理论认为，新皮质区的层次结构并不是绝对必要的。老鼠的视觉系统证明，即使是单个皮质区也可以识别物体。那么，究竟哪种理论是正确的呢？新皮质是按层次组织还是由数千个模型投票以达成共识的呢？

新皮质的解剖结构表明，两种类型的连接都存在。我们如何理解这一点呢？千脑智能理论提出了一种不同的方式，来思考与层次模型和单一皮质柱模型兼容的连接。我们指出，在层次之间传递的是完整的物体，而不是特征。新皮质并非使用层次结构将特征聚合成所识别的物体，而是使用层次结构将物体聚合成更复杂的物体。

我在前文中讨论了层次结构。回想一下侧面印有标志的咖啡杯的例子。我们通过关注杯子，然后关注标志来学习这样一个新物体。标志也由物体组成，如图形和文字，但我们不需要记住标志的特征相对于杯子的位置。我们只需要学习标志参考系与杯子参考系的相对位置。有关这个标志的所有细节特征就都包含在内了。

这就是大脑学习整个世界的方式：作为相对于其他物体定位的物体的复杂层次结构。新皮质究竟是如何做到这一点的，我们目前仍不清楚。例如，我们猜想一定数量的分层学习发生在每一根皮质柱内，但肯定不是全部，某些学习将由各脑区之间的分层连接处理。单根皮质柱中发生了多少分层学习，以及区域之间的连接中又发生了多少，我们还不了解，但我们正在尝试攻克这个难题。想要找出答案，我们需要更好地理解注意力，这一点几乎是肯定的，这也正是我们研究丘脑的原因。

在本章前面部分，我列出了普遍持有的观点，即认为新皮质是特征检测器的层次结构这一观点中存在的问题。让我们再看一遍那个列表，这次从移动的基本作用开始，讨论千脑智能理论如何解决每个问题。

• 千脑智能理论本质上是一种感觉 - 运动理论。它解释了我们如何通过移动来学习和识别物体。重要的是，它还解释了为什么我们有时可以在不移动的情况下识别物体，例如当我们在屏幕上看到一个简单的图像或用所有手指抓住一个物体时。因此，千脑智能理论是层次模型的扩展。

• 灵长目动物的 V1 区和 V2 区相对较大，而小鼠的 V1 区特别大，这在千脑智能理论看来是有意义的，因为每一根皮质柱都可以识别完整的物体。与现今许多神经科学家的观点相反，千脑智能理论认为，我们的大部分视觉行为都发生在 V1 区和 V2 区。主要和次要触觉相关区域也比较大。

• 千脑智能理论可以解释神经元如何在眼睛仍在移动时知道其下一个输入将是什么。理论上，每一根皮质柱都拥有完整物体的模型，因此知道在物体的每个位置会感知到什么。如果皮质柱知道其输入的当前位置以及眼睛如何移动，那么它就可以预测新位置以及它将在那里感知到什么。这与你查看小镇地图并预测如果你开始朝特定方向行走会看到什么是一样的。

• 绑定问题基于这样一个假设，即新皮质对世界上的每个物体都有一个单一的模型。而千脑智能理论认为，世界上的每个物体都有数千个模型。大脑的各种输入不会被绑定或聚合成单个模型。皮质柱具有不同类型的输入，一根皮质柱代表视网膜的一小部分，而另一根皮质柱代表更大的部分，这些因素都无关紧要。视网膜有没有洞，就像你的手指之间有没有缝隙一样，都不重要。投射到 V1 区的模式可能会被扭曲和混淆，这也无关紧要，因为新皮质的任何一部分都不会试图重新组合这种混乱的表征。千脑智能理论的投票机制解释了为什么我们有一个一致而并不扭曲的感知。它还解释了在一种感觉模态中识别物体是如何导致在其他感官模式中进行预测的。

• 千脑智能理论展示了新皮质如何使用参考系学习物体的三维模型。图 7-2 是另一个小的证据。它是印在平面上的一组直线。没有消失点，没有汇聚线，也没有逐步减弱的对比来暗示深度。然而，如果不将其视为一组三维楼梯，你就无法查看此图。你所观察到的图片本身是二维的并不重要，重要的是你大脑新皮质中的模型是三维的，这就是你所感知到的内容。

图 7-2 三维楼梯

大脑是很复杂的。有关位置细胞和网格细胞如何创建参考系、学习环境模型和规划行为的细节比我描述的更为复杂，并且我们也只能了解其中的一部分。我们认为新皮质使用的是类似的机制，这些机制同样复杂，而且人们对它的了解更少。对于像我们这样的实验型神经科学家和理论家来说，这是一个值得积极研究的领域。

要想进一步讨论这些主题和其他主题，我就不得不介绍神经解剖学和神经生理学的其他细节，这些细节既难以描述，而且对于理解千脑智能理论来说没那么重要。因此，我们已经到达了一个边界，即本书探索的内容结束的边界，以及科学论文的内容开始的边界。

在介绍这本书时，我说过大脑就像一个拼图游戏。我们有数以万计关于大脑的事实信息，每一个都像一块拼图。但是没有理论框架，我们就不知道该怎么拼这个拼图。在没有理论框架的情况下，我们能尽力做到的就是将几个拼图拼在一起。千脑智能理论便是一个框架，有了这个框架后，我们就像完成了拼图的边界并知道了整体的画面是什么样子。在我写这本书的过程中，我们已经完成了拼图内部的一些部分，而许多其他部分还没有完成。尽管还有很多东西，但我们的任务现在更简单了，因为有了正确的框架后，我们可以更清楚地知道哪些部分有待填充。

我不想给你留下错误的印象，即我们了解了新皮质所做的一切，相反，我们所掌握的信息还远远不够。总而言之，关于大脑，尤其是新皮质，我们不了解的东西还很多。然而，我并不认为会有另一个系统性的理论框架，以一种不同的方式来填充拼图的边界部分。随着时间的推移，理论框架会得到逐步修改和完善。我预计千脑智能理论也会如此，但我相信，我在本书中提出的核心思想将大体保持不变。

结束本章和本书的第一部分之前，我想和你说说我见到芒卡斯尔那个故事的剩余部分。回想一下，我在约翰斯·霍普金斯大学做了一次演讲，结束时我见到了芒卡斯尔和他的系主任。不久，我要去赶飞机，因此我们说了再见，外面有一辆车正在等我。当我走出办公室时，芒卡斯尔拦住了我，把手放在我的肩膀上，用一种“给你一些建议”的语气说：“你应该停止谈论层次理论，它实际上并不存在。”

我惊呆了。芒卡斯尔当时是世界上最著名的研究新皮质的专家，他告诉我，新皮质经过最多研究同时也是最大的一个特征并不存在。我很惊讶，就好像克里克本人对我说：“哦，那个 DNA 分子，它并没有真正编码你的基因。”我不知道该怎么回答，所以我什么都没说。在去机场的路上，坐在车里时，我试图理解临别时他对我说的那句话。

如今，我对新皮质层次理论的理解发生了巨大的变化，这些层次比我曾经想象的要少得多。芒卡斯尔当时知道这一点吗？他说层次理论真的不存在有理论依据吗？他是在思考一些我不知道的实验结果吗？他于 2015 年离开这个世界，而我永远也无法从他那里得到答案了。在他去世后，我重读了他的许多书和论文。他的思想和写作总是很有见地。他在1998年出版的《感知神经科学：大脑皮质》 (Perceptual Neuroscience：The Cerebra Cortex) 是一本装帧很精美的书，至今仍是我最喜欢的介绍大脑的图书之一。当我回想起那天，我本可以选择误机，与他进一步交流。更重要的是，我多么希望我现在就能和他聊一聊。我相信，他会喜欢我向你们描述的理论的。

现在，我想把注意力转向千脑智能理论将如何影响我们的未来上。

作者简介

杰夫·霍金斯（Jeff Hawkins）

科技界一代传奇，美国著名发明家、计算机科学家和神经科学家，于2003年当选美国国家工程院院士。Palm掌上电脑创始人，Numenta公司创始人。多年来深耕对大脑的探索，致力于解释大脑是如何工作的。他认为只有把人类智能弄明白，才能制造出像人类大脑一样工作的机器智能，著有《千脑智能》《新机器智能》。

神经动力学模型读书会

为了促进神经科学、系统科学以及计算机科学等多领域学术工作者的交流合作，吸引更多朋友共同探索脑科学与类脑研究，周昌松、臧蕴亮、杨冬平、郭大庆、陈育涵、曹淼、刘泉影、王大辉、刘健、王鑫迪等来自国内外多所知名高校的专家学者在集智俱乐部共同发起「」读书会，历时四个月研讨，近日圆满结束。

本季读书会形成了聚集500+成员的神经动力学社区，积累了40+小时综述、解读、研讨的视频记录，以及多篇社区成员总结的词条、笔记、翻译、科普资料等。现在报名加入读书会，即可加入社区交流讨论（微信），并解锁相关视频、文本资料。我们对脑的探索才刚刚起航，欢迎你一道参与，共同点亮更多脑科学研究的岛屿！

详情请见：

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.