![]()
人类正处于一场范式革命之中。
范式转变往往伴随着阵痛。新观念与旧世界观相容时,人们欣然接受;而二者相悖时,人们便心生抵触。地心说就是一个经典案例。该学说由托勒密(Ptolemy)的“本轮说”进一步完善,认为太阳、月亮、行星和恒星围绕着静止不动的地球运转。这种认知既符合直觉又顺应宗教传统,曾被视为重大科学成就,主导了人类近2000年的宇宙观。因此,哥白尼的“日心说”虽然是科学进步的标志,更是备受争议的“异端邪说”。正如本杰明·布拉顿(Benjamin Bratton)所言,“日心说”之于某些人甚至造成了存在主义层面的精神创伤。如今,人工智能(AI)已再度掀起认知风暴。
本文将阐述五大范式转变。它们互相关联,共同影响着AI的发展:
自然计算——早在人类制造出第一台“人工计算机”之前,计算就已然存在于自然界。将计算视为一种自然现象,不仅能推动计算机科学和AI迭代,还将促使物理学和生物学革新。
神经计算——人类大脑正是自然计算的绝佳典范。通过重构驱动AI的计算机系统,使其更接近大脑的工作机制,将大幅提升AI的能效水平,同时解锁其潜能。
预测智能——大语言模型(LLM)的成功向我们揭示了智能的本质特征:它建立在不断演进的知识、观察和历史反馈之上,是对未来(包括自身未来行为)的统计建模。这意味着,当前AI模型的设计、训练与运行之间的界限只是暂时性的,更先进的AI将像人类一样,以持续、互动的形式不断进化、成长和学习。
通用智能——智能的实现未必需要基于生物的计算。AI模型仍将稳步升级,但它们现阶段的能力已经相当全面,能够处理日益多样化的认知任务。其技能水平可以比肩人类个体,在某些情况下甚至更胜一筹。从这种意义上说,“通用人工智能”(AGI)或许已然到来,只是我们在反复更改衡量标准。
集体智能——人类大脑、AI智能体和社会系统都可以通过扩展规模而变得更强大,但仅有规模是不够的。智能本质上是社会性的,由多个智能体的协作分工所驱动。这一认知促使我们重新思考人类(或“超越人类”)智能的本质,更指明了AI发展的新路径:通过社会化智能集群与多智能体协同架构,可以降低计算成本、增加AI多样性,并为AI安全议题提供新视角。
或许在AI时代,最大的“哥白尼式”冲击则在于,我们可能将不得不接受非人类通用智能会如此般司空见惯。但要理解人类的“智能地心说”,首先必须重新审视计算的本质。因为计算不仅是AI的基础,更是一切智能形式的根基。接下来,本文将就此展开论证。
![]()
![]()
▷Blaise Agüera y Arcas(左)是Google副总裁兼研究员,技术与社会的首席技术官,也是智能范式团队(Paradigms of Intelligence)的创始人。他的新书《何为智能》(What Is Intelligence?)于9月将由Antikythera和Mit Press发布。
James Manyika(右)是谷歌-字母表(Google-Alphabet)的高级副总裁,同时担任谷歌研究、实验室、技术与社会部门的总裁。他曾担任美国国家人工智能咨询委员会的副主席,以及联合国秘书长人工智能咨询机构的联合主席。
自然计算
“计算机科学”算得上是一门科学吗?通常来说,它更多地被视为一门工程学科,诞生于二战时期的电子数字积分计算机(ENIAC)。ENIAC是人类历史上第一台完全可编程的通用电子计算机,也是你手中那部智能手机的远祖。
不过,计算机理论的出现则更早于计算机工程。1936年,英国数学家艾伦·图灵(Alan Turing)发表了一篇具有开创性的论文,介绍了现在被我们称之为“图灵机”的虚拟设备,它由一个可以在磁带上左右移动的读写头组成,可以根据一套规则读取、擦除和写入磁带上的符号。只要赋予合适的规则,图灵机就能按照磁带上编码的指令,即我们现在所说的计算机程序或代码进行操作,从而使得这种“通用图灵机”(UTM)能够执行任意计算。反过来讲,任何能由UTM完成的操作都属于计算。1945年,ENIAC正式完工,成为世界上第一台真正的UTM。
然而……事实或许并非如此。早在2014年,一小群在物理学和计算机科学领域都有深厚背景的非传统研究人员,比如约克大学的苏珊·斯蒂芬尼(Susan Stepney),就在《英国皇家学会学报A辑》(Proc. R. Soc. A)上提出,自然界中实际上充斥着计算系统,其中并没有明确的人类计算机用户。此外,20世纪物理学巨擘约翰·惠勒(John Wheeler)还曾经大力倡导过一种名为“万物源于比特”(it from bit)的激进假说,该假说认为宇宙的基本结构是计算性的。在惠勒看来,我们视为物理的基本现象——夸克、电子、光子——都是底层计算的产物,就像互联网数据包或图像像素一样。
或许在AI时代,最大的“哥白尼式”冲击则在于,我们可能将不得不接受非人类通用智能会如此般司空见惯。
在量子力学的某些解释中,这种计算发生在多重宇宙之中,展开而言,即大量相互纠缠的平行宇宙中同时进行着大量的计算。无论对基础物理学作何解释,量子计算这一实实在在的技术都利用了这种并行性,使某些计算能够在几分钟内完成,而用当今最强大的超级计算机则需要数倍于宇宙寿命的运算时间。无论以何种标准衡量,这都是计算领域的一场范式变革。
“计算是物质的现实基础”这一说法难以被证实抑或证伪,但早在惠勒提出“万物源于比特”的假说之前,就出现过“自然界中存在计算”的明确案例。约翰·冯·诺依曼(John von Neumann)是一位杰出的数学物理学家,也是计算机科学的另一位奠基人,早在1951年就发现了计算与生物学之间的深刻联系。
冯·诺依曼意识到,对于一个复杂的生物体来说,要实现自我复制,它必须包含构建自身的指令,以及读取和执行这些指令“磁带”的机器。“磁带”本身也必须能够复制,并包含构建读取它的机器的指令。巧合的是,这种“通用构造器”的技术要求与通用图灵机(UTM)的技术要求完全一致。令人惊讶的是,冯·诺依曼先于1953年在DNA的图灵式磁带样结构和功能被发现之前就已经产生了这一洞见。
于是乎,冯·诺依曼证明了,生命究其本质是“计算性”的。这听起来可能让人感到匪夷所思,因为我们理所当然会认为计算机并没有生命,而生物也绝不能算作计算机。但这是事实:DNA就是生命的代码——尽管这种代码难以逆向工程,又并非按线性顺序执行。“计算”对于生物而言是必要的,这不仅是为了繁殖,还是为了发育、生长和修复。而基于此的对基础生物系统进行编辑或编程,也正变得越来越有可能。
![]()
▷左图:艾伦·图灵。右图:图灵模型的计算机模拟生成的模式。每个模式都基于相同的基本方程,只是参数略有调整。图灵在他生命的尽头写下了他的第一篇也是最后一篇关于生物学和化学的论文,关于某种化学反应如何产生自然界中看到的许多模式。这篇名为《形态发生的化学基础》(The Chemical Basis of Morphogenesis)的论文完全是理论性的。但在随后的几十年里,也就是图灵于1954年悲惨地自杀很久之后,科学家们发现他的推测变成了现实。所谓的图灵模式首先在培养皿中的化学物质中发现,然后在动物的条纹、螺旋和涡旋中大量出现。有些人认为图灵模式实际上可以扩展到生态系统,甚至星系。
图源:Shigeru Kondo 和 Takashi Miura for Science
图灵同样在理论生物学领域做出了开创性的贡献,他描述了组织的生长和分化具体如何通过那些能够感知和释放他称之为“形态发生素”(morphogen)的化学信号的细胞来实现——这是一种强大的模拟计算形式。和冯·诺依曼一样,尽管图灵从未真正踏足过生物学实验室,却同样说中了要害。
图灵和冯·诺依曼共同揭示了生物学的计算基础,而这则为人工生命或“ALife”奠定了根基,这一领域至今仍鲜为人知且处于范式前阶段——就像AI在不久前的情况一样。
然而,完全有理由相信,ALife很快就会像AI那样蓬勃发展。AI的真正进步,需要我们集结足够的“人工”计算能力来模拟(或至少模仿)数十亿个神经元的活动,以接近大脑的复杂性。而从零开始的ALife则需要走得更远,重现地球上数十亿年的进化历程。这仍然是一项艰巨的任务,不过,我们并非毫无进展。
![]()
▷Windows系统下的Brainfuck IDE示例. 图源:softwarerecs.stackexchange.com
谷歌“智能范式”团队近期开展的实验表明,在一个能够支持计算的模拟玩具宇宙中,我们可以从纯粹的随机状态出发,让最简单的“生命形式”自发出现。其中一个实验是从一堆随机字符串“汤”开始,每个字符串长64字节。256种可能的字节值中有8种对应于20世纪90年代一种名为“Brainfuck”的极简编程语言的指令。这些字节串可以被视为图灵机的纸带,而8条计算机指令则规定了图灵机的基本操作。实验过程是反复从“汤”中随机抽取两条纸带,将它们拼接在一起,“运行”拼接后的纸带,再将纸带分开,放回“汤”中。起初,似乎没什么特别的变化;我们看到的只是随机的纸带,偶尔会有一个字节被随机修改。但在进行了几百万次这样的交互之后,功能性的纸带出现了,并开始自我复制:这就是最简单的“人工生命”。
从某种程度上讲,人工生命的出现宛如水结冰或沸腾时发生的相变。然而,常规物质的相态特征取决于其统计意义上的均匀性,例如,冰是有序的原子晶格,而气体的原子位置则呈现随机分布,液体则介于两者之间。相比之下,生命物质则要复杂得多,其在每个尺度上都展现出多样且有目的的结构。这是因为计算需要不同的功能部件协同工作,这一点在任何机器、生物体或程序中都显而易见。
看着结构复杂、目的明确且功能完备的结构自杂乱无章的噪声中逐渐涌现出来,这过程充满神奇的魔力,但这绝非超自然或奇迹。数十亿年前,地球上就曾发生过类似的生命从无到有的相变,我们也可以推测在其他适宜生命存在的行星或卫星上也发生过类似事件。
生命具有计算性,因为其稳定性取决于生长、自愈或繁殖;而计算本身也必须进化以支持这些基本功能。
那么,在一个随机的环境中,生命的复杂性到底是如何产生的?更进一步地问,这种复杂性又是如何持续存在呢?答案是:任何具有自愈或繁殖能力的生命体都比无生命的惰性物质更“动态稳定”,因为生命体(或其后代)在未来仍会存在,而任何无生命的物质都会随着时间的推移而退化,屈服于随机性。生命是具有计算性的,因为其稳定性取决于生长、自愈或繁殖;而计算本身也必须进化以支持这些基本功能。
这种关于生命的计算视角,也为生命在进化过程中复杂度不断增加的现象提供了新的见解。由于计算物质——包括生命本身——是由需要协同的不同部分组成的,进化将同时作用于各个部分和整体,这一过程在生物学中被称为“多级选择”(multilevel selection)。
通过这一机制,现有的组成部分(或完整的生物体)能够反复组合,从而形成越来越庞大、越来越复杂的实体。主流观点认为,在远古时期的原始海床上,分子聚合形成了能够自我复制或“自催化”的反应循环;这些化学循环与脂肪膜融合,形成了最早的细胞;细菌和古菌结合形成了真核细胞;这些复杂的细胞又组合在一起,形成了多细胞生物......每一次这样的重大进化转变都以功能性共生关系为特征,即一种相互依存的形式,在这种形式中,先前独立的实体联合起来,形成一个更大的整体。
进化阶梯的最初几级台阶,并不涉及具有可遗传基因编码的生命实体。然而,一旦这些联合起来的实体具有生命并因此具备了计算能力,那么随后的每一次组合都会增强共生整体的潜在计算能力。而在这一进化阶梯的终点处,人类的智能水平已远远高于那些最早的生命形式,这源自于底层的约860亿个神经元的协同运算,所有神经元相互并行着处理信息。
神经计算
计算机科学的先驱们早就深刻认识到,我们的大脑本质上就是一台计算机。事实上,在20世纪40年代,计算机科学和神经科学这两个新兴领域之间几乎没有区别。电子计算机的开发初衷正是为了在工业规模上执行脑力劳动,就像上个世纪工厂机器的开发是为了实现体力劳动的自动化一样。最初,重复性的脑力劳动由“人脑计算机”完成,就像电影《隐藏的人物》(hidden figures)中的女性,承担了战争时期以及后来太空竞赛所需的大量计算工作(但她们往往得不到认可,报酬也很低)。
因此,新型“人工”计算机的核心部件——构成电子电路的逻辑门,最初被构想为人工神经元。那些将计算机称为“电子大脑”的记者们,并非那个年代的“标题党”,他们真实描绘了计算机科学先驱们的雄心壮志。对于那些早期的计算机科学家来说,试图复制任何形式的思维活动,都不过是顺利成章的事了。
然而,那些雄心壮志很快便破灭了。一方面,数字计算机确实范围明确的程序性任务上取得了巨大成功——通过编程,电子计算机能够以低成本、零差错、大规模的方式完成诸如火箭轨道计算和薪资核算之类的工作。另一方面,20世纪50年代的神经科学家却发现,真正的神经元要比逻辑门复杂得多。
更糟糕的是,事实证明,编写能够执行最简单日常人类功能(从视觉识别到基本的语言理解)的程序竟都无法实现,更不用说复杂推理、文学分析或艺术创作了。对于这些事情,我们(至今仍然)不知道该如何编写精确的程序。这种注定失败的尝试如今被称为“传统AI”或GOFAI(Good Old-Fashioned AI)。我们本想制造出像HAL 9000那样的智能体,结果得到的却只是“预约,请按1;修改现有预约请按2”。
一种看似合理的解释出现了,为GOFAI的失败提供了理由:计算机不是大脑,大脑也不是计算机。任何相反的观点都被认为是幼稚的,是“炒作”,或者最多只是个不恰当的比喻。或许,人类行为无法被编程这一想法多少让人感到安心。在很大程度上,神经科学和计算机科学分道扬镳了。
然而,“计算神经科学家”们继续将大脑视为一种信息处理系统,尽管其设计与传统电子计算机截然不同。大脑没有中央处理器或单独的存储器,不会只按顺序执行指令,也不使用二进制逻辑。不过,正如图灵所证明的,计算具有通用性。只要有足够的时间和内存,任何计算机,无论是生物的还是人工的,都能模拟任何其他计算机。事实上,多年来,神经科学家已经建立了越来越精确的生物神经元和神经网络的计算模型。这些模型不仅包括最能体现神经活动特征的“全或无”脉冲或“动作电位”,还包括化学信号、基因表达、电场等现象的影响。
人类的智力水平已远远高于那些最早的生命形式,这源自于底层的约860亿个神经元的协同运算,所有神经元相互并行着处理信息。
在此,有必要解释一下“模型”(model)这个词。在传统用法中,模型绝非真实事物,比如火车模型或金融模型。它只是一张地图,而非实际的地域。神经科学家在构建神经网络模型时,通常也是秉持这种精神。他们试图了解大脑的工作原理,而非探索如何赋予计算机思维能力。因此,他们的模型是高度简化的。
然而,计算神经科学提醒我们,大脑也在忙于计算。因此,大脑的计算功能本身就是一个模型。所以,现实世界就是一张地图——如果这张地图和现实世界一样大,它就等同于真实事物,就像一个全尺寸的模型铁路一样。换言之,如果我们能造出一个完全实现的大脑模型,它就能反过来对我们进行建模!
一方面,GOFAI经历着属于自己的反复兴衰循环,而在另一方面,另一种关于如何让计算机思考的“联结主义”学派(connectionist)则始终存在着,且常常与计算神经科学相互联动。联结主义者放弃了基于程序员预设规则的符号逻辑,转而拥抱“机器学习”方法,让神经网络从经验中学习,类似于我们人类的学习方式。
尽管常常被GOFAI所掩盖,但联结主义者从未停止过尝试让人工神经网络完成现实生活中的认知任务。在这些坚持不懈的人当中,有杰弗里·辛顿(Geoffrey Hinton)和约翰·霍普菲尔德(John Hopfield),他们因在机器学习方面的突出贡献而获得2024年诺贝尔物理学奖;还有许多该领域的先驱尽管他们的贡献未得到广泛认可,比如美国心理学家弗兰克·罗森布拉特(Frank Rosenblatt)和詹姆斯·麦卡利兰(James McClelland)以及日本计算机科学家福岛邦彦(Kunihiko Fukushima)。不幸的是,20世纪的计算范式(至少直到90年代)对机器学习并不友好,这不仅是因为人们对神经网络普遍持怀疑态度,还因为编程本质上是符号性的——计算机是为按顺序执行指令而设计的,而这与神经计算并不契合;而在最初,这本只是一种设计选择。
最初的逻辑门是用真空管制成的,这种真空管极不可靠且需要频繁更换。为了使计算尽可能地稳健可靠,所有计算都自然而然地基于每个真空管可区分的最小“状态”:“关”或“开”。由此形成了二进制系统,只使用0和1,恰好对应着布尔逻辑(Boolean logic)的“真”(或1)和“假”(或0)的基本符号基础。
同理,构建“中央处理器”(CPU)也是采用最少数量的“易故障”真空管来逐条执行指令。这意味着要将处理单元与内存分离,并通过一根电缆或“总线”将数据和指令在存储器和CPU之间串行传输。
这种“经典”的计算范式在很长一段时间内蓬勃发展,这得益于摩尔定律(Moore’s Law)——这是后来的芯片制造商英特尔的创始人戈登·摩尔(Gordon Moore)在1965年提出的一个著名观点:微型化使芯片上的晶体管数量每一年或两年就翻一番。随着晶体管尺寸的缩小,它们的运算速度也呈指数级提升,成本大幅降低,耗电量也减少了。于是,庞大昂贵的大型机变成了小型机,然后是台式机、笔记本电脑、手机,再到可穿戴设备。如今,计算机已经小到可以穿过一根注射器针头。笔记本电脑和手机主要由电池和屏幕构成;这类设备中的实际计算机“片上系统”(SoC),面积仅约一平方厘米,厚度不到十分之一毫米——一滴水的体积都是其数倍。
![]()
▷片上系统(SoC)示意图. 图源:ansys
尽管规模上的这一进步令人瞩目,但它并没有引领我们走向大脑。大脑既不微小也不快速,其运行速度远比智能手表中的计算机要慢得多。然而,请记住,它同时拥有约860亿个工作状态下的神经元。这加起来就是极其庞大的计算量,而且由于其运行相对缓慢,并且使用本地存储的信息,因此它非常节能。即便计算机的运行速度在不断提升,人工神经计算的效率仍然不高,因为它们仍采用串行执行模式:根据需要从单独的内存中读写数据。
直到英伟达等公司开始设计多处理器并行芯片,运行真正有意义的大规模神经网络才成为可能。并行化在一定程度上是对摩尔定律原始形式逐渐失效的一种回应。尽管晶体管仍在不断缩小,但自2006年左右起,处理器运行频率已无法继续提高,实际上限约为几千兆赫兹(每秒数十亿次时钟周期)。
即便计算机的运行速度在不断提升,人工神经计算的效率仍然不高,因为它们仍采用串行执行模式。
并行化意味着要改变编程模型,使其更倾向于使用短代码片段(最初被称为“像素着色器”,因为它们是为图形设计的),以便能够在多个处理器上同时执行。着色器(Shader)被证明非常适合并行化神经网络。因此,最初为游戏设计的图形处理单元(GPU)如今为AI提供动力。除此之外,谷歌的张量处理单元(TPU)也是基于类似的设计原则。
尽管图形处理器(GPU)和张量处理器(TPU)朝着正确的方向迈出了一步,但当今的AI基础设施仍受困于其传统的架构。我们距离拥有千兆级处理器并行处理本地存储数据的芯片还很遥远。而且,AI模型仍然串行指令来实现,究其根源,传统的计算机编程、芯片架构和系统设计根本不像大脑。我们在经典计算机上模拟神经计算,这效率低得就像过去人类计算时代用大脑模拟经典计算一样。
不过,在接下来的几年里,我们预计会看到一种真正的神经计算范式出现。神经计算最终可能会在光子、生物、化学、量子或其他全新的基质上实现。但即便“硅基大脑”是利用熟悉的芯片技术制造出来的,其组件的组织方式也会有所不同。每平方厘米的硅片都将包含数以百万计的信息处理节点,这些节点就像一个个神经元一样能够同时运作。
这些神经芯片不会运行程序。它们的功能将不是由代码(至少不是我们如今所熟知的那种代码)来决定的,而是由存储在整个计算区域内的数十亿甚至数万亿个数值参数来决定。神经硅脑能够被“刷新”,其参数可以按照需要进行初始化;但它也能够从经验中学习,即时修改这些参数。计算将是分散且稳健的,偶尔的故障或局部损坏无关紧要。这与大脑的天然架构不谋而合,而这绝非巧合。
预测智能
对于我们这些语言模型早期开发者来说,仅凭预测下一个单词(或“下一个标记”),AI就展现出的惊人的通用智能,这一发现具有划时代的意义。即便我们认同大脑是可计算的,大多数人依然认为真正的AI需要某种特殊算法,来破解智能与意识的亘古谜团。所以,当仅靠大规模应用下一个标记预测(next-token prediction)就“解决”了智能问题时,这着实令人震惊。
而从最初的震惊中缓过神后,我们会意识到这并不意味着再无未解之谜,也不意味着意识不存在,或者心智只是《绿野仙踪》(Wizard of Oz)里的“幻想”。大语言模型(LLM)背后的神经网络规模庞大,且已被证明能够进行任何计算,就像一台运行程序的经典计算机一样。实际上,LLM能学会的算法种类如此之多,已远超计算机科学家发现或发明的算法总和。
或许,这种震惊是如此多余。我们早已知道大脑具有计算能力,且它的一切能力必然是可习得的,要么通过进化,要么通过经验——否则我们根本就不会存在。于是,我们发现自己已身处在一种奇怪的境地,即在尚未完全理解某事物的情况下就已将其复制出来。当图灵和冯·诺依曼为计算机科学做出贡献时,理论还曾大幅领先于实践。而如今,实践则反过来超越了理论。
实验室能够创造出智能,为我们探究其长期存在的奥秘提供了强大的新途径,因为尽管有不同的声音,但人工神经网络并非“黑箱”。我们不仅能够审视其思维链,还可以更深入地探究它们,以开展“人工神经科学”。与生物大脑不同,我们可以记录和分析其活动的每一个细节,大规模进行完全可重复的实验,并开启或关闭网络的任何部分以观察其作用。
尽管AI模型与大脑之间存诸多显著的差异,但通过分析,我们也发现了它们之间存在着惊人的功能相似性,这表明其二者存在共同的基本原理。在“NeuroAI”这一旗帜下,AI从数十年的大脑研究中汲取灵感,如今也开始反向回报神经科学。
尽管我们尚未完全理解LLM所学习的算法,但我们开始明白为何学习预测下一个词元会如此有效。在神经科学领域,“预测性大脑假说”(predictive brain hypothesis)由来已久;该假说认为大脑进化是为了不断地建模和预测未来,其进化是通过感知环境、自身、自身行为及其对自身和环境的影响而实现的。我们能够有目的地、明智地行事,正是依赖于这样的模型。
我们在经典计算机上模拟神经计算,这效率低得就像过去人类计算时代用大脑模拟经典计算一样。
想象一下自己起身拿一杯水的场景。在该过程里,一个人能够在短短一两秒内就学会如何很好地对世界和自己的身体进行建模,从而将手伸向杯子,用手指握住它,然后送到嘴边喝掉。然而,这其实绝非易事。在这些动作的每个阶段,你的神经系统都会计算出一个预测值,并将其与本体感觉反馈进行比较。你的眼睛在场景中快速地移动着,以进一步进行误差校正。
从更高的层面来看,你预测喝水能解渴。口渴本身也是一种预测信号,尽管是整个物种在漫长的进化时间尺度上“习得”的。无法预测自身对水的需求的生物,存活时间不会太长,也就无法将其有缺陷的自我模型传递下去。
演化浓缩了无数前代的经验,并于最终被归结为繁衍成功或死亡的粗略信号。当新生儿认出人脸,或者一只从未见过蛇的猫被背后突然出现的黄瓜吓得跳起来时,演化学习(evolutionary learning)就在发挥作用。
机器学习涉及调整模型参数,这些参数通常被认为代表突触(即神经元之间的连接),通过终身学习而增强或减弱。这些参数通常是随机初始化的。但在大脑中,神经元是根据遗传编码(且对环境敏感)的发育程序连接起来的。我们预计,未来的AI模型也将演化为自我构建的系统。它们将通过经验动态地生长和发展,而不是具有固定参数数量的静态、人工设计的架构。
在不同时间尺度上进行统一学习,或许还能消除当前模型训练与正常运行(或推理)之间的差距。如今,最先进的LLM训练成本极其高昂,要耗费大量计算资源长达数月,而推理则相对便宜,可以实时完成。然而我们知道,LLM掌握的最重要技能之一就是学会学习,这也就解释了它们为何能在对话过程中处理新的想法、词汇或任务。
不过,就目前而言,任何新获得的知识都是即时性的,其仅在“上下文窗口”内存在,而模型参数则自始至终保持不变。未来那些能够将行动与预测统一起来的模型,应该可以像我们一样,在运行过程中持续累积、开放式学习。
同样地,我们开始看到一种转变,人们不再将AI模型的能力局限于其初始离线训练阶段,而是转向“测试时扩展”(test-time scaling),在这种模式下,模型只需花更多时间思考其响应就能变得更强大。更类似人脑的模型设计,应能让这种当下的改进像我们人类一样不断累积,从而使所有未来的响应都能从中受益。
由于支撑LLM的神经网络是强大的通用预测器,所以它们不仅能够对语言、声音和视频进行建模,还能彻底变革机器人技术,前文所提到的抓取一杯水的例子也就不足为奇了。几十年来,人工编程的GOFAI在超出装配线那种重复、常规化的机器人技术方面一直举步维艰。但如今,类似LLM的“视觉-语言-动作”模型能够学会驱动各种各样的机器人身体,从Waymo无人车到人形机器人(以及许多其他)形态,被越来越多地部署在了复杂的非结构化环境中。
![]()
▷汽车大厂的自动驾驶汽车比赛. 图源:fortune
通过运用思维链和推理轨迹,将大问题拆解为较小的中间步骤,预测模型甚至能够模拟出多种可能的结果或意外情况,从潜在的未来树中进行选择。这种“有选择性的”预测,可能正是我们自由意志概念的成立机制。
最终,生命体的一切行为都可以被视为一种自我实现的预言。生命就是那种能将自身预测为持续存在的事物,而且随着智能的不断提升,这种预测也会变得愈发复杂精妙。
拥抱预测处理范式,包括将规划、行动和预测统一起来,不仅有望进一步改进语言模型和机器人技术,而且还能将机器学习、神经科学甚至理论生物学的理论基础建立在统一基础之上。
通用智能
有人认为,LLM只是伪智能:它们看似聪明,实则不然。这些怀疑论者认为,我们通过让AI“自动补全”海量句子,训练出了能通过图灵测试的机器,但这些机器只是让我们误以为“有人在”,实际上并非如此。
许多人持相反观点,认为AI是真实的,并且我们即将实现“通用人工智能”(AGI)——尽管对于如何定义它存在各种不同的看法。对不同的人来说,这一前景可能令人兴奋、令人担忧,甚至威胁存在。
尽管有人反对,但人工神经网络确非“黑箱”。
那么,哪一方是正确的呢?答案或许是“都不是”:双方阵营中的大多数人认为AGI是一个在未来某个时候会(或不会)跨越的明确界限。但实际上,似乎并不存在这样的界限——或者即便存在,我们可能已经跨越了它。
首先来分析怀疑论者的观点。对许多人来说,AI完成任务的能力——无论是聊天、写诗、驾驶汽车,还是做些全新的事情——都无关紧要,因为AI的实现方式从根本上排除了其具备真正智能的可能。这种观点可能基于这样的断言:大脑除了“单纯的”预测之外还必须执行其他操作,大脑不是计算机,或者简单地说AI模型没有生命。因此,怀疑论者通常认为,当应用于AI时,诸如“智能”、“理解”、“能动性”、“学习”或“幻觉”之类的术语需要加引号,因为这都是不恰当的人格化表述。
这种对措辞的焦虑有必要吗?从功能的角度来看,答案是否定的。我们称鸟的翅膀和飞机的机翼都是“翅膀”,并非因为它们由相同的材料制成或工作原理相同,而是因为它们发挥着相同的作用。我们是否应该在意飞机实现飞行的方式与鸟类不同?如果我们的关注点在于目的——即鸟类和飞机为何要有翅膀,那么我们就不必在意这种困扰。
功能主义(Functionalism)是所有“有目的”的系统的标志性特征,这里的系统包括生物体、生态系统和技术系统。一切“有目的”的事物都是由相互依存的部分组成的,每个部分都为其他部分提供功能支持;而这些部分本身也常常由更小的相互依存且有目的的部分构成。
许多AI怀疑论者明里暗里更关心的是实现方式而非所取得的成果(比如飞行或智能)。然而,大自然对“如何实现”并不在意。为了增强灵活性或稳定性,无论是人工系统还是自然系统,常常会采用功能相同但工作原理不同的部件进行替代或同时使用。比如在物流领域,铁路和卡车都能运输货物;作为客户,你只关心货物能否送达。在您的细胞中,有氧呼吸和无氧呼吸可能具有相同的功能,当你运动过猛,有氧呼吸跟不上时,无氧呼吸途径就会启动。
神经系统也是如此。它同样由具有功能关系的各个部分组成,这些部分同样可以被功能相当的部件所替代。我们已经在一定程度上做到了这一点,比如人工耳蜗和人工视网膜,尽管这些假体目前还无法达到生物耳朵或眼睛的质量。不过,神经义肢最终将与我们与生俱来的感觉器官相媲美,甚至超越它们。
有朝一日,我们甚至可能以同样的方式替换受损的脑组织。这之所以可行,是因为你没有“小人”(homunculus),即你的大脑中并无某个特别不可替代的区域是“你”的所在之处。让你成为你的并非大脑或身体的任何一部分,也不是你的原子(它们无论如何都会频繁更新),更不是你身体每一部分的具体实现方式。相反,你是一个高度复杂且动态的功能关系集合体。
那么AI模型呢?LLM不仅实现方式与大脑截然不同,它们与我们的关系也不同于人与人之间的关系。它们没有身体,没有生命经历,没有亲属关系,也没有长期的情感羁绊。这些差异思考AI的伦理和法律地位时至关重要,但在诸如智能和理解能力之类的问题上则无关紧要。
一些研究人员虽然在理论上认同所有这些前提,但仍坚持认为AGI存在一个当前的AI系统尚未跨越的门槛。那么,我们如何才能知道它们何时跨越了呢?答案必然涉及用于测试我们认为构成通用智能的能力的基准。
目前,我们已拥有了许多套基准测试方案。其中有些方案,比如AI研究员弗朗索瓦·肖莱特(Francois Chollet)的“抽象与推理语料库”,类似于智商测试。还有一些则更为全面;例如,谷歌DeepMind的研发人员就强调,我们更应关注能力而非过程,他们还强调通用智能代理需要胜任“包括学习新技能在内的广泛非物理任务”。但究竟应该评估哪些任务呢?出某些竞争激烈的市场中界定明确的技能之外,我们可能很难将自己划分为“胜任者”(超越50%)、“专家”(超越90%)和“大师”(超越99%)等类别。
为了增强灵活性或稳定性,无论是人工系统还是自然系统,常常会采用功能相同但工作原理不同的部件进行替代或同时使用。
AGI这一术语最早可追溯至2002年,计算机科学家彼得·沃斯(Peter Voss)和姆拉丹·约万诺维奇(Mlađan Jovanović)在2023年的一篇论文中将其极致简化为“与人类相当的通用认知能力”。但也有些仅从经济角度的界定。OpenAI官网将AGI定义为“一种高度自主的系统,能够在大多数经济价值高的工作中超越人类”。2023年,AI企业家穆斯塔法·苏莱曼(Mustafa Suleyman,现为微软AI部门的首席执行官)提出,当一个AI能够赚取一百万美元时,它就具备了通常意义上的“能力”。
这样的门槛既武断,也并不符合我们对人类智能的认知方式。为何一定要强调经济活动呢?我们得赚多少钱才算聪明,那些没能积累巨额财富的人就不聪明吗?
当然,我们开发AI的动机在于期望丰富或拓展人类的科学、经济或社会生活。但生产力的经济衡量标准既不简单,也不能直接反映智能水平。而且,这种衡量标准还排除了大量人类劳动,而这些劳动的宝贵价值并在经济维度上得到体现。对此,或许更应该得到关注的是任务本身的“生态效度”(ecological validity),即它们是否对他人重要,无论是经济上、艺术上、社会上、情感上还是其他方面。然而,这样复杂的标准凸显了纯粹客观的效能评估的难度。
如今的LLM已经能够完成一系列种类繁多且依旧在不断增长的认知任务,而就在几年前,任何理智的人都会认为这些任务需要高智商才能完成:从剖析复杂的论点到编写代码,再到缓和电子邮件的语气,以及在线研究某个主题。在几乎任何给定的领域,人类专家的表现仍然更胜一筹(这正是当前许多评估方法所试图衡量的性能差距)。但我们必须承认,没有哪一个人——无论多么聪明——拥有与AI相当的广泛技能。在过去几年里,我们已悄然转变评估标准,即衡量AI性能不再以“任何个体”为基准,而是以“全人类”为参照。换言之,当前单个人类的“通用性”已低于AI模型。
这一进展迅速且持续不断。我们认为,该领域的标准不断提高,部分原因在于似乎没有哪一项单独的进展足以宣告AGI的成功。总有更多的工作要做。然而,我们相信,如果让2002年的AI研究人员有机会接触到当今的任何LLM,他绝对会毫不犹豫地说AGI已经到来。
实现AGI中的“通用”,关键在于“无监督训练”,即在不规定任务的情况下进行机器学习。微调和强化学习常被用于后续增强特定技能和行为属性,但如今大多数模型训练都是通用的。AI的广泛能力源于对语言、声音、视觉或其他任何事物进行建模。一旦模型能够通用地处理这些模态,那么,就像我们一样,只要首先描述、推断或通过示例展示任务,它就能被指示执行任何任务,甚至是全新的任务。
想要弄明白我们如何实现AGI,为何在经历了数十年的失败尝试之后才在最近得以实现,以及这对理解我们自身心智意味着什么,我们就必须重新审视我们最根本的假设——不仅是关于AI的,还有关于计算本质的。
集体智慧
“社会智力假说”(Social intelligence hypothesis)认为,像我们这样的智慧生物之所以会出现智力爆发,是因为存在一种社会性反馈循环的机制。展开来说,我们的生存和繁衍成功与否,取决于我们能否交朋友、吸引伴侣、获取共享资源,至少是说服他人帮助照顾我们的孩子。实现所有这些都需要一种“心智理论”,即设身处地为他人着想的能力:对方看到了什么,感觉如何?他们在想什么?他们知道什么,不知道什么?他们会如何行动?
追踪他人的心理状态是一项认知挑战。纵观各类灵长类动物,研究人员观察到大脑大小与群体规模之间存在相关性。在人类中,与心智理论相关的脑区体积与朋友数量有关;此外,朋友多的人往往比社交孤立的人更健康、更长寿。综合来看,这些观察结果表明,持续的选择压力促进了社会脑的进化。
我们已悄然转变评估标准,即衡量AI性能不再以“任何个体”为基准,而是以“全人类”为参照。换言之,当前单个人类的“通用性”已低于AI模型。
尽管心智理论存在马基雅维利式(Machiavellian)*的一面,但它对于人类所独有的高级合作形式至关重要。教学与学习、劳动分工、声誉维护以及“IOU”心理账户都依赖于心智理论。因此,任何重要的经济、政治体系或技术的发展也都依赖于此。由于能够大规模合作的部落或社区能作为一个更庞大且强大的整体发挥作用,心智理论不仅为个人带来益处,也为群体带来益处。
![]()
▷马基雅维利式智力 (Machiavellian Intelligence),是指个体通过狡黠、策略等手段来理解和操纵他人行为的能力。它由理查德·伯恩(Richard Byrne)和安德鲁·威滕(Andrew Whiten)在1988年提出,用以解释灵长类动物复杂智力的进化原因,认为智力的进化并非仅为了应对物理环境,更是为了在复杂的社会关系中更好地生存和繁衍。其典型表现包括欺骗、操纵他人以获取资源、建立和利用社会联盟等。图源:Oxford: Clarendon Press, 1988.
随着这种群体层面的优势变得具有决定性作用,心智的社会整合便迈向了一场重大的进化转变——一种共生关系(symbiosis),如前所述,在这种关系中,曾经独立的实体联合起来,创造出新的、更伟大的事物。而整合的代价则是,曾经独立的实体再也无法独自生存和繁衍。这正是对现代城市化社会的真实写照:我们当中又有多少人能够在森林里独自生存呢?
我们组成了一个超级生命体(superorganism)。正因如此,我们的智慧本就是集体性的,因此在某种意义上,我们可以被称为超人。这就是为什么当我们用大量的人类集体成果来训练LLM时,我们实际上已经在创造一种超级智能,其知识广度和平均深度都远超任何单个个体——尽管LLM通常无法在专业领域内超越人类专家。
这就是近期的一项尝试“人类终极测试”(名字相当冷酷)的项目初衷,它试图创建一个LLM目前尚无法通过的AI基准测试。其测试题目由来自100多个领域的近1000名专家编写,AI需要掌握诸如翻译罗马墓碑上的帕尔米拉文,或者知道蜂鸟的籽骨支撑着多少对肌腱这样的技能。前者古典学专家或许能答对,后者鸟类学家或许能答对,但普通人的测试表现可能会接近零分。相比之下,目前最先进的模型得分在3.3%到18.8%之间。
人类之所以拥有超凡的智慧,得益于其所拥有的认知分工;从某种意义上说,单个大脑也是如此。AI先驱马文·明斯基(Marvin Minsky)曾提出“心智社会”(Society of Mind)的概念,认为我们看似单一的“自我”实际上是由众多相互作用的专门化代理组成的蜂巢思维。的确,我们的大脑皮层由一系列“皮质柱”组成,这些重复的神经回路单元多次排列,形成一个广阔的表面。尽管人类大脑皮层的厚度仅约2~4.5毫米,但其面积却可达2500平方厘米(大脑表面之所以遍布褶皱,是因为要把面积相当于一张大号餐巾的脑组织塞进我们的头颅中)。,正是由于这种模块化设计,我们的大脑皮层才能在进化压力驱动下迅速扩张,实际上就是增加了更多的皮质柱。
大脑皮层的模块化,不仅是发育意义上的,也是功能意义上的。大脑皮层的某些部分专门负责处理视觉,另一些部分负责处理听觉或触觉等;还有一些部分似乎专门负责社会性模仿、书写和算术。由于这些任务如此多样,人们很容易认为大脑中的相应区域,就像洗碗机和复印机那样,高度专业化且彼此差异显著。
其实不然:大脑皮层各个区域从婴儿期就开始学习各自的任务。这种学习能力既强大又通用,例如皮层区域中存在诸如“视觉词形区”,专门负责阅读——而阅读这项技能在人类历史上出现得太晚,不可能通过自然选择进化而来。我们的皮层并非为阅读而生,但它能学会阅读。每个皮层区域都运行着相同的通用“学习算法”,与其说是一台预装功能的机器,将之视为一个通过学习掌握特定领域知识的“人类专家”更为贴切。
这种“社会性皮层”(social cortex)视角强调:你的大脑中并不存在一个“小人”(homunculus)或中央处理器(CPU)来承载“你”的存在;相反,大脑更像是一个“社区”,它能在没有中央统筹的情况下协调一致地运作,这不仅依赖于各个区域执行专门任务的能力,也依赖于这些区域“相互建模”的能力——就像人们需要心智理论来建立关系和更大的社会单元一样。
那么,大脑区域本身是否也是由更小部分组成的“社区”在运作呢?我们认为确实如此。皮层回路由神经元构成,这些神经元不仅执行专门任务,似乎也学会了对其邻近神经元进行建模。这印证了那句熟悉的俚语“一路向下皆是龟”(turtles all the way down,暗指无限的递归),暗示智能最好被理解为一种“社会性分形”(social fractal),而非单一的整体实体。
当然也可能是“一路向上皆是龟”(turtles all the way up)。随着大脑变大,个体可以变得更聪明;而随着个体数量增多,社会也可以变得更聪明。这里存在一种奇妙的“跨尺度反馈循环”:我们只有通过增大大脑(以利于为他人建模),才能形成更大的社会;而我们大脑本身的增大,似乎也是通过一种类似的内部认知分工(division of cognitive labor)实现的。
大脑区域本身是否也是由更小部分组成的社区在运作?我们认为确实如此。
AI模型似乎也遵循同样的原则。研究人员普及了“规模法则”(scaling laws)这一概念,即模型的大小(以及训练数据的数量)与模型的能力之间存在关联。大致来说,规模更大的模型更聪明,就像大脑越大越聪明一样。而且,与大脑一样,AI模型也是模块化的。实际上,许多模型都依赖于明确训练一个紧密协作的“专家集体”,即所谓的“专家混合模型”(Mixture of Experts)。此外,即使是大型的、单一的模型也表现出“涌现模块化”(emergent modularity)——它们通过学习如何将自身划分为专门的模块来实现规模扩展,这些模块能够分工合作、各司其职。
从社会性和认知劳动多尺度分工的角度思考智能,代表着一种深刻的范式转变。它促使我们探索更像不断发展的社交网络的AI架构,而不是静态的、越来越庞大的单体模型。同时,让模型(以及子模型)逐步专业化,并与人类以及彼此之间形成长期合作,这一点也将至关重要。
参与“人类终极测试”的1000多位专家都清楚,从互联网上能学到的东西是有限的。越过这一界限,学习就离不开行动和互动。当新的知识被分享时,知识的边界才会拓展——无论是源于科学实验、讨论,还是线下长时间的创造性思考(这或许等同于与自己对话)。
在当前的前沿AI开发路径中,已有的人类成果被整合并蒸馏成一个巨大的“基础模型”,其权重随后被冻结。但在此基础之上,AI模型也正逐渐向“高度自主性”与“主体能动性”(agentive)演进,这种演变包括与其他智能体的协作或互动。AI在简短的集中式互动中已经很有帮助。但若要让它们在拓展人类集体知识和能力边界这类更大的项目中发挥作用,就必须赋予它们如同人类般互动式持续学习及多样化发展的能力。
这无疑会引发担忧,因为它为AI开启了一条“开放式自我演化”的大门,而这正如同人类自身的发展一样。AI安全领域将模型开放式进化的能力称为“元优化”(mesa optimization),并将其视为一种威胁。但值得注意的是,我们发现,即便当今的AI模型也已是元优化器,因为预测本质上涉及即时学习(learning on the fly);这就是聊天机器人在被指示执行新任务时所做的。它之所以可行,是因为即使聊天机器人的神经网络权重已被冻结,其每次输出都会调取当前对话记录的整个“上下文窗口”。尽管如此,现有聊天机器人仍存在某种“失忆症”。它们通常无法在单次会话或多轮会话之外保留其学习成果。谷歌近期开发的“无限注意力”(Infini-attention)和长期记忆技术,通过压缩旧信息实现近乎无限的上下文窗口,标志着该领域的重大突破。
智能的社会视角,不仅为AI工程提供了新的视角,也为哲学中一些长期存在的问题提供了新的视角,如意识的“难问题”。如果我们把意识理解为我们对自己作为拥有自身经历、内心世界和能动性主体的清晰认知,那么意识的出现就不足为奇了。我们构建“自我”模型,是因为我们生活在充满“自我”的社会环境中,必须不断运用心智理论来预测他人的想法和感受。当然,我们也需要理解自己也是一个“自我”,这不仅是因为我们自己的过去、现在和未来的经历非常重要,还因为我们对他人的模型中也包含着他们对我们的模型。
数十年来,学界一直试图通过实证测试来诊断心智理论能力的缺陷。当我们在LLM上运行这些测试时,毫不意外地发现它们的表现与人类不相上下。毕竟,在训练模型的对话、故事和评论区数据中,自我意识和心智理论任务本就占据重要地位。我们的聊天机器人同样依赖心智理论。在每次对话中,AI不仅需要构建用户模型,还要维持自身“友善助手”模型,以及用户对其的认知模型——如此递归建模,层层嵌套。
超越常规的AI发展
经过数十年的缓慢发展后,我们正快速迈向一个新阶段——未来的AI不仅能响应人类个体的智能,还能拓展集体极限,超越人类的智能水平。面对AI迅猛的发展势头,我们既兴奋、期待,又深知这是范式变革的关键时刻。就像历史上所有重大转折一样,这个阶段必然会伴随着焦虑、争论和动荡,还面临着许多必须谨慎处理的问题。
在这种时刻,我们不仅要优先考虑技术突破,更应像国际象棋中的“跳马”那样,在推进技术进步的同时灵活转向相邻领域或不同范式,通过纵横结合的方式开辟丰富的知识领域,重新思考既有假设,构建新的理论基础。为了开发真正造福人类、推动科学发展的智能系统,最终借助其理解我们自身——无论是作为个体、小型智能生态群落,还是作为更大整体的组成部分,我们必须建立全新的范式。
https://www.noemamag.com/ai-is-evolving-and-changing-our-understanding-of-intelligence/
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
关于追问nextquestion
天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。欢迎评论区留言,或后台留言“社群”即可加入社群与我们互动。您也可以在后台提问,我们将基于追问知识库为你做出智能回复哦~
关于天桥脑科学研究院
天桥脑科学研究院(Tianqiao and Chrissy Chen Institute)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。
Chen Institute与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了加州理工天桥神经科学研究院。
Chen Institute建成了支持脑科学和人工智能领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括、、、科研型临床医生奖励计划、、等。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.