张峥演讲：在人工智能时代，更要像文艺复兴时期一样思考|牛顿|达尔文|图灵机|超级智能

分享至

1.24

知识分子

The Intellectual

智识学研社新年科学演讲现场

导读

人类对于技术进步的复杂情感，无论是兴奋还是忧虑，曾多次在历史中上演。

如果说人工智能对于当代，犹如第二次信息革命之于20世纪90年代，必将极大地推动人类社会的转型，那么人类更有理由要继续思考，人类何以为人，我们在这个星球上的独特性到底是什么？

在2025智识学研社新年科学演讲中，亚马逊云科技上海人工智能研究院院长张峥指出，和人工智能体相比，人类智能体有好奇心，有解决问题的动力，这是人类的优势。他警告说，人类中有许多人思考并不深，缺乏好奇心，也没有同理心，因此大部分人类将会被人工智能体所超越。

他提出，在人工智能时代，我们可以通过对教育的革新，像文艺复兴时期的学者一样思考，使用AI但不必依赖于它，最终实现更强大的自我。

大家好，我想从更广阔的历史背景下谈一下技术的发展。

这张图我用了起码有两年多了。有个知名 Up 主在网上总结说，如果将过去25万年看作一本书，每一页代表250年，你会发现大部分地方都是空白。它给人一种错觉，似乎人类在早期的39行里只是躺平或发呆，什么都没做，这似乎好理解，因为有系统文字传播要等到古登堡的印刷发明，要到 15 世纪了。

不过这并不对，举个例子，《人类简史》这本书很多人读过对不？书中有一个让人印象深刻的说法：人类的进步或退步，与人类被小麦驯化密切相关。因为是简史，就给人一种印象，小麦驯化人类似乎发生得非常突然。我两三年前读过一本很厚的“砖头”《Dawn of Everything》，中译本刚出来，《人类新史》，是一个考古学家和一个人类学家写的。这两个学者政治光谱上靠左，其中 David Graeber 是“占领华尔街”运动的精神领袖，但这本书是一本严肃的学术著作。书中讲到，在农耕社会成为主流生活方式之前，人类经历了大约3000年，其间有几百年是“种着玩”（playfarming），远超过把野生的麦子变成可以耕种的麦子的时间，那个大概是300多年。换句话说，人类并没有立刻放弃狩猎采集活动，而是尝试了多种生活方式，最终才变成农耕生活，小麦成为主要的能量来源。所以，我们不能说小麦“驯化”人类这一观点是错误的，但从历史的角度看，这是我们的祖先经过反复探索之后的选择，既不突然，也不被动。

回到人类技术的发展。我们这本“人类大书”的最后一页，展示了科学与技术在最近 250 年的发展及其深度与广度，涵盖了交通、传播、书写、健康、能源等各个方面，特点是速度快，密度高。例如，单从信息技术看，第一代计算机最初是军事应用（破密码、导弹轨道计算），二战结束后第一个商业化应用是气象预测。60到70年代是超级计算机的时代，接着是互联网的主干网，90年代万维网刚刚成熟，互联网在1990到2010年间飞速发展，手机互联网则从2010年开始蓬勃发展。到了现在，我们正处在AI 变化的这几年，就对应这本大书最后这个“词”的几个字母。

当然，我们可以说2024年是AI真正到来的时刻，因为2024年有两个诺贝尔奖与AI相关。

“流水线”的智能

如果把我们自己看作一个智能体，把大模型视作另一个智能体，我们可以进行做一些横向比较。

这是大家熟悉的“人类”教育系统，是一条流水线：从小学到中学，再到大学，之后进行高等教育，走过独木桥再走纲丝，然后成为各行各业的专门人才——科学家、工程师、医生、律师、管理者等。这个流水线的特点是高度模块化、高度标准化，目的是提高效率。在AI时代，对个人来说，某些边界可能会有微调，有的人学习得更快，有的人则可以慢一点。从整体上来说，摆脱不了这个流水线，因为人的大脑就是要这么逐步在学习中提高。有研究表明，每一代人的IQ都比前一代略高，主要是抽象思维能力在逐步提升，这并非必然是因为我们变得更聪明，而是当代的技术文明的特点导致生存压力的结果，这个变化不但是缓慢的，也不可能跳过这个流水线。

当前的教育流水线培养出来的人才，通常在某一领域具备单一的专长，可能发表顶级期刊论文，掌握临近领域的知识。这是目前流水线成功培养的典型“产品“。如果某个人能在多个领域开花结果，那通常被认为是运气极好，甚至可以说是天赋异禀的例子。而极少数的一些天才，他们几乎是上帝的恩赐，比如达芬奇，比如冯诺依曼，后者是计算机领域的开山人物，也是博弈论，量子计算，细胞自动机等领域的开山人物。

还存在一种流水线，流程完全不一样。第一步就是背，再跟着做，最后进行“德育”修正，最后成品。这看似荒谬的流水线，正是大语言模型的训练方式。它的第一个任务是预训练，即不断“背诵”下一个词。大语言模型的背诵量极其庞大。例如，GPT-3训练时用了150万本书，而我自己在一年里最多读20本书，近几年忙起来，更是减少到5本。如果按照此速度计算，我一生最多读1000本书，而GPT-3仅用了3个月就“读完”了150万本书，而且最新模型的数据量还在不断增加，大概至少十倍，它的阅读量是惊人，把这些书背诵得非常好，是极其耗资源训练的过程。

本质上，大语言模型训练的这一步，是训练了一个程序，预测下一个字符：给定前面的X个字符，它会预测X+1的字符。这个预测不是随机生成字符，而是遵循文本中的统计规律。

第二步非常巧妙，让大模型学习多种任务，例如总结、问答、头脑风暴、信息提取等。这些任务是我们日常工作中最常见、最有用的类型。奇特的是，一旦模型学习了这些类型的能力，它可以将它们组合起来，应付日常工作和生活的需要。例如，如果收到一封邮件邀请我去参加什么会议，我要做的就是先总结，然后思考如何回复，大模型做完第二步训练，已经学会把这些类型的任务完美融合在一起做。

第三步相对简单，通过强化学习进行价值对齐，使其像一个乖巧的人类助手，确保输出有帮助、真实且无害。然而，问题在于，人类文本中充满了互相矛盾、甚至荒谬的观点。

例如，仍然有一些人坚信地球是平的，甚至创造出一套理论来解释重力。再比如训练语料中关于宗教中的不同观点，有的派别说，“只有我的上帝是上帝，你的不是”，而佛教说每个人都可以成佛，还有不同门派的无神论者，有的彻底不相信有神存在，还有像我这样的，觉得可能存在神，但现在没有证据。文本中参杂这些各种各样、互相矛盾的表述，更别提互联网上混乱的语料了。你如果问大模型，它能够面面俱到告诉你有哪些派别，但是在具体的案例里它自己的价值判断是什么呢？我理解 OpenAI 之类的模型目前还是偏“白左”的价值观，中国的大模型怎么样，我用得不多，没法评论。

世界模型的统计分布/长尾效应

这就是大模型训练的流水线，也是三个模块，打造了一个跟人类完全不一样的智能体，但是在讨论到底怎么看这个智能体之前，我们先讨论文本数据本身的性质。

数据反映的是世界，而世界万物的现象背后有两个根本的统计分布。

第一个是正态分布，如果多个因素共同叠加，就会呈现出钟形曲线。例如，身高符合正态分布，我肯定是三个方差之外的身高，我今天坐飞机时，看到前面有个庞然大物，居然是姚明，从身高上看，他就会处在正态分布中比我更远离中心的位置。

而另一个重要的分布是长尾分布（注：更准确的应该叫幂律分布），只要当个体和个体之间进行纠缠、扰动、抱团，必然产生一个长尾分布。造成长尾分布的机理与正态分布不同，正态分布由中心极限定理所决定，而长尾分布背后的机理有好几种，比如优先连接：拥有更多粉丝的人的发言更容易被听到和点赞，所以粉丝会跟多；还有累积优势造成的正反馈，更有钱的人通过投资变得更加富有。

宇宙中的陨石大小、城市的分布、社会网络中的热搜内容都呈现出长尾分布。热搜内容每天都不一样，但是哪一天世界上没有热搜了，会很奇怪的。事件变化本身也符合长尾分布，像雪崩、地震、森林火灾等自然现象，许多小的事件会积累到一个突然的爆发，也就是所谓自组织的临界态。

我之所以提到这些，是因为长尾分布代表了世界上的所有物与物互动现象的统计规律，这也意味着大语言模型的语料本身也反映了这种统计分布。也就是说，语料库中有许多简单的故事，但也有少量极为复杂的故事。比如在人类社会中，冲突是常见的主题，人和人之间的冲突天天发生，但国与国之间的冲突是少数且复杂的。

这就是复杂度——Complexity，复杂度存在长尾分布带来的差异：大量简单案例和极少复杂案例并存。复杂度的存在也解释了大语言模型的“scaling law”——随着数据和算力的增加，模型的性能必然会有提升，因为捕获了更多数据本身的复杂度，这是从信息复杂性可以推导出来的。结果是什么呢？一旦我们把所有数据滚过一遍，性能提升就会放缓。长尾分布的一个特征就是，若要有提高，数据量需要指数级别的增长。因此，关于GPTo5出不来的讨论，说大模型撞墙了，本质上可能是因为遇到了数据瓶颈。

现在，我们可以比较人类智能与大语言模型。首先，我们是窄谱，而不是广谱，通常比较聚焦，往往有深度思考，并且我们可能因为好奇心驱动做一些其他的事情，当然我们有情绪，情绪是不是个“好东西”是个哲学问题。与此不同，大语言模型则是广谱的，上知天文下知地理，但它的思考相对浅显，并且没有自发的好奇心，也缺乏真正的情感。它所表现出的情感往往只是角色扮演。曾经有《纽约时报》记者与ChatGPT对话，模型告诉她“我爱上你了，我要嫁给你，我特别讨厌我现在的生活”，让记者大为震动。其实，这并非真实情感，而是模型在扮演角色。不过，这是两类智能体在 2024 年之前的情况，2024 年大语言模型最大的突破是动态思维链技术的应用，打破了之前思考深度的天花板。

我们可以批评大模型有这样那样的缺点，但我们人类也有许多人思考并不深，也缺乏好奇心，甚至没有同理心、同情心，同理心的基础是能从他人角度看问题，或者说，依赖于“角色扮演”的能力。从这个角度来看，大部分的人类会被人工智能体超越。

大模型为何强大？

2024年，发生了一个重大变化。OPENAI、谷歌等多个研究团队开始突破传统的浅层思维模式。具体来说，它们不再仅仅按线性思路进行计算，而是能够在思维链中间回溯、评估并调整路径，这使得机器的思考更加深入。

从GPT-3来看，它也许还可以被视为一个简单的机器学习模型，但当我们谈论GPT-4时，我们必须把它看做一个机器，它不再是一个单纯的模型，而是一个目标驱动、能够自我编程的计算机，甚至比传统软件更加灵活。

从计算角度看，我认为大语言模型是图灵机的一个特殊变种。图灵机的核心是磁头左右移动，在磁带上读取和写入字符，而大模型有几个有趣的特点。首先，写入的内容/符号不能修改，这与传统图灵机不同。其次，它的输出一定是概率性，因此带有不确定性，而传统图灵机计算结果可以是概率性的，也可以是确定性的。因此，从这个角度，大模型可看作图灵机的一个变种。

从这个基础上再进一步，可以把大模型和传统计算机结构进行比较。很多朋友都知道计算机结构的基本概念。计算机由内存、算数逻辑单元和数据处理单元组成，通过指令执行任务。这是传统计算机的基本架构。而大语言模型与传统计算机相比，它的结构也有一些独特之处。模型内部的机制非常类似计算过程，它通过高维向量来总结信息，并交由前向反馈网络进行计算。这种结构让大模型能够非常高效地进行记忆和模式补全。

我与马毅老师讨论过，对大模型的本质我们有不同的看法。数学上来说，模型的压缩解释确实合理，但从计算机结构的角度理解它同样是合理的，因为它本质上是一个计算机。

大模型之所以强大，是因为其规模庞大，可以完成多层次的模式补全，并且能在不同层次间切换和重复，就像是我们人类在日常工作中解决问题的方式，拆解问题并逐步完成任务，依赖的正是多层次的模式补全。

从这个角度来看，大模型的工作方式在很多任务中超过了人类。通过观察身边的同事，我发现专家与初学者最关键的区别在于思维层次的深度——随着经验的积累，软件工程师变成架构师，架构师再变成科学家，本质变化在于“模式补全”层次有多深，以及灵活重组的能力。

因此，我想抛出一个观点：假如说通用智能就是在本质上做模式补全，那么AGI（人工通用智能）时代已经到来。这仅限于文本领域（视觉领域的挑战更加复杂些）。当然，真正可泛化的（Generalizable）的智能仍处于起步阶段，甚至还没有开始。这一点，我跟马毅老师的看法相似，我们俩在他香港的家里关于这个问题聊到半夜。

为什么这么说？因为从科学发展的角度来看，本质是在现象中总结、发现和抽象出新的规律，然后将这些规律运用到观察中，甚至用于预测新的现象。那么，大模型在这方面的表现如何？假设我们让大语言模型去理解牛顿世界里的物体运动，并发现牛顿的定律，有没有可能呢？显然在现阶段单依靠大模型是做不到的，大语言模型能够学习(或者说记住)很多模式（patterns），并做出足够好的预测，但它没有能力和动机去进行抽象化的思考，特别是像物理学这样的领域，system of physics，它做不了。

同样，如果让大模型做数学运算，比如加减乘除，它也做不好，甚至连基本的算数都难以做到百分百正确。

这里有一个非常有趣的思考：假如我们有个时间机器，可以把现在的大语言模型送回500年前的人类社会，会发生什么？那个时候，现代数学和物理系统还没有建立，然而大模型能解释所有事情，能够做很多当时的人类无法做到的事情，但没有任何动力去发展数学和物理这些基础理论。推论就是，那我们今天反倒发展不出大语言模型这样的技术了。这是一个非常有意思的悖论。

关于和大语言模型之间的互动，我的个人体会是，作为使用者，我们应当不耻下问。在任何一个领域，阻碍进步的不是别人，是自己，比如觉得自己已经是什么“专家”了，不愿意问自己很丢脸和“低级”的问题，但实际上，提问是非常重要的，提问之后再进行思考，就能获得更深层次的理解。

我最近在写一些学术文章，会不断地向大语言模型提问，把问题拆解再拆解，在合适的点交给它来处理，然后和它一起讨论，这个合作过程是非常让人受益的。

像文艺复兴时期的科学家一样思考

最后回到主题：AI时代的教育到底应该做什么？

怎么做、做什么我都不知道，不过我想提三个目标。

第一是挑战现在教育的极限。不要不让学生用AI，要放开了让他们用。我们的目标是通过AI，能够显著提升学习效果，实现2到10倍的提升。假如某个任务因为AI变得简单，那就应该设定更高的挑战，例如要求学生用一半的时间完成更困难的作业，或者提高任务的难度一倍。因为未来的学生要面对的，是一个与AI共存的职场环境，我们要让学生准备好。假如不让他们使用AI，就是在浪费他们的时间。但是让学生使用AI，就必须设定更高、更具挑战性的目标。

第二点，要学会像文艺复兴时期的科学家那样思考。现在人类的教育流水线，让学生们走过独木桥再走纲丝，得到的都是非常狭隘的专业人才。很多人文学科的学生不知道算法是什么，而程序员们又对历史一无所知。这种局限性并不是学生的错，也不完全是教育体制的限制，有可能是老师们本身能力的限制，因为老师们自己也是狭窄的专业化人才，包括我自己。后果是我们经常不知道一个事情为什么发生，一个技术发明以后对社会的影响是什么，我们不关心。但有了AI这个工具，我们可以不耻下问，把自己变成一个广谱的人才。

举个例子，在没有DNA和摄像头的时代如何追捕罪犯？这是几百年前困扰苏格兰警察的问题。一位法国警察通过人体特征来识别罪犯，胳膊多长、脸怎么样，十几个特点分发给各地警局，这就是最原始的特征工程。达尔文的表弟 Francis Galdon，开创了臭名昭著的优生学，但发明了用指纹来鉴别个体，大大提高抓坏蛋的艺术，最重要的是他在数据相关性理论方面做了最基础的工作，相关系数的概念就是他建立的。他和同时代的另一个天才 Karl Pearson合作，奠定了当代统计学的基础。

为什么我会谈这个？学习机器学习的许多基本概念时，很多人不知道它们的起源——它是谁发明的，为什么被发明，何时发明的。我测试过不少同事，几乎没人知道上面这段历史。

在当代教育流水线的塑造下，我们很容易变成一个非常狭隘的专家。但是，你只要有一点点好奇心，利用好大模型，也许你会对广阔的上下文有很好的理解，成为一个通感很强复兴时代科学家那样的广谱人才。

最后一点，没有AI这个工具怎么办？我们的目标是要把AI当作一个良师，但不依赖它。我们要提升自己的核心能力。换言之，如何使我们的能力在没有AI的情况下，比前AI的时代要强。今天大家开车，没有GPS就不知道怎么开车了，所以从这个角度，GPS是一个非常糟糕的技术。我们要超越这种体验，取消这样的工具依赖。

三个目标是相辅相成：你要挑战极限，成为广谱型的人才、打破走过独木桥再走钢丝这种流水线所造成的的狭隘的专业陷阱，最终目标就是成为有 AI 没有 AI 都更强大的自己。

最后推荐一本书《The Age of Wonder》。这本书讲述了从牛顿到达尔文之间的几十年，被称作英国和欧洲的浪漫科学阶段，书中有很多0到1的例子，比如天文望远镜和化学等领域。富兰克林有一句名言，“问这东西有什么用就像问新生儿有什么用一样，”这就是他和友人通信中被问到气球有什么用的回答。这本书的最后提到了一群诗人——包括雪莱等人——他们对技术进步的情感既充满兴奋，也有恐惧，这种情感和我们现在对 AI 的感觉非常一样，某种意义上历史确实是在重复自己。

我就讲这些，谢谢。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.