两位科学家关于AI for science的开年演讲|牛顿|维纳|算子|数学|智能体|神经网络

分享至

2025年1月12日下午，科学公益机构北京市海淀区智识前沿科技促进中心举行了主题为“AI for Science，AI for Good”的年度科学盛事。

⾹港⼤学计算与数据科学学院院长、忆⽣科技创始⼈马毅、亚马逊云科技上海人工智能研究院院长张峥分别以探索智能本质之路和大模型时代，教育的新挑战 —— 从流水线到文艺复兴为主题做了新年科学演讲，以下为观点摘编：

马毅：探索智能本质之路

1. 之前我讲一句爱因斯坦的话，讲的是science，Everything should be made as simple as possible，but not any simlper。所有的事情都应该解释得尽可能的简单到不能再简单。要简化，把世界的规律用最简单的方式找到，但是不能再简单，一再简单就解释不了现象。这两句话在我看来是智能的本质。

2. DNA就是自然界第一个大模型，生命最早就是靠DNA，一代一代的自然变异，物竞天择，适者生存。不断的修改，试错，传承下去，个体没有什么智能，群体有智能，通过自然选择。这种过程现在有一个很流程的名字，强化学习，不是不能进步，代价很大，一将功成万骨枯。现在的大模型就是这样的，我们并不了解它的机制，各个团队在不断试错，百模大战，群魔乱舞，适者生存，机制都一样，现象也一样，不是不能进步，代价很大，你没有几亿美元不要想做这个事情。

3. 5亿年前个体出现大脑神经系统，开始出现了眼睛，个人从外部世界获取信息，造成了寒武纪生命大爆发。大脑一定程度上取代了DNA的作用，个体具有了智能，所以在生物物种智能叫做基因遗传和自然选择进化，个体具有后天学习与适应的智能，这是一个非常大的跳跃，智能机制的跳跃。

4. 后来到了人，动物开始群居，出现信息交流，开始出现语言、文字，智能机制在提高，不再是个人学习，而且我学习的东西还通过语言和文字交流传承下去，语言文明取代了DNA另一部分作用。这是群体智能。

5. 几千年前另一件事情发生了：数学和科学，人类学会了抽象的能力，很多的知识超越了从经验数据里提取的能力，这就是人的智能。在上个世纪40年代，预知未来一定要了解历史，作学问的一定要把历史搞清楚，真正的智能这件事情的起源在哪里，现在一说就是五六年前的AI，这是完全错误的，真正对智能感兴趣的是40年代，因为很大一部分科学家希望机器能够模拟动物或者人的能力，包括对有用信息是如何存储的，他的学生发明了控制论，如何提升自己的决策，冯诺依曼的《博弈论》，如何通过人脑学习，人工神经网络第一个数学模型，想知道模拟外部世界感知能力，这个系统是什么，机理是什么，当时有一本书维纳的《控制论》，他对这帮学生来说，他们认为智能后面的数学机制是统一的，只要你找到了这些机制，动物和机器是分不开的。

6. 最近这十年，2012年的时间神经网络在算力和数据的加持下确实了不起，就是深度网络的实现变得可能，文本、图像包括科学的发展突飞猛进。主要是对以前意识到这个机制的实现，从技术上变成可能，甚至认为我们技术取得进步，包括我对以前的同事都说，可能白盒子就够了，只要它工作对不对，一定意义从工程角度是可以的，但这从科学角度是不能接受的。懂历史的都知道，只要一件事情很有影响，又是黑盒子就会被人利用，自古以来如此。我们光从这个角度就要搞清楚，到底智能是什么，到底神经网络在干什么。

7. 如何把智能定义成一个科学问题，它的科学问题到底是什么，它的数学问题是什么，它的正确的科学方法该怎么证明，现在必须上日程，不然很多人就会炒作和恐惧。原子弹、病毒，如果不清楚就变成很大的问题，这是在座科学家的责任，必须搞清楚。我们要真的变成一个科学问题讲清楚，智能到底要学什么，要做什么，生命为什么能存在，它的基本的机制是什么？然后才是怎么去学，为什么有神经网络，怎么把这件事情做对做好做高效？这是我们一定要回答的一个问题。

8. 每个人，甚至阿猫阿狗都是牛顿，只是它自己不知道，它都对外部世界建立了非常好的精准的物理模型，当一个物体往下落的时候鸟和猫很快可以接到，甚至比人还快，它能利用以前学习到的规律对外部物理世界做精准预测。牛顿定理描述阿猫阿狗学到的东西，只是语言和形式不一样。

9. 如果数学在一条线上，但东西没有，你知道怎么填空，这就是AI做的事。GPT就在完形填空，Tansformer就是在做这件事。还可以做什么，去噪，我们观测到有噪声，规律找到以后可以去噪，图像不清楚可以去噪，现在你们看到AI生成的听到的声音和图像就是在做这件事，把这件事情做对。还可以做什么呢，纠错，我观察到东西有错误，但是跟我的规律不符，一个东西被遮挡了，我们的大脑从来在做这件事，我不用看所有的东西，当家作主我可以完形填空，损毁了可以恢复，甚至远远超过人的想象，就在做这件事。

10. 既然是这样，我们整个统一的数学问题就是要从高维数据里学到这些数据的定位分布，然后把它组织好，结构化。大脑就在做这件事情。找到数据之间的相关性，找到规律，现在在高维的空间，一百万的像素，一千万的像素空间中一张图，但是结构就几维，宇宙是千变万化的，但是多少维的模型，现在最高维的，有些数学家说9维就够了，11维就够了，一直从宇宙大爆炸到现在观测到所有物理现象，用9维或者11维空间就可以完全描述，很简单，规律很简单，现象千变万化。

11. 怎么学习，从经验到原理，神经网络又在干什么呢，比如我们知道学习的时候就要找数据的分布，把这个熵减掉，找到它的规律，怎么做呢，这是一个很复杂的函数，目标很复杂，爬山大家会吧，局部的优化会吧，自然界没那么聪明，我也不知道怎么做，但我知道怎么把现在的变得好一点，一步步逐渐优化，把进来的数据稍微组织一下，使得熵减少一点，一层一层地做，神经网络每一层都在对数据做整理，让输出比输入好一点点，所以神经网络的整个角色，它的功能变得一目了然，就在做压缩，在实现这些数学算子，实现这个功能。你马上可以把这些算子用数学方法推导出来，你知道要优化这个目标函数，求导会吧，求了导以后做梯度下降，梯度下降了以后，你可以发现这个算子就有Tansformer的结构，而且推导出来的算子和结构更加简洁，最后学到的数学，学到的结构更加有统计意义，几何意义，就在聚类分类，完全知道神经网络的目标，你就可以设计它了，每一层要实现什么目的，一目了然，完全可解释可控，每一个算子，每一个参数在做什么都可以搞得很清楚。

12. 最初的白盒计算，到现在几十个亿，原来通过经验设计很多冗余不清楚的地方都可以做到，现在的Tansformer是二次复杂度，现在优化可以变成线性复杂度的算子，而且不是猜出来的，是算出来的，更加高效，原来不必要的东西全可以不要。

13. 这还只是在学习，从外部的数据学到分布组织好，但你做的对不对，有没有丢掉的，数据够不够你并不清楚，你的记忆到底完整不完整，怎么验证你得到的模型压缩去噪以后够了呢，怎么弄，只有一招，回去用，去预测。所以我们验证我们的书和记忆是不是完整，一定要回去验证。今年的诺奖得主就在做这件事，就是想把autoencoding做好，只是当时的方法是受物理的启发，现在看起来不是很对，但它的问题是对的。怎么做这件事情呢，我知道在做压缩，所有的设计全部是白盒，没有任何猜的，这些算子都是数学答出来的，非常清楚。跟经验的，这是通过经验的MIE设计出来的效果一模一样，甚至更好。

14. 还有一件事情，光encoding就够了吗，自然界没有这个说法，阿猫阿狗有这个记忆吗，没有，我们所有的学习都在大脑，我们控制不了外部世界。但自然界没有机会。当一个山羊看到老虎朝它冲过来的，等一等，我测一下你的距离和速度，我还不太会，这种早就被淘汰了，你的学习全部是自主学习。为什么现在有些人说要训练模型呢，很简单，这些人想卖数据给你，想卖芯片给你对吧。因为这种训练代价很大，而我们的小蚂蚁，小动物都能高效的自主学习，不需要太多的数据，因为机制不一样。

15. 你从小大脑每天都在学习，但是你前面学过的东西不会忘，闭环的系统是不会忘的，而且这样的系统在生物里就是有这样的特征，就是这样组织它的记忆，在猴子大脑里研究，组织的非常好，这是正交的空间，而且是稀疏表达，通过闭环、反馈、自控制在学习，这些机制在自然界里都可以看到。

16. 我建议现在年轻人好好读读历史，认真去看，不要上来就觉得人工智能在干什么，他们当时在讲，达特茅斯这些年轻人避开维纳和冯诺依曼，这些人想出头，想做动物感知和预测不一样的智能，人在做什么，50年代图灵提出图灵测试，他们想人如何解决抽象解决问题的能力，而且能够证明，这才是人的智能。当我们对过去十年的智能发展做的事情跟40年代机器智能、动物智能，50年代人的智能相比的话，你会发现哪个和哪个更近，过去十年人工智能还差得远。

17. 过去十年科学往往是两个方法，一个叫归纳法，一个叫演绎法，这两者都有它的道理，相辅相成。过去十几年我们在技术上面突飞猛进，主要靠归纳法，但是我希望今后的十年，如果智能变成科学的问题，science的问题，数学的问题，应该要有很好的数学理论框架，这也是我们计算机泰斗讲的，回归理论基石，探寻智能本质。过去那么多的训练，现在就是呼唤英雄的时代，大道至简，找到智能后面的机理原理和它的思想，多一点思想，少一点技术。

张峥大模型时代，教育的新挑战 —— 从流水线到文艺复兴

1. 技术的发展要放在人类长河里中看，有一个人在网上总结，假如说把过去25万年看成一本书，每一页书是250年，你会发现这本书上绝大部分的地方都是空白，农耕社会都是在后面的时候才发生，这很自然。但这样的书给你一个错觉，好像人类在前面就在躺平或发呆，什么都没做。我觉得一个可以说的例子，就是《人类简史》，里面讲了一个很重要的观点，人类的进步或者退步是因为被小麦驯化。因为是简史，就给你一个印象，就是这个发生非常突然。其实在农耕社会，农耕成为生活的方式花了大概一千年的时间，人类花了很长时间就是在农耕上做试验，并没有立刻放弃狩猎采集活动，而是尝试了很多不同的生活方式，最后才变成农耕生活，小麦成为主要的能量来源。换句话讲，我们不能说小麦驯化人类是错误的观点，但是假设回顾到那时候的历史，我们的祖先在那个时候做了自己的选择和优化。

2. 我们把自己看作一个智能体，把大模型也看作一个智能体，我们做一个比较。这是大家都熟悉的教育系统，它是一个流水线，从小学、到中学然后开始大学生涯，后面做一些高等教育。走过独木桥再走纲丝，然后成为各种各样的专门人才，科学家、工程师、医生、律师、管理者等等之类的，作家等等，这是现在教育的流水线。教育的流水线的特点是它高度模块化，高度的标准化，什么原因？因为我们要把它做成一个高效率的流水线，AI时代可以对里面某些地方有调整，有的人可以学的快，有的人学的慢一点。但是人就是这么长的。有研究说每一代人的IQ比前一代都好一点，抽象思维，城市生活带来的结果是每一代抽象思维能力更高一些，并不是我们更聪明。每个个体逃避部分过这个，一开始还是混沌的，还是要学习，这个流水线生产出来的产品是什么？我们认为在某一领域的单一的专精专家是成功的标志，可以发一些论文，非常厉害，可能对周边临近的领域也有了解，这是我们现在人才流水线打造出来比较成功的产品。

3. 还有一种流水线，听上去非常没道理，就是背诵，先背，背完之后你跟我做，然后再把你修理成一个好的某种智能体，听上去有没有道理，但恰恰这是大语言模型走过的路。它的第一个任务，预训练就是不停背下一个单词，问题在于它的量非常之大，GPT3当初训练样本是150万本书左右，以我自己为标杆，在一个好的年度我最多能够读20本书，但现在我估计一年5本书读完就了不起了。估算一下，一生可以读1000本书，GPT3在3个月里读完150万本书。

4. 这本质上是训练的一个程序，这个训练做的就是打印下一个字符，并不是一个随机的字符，而是符合这个文本里统计规律的，给了前面的X个字符，我知道X+1的字符最可能是什么，这是第一步。第二步，它跟我做，这步非常精妙，它想要做的事情是我有一些事例，比如我有一个文章让你把总结做出来，这是其中一个任务，大概有十几个这样的任务，比如总结，问答，头脑风暴，做信息的抽取之类的。为什么做这件事情，因为我们人类的工作，我们每个人每天要做的工作里了不起就是那些类型，但大语言模型一个大家没想到的地方，它一旦学习N个类型的能力，它可以把它们组合起来，比如说有人给我发一个邮件，有一个会议你要去演讲，我会把那个事情先总结一下，然后用一种巧妙的方式拒绝或者答应，你会把这里几个能力组合在一起，这是大语言模型的第二步。第三步，比较简单，就是胡萝卜+大棒子，把这个大模型揍成一个比较乖巧的人类，所谓用强化学习的方法做一些价值对齐。这个很有意思，要有帮助，还要真实的，无害的，这是它的学习方式。

5. 我们先讨论一下数据本身的性质，左边这个是正态分布，只要是好多的要素迭代起来的结果，最后都是正态分布，我肯定是三个方差之外的身高，今天早上我坐飞机过来的时候，发现前面有一个庞然大物，姚明，这么高，这是正态分布。还有一个分布，当个体和个体之间进行纠缠、扰动、抱团取暖，必然造成一个后果就是长尾分布，它不像正态分布这么简单，。但长尾分布背后有好几个不同的原因，第一个是我有优先连接，假如说我的朋友多，你的朋友少，同样我的发言被听到和点赞的更多，这是很自然的。还有累计效应，一个很有钱，就很可能更有钱，他可以投资，通过反馈增加他的财富，这些长尾定律代表了宇宙里质量陨石的大小是符合长尾定律的。城市也是，社会网络里的热搜也是的，它一定会倾向于一个长尾分布，但不代表它是稳定的，今天的热搜内容和明天的内容一定不一样，但是一定会有热搜这个情况，哪一天世界上没有热搜的新闻了，这是很奇怪的。

6. 我们世界上所有的现象是符合长尾分布的，那么大语言的语料反映这个现实世界必然也是长尾定律，换句话，有很多非常简单的故事，但是有些非常非常复杂的故事，虽然是在同一个品类下，比如冲突，人和人之间的冲突天天发生，但是国与国之间的冲突几十年一次，它要发生的原因非常复杂。

7. 这就代表着大语言模型用多少数据多少算力可以把模型训练的多好，因为数据本身的复杂度就是这样的，它的性能必然是这样的，不是一个时间的结果，而是从信息论里可以推出来的结果。也带来一个什么后果，一旦把所有找到的数据都能滚过一遍，必然就会放缓，长尾的一个重要的标志是说，我要再进步一点点，数据要翻倍，坊间听说过GPTo5出不来，撞墙了，本质是这个原因。

8. 为什么大模型那么强大，因为它是规模超级大的，多层次的，模式补全，为什么说多层次，能把原来打碎的数据都可以切到里面，模式就是词尾的接龙，把程序写完，这是最基本的。然后把任务完成，然后用思维链的方式把这个拆解，最后就是目标驱动的程序。它的层次在不同层次里随意切换，并且重复。我们人是不是也是在做这件事，在日常工作里基本上做到这样非常好，大部分的任务里都比人类出色。你作为一个专家与初学者最关键的不同，就是你的思维深度在哪里，大一大二只能编程，后来变成软件架构师。

9. 假如说把现在的大语言模型早500年送给人类会发生什么事情，不需要数学，也不需要物理，什么都可以解释，什么都可以做了，今天反而会没有大模型，这是一个非常有意思的悖论。

10. AI教育现在到底是什么，第一个就是挑战现在教育的极限，不要不让学生用AI，放开了让他们用，因为对任何目标来说，我们要用上AI，使得我们的目的，使得我们任何学习目标能够两倍到十倍提升。假如说用了AI以后，现在的任务变得简单，那就做更难的挑战，比如说你这学期的大作业要比之前难一倍，或者用一半的时间把东西学完，因为我们要准备好学生将来进入职场的时候这就是他们的条件，他们必须跟有AI的场景里一起工作，假如说不让他们用的话，这就是浪费时间，但是我们让他们用，必须要有新的挑战，这是第一点。

11. 第二点，要学会像文艺复兴时期的科学家思考。因为现在走过独木桥再走纲丝成为人才都是非常狭隘、非常专业的人才。把自己变成一个广谱的人才。在没有DNA和摄像头的前提下怎么抓坏蛋，这是几百年前困扰苏格兰警察的问题，有个法国警察想了一个方法，人体上胳膊多长、脸怎么样，十几个特点分发给警局抓坏蛋，这就是最简单的特征工程。之后达尔文的表弟，他把抓坏蛋的艺术提高了一倍，那时候数据相关性理论是他建立的。之后就成立了第一个统计系的系，我说机器学习里最基本的概念你知道怎么来的呢，它为什么会被发明，是谁，什么时候，没有人知道。我挑战一下马老师，马老师也不见得知道，开玩笑。我们很容易变成一个非常狭隘的专家，但你只要有一点点好奇心，你可以对变成很广阔的上下文有很好的理解。

12. 我们应该把AI变成一个好的老师，没有怎么办，我们要提高自己的学习能力，换言之，我们在没有AI的情况下，比前AI的时代能力要强。假如说今天大家开车，没有GPS就不知道怎么开车了，所以GPS是一个非常糟糕的技术，我们要超过它，用了AI以后你要变得更聪明，有了AI以后你可以飞起来，没有AI也不能躺平，三个目标是相辅相成，你要挑战极限，变成一个广谱的人，有机会打破独木桥和钢丝的狭隘陷阱。

13. 最后推荐一本书《THE ACE OF WONDER》，有人问过气球有什么用，这是富兰克林关于气球有什么用里的一句话，还有天文望远镜、化学。这本书最后讲了一群诗人，其中有一个人写了特别有名一本书《科学怪人》，这些人对技术进步的感觉非常像，一方面兴奋，一方面恐惧，这是18世纪后发生事情。某种意义上确实是在重复自己。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.