网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Meta华人新秀毕树超，重磅爆料下一代LLM路线！RL+预训练直通AGI

2025-08-04 13:11:26　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ

【新智元导读】OpenAI前研究员、Meta「AI梦之队员」毕书超在哥大指出：AGI就在眼前，突破需高质数据、好奇驱动探索与高效算法；Scaling Law依旧有效，规模决定智能，终身学习才是重点。

AI如何演进至今日？当前最大挑战何在？未来又将何去何从？

6月12日，哥伦比亚大学工程学院座无虚席的演讲厅内，谷歌前工程总监&YouTube Shorts联合创始人、OpenAI前研究员、Meta超级智能团队成员毕树超（Shuchao Bi），对这些问题进行了深度剖析。

俞舟（左）与毕树超（右）同为浙江大学校友

这次演讲的引荐人是哥伦比亚大学工程学院计算机科学系副教授俞舟。事后，俞舟表示：「演讲非常具有启发性。展望的未来，激动人心。」

人脑不过是碳基计算机

尽管如此，毕树超认为仍远未达到通用人工智能（AGI）：

AGI不仅仅是解决数学问题。它需要跨领域泛化、适应新任务，并与环境互动。这正是强化学习和好奇心驱动的探索发挥作用的地方。

要实现AGI，仅仅扩大规模是不够的。Scaling Law没有失效，数据才是问题所在。本质上，我们需要更好的数据，特别是与实用性对齐的数据，以及更高效的学习算法。

他强调了探索在发现中的作用:人类的科学建立在灵感和迭代之上，能够搜索、探索并生成新假设的模型将是关键。

同时，他也发现人类大脑和计算机的学习方式，其实本质上没那么不同。

也许，脑细胞并不特殊—— 它们只是自然进化的产物，本质上就是一台生物计算机。和人工硅基计算机相比，没有任何本质区别。

另一个关键点是：真正决定智能的，可能是「规模」，而不是结构的复杂性。

智能并不源于大脑中那些复杂的神经结构，而是源于我们与环境的互动，以及从数据中学习的规模效应。

过去，常有人说：「简单的张量或矩阵运算怎么可能产生智能？」现在，ChatGPT本质上就是如此。所以，毕树超不认为大脑在做比矩阵运算更复杂或更神秘的事。毕竟，人类的大脑并没有在进行量子计算。

他以一贯深思熟虑的语气总结道：「每隔几个月，我们就看到一些前所未有的进步。这应该让我们重新审视全部我们仍然认为不可能的事情。」

也许，很多我们以为的不可能，其实只是知识的局限。

当然，如今仍有许多尚未解决的难题，但同样也有很多理由值得我们乐观。

那AGI到底都有哪些「未解问题」？未来AI又能带来什么？

直面AGI质疑

Scaling Law是不是失效了？

Scaling Law没有失效，真正的问题在于「数据」。

因为Scaling Law只是对「数据结构」的映射，是规律性的存在。

真正需要改进的，是数据的数量、质量和「智能密度」。

换句话说：学习的本质是「数据受限」的问题。

如果我们在每个领域都拥有无限数据，加上足够算力，其实我们已经具备解决AGI的条件。

有人问：人类数据是从大脑算力转换来的，为什么不把硅基算力转成数据？

他回答道：因为还有几个没解决的难题:

(1)目前只限于可验证结果的领域。

(2)当前模型没法有效生成超出之前策略支持的输出，也就是探索问题。

(3)与蒙特卡洛树搜索（Monte Carlo Tree Search）不同，语言模型无法有效地随机探索。即便无限算力，也要耗时良久，就像猴子敲打键盘敲出莎士比亚，得靠运气。

要实现AGI一个方向是提升学习的数据效率——既然数据是瓶颈，要么多搞数据，要么算法更高效。

其实，人类历史上的知识积累也很缓慢。印刷术问世千年，但早期文字记录有限。直到最近一两年，数据才真正开始爆炸式增长。

人类的知识生成过程可以理解为一个循环：

人类受到环境启发，提出任务；
后代学习已有知识；
少数天才思考多年，提出新理论；
通过实践和同行反馈验证这些理论；
最终写成教材或论文，进入下一轮知识传承。

未来，我们可以用AI去加速这个链条中的很多环节，比如数据生成、理论验证、知识传播。这正是「硅基智能」将带来的巨大潜力。

接下来我们会谈到如何让模型的学习过程更快速、更高效。

但除了速度，更关键的问题是：模型能不能提出全新的想法？毕竟，即使思考速度再快，如果缺乏真正的探索，也无济于事。

那么，首先要问：人类是如何发现新知识的？

最根本的动力是「好奇心」。正是因为我们对未知充满好奇，才会不断主动去探索。而我们同样希望，未来也能赋予AI这样的「好奇机制」。

当然，关于「探索」还有不同的观点。

他认为仅凭插值（interpolation）与外推（extrapolation）可能就足以推动模型智能的发展。因为模型掌握的知识量已经非常庞大，它可以在已有知识之间进行组合与延伸，从而生成新的内容。

但人类获取知识的另一个重要方式，是与现实环境交互。这一点对AI同样重要。

如果有一个完美的模拟器，比如用于棋类游戏（如围棋）的环境，AI 就可以无限模拟，获取无限数据。这种方式极其高效，是通向超级智能的重要途径。

但问题在于：目前还无法模拟现实世界的大多数现象。「仿真到现实」（sim-to-real）之间存在巨大的鸿沟。

世界模型（world models）还很难，因为没有物理世界的完美模拟器。这也是为什么「具身AI」更难。

但如果AI模型能缩小搜索空间，像AlphaFold那样，就能高效搜索、生成更多数据，然后更高效搜索，形成正向飞轮（positive flywheel），直奔超级智能。相关模型已经能高效处理新知识了。

有人说：「人类发现新数学时，很多是意外惊喜（serendipity），没特定目标」。

但很多纯数学家还是有目标，发明数学往往是为解答猜想。但确实有不少意外。

另一个开放问题是：实体化（embodiment）对通用AI（AGI）必要吗？

这取决于我们如何定义AGI。

如果我们定义AGI为「可以胜任所有具有经济价值的任务」，那也许并不需要具身能力。

事实上，现在我们完全可以让人类来充当AI的「身体」。

比如AI想设计一个物理实验，它自己没有执行能力，但我们人类可以替它完成实验并将结果反馈。这就构成了一个「人类+AI」的协作反馈环路。

当然，我们也不希望未来演化成「人类只是AI的操作手」，那值得警惕！

强化学习（RL）是否能真正催生「新想法」？

这是一个悬而未决的问题。

最近有研究尝试回答这个问题。他们评估了在「超出原始模型能力」的范围内，强化学习是否能让模型实现推理能力的提升。

研究发现：经过强化学习之后，Pass@1的命中率提高了，但Pass@100万几乎没变。这意味着，强化学习可能并没有让模型生成出全新的想法。

Pass@1意味着：只需要生成一次答案，就能得到正确结果；

Pass@100万表示：要生成100万个版本，才可能碰巧得到正确答案。

（左）当前RLVR对大型语言模型（LLM）推理能力的影响。通过从基础模型和经过RLVR训练的模型中重复采样生成搜索树以解决给定问题。（右）随着RLVR训练的进行，平均性能（即pass@1）有所提高，但可解决问题的覆盖范围（即pass@256）减少，表明LLM的推理边界缩小。

但这项研究只针对部分开源模型，范围很有限。

随着方法的进化，强化学习完全有潜力让模型提出新的观点。

关键在于：我们是否能提升模型的「探索能力」。

人类之所以能不断发现新知，源于我们的「好奇心」驱动的探索。我们也希望，未来AI模型能够具备类似的机制。

要怎么实现呢？这仍是一个悬而未决的问题。

灵感与探索，是通向未来的钥匙。但这也不是实现AGI的阻碍。

如果回顾人类科技史，就会发现大多数成果并非「灵光乍现」，而是在前人基础上不断探索、演绎的结果。

这一点正是模型非常擅长的。它们可以高效地「理解已有知识」，并进行组合、扩展和外推，远超人类。

我们已经看到了令人振奋的证据。

举个例子：AlphaEvolve实现真正的创新。

在分析（自相关和不确定性不等式）、几何（填充和最小/最大距离问题）以及组合数学（埃尔德什最小重叠问题及有限集的和与差）等问题上，它发现了突破性数学构造示例。

另一个关键问题是——AI的学习效率远不如人类。

人类学一个新桌游，可能只要几分钟、几百个token。但AI要十倍、百倍的 token 才能学会。

为什么？因为人类不用「下一个token预测」。

我们预测的是「高层次意图」，而不是逐字逐句地猜「下个词说什么」。

换句话说：人类在抽象层面学习，AI在表面结构浪费算力。

这就是下一代 AI 范式要解决的核心问题之一：如何让AI像人类一样，「高效、抽象、少量样本」地学习。

还有个问题是让推理更可控。问题是：数学家很多发现是意外（serendipity），对吧？模型却不是。

牛顿有段名言：

我不知道自己在别人眼中是什么样的人，但我觉得自己只是一个在海边玩耍的孩子，偶尔拾起一块更光滑的卵石，或一个更美的贝壳，而真理的大海还未被探索地展现在我眼前。

这句话非常浪漫，完美诠释了「偶然发现」的本质。

但AI的不同之处在于：它可以极大压缩「搜索空间」。也就是说，AI可以让「偶然发现」变得更频繁、更可控。

科学发现的本质，其实就是「搜索」。而AI是最擅长搜索的系统之一。

毕树超相信「灵感」不是人类独有的特权，机器也能拥有属于自己的「巧合」。

接下来的一个开放问题是：下一代AI的扩展范式会是什么？

过去的范式中，先是Scaling神经网络Transformer的深度；随后，Scaling混合专家架构MoE中的专家数量；然后，是测试时计算和强化学习。

未来，我们可能会在这些方向继续拓展：

模型使用的工具数量；
自我博弈能力（Self-play）；
上下文理解能力；
最重要的：记忆能力；

终身学习能力（lifelong learning）将会是下一个关键点。

我们也必须正视AI的三大类安全问题：传统内容安全、滥用风险、对齐失败。

第三类最危险，也是现在研究最活跃的方向。

参考资料：

https://youtu.be/E22AOHAEtu4

https://www.linkedin.com/feed/update/urn:li:activity:7336814222590341120/

https://x.com/shuchaobi/status/1949493389894058487

https://www.engineering.columbia.edu/about/news/exploring-past-and-future-ai

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

世界引擎：Post-Training开启Physical AGI新纪元

机器之心Pro 2026-04-19 20:00:03
0 跟贴 0
小学生画了撇胡子骗过AI年龄验证，硅谷工程师沉默了

机器之心Pro 2026-05-31 14:27:31
22 跟贴 22

星海御风与星海高质量数据集亮相2026世界人工智能大会

财联社 2026-07-18 14:40:08
0 跟贴 0

打败Fable 5！Kimi K3冲上第一，杨植麟导师很骄傲

智东西 2026-07-18 14:47:51
3 跟贴 3
39℃上海，最聪明的一群人在WAIC琢磨这件事

虎嗅APP 2026-07-18 17:00:07
0 跟贴 0

“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0

Agent会干活了，却不会过日子

钛媒体APP 2026-07-17 18:40:09
0 跟贴 0
拆开Claude大脑也没用！AI黑箱真正的钥匙，藏在本体工程

新智元 2026-07-17 08:58:40
2 跟贴 2

对话翁家良博士：人本人工智能才是价值终局

财天COVER 2026-07-18 11:13:03
0 跟贴 0
AI颠覆「旧手机」，阶跃创造「新物种」

华尔街见闻官方 2026-07-18 18:22:46
0 跟贴 0
WAIC2026的三个关键信号：算力重组、Agent交付与AI硬件闭环

36氪 2026-07-18 18:23:53
0 跟贴 0
直击WAIC｜“手掌大小的设备驱动千亿参数” 告别参数内卷，AI红利走向实际落地

每日经济新闻 2026-07-18 18:28:07
0 跟贴 0
持续领跑世界模型驱动物理AGI，极佳视界再获10亿元B2轮融资

36氪 2026-06-19 17:24:18
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
英国买中国电车，遇一本正经邻居，竟跑来认真理论

搞笑小捣蛋 2026-07-16 00:00:00
274 跟贴 274
CMU等团队让AI生成的3D场景真正站得住

机器之心Pro 2026-05-05 13:51:56
0 跟贴 0
他们都喜欢造电车，看油车的结构的复杂性就明白了！

呆毛隆隆 2026-07-16 01:51:46
17 跟贴 17
理工科计算机留学指南，深耕 CS 赛道正规渠道一览

南枝谈 2026-07-18 17:17:33
0 跟贴 0
层级增殖与范式革命：三大数智经济形态辨析

经济观察报 2026-07-18 11:27:28
0 跟贴 0
计算机专业未来发展：4个核心趋势解析

文理道 2026-07-18 14:07:29
0 跟贴 0
武契奇称支持乌领土主权完整俄议员：他要对得起良心

澎湃新闻 2026-07-17 21:28:17
52457 跟贴 52457
数学老师讲解6÷11×99的简便算法

农村丑爸记录生活 2026-07-14 05:21:00
1 跟贴 1
帮ChatGPT补足短板的，竟然是一家中国黑马！

新智元 2026-07-18 16:35:06
0 跟贴 0
魔兽世界：能直接改人物模型的7件神物，第一款掉率低到让你怀疑人生！

Uncle喵喵 2026-07-14 18:10:00
1 跟贴 1
两个副省级城市政府领导班子有调整

吉刻新闻 2026-07-18 15:00:51
3 跟贴 3
巧用一半模型秒解小升初常考题！

公考客栈店小二 2026-07-14 11:00:00
1 跟贴 1
不了解几何模型的同学看到无从下手

公考客栈店小二 2026-07-18 12:00:00
0 跟贴 0
姐姐问弟弟期末成绩，“老弟学习不咋地，篮球知识挺扎实”

理想之声 2026-07-16 14:28:52
0 跟贴 0
把Agent丢入1000+文件：人大CoDA-Bench揭示Code Agent瓶颈

机器之心Pro 2026-07-05 16:28:08
0 跟贴 0
切开Claude大脑，Anthropic称发现了一个类似人类意识的内部空间

DeepTech深科技 2026-07-07 10:20:48
0 跟贴 0
哈尔滨一披萨店零点开业

潇湘晨报 2026-07-18 09:45:15
109 跟贴 109
轰-20十年未现身背后：战略定力与技术迭代的双重博弈！

安梦入天下 2026-07-15 02:57:59
0 跟贴 0
汗在哪里，病就在哪里？尤其是这4个部位出汗多，可能暗藏健康隐患

大象新闻 2026-07-18 15:12:03
3 跟贴 3
7月18日外盘头条：美伊互袭基础设施英国研判特朗普对伊威胁并非空话 Meta据悉洽谈出租算力

新浪财经 2026-07-18 06:00:01
0 跟贴 0
VIP群成员满仓融资亏超千万元？任泽平回应

界面新闻 2026-07-18 14:40:22
349 跟贴 349
突然宣布退出国内市场！网友：啊？我才买的

扬子晚报 2026-07-16 22:10:21
2025 跟贴 2025
只有真军迷才知道的知识

市井中人 2026-07-14 02:10:40
1 跟贴 1
一键全歼，全球首个？中国推出无人机团灭算法，杀伤率达100%

火星方阵 2026-07-15 20:36:20
1 跟贴 1
周六你需要知道的隔夜全球要闻：美股费城半导体指数进入技术性熊市；美军称对伊朗发动新一轮打击连续第七晚发动空袭；Meta洽谈向Anthropic出租算力资源

财联社 2026-07-18 07:04:02
1 跟贴 1
阿米巴原虫，它是如何吃掉人类大脑的？

小白聊科普 2026-07-18 08:33:34
0 跟贴 0

小仙女天塌了：舔了她半年的男人去舔别人了！

小仙女天塌了：舔了她半年的男人去舔别人了！

黯泉

2026-07-18 13:01:30

普陀山5元水永远售罄，3元机常年断电，只不过这回游客更硬气！

普陀山5元水永远售罄，3元机常年断电，只不过这回游客更硬气！

星娱叨叨社

2026-07-16 15:00:19

申思让人一声叹息，球迷想念吴承瑛，他几乎是中国足球唯一的清流

申思让人一声叹息，球迷想念吴承瑛，他几乎是中国足球唯一的清流

足坛刘脂导

2026-07-18 18:07:37

她是女篮大美女，身高1米88，嫁CBA8冠王，儿女双全很幸福

她是女篮大美女，身高1米88，嫁CBA8冠王，儿女双全很幸福

大西体育

2026-07-18 08:49:32

AI视频惹出大麻烦！菲律宾要求《中国日报》立即删除，事情闹大了

AI视频惹出大麻烦！菲律宾要求《中国日报》立即删除，事情闹大了

虔青

2026-07-17 17:39:39

孙颖莎也没想到，全锦赛开打仅2天，王楚钦竟在赛场上当众发火

孙颖莎也没想到，全锦赛开打仅2天，王楚钦竟在赛场上当众发火

洲洲影视娱评

2026-07-18 18:25:50

地名撞名要赔46万？上海知名企业起诉江阴一乡镇宾馆商标侵权，网友：法务外包了

地名撞名要赔46万？上海知名企业起诉江阴一乡镇宾馆商标侵权，网友：法务外包了

火山詩话

2026-07-17 06:24:50

谢林汉姆：希望热刺留住罗梅罗，这种“坏小子”能震慑对手

谢林汉姆：希望热刺留住罗梅罗，这种“坏小子”能震慑对手

懂球帝

2026-07-18 18:27:20

申通创始人殒命25岁，死因成疑匆匆火化，妻子携司机共享百亿遗产

申通创始人殒命25岁，死因成疑匆匆火化，妻子携司机共享百亿遗产

老琴才是我的外号

2026-07-18 11:56:37

三伏40天，这7种食物一定要多吃，生阳气排寒湿，冬病夏治

三伏40天，这7种食物一定要多吃，生阳气排寒湿，冬病夏治

阿龙美食记

2026-07-17 21:15:31

宣布退赛，郑钦文2-0输球后，做出新决定，调整状态，冲北美1000级赛！

宣布退赛，郑钦文2-0输球后，做出新决定，调整状态，冲北美1000级赛！

宝哥精彩赛事

2026-07-18 10:23:25

山西省朔州市委原常委、秘书长何向荣被“双开”

山西省朔州市委原常委、秘书长何向荣被“双开”

界面新闻

2026-07-18 16:03:53

国产空气悬架可靠性引质疑孔辉科技声明：交付147万台份从未批量漏气

国产空气悬架可靠性引质疑孔辉科技声明：交付147万台份从未批量漏气

快科技

2026-07-18 09:16:14

特朗普公开批评英格兰队主帅图赫尔战术“反常”，透露曾和凯恩一同打过高尔夫

特朗普公开批评英格兰队主帅图赫尔战术“反常”，透露曾和凯恩一同打过高尔夫

红星新闻

2026-07-18 08:53:19

古语道"晨食壮火，午泄残精，命短阳衰"，短短一句话藏着男人护阳长寿的关键

古语道"晨食壮火，午泄残精，命短阳衰"，短短一句话藏着男人护阳长寿的关键

磊子讲史

2026-07-14 18:29:59

佛山市南海区人大常委会党组书记、主任陈浩斌被查

佛山市南海区人大常委会党组书记、主任陈浩斌被查

新快报新闻

2026-07-18 11:44:04

16岁女儿报警称遭父亲性侵，父亲一审被判无期，二审时女儿称系诬告：因管教太严心生怨恨报假警

16岁女儿报警称遭父亲性侵，父亲一审被判无期，二审时女儿称系诬告：因管教太严心生怨恨报假警

大风新闻

2026-07-18 09:41:02

富豪女拒缴40元停车费，猛踩油门拖死收费员，其父狂言：我来摆平

富豪女拒缴40元停车费，猛踩油门拖死收费员，其父狂言：我来摆平

易玄

2026-07-09 20:54:45

3岁丧母、父亲跑路被舅舅捡回家养15年 712分考国防科大看哭无数人

3岁丧母、父亲跑路被舅舅捡回家养15年 712分考国防科大看哭无数人

宝哥精彩赛事

2026-07-18 12:00:47

海外资金抢不到长鑫科技，竟把它炒出了4万亿估值

海外资金抢不到长鑫科技，竟把它炒出了4万亿估值

每日经济新闻

2026-07-18 15:19:31

AI产业主平台领航智能+时代

15722文章数 66961关注度

往期回顾全部

科技要闻

WAIC2026看什么？这份"不迷路"攻略请收好

头条要闻

山体崩塌亲历者：目睹人被埋惨状巨石砸下房子像豆腐

头条要闻

山体崩塌亲历者：目睹人被埋惨状巨石砸下房子像豆腐

体育要闻

德尚是非典型法国人 14年执教留下丰厚遗产

娱乐要闻

大S给具俊晔留遗产是昏头？实际上她清醒得很

财经要闻

股民当街砍博主！韩国股市终极大屠杀

汽车要闻

把中国超跑卖到英国，比亚迪正在被世界看见

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

家居

房产

健康

旅游

手机要闻

苹果上调日本部分iPhone售价

家居要闻

2026建博会(广州) 公装联探展交流活动

房产要闻

炸场！十五五定调黄埔！科学城真正的红利赢家，藏不住了

刮痧也会刮出脑梗？讲个真实案例

旅游要闻

八达岭长城景区暑期客流攀升北京延庆警方多警种联动护航平安出游

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版