Lex Fridman硬核访谈：5万字2026 AI全景报告|算法|编程|预训练|lex|上下文|新论文|kimi

分享至

作者｜林易

编辑｜重点君

2月1日，知名科技播客博主Lex Fridman与两位机器学习领域的重量级嘉宾开展了一场深度对话。Sebastian Raschka是知名机器学习研究员与教育家，Nathan Lambert是艾伦人工智能研究所（AI2）的后训练负责人，同时也是RLHF领域的权威专家。两位嘉宾恰好代表了当前AI领域的两大核心关切：原理与技术路线。

这场长达数小时的硬核访谈信息密度极高，既是对过去一年AI技术突破的复盘，更是对2026年技术风向的深度预判。我们给你划下重点：

第一，关于中美AI竞争：2025年的最大变量是DeepSeek时刻，中国公司在开源权重模型上已占据主导地位。

2025年1月发布的DeepSeek R1被视为中美AI竞争的分水岭，该模型以更低的算力成本达到了接近最先进（SOTA）的性能，震惊了业界。Nathan Lamber说，在开源模型方面表现强势。DeepSeek、阿里Qwen、MiniMax、Kimi等公司发布了大量高性能开源模型，赢得了开源社区的青睐。

相比之下，美国曾经的开源标杆Llama却在这一年迷失了方向。Sebastian Raschka说，Meta试图通过构建巨大的Llama 4模型在基准测试中击败ChatGPT，但陷入刷榜陷阱，忽略了AI领域真正需要的是轻量级、可用的模型。这导致Llama留下的生态空白正在被中国的开源模型迅速填补。

第二，主要AI实验室与模型现状：Anthropic最有序，OpenAI内部混乱，Meta开源策略可能动摇。

Anthropic：Claude Opus4.5是当前顶流，特别是在编程方面表现出色，深受开发者喜爱。Anthropic组织最有序、最不混乱。

Google：Gemini 3 虽发布时营销声量不如对手，但性能极其强大。Google的优势在于拥有完整的全栈垂直整合能力（TPU芯片、云计算、模型、应用），利润率极高，不依赖英伟达的高价GPU芯片。

OpenAI：尽管内部混乱，但仍具有极强的交付能力。GPT-5系列（包括o1/o3推理模型）通过推理时计算节省了大量成本，并定义了新范式。

Meta：LLaMA系列似乎面临内部政治和激励问题，未来是否会有开源的LLaMA5存疑，Meta的开源策略可能在动摇。

第三，关于技术范式转移：预训练的红利正在消退，AI技术战场转向后训练和RLVR。

Nathan Lamber认为，预训练已经变得极其昂贵且边际效益递减，而现在的模型能力提升重点源自后训练阶段的创新。2025年最大的技术突破是带有可验证奖励的强化学习（RLVR）。这彻底改变了模型的训练方式。

传统的基于人类反馈的强化学习（RLHF）更多是调整模型的语气和风格，属于微调偏好，容易触及天花板。RLVR则是让模型在数学、代码等有客观答案的领域进行大规模试错。通过“生成-评分”的迭代循环，模型能像人类学生一样，在数万次的练习中自我修正，从而解锁预训练中已有的知识。

预训练是计算密集型（算力受限），而后训练阶段的RLVR则更像是内存密集型（内存受限），更看重GPU的运行时间而非单纯的算力堆叠。

第四，关于AI编程：AI催生Vibe Coding，软件工程正从写代码转向系统设计。

AI对编程领域的重塑远超预期。Vibe Coding让开发者不再纠结于具体的代码细节，而是通过自然语言描述需求，快速生成并修改代码Diffs。在这种模式下，人类的角色从代码编写者转变为系统设计师和审查者。

Nathan Lambert预测，随着AI能力的提升，软件开发将变得高度工业化。虽然完全自动化的超级智能编程因数据分布的参差不齐而难以在短期内完美实现，但工具的门槛正在急剧降低。未来，一个不懂底层代码的人，只要拥有清晰的系统设计思维，利用Claude Code或Cursor等工具，就能构建出复杂的软件系统。

第五，关于Scaling Laws：规模定律并没有失效，但维度变得更加丰富了。

针对AI发展是否遇到瓶颈的质疑，嘉宾们给出了否定的回答。Nathan Lambert认为，Scaling Laws依然是技术发展的基石，但现在的扩展已从单一的预训练规模分裂为三个维度：

传统规模定律：继续堆叠模型参数和数据集。

强化学习规模：可以进行多长时间的试错学习。

推理侧算力：让模型在回答前思考更久，生成更多的思维链Token。

这种多维度的扩展策略，使得科技巨头们在2026年依然敢于投入数百亿美元建设吉瓦级规模的算力集群。Sebastian Raschka形象地比喻：在一个拥有无限算力的理想世界里，你会把这三个维度的旋钮全部拉满；但在现实中，这变成了一场关于性价比的权衡游戏，大公司需要考虑是花1亿美元训练更大的模型，还是花200万美元做推理侧扩展。

第六，关于AGI的终局：单一通用模型的梦想已经破灭，未来属于多智能体与专业化模型。

对于未来，嘉宾们打破了一个全能模型统治世界的幻想。Nathan Lambert认为，未来的AI生态不会是赢家通吃，而是一个分工明确的系统。

未来不会依赖一个单一的ChatGPT去处理所有事务，而是会有专门负责法律、医疗、编程的垂直模型。现实正在演变为人们针对不同任务调用不同的Agent。未来的数据中心里，将是许多专门的AGI在相互交流、管理和执行任务。

以下为Lex Fridman播客访谈实录：

1、中国 vs 美国：谁将赢得 AI 竞赛？

Lex Fridman：以下是一场关于人工智能前沿动态的对话，涵盖了过去一年AI领域激动人心的突破，以及我们对未来一年的展望。虽然内容有时会涉及深度的专业技术，但我们力求让非专业人士也能听懂，同时绝不降低内容的专业深度。我很荣幸能邀请到AI社区中我最喜欢的两位嘉宾：Sebastian Raschka 和 Nathan Lambert。他们都是备受尊敬的机器学习研究员、工程师，同时也是优秀的传播者、教育者和作家。Sebastian著有两本我强烈推荐给初学者和专家的书：第一本是《从零开始构建大语言模型》（Build a Large Language Model From Scratch），另一本是《从零开始构建推理模型》（Build a Reasoning Model From Scratch）。我坚信在机器学习和计算机科学领域，学习并理解某项事物的最佳方式就是亲手从零开始构建它。Nathan是艾伦人工智能研究所的后训练负责人，也是关于人类反馈强化学习（RLHF）权威著作的作者。

Lex Fridman：让我们从“DeepSeek时刻”这个视角切入。这大约发生在一年前的2025年1月，当时中国公司DeepSeek发布了开放权重的DeepSeek R1。我认为可以公平地说，它以更少的算力和更低廉的价格，达到了接近或持平SOTA（最先进）的性能，惊艳了所有人。从那时起到今天，AI领域的竞争在研究和产品层面都变得异常激烈，这种趋势一直在加速。让我们今天探讨所有这些话题。首先我想问一个尖锐的问题：在国际层面上谁处于领先地位？是中国的一系列公司，还是美国的公司？Sebastian，你认为谁是赢家？

Sebastian Raschka：“赢”这个词涵盖面很广。既然你提到了DeepSeek时刻，我确实认为DeepSeek通过分享开源模型，绝对赢得了那些致力于开放权重模型（open weight models）的人们的心。我认为“赢”包含多个时间尺度：当下、明年，还有十年后。我唯一可以肯定的是，我不认为到了2026年的今天，还会存在哪家公司能掌握其他公司无法触及的独占技术。主要原因是研究人员频繁地更换工作和实验室，人才在不断流动。因此，我不认为在技术获取层面会有明显的赢家。然而，差异化因素将体现在预算和硬件限制上。这些创意本身并非专利，实现这些创意的方式和资源才是关键。所以，目前我看不到一个“赢家通吃”的局面。

Lex Fridman：Nathan，你怎么看？

Nathan Lambert：你可以看到各个实验室在目标投入上存在差异。为了标记我们录制的时间点，目前针对Anthropic的Claude Opus 4.5模型的炒作简直疯狂。我在过去几周一直用它构建东西，它的热度甚至有点像个“梗”了。这很有趣，因为这种热度非常自然。如果我们回到几个月前，Google发布Gemini 3时的营销手段和惊艳程度都非常高。但随后11月底Claude Opus 4.5发布，热度一路攀升，感觉大家对Gemini 3的讨论反而没那么多了，尽管它刚推出时被视为Google夺回AI架构优势的时机。Gemini 3依然是一款出色的模型，我目前仍在使用它，只是其差异化程度较低。

我同意Sebastian的观点，创意空间是非常流动的。但在文化层面上，Anthropic以敢于在代码能力（即Claude Code）上重注而闻名，目前效果很不错。所以我认为，即使想法可以自由流动，但很大程度上仍然受限于人力投入以及组织的文化氛围。Anthropic目前看起来是表现得最不混乱的，这算是一个小小的优势。另一方面，在技术层面，中国有很多令人惊叹的技术。除了DeepSeek之外，还有更多的实验室。DeepSeek在中国引发了一场运动，类似于ChatGPT在美国引发的浪潮，当时所有产品都加上了聊天机器人。现在中国有大量科技公司正在发布实力强劲的前沿开源权重模型，以至于我会说DeepSeek在某种程度上正在失去其作为中国卓越开源模型制作者的桂冠，像智谱AI的GLM模型、MiniMax的模型以及月之暗面（Kimi），尤其是在过去几个月里，表现得更加出色。

Lex Fridman：所以像DeepSeek这样的一些模型因为开源权重而受到了大众的喜爱。你认为中国公司发布开放权重模型的策略会坚持多久？

Nathan Lambert：我认为会持续几年。就像在美国一样，目前还没有一个清晰的商业模式。我写关于开放模型的文章有一段时间了，中国公司也意识到了这一点。他们很聪明，也看到了同样的限制：许多美国顶尖科技公司出于安全担忧，不会购买中国公司的API订阅服务。这在技术领域是长期存在的习惯。因此，这些公司的从业者将开放权重模型视为一种能力，以此来通过这种方式参与到美国巨大且不断增长的AI支出市场中。他们对此有着非常务实的认识，而且这对他们很有效。但是开发这些模型非常昂贵，所以我预计在某个时间点会出现整合，但我不认为这会发生在2026年。2026年开放模型构建者的数量将比2025年更多，而且其中许多著名的构建者将来自中国。

Lex Fridman：Sebastian，你刚才想补充什么吗？

Sebastian Raschka：是的。你提到DeepSeek失去领先地位，我在某种程度上认同，但也必须考虑到，我认为他们仍然处于微弱的领先地位。其他模型的情况并非是DeepSeek变差了，而是其他模型正在借鉴DeepSeek的思路。例如你提到的Kimi，采用了相同的架构进行训练。我们再次看到了这种“跳跃式领先”的情况：一个人发布了某个东西，另一个紧随其后。最新的模型往往就是最好的模型。我认为这又回到了那个事实，不会有一个绝对的赢家。

Nathan Lambert：是的。我们还会看到中国公司有着不同的激励机制。比如DeepSeek非常神秘，而其他一些初创公司则不同，像MiniMax和零一万物（01.AI）这类公司已经提交了IPO文件，正努力争取西方市场的关注，并在那里进行了大量推广。DeepSeek是由幻方量化（Highflyer Capital）这家对冲基金创立的，我们并不确切知道他们将这些模型用于什么，或者他们是否在意商业化。

Lex Fridman：他们在沟通方面很神秘，但在描述模型工作原理的技术报告方面并不保守，在这方面他们仍然保持开放。我们还应该谈谈对Claude Opus 4.5的炒作。这其中包含了一些层面，即它作为X（原Twitter）信息茧房里的宠儿的热度，与实际使用该模型的人数之间存在差距。我认为可以公平地说，ChatGPT和Gemini专注于那些仅仅想使用工具解决日常问题的广泛用户群体，那个群体非常庞大。所以关于编程能力的炒作可能并不能完全代表实际的大众使用情况。

Sebastian Raschka：很多使用模式也是出于知名度和品牌，同时也形成了一种肌肉记忆。ChatGPT已经存在很长时间了，人们习惯了使用它，这像一种飞轮效应。还有一个有趣的观点是LLM的定制化。例如ChatGPT有记忆功能，你可能有一个订阅用于处理个人事务，但你不一定想在工作中使用同一个账号。因为私人生活和工作之间存在界限。我认为这也是一个有趣的切入点，你可能会拥有多个订阅：一个只用于编写纯净的代码，不包含任何个人照片或爱好；另一个则是你个人的东西。我认为未来会是多个并存的。

2、ChatGPT vs Claude vs Gemini vs Grok：谁正在领先？

Lex Fridman：你认为哪个模型赢得了2025年？又有哪些模型将赢得2026年？

Nathan Lambert：在消费级聊天机器人的语境下，问题在于你是否愿意押注Gemini而非ChatGPT。直觉告诉我，这似乎是一个有点冒险的赌注，因为OpenAI一直是该领域的领先者，这在科技行业会带来诸多优势。回顾2025年，势头似乎在Gemini这边，但我认为他们当时的起点太低了。愿Bard以及那些早期的尝试安息吧。他们能克服组织内部的混乱并实现这一目标，确实值得称赞。但与此同时，也很难去赌OpenAI会输。因为他们虽然表面上显得混乱，但非常擅长让项目落地。就我个人而言，我对GPT-5的评价褒贬不一，但它肯定通过高端线路功能的路由机制为他们节省了大量资金，即大多数用户不再像以前那样消耗昂贵的GPU资源了。

Lex Fridman：你对2026年怎么看？谁会胜出？

Nathan Lambert：尽管有风险，我还是要说，我认为Gemini将继续追赶ChatGPT的进展。当两者都以如此极端的规模运行时，Google的规模优势在于它能够更好地将研究与产品分开。而OpenAI在运营上常被传非常混乱，一直在追求高影响力的事物，这是典型的创业公司文化。在软件和企业端，我认为Anthropic将会延续他们的成功。Google Cloud拥有丰富的产品线，Gemini这个品牌对他们的建设至关重要。Google Cloud将继续保持良好的发展势头，但在生态系统中解释清楚这一点会更加复杂，因为那是与Azure和AWS的竞争。

Lex Fridman：所以在基础设施方面，你认为TPU带来了优势？

Nathan Lambert：很大程度上是因为NVIDIA芯片的利润率高得离谱，而Google可以从上到下开发一切来适配他们的技术栈，不需要支付这部分利润空间。而且他们在建设数据中心方面拥有先发优势。因此，在这些既需要漫长前置时间，又有着极高利润门槛的领域，Google拥有一种历史性的优势。如果将出现新的范式，它最有可能来自OpenAI，因为他们的研究部门一次又一次地证明了这一点，比如Deep Research、Sora、o1推理模型。这种落地全新研究理念或产品的能力是OpenAI的核心特质。很难赌他们会输，但我认为今年的重点将很大程度上围绕规模化（Scaling）和优化模型中那些“垂手可得的果实”。

Lex Fridman：显然，在智能与速度之间存在权衡。这就是ChatGPT-5在幕后试图解决的问题。广大公众到底是想要智能，还是想要速度？

Sebastian Raschka：我觉得这实际上是一个很棒的多样化选择。就我个人的使用习惯而言，大多数时候当我查阅某些内容时，我会用ChatGPT问一个简单的问题，快速获取信息。对于大多数日常任务，我会使用快速模型。现在自动模式已经做得相当不错了。但有时我也想要Pro模式。例如当我写好东西后，我会把它放入ChatGPT并说：“做一个非常彻底的检查。我的所有引用、想法、格式都正确吗？”这种情况下我不需要立即得到答案，可以让它运行着，回头再看。这就是拥有这种选项的重要性。如果每个查询都要让我等30分钟甚至10分钟，我一定会疯掉的。

Nathan Lambert：那就是我。我坐在这儿简直要疯了，你居然还在用路由模式和非思考模型（non-thinking models）。我心想：“你是怎么受得了那种东西的？”我已经重度使用ChatGPT很长时间了，从来没碰过非思考模型。我觉得它的语气和出错的概率似乎更高。这可以追溯到OpenAI发布o3的时候，那是第一个能够进行深度搜索、整合多个来源的模型。我已经习惯了那样。所以在处理工作信息查询时，我只会使用GPT-5.2 Thinking或Pro版本。我经常会同时进行五个Pro查询，寻找特定的论文或代码参考。

Sebastian Raschka：我有一个有趣的例子，当时我只需要尽快得到答案。在这次旅行之前的播客中，我家里运行着一个本地GPU，我想运行一个长时间的RL（强化学习）实验。通常我会拔掉电源，但我如果不小心拔掉了GPU电源，当时我妻子已经在车里等着了，我心想：“噢，糟了。”我想要以最快的速度写出一个Bash脚本，用来运行不同的实验和评估。我知道怎么用Bash终端，但在那一刻我只需要大概10秒钟把命令给我。所以我用了不带思考过程的最快模型。它给了我Bash命令，我需要将不同的脚本串联在一起，这就解决了问题。

Nathan Lambert：我用Gemini处理这类需求。我会用思考模型处理所有信息类事务，然后用Gemini处理追求速度的任务，或者那些通过Google搜索能更好解释的内容。Gemini应用也变得好多了。对于代码和任何形式的哲学讨论，我会使用Claude Opus 4.5，而且总是开启扩展思考（extended thinking）。扩展思考和推理时间扩展（inference time scaling）只是让模型变得稍微更聪明一点的方式。然后有时我会使用Grok来获取实时信息，或者在AI Twitter上寻找内容。Grok-4 Super Heavy发布时表现非常出色，但我后来因为习惯用ChatGPT App就慢慢把它忘了。

Lex Fridman：是的，我确实也在用Grok-4 Heavy用于调试。对于那些其他模型无法解决的硬核调试问题，我发现它是最擅长的。这很有趣，因为你说ChatGPT是最好的界面，对我来说Gemini是更好的界面。我想是因为我爱上了它们最出色的“大海捞针”（needle in the haystack）能力。如果我放入包含大量上下文的内容并寻找非常具体的信息，Gemini一直表现最好。这就像有一种阈值效应：你会坚持使用一个模型，直到它做了一件蠢事，然后你就会换个工具。

Sebastian Raschka：没错，你会一直使用它直到它出故障。就像我们使用浏览器一样，你不会在不同浏览器中输入同一个网址对比，除非网页无法渲染。关于长上下文，我之前也是为了这个功能使用Gemini，但GPT-4o发布时展示了惊人的长上下文评分提升。现在我更看好GPT-5.2的长上下文。

3、最适合编程的AI

Lex Fridman：我们还没怎么提到编程。那是另一个很多人非常关注的使用场景。所以我基本上是一半一半地在使用Cursor和Claude Code。你们呢？

Sebastian Raschka：我用的是VSCode的Codex插件。它非常方便，就像一个可以访问你代码库的聊天界面。我知道Claude Code似乎有点不同，它更具智能体（agentic）特征，能为你完成整个项目。我目前还没到能完全放心使用它的程度，也许是因为我有控制欲，我希望能看到具体发生了什么。Cursor对我来说目前处于一个恰到好处的平衡点，它在帮助我，但没有完全取代我的工作。

Lex Fridman：我使用Claude写代码的原因之一是为了培养用英语编程的能力。这种体验从根本上是不同的。你不再是微观管理代码生成的细节，而是查看diff。如果你使用Cursor这种IDE，你可以看到修改和变更代码时的差异。去观察、阅读并深入理解代码，而不是仅仅停留在设计层面进行宏观引导，这是思考编程过程的另一种方式。Claude Code似乎更好地利用了Claude 3.5 Opus。

Nathan Lambert：这对人们来说是一个很好的并排对比。你可以同时打开Claude Code、Cursor和VSCode，选择相同的模型并提出问题。Claude在代码能力那个领域要出色得多。

Lex Fridman：好的，我们应该说明你们两位在多个领域都是名副其实的专家，包括研究员、程序员、教育者以及作家。Nathan，希望你能很快出一本关于RLHF的书。

Nathan Lambert：已经可以预订了，而且有完整的数字预印本。我只是在为实体书做美化和更好的排版。

Lex Fridman：Sebastian Raschka是一位机器学习研究员和作家，出版了多本具有影响力的书籍。其中有两本我想特别提一下：一本是我强烈推荐的《从零开始构建大语言模型》，以及新书《从零开始构建推理模型》。我感到非常兴奋，因为从头开始构建东西是学习最有效的方式之一。

Sebastian Raschka：说实话，从头开始构建一个LLM非常有趣。这也是一个学习很多东西的过程。正如你所说，这可能是了解事物真实运作机制的最佳方式。你可以看图表，但图表可能会有错误；你可以看概念，但可能会误解。但如果你看到代码并且能运行，你就知道它是正确的，它是精确的。这就是编程背后的魅力，它不会撒谎。即使是数学，我认为书里也可能存在你永远察觉不到的错误。因为你在读书时并没有实际运行那些数学计算，所以无法去验证它。而代码的优势就在于，你可以动手验证。

Lex Fridman：没错，我同意你关于《LLM From Scratch》这本书的看法。屏蔽掉互联网等一切干扰，全身心投入到书本中，这种感觉确实很好。但是，我也读过一些书，比如历史书。某种程度上，读书让你不再感到孤独，这真的更有趣。不过在编程方面，我认为与LLM一起编程确实更有意思。其实我认为与LLM一起阅读也更有趣。你说得对。不过这种干扰应该被降到最低。也就是说，你是利用LLM来从根本上丰富体验，通过它增加更多的上下文。也许吧。我只是觉得，在小规模应用上，LLM带给我的“顿悟时刻”频率真的很高。

Sebastian Raschka：确实如此。我也想修正一下我的观点，我并不是建议完全不使用LLM。我建议的是分阶段进行：先进行一轮离线、专注模式的学习，这时候虽然我会记笔记，但我会努力克制住立即查阅资料的冲动；之后我会进行第二轮。对我来说，以这种方式组织学习更有效。有时候问题在后续章节中自然会得到解答，而有时候，让问题沉淀一下、多思考一会儿也会有所帮助。当然，每个人的偏好不同。我强烈建议在阅读书籍时使用LLM，只是对我而言，它不是首选步骤，更像是第二轮的复习工具。

Lex Fridman：作为一个建议，我的做法恰恰相反。我喜欢在开始时就使用LLM。我想先理清整个背景，比如了解我正要踏入的是一个什么样的世界。但我会尽量避免从LLM的界面跳转到Twitter或博客之类的网页，因为那样你就真的会陷入无底洞。你会读到某人的观点，或者看到关于某个特定话题的激烈争论，突然间你就脱离了学习状态，进入了互联网和Reddit的领域。但如果你纯粹是让LLM为你提供“这件事为什么重要”的背景，以及大局观是什么，这会非常有帮助。虽然有些书本身也很擅长搭建背景，但并不总是如此。

Nathan Lambert：这就是为什么我喜欢ChatGPT的桌面应用，因为它把AI整合到了你的电脑工作中，你可以全身心投入其中，而不只是把它当作杂乱无章的浏览器标签页中的一个。我认为Claude Code以及类似的特定工具在营造这种愉悦感方面做得很好。作为一种产品设计，它非常吸引人，充当了一个让你的AI走向世界的界面。Claude与OpenAI的Codex之间有一种难以言表的区别：Claude给人一种温暖且引人入胜的感觉；而Codex虽然通常也同样出色，但总让人觉得在细节处理上稍微有点粗糙。相比之下，Claude Code让构建东西变得很有趣，尤其是从零开始的时候，你完全不用操心，因为你相信它一定能做出来。

这对搭建网站和类似的数据刷新工具非常有用。我用它来进行数据分析。比如我的博客需要爬取Hugging Face的数据，以便持续保存每个数据集和模型的下载量。现在我们有了这些数据，Claude就像是说：“没问题，我已经利用这些数据做好了分析。”我当时心想，这原本得花掉我好几天的时间。我有足够的局势感知能力去判断它生成的趋势是合理的，并且可以去核查。这确实是一种美妙的交互界面，你拥有了一个中间层，而不必亲自去处理那些维护Web项目时必须面对的底层繁琐工作。

4、开源 vs 闭源 LLMs

Lex Fridman：好的。刚才我们讨论了一系列关于闭源模型的话题。让我们聊聊开源模型。跟我说说开源LLM的格局。哪些模型比较有趣？哪些让你印象深刻，为什么？我们已经提到了DeepSeek。

Nathan Lambert：你想看看我们凭记忆能说出多少个吗？

Lex Fridman：来吧，不用看笔记。

Nathan Lambert：DeepSeek、Kimi、MiniMax、智谱AI（Zhipu AI）、面壁智能（ModelBest）。这就已经是不少中国模型了。然后我们把Mistral AI、Gemma也加进来。还有GPT-OSS，也就是ChatGPT相关的开源模型。实际上，NVIDIA也有一个非常酷的模型叫Nemotron 3。特别是在年底这段时间，涌现了很多东西。Qwen（通义千问）也是一个显而易见的名字。你至少可以列出10个中国的和10个西方的模型。

OpenAI实际上也发布了他们的第一个开源模型——隔了很久，自GPT-2以来。这就是我当时写关于“OpenAI发布开源模型”的文章时所指的。当时人们都说“别忘了GPT-2”，我觉得这很有趣，因为那完全是不同的时代了。但GPT-OSS实际上是一个非常强大的模型，并且能做到其他模型做得不太好的一些事情。

出于私心，我也想推介一些西方公司。在美国和欧洲都有完全开放的模型。我在艾伦人工智能研究所工作，我们一直在构建OLMo，并发布了数据、代码以及所有相关内容。现在我们面临着真正的竞争，人们正致力于发布所有内容以便他人训练模型。例如基础模型研究所（Institute for Foundation Models）推出的LM360，他们发布了K2模型。Apertus是一个瑞士的研究联盟。Hugging Face推出了SmallLM，非常受欢迎。此外，NVIDIA的Nemotron也已经开始发布数据。还有斯坦福大学的Marin社区项目，它建立了一套流程，让人们可以通过提交GitHub issue来实现新想法，并使其在稳定的语言建模栈中运行。所以在2024年，这个领域的名单要比以前丰富得多。我认为这对于更多人参与进来并理解语言模型是一件好事。

目前还没有一家中国公司有类似的对应机构。我要指出的是，中国的开源语言模型往往规模大得多，这使得它们作为混合专家模型（MoE）具有更高的峰值性能。而许多我们非常喜欢的西方模型，无论是Gemma还是Nemotron，往往是来自美国的较小模型。不过这种情况正开始改变。Mistral Large 3在12月发布了，它是一个巨大的MoE模型，架构与DeepSeek非常相似。还有一家名为Reka的初创公司。Nemotron和NVIDIA已经预告了参数量远超1000亿甚至达到4000亿级别的MoE模型，将在2026年第一季度左右推出。所以我认为，在“人们使用中国还是美国的开源模型”这一问题上的平衡状态，今年将会发生改变。这是我个人非常期待看到的。

Lex Fridman：首先，非常佩服你能叫出这么多名字。LLaMA是你命名的吗？

Nathan Lambert：不是我。

Lex Fridman：好的。你能提到有哪些表现突出的有趣模型吗？你刚才提到了Qwen3显然是一个佼佼者。

Sebastian Raschka：这一年几乎是以DeepSeek的两个动作作为开端和结尾的：DeepSeek V3和R1。DeepSeek V3是在2024年12月发布的，R1紧随其后。我喜欢它们的地方在于，它们总是在架构上有一些有趣的微调，这是其他公司所不具备的。

除此之外，如果你想选择熟悉但性能非常出色的模型，Qwen3是个好选择。另外我还提到了GPT-OSS。我认为GPT-OSS的有趣之处在于，它算是第一个在训练时就充分考虑到“工具调用（Tool Use）”的公开权重模型。我确实认为这在某种程度上是一种范式转移，之前的生态系统尚未完全准备好。

所谓“工具调用”，是指LLM能够进行网页搜索，或者调用Python解释器。我认为这是一个巨大的突破。因为关于LLM最常见的抱怨之一就是“幻觉（Hallucinations）”。在我看来，解决幻觉问题的最佳方法之一，就是不要试图让模型总是去记忆信息或凭空捏造。对于数学问题，为什么不直接让它使用计算器应用或Python呢？如果我问LLM“谁赢得了1998年的世界杯？”，与其让它去死记硬背，不如让它完全通过搜索来回答。它会进行工具调用来访问Google，也许会找到FIFA官网，然后告诉你“哦，是法国队”。它能可靠地为你获取信息。

所以我认为这是一个巨大的突破，目前尚未被开源、开放权重生态系统充分利用。很多人不使用工具调用模式，首先是因为信任问题。你不想在自己的电脑上运行一个拥有访问工具权限的模型，因为它可能会抹掉你的硬盘。所以你可能需要将其容器化。但我确实认为，拥有这种能力是未来几年非常重要的一步。

Lex Fridman：有几件事简要说一下。首先，谢谢你定义了你所说的“工具调用”的具体含义。在讨论这些概念时，这样做非常好。即使是像MoE这样已经非常成熟的概念，你也得说明那代表“混合专家模型（Mixture of Experts）”，建立起直觉，让人们理解那意味着什么，它是如何被实际应用的，以及有哪些不同的变体。那么，开放模型如此爆发式增长意味着什么？你的直觉是怎么样的？

Nathan Lambert：如果你发布一个开放模型，首要目的就是希望人们去使用它。紧随其后的是透明度和信任等因素。当你观察中国时，最大的原因在于他们希望全球用户都能使用这些模型。如果你观察美国以外的地区，很多人不会为软件付费，但他们可能拥有计算资源，可以把模型部署在本地运行。此外，还有一些数据是你不想发送到云端的。因此，首要任务是让人们开始使用AI，或者使用你的AI，因为如果没有模型访问权限，他们无法做到这一点。

Lex Fridman：我想我们应该明确说明，我们一直在讨论这些中国模型和权重开放模型，通常情况下，它们的运行方式是在本地运行。所以这并不是说你把数据发送到了中国，或者发送给了硅谷的任何开发者。

Nathan Lambert：没错。许多美国初创公司通过托管这些来自中国的模型并进行销售来赚钱，这被称为卖Token，意味着有人会调用该模型来完成工作。

我认为另一个原因是，像OpenAI这样的美国公司非常缺乏GPU。他们已经达到了GPU的极限。每当他们发布新产品时，总是在说GPU资源非常紧张。在GPT-4o的发布环节中，Sam Altman曾暗示过，发布这个是因为可以利用用户的GPU，他们不必动用自己的资源，却仍然可以获得分发渠道。这对他们来说没有任何成本，是一个非常现实的考量。

Sebastian Raschka：对于用户来说，有些用户只是像使用ChatGPT那样在本地使用模型。但对于公司而言，拥有这些模型是一个巨大的突破，因为你可以定制它们，可以通过后期训练添加更多数据。比如将它们专门化为法律、医疗模型等。

此外，中国权重开放模型的吸引力在于，它们的许可协议往往更加友好，通常是无限制的开源许可（如Apache 2.0）。而如果我们使用像LLaMA或Gemma这样的模型，其实是附带条件的。比如在用户数量方面有一个上限，如果你超过了几百万用户，就必须向Meta之类的公司报告财务状况。虽然它是免费模型，但确实存在束缚。人们更喜欢没有束缚的东西。除了性能之外，这也是为什么来自中国的开源权重模型如此受欢迎的原因之一：你可以直接使用它们，没有任何陷阱。

Nathan Lambert：在这方面，生态系统已经变得更好了。当你打开Perplexity并看到它显示“在美国托管的Kimi-K2 Thinking”时，这真的很有趣。这正是我们所讨论的现象。Kimi-K2是一款非常受欢迎的模型，人们评价它在创意写作以及处理软件方面表现出色。这些就是人们在不同模型中发现并喜爱的细微特质。

Lex Fridman：那么，在这些模型探索过的想法中，有哪些是你觉得特别有趣、值得聊聊的吗？也许我们可以按时间顺序来谈。

Sebastian Raschka：首先当然是DeepSeek。如果我们聚焦2025年，R1其实是基于前一年（2024年12月）发布的DeepSeek V3。

在架构方面，令人着迷的是，你仍然可以像我在《从零开始构建LLM》项目中做的那样，从GPT-2开始，通过添加组件将其转化为另一个模型。它们之间有着非常紧密的血脉联系。DeepSeek的独特之处在于混合专家模型（MoE）——当然，并不是他们发明了MoE，我们稍后可以详细聊聊MoE具体意味着什么。除了MoE，他们还采用了多头潜在注意力（Multi-head Latent Attention, MLA），这是对注意力机制的一种改进。

我想说，在2025年，这些权重开放模型之间的主要区别因素在于针对推理或KV缓存（KV cache）大小所做的各种微调。其目的主要是为了让长上下文的成本更低，通过缩小KV缓存的体积来实现。

我们可以做哪些调整？大部分集中在注意力机制上。DeepSeek使用了多头潜在注意力。还有一种“分组查询注意力（Group Query Attention, GQA）”，目前仍然非常流行，这也不是新发明的。OLMo-3使用了滑动窗口注意力（Sliding Window Attention）。这些不同的微调使得模型各不相同。但我曾把它们全部放在一篇文章里进行过对比，发现它们惊人地相似。只是在中间层有多少次Transformer块的重复等数字上有所不同。这就像是微调了一些小旋钮，但无论如何它都能奏效。你可以移动归一化层来获得性能提升。OLMo在消融实验（Ablation Studies）中展示了移动组件对模型的具体影响。

实现Transformer并使其保持运行的方法有很多。目前盛行的大思路包括MoE、MLA、滑动窗口注意力以及GQA。到了年底，研究重点转向了使注意力机制能够随推理Token数量线性扩展。例如Qwen2.5-1M增加了一个门控Delta网络（Gated Delta Net），有点像受到了状态空间模型（SSM）的启发，本质上是用一种更廉价的操作取代了昂贵的注意力机制。

5、Transformers：2019 年以来 LLMs 的演进

Lex Fridman：也许退一步来谈谈Transformer架构的总体情况会很有帮助。

Sebastian Raschka：好的，也许我们应该从GPT-2架构开始。Transformer源自《Attention Is All You Need》这篇论文，原始架构包含编码器（Encoder）和解码器（Decoder）。而GPT只专注于解码器部分。它本质上仍然是一个神经网络，内部包含注意力机制。你一次预测一个Token。将其通过一个嵌入层（Embedding Layer），接着是Transformer块（包含注意力模块和全连接层），中间还有一些归一化层。

从GPT-2发展到现在，出现了例如混合专家（MoE）层。MoE并不是新发明的，其核心思想是在不增加每次前向传播算力消耗的情况下，使模型参数总量变大。

在Transformer内部有一个全连接层（可以想象成微型多层感知器MLP），它非常昂贵，因为它是全连接的。如果你有一千个输入、一千个输出，那就是一百万个连接。MoE的想法是将这个全连接层扩展为多个前馈网络。假设你有256个这样的网络（专家），但你不会同时使用所有的。你有一个路由器（Router），它会根据输入Token决定：“好的，使用这个专家网络会很有用。”

这就叫混合专家。根据输入内容，比如是数学密集型任务，还是英译西任务，它可能会咨询不同的专家。当然，这种分工并不像“数学专家”或“语言专家”那样界限分明，它是一个更模糊的概念。但其核心思想是你把更多知识封装进了网络，但并非所有知识都会被时刻调用，因为那样太浪费了。在Token生成过程中，路由器会有选择性地分配任务。这增加了复杂性和训练难度，有很多环节可能出错。这可能也是为什么OLMo-3仍然使用稠密（Dense）模型的原因。稠密是指只有一个全连接模块，并且始终被利用；而MoE被称为稀疏（Sparse），因为只有部分专家是活跃的。

Lex Fridman：从根本上说，从GPT-2到现在，有多少新想法被实现了？比如，这些架构之间到底有多大区别？

Sebastian Raschka：想象一下GPT-OSS中的分组查询注意力（GQA），它只是从多头注意力（MHA）微调而来的。或者他们把LayerNorm换成了RMSNorm，但这只是一种不同的归一化方式。非线性激活函数从Sigmoid换成ReLU，这也并没有从根本上改变网络。

这只是微调，做了一点点调整。我会说，它在本质上并没有那么大的不同，仍然是相同的架构。你可以通过添加这些改动，从一个模型演进到另一个。例如，我那本书里用的是GPT-2模型（约1.2亿参数），但在奖励材料中，我几乎从零开始构建了Gemma 3.0。我总是从GPT-2模型开始，然后调整组件，就能从一个模型演进到另一个。从某种意义上说，这是一种传承。

Lex Fridman：这真的很有意思。当你退一步审视，你会发现AI领域的发展如此迅猛，但与此同时，从根本上讲，架构并没有发生翻天覆地的改变。那么，这种剧烈变革和进步的动能究竟源自何处？收益究竟在哪里？

Sebastian Raschka：在开发或训练网络的过程中存在不同的阶段。在过去GPT-2的时代，只有预训练（Pre-training）。而现在，我们有了预训练、中训（Mid-training）和后训练（Post-training）。所以我认为，我们目前正处于“后训练聚焦”阶段。当然，如果你能利用更好、更高质量的数据进行扩展，预训练仍然会带来优势。

但是，我们现在拥有了GPT-2所不具备的能力解锁。例如ChatGPT，它本质上是一个GPT-3模型。就架构而言，GPT-3与GPT-2是相同的。新的突破在于增加了有监督微调（SFT）以及人类反馈强化学习（RLHF）。所以这更多是算法层面的改进，而非架构层面的变革。

Nathan Lambert：我认为系统层面也发生了很大变化。如果你关注过Nvidia的发布会，他们会提到诸如“现在支持FP8，支持FP4”之类的技术。这些实验室正在研究如何将更多的算力投入到单个模型中，这让他们能够训练得更快，从而输入更多数据。通过这种方式，你可以更快地找到更优的配置。

没错，本质上“每GPU每秒处理的Token数”是你进行大规模训练时关注的核心指标。通过开启FP8训练，性能可以从10K提升到13K左右。这意味着模型中每个参数占用的内存更少，通信开销降低，从而实现更快的训练速度。所有这些系统层面的优化，支撑了数据和算法上更快速的实验迭代。

这就是一个不断循环的过程。当你观察它们的架构时，很难描述清楚，因为它们看起来几乎一样，但训练这些模型的代码库却截然不同。比如训练GPT-OSS 20B的实际用时比当年训练GPT-2要快得多。在混合专家模型（MoE）中，他们采用了FP4优化，从而获得了更高的吞吐量。但这并没有赋予模型新的“能力”，这仅仅关乎我们能在多大程度上使计算变得更粗粒度，而不导致模型性能下降。

目前Transformer架构的替代方案正在涌现，比如文本扩散模型（Text Diffusion Models）或Mamba这种状态空间模型（SSM）。但它们都存在权衡，事实是目前还没有任何东西能取代自回归Transformer作为SOTA（最先进）模型的地位。所以对于追求最先进性能而言，你仍然会选择它。

6、AI Scaling Laws：它们已经失效还是依然成立？

Lex Fridman：我想这里的大问题是，规模定律（Scaling Laws）在预训练、后训练、推理、上下文长度、数据以及合成数据方面是否依然稳固？

Nathan Lambert：我想先从规模定律的技术定义开始。它本质上是一种幂律关系，你可以将X轴视为算力和数据的结合，而Y轴是对下一个Token的留出预测准确率。人们发现这是一种非常可预测的关系，我认为这一技术趋势仍在继续。

现在的维度更加丰富了。OpenAI的o1引入了推理时扩展（Inference Time Scaling）。此外，你还可以通过扩展强化学习（RL）训练来获得性能提升。所以目前存在三个维度：

传统规模定律：即模型规模和数据集规模。

强化学习规模：即你可以进行多长时间的试错学习。

推理侧算力：即让模型针对特定问题生成更多的思维链Token。

我对这三者都持看好态度。过去一年在强化学习方面（特别是可验证奖励学习，即RLVR）以及推理侧扩展方面已经达成了很多容易实现的目标。这就是为什么现在的模型使用起来感觉如此不同：以前你会立即得到第一个Token，而现在它们在给出回答前会思考几秒钟甚至几小时，生成隐藏的思维链。这在模型能力变化方面简直是一种美妙的阶跃函数。

这种能力几乎完全源自于通过可验证奖励进行的强化学习训练。当你观察模型生成大量Token时的推理过程，你会发现它经常在尝试：调用一个工具，查看结果；再尝试另一个API，查看结果。模型很快就能学会执行这些操作，这为模型在代码库中使用CLI命令、处理Git、整理文件等提供了通用基础。

Lex Fridman：你提到你基本上看好每一种形式的Scaling。那么关于预训练，我们是否在暗示预训练规模化中那些“唾手可得的果实”已经被采摘殆尽了？预训练是否遇到了瓶颈，还是你依然看好它？

Nathan Lambert：预训练已经变得极其昂贵。要扩大预训练规模，意味着你要提供一个非常庞大的模型。目前业内共识是，像GPT-4这一代模型的大小大约在万亿参数量级。其实随着训练效率的提高，你会希望把模型做小，因为这样提供服务的成本会成比例下降。

相对于向数亿用户提供服务的成本来说，训练成本其实是非常低的。DeepSeek有一个著名的数据，按云市场价格计算，预训练费用约为500万美元。在我们刚刚发布的OLMo 3论文中详细说明了，包括工程调试、实验和集群闲置在内，训练一个模型大约花费了200万美元。很多人都能筹到几百万美元来训练模型，但为数百万用户提供服务的持续成本需要耗费价值数十亿美元的算力。

问题在于，如果扩展规模确实能带来更好的模型，它在财务上是否值得？我认为随着AI解决更多引人注目的任务，市场会推动这一点。比如Claude 3.5 Opus与之前的模型相比，彻底解决了我在七月份构建项目时遇到的问题。所以进步仍在继续。

Lex Fridman：所以你的直觉是，如果不考虑财务可行性，仅仅从定律的角度来看，如果扩展计算规模，模型会变得更聪明吗？

Nathan Lambert：是的。虽然这听起来像是对AI公司领导层的盲目信任，但这一规律已经支撑了13个数量级的算力增长，不太可能突然停止。只是最终我们可能无法测试更大的规模，因为规模越大带来的算力问题越多。

现在大家都在讨论2026年，届时超大规模云服务商将投入运营吉瓦（Gigawatt）级规模的Blackwell算力集群。这些电力和数据中心合同都是在ChatGPT发布前后签署的，建设周期需要两三年。实验室将拥有更多的算力用于训练，这是一个既定事实。我预计我们会看到订阅服务价格上涨，比如出现2000美元的订阅服务，这都源于更大一点的模型所提供的技术优势。

Lex Fridman：据报道xAI将在2026年初达到1吉瓦规模，并在年底达到2吉瓦。你认为他们会在规模定律的背景下如何利用这些资源？很大一部分是推理吗？还是训练？

Nathan Lambert：结果证明是“以上所有”。你在训练模型时做出的所有决策最终都会回到预训练。即使你打算扩展RL，你也需要决定能够实现这一点的架构。比如我们讨论的混合专家模型（MoE），其稀疏特性使得生成效率大大提高，这已成为后训练的重要组成部分。

但我认为大多数算力仍然正投入到预训练阶段，因为你仍然希望拥有尽可能最好的基础模型。几年后这可能会达到饱和，届时RL算力投入的比例将会变大。

Lex Fridman：是否有人不同意你的观点，认为预训练基本上已经过时了？认为现在的重点全在于推理扩展、后训练扩展、上下文扩展以及合成数据？

Nathan Lambert：人们普遍有这种感觉，但我认为实际情况并非如此。那种“预训练已死”的论调只是因为兴奋点转移到了别处。

以我们在11月发布的模型为例，如果不算预训练，仅仅做后训练就花了五天时间，这对于一个300亿参数的模型来说是很长的。到了12月，我们又让强化学习运行了三周半，模型变得显著更好。把这么长的时间分配给后训练是前所未有的。

但这并不意味着预训练被遗弃了。这是一种循环：你重新进行预训练，然后进行一个月的后训练，接着进行安全性测试发布给用户。总有可以改进的地方。当你使用10万块GPU进行大规模预训练时，你会遇到截然不同的故障，几乎肯定随时至少有一块GPU是宕机的。你需要让训练代码能够处理这种冗余，这完全是另一回事。

当我们转向强化学习时，它非常适合异构计算。简要介绍一下语言模型的强化学习：你需要准备两组GPU。一组是Actor（执行者），负责生成内容；另一组是Learner（学习者），负责实际的策略梯度更新（如PPO或GRPO算法）。你可以让分布在世界各地的许多不同Actor处理问题，将结果发回给Learner进行评分和学习。

至于推理侧扩展，问题变成了：你如何向1亿用户提供一个需要思考一小时的模型服务？这背后存在巨大的系统性挑战。

Lex Fridman：但我听下来，你对所有这些维度的扩展都持乐观态度。无论是推理、逻辑推理，还是预训练？

Sebastian Raschka：是的。在一个假设拥有无限计算资源的世界里，你会想要全面发力：预训练、中训、后训练、推理扩展全部拉满。更大的模型会赋予模型更多的知识。

但是正如Nathan所说，预训练变得太昂贵了。我们没有无限的算力，所以必须进行权衡。如果你把钱花在预训练上，这是一项固定成本，模型训练好后就永久拥有了这种能力。而对于推理侧扩展，你是为单次查询付费。

这就变成了一笔账：如果我的模型半年后就会被替换，也许花1亿美元去训练更大的模型并不值得，不如花200万美元做推理侧扩展来获得同等的性能提升。这就是ChatGPT现在的策略，他们拥有海量用户，所以选择了一条更具性价比的路线，可能使用了一个稍微小一点的GPT-5模型配合推理扩展。

但在某些特定任务（如奥数）中，你可能需要巅峰性能。总而言之，我认为预训练、中训、后训练以及推理侧扩展都是必须做的，关键在于找到合适的比例以获得最高的性价比。

7、AI是如何训练的：Pre-training、Mid-training 和 Post-training

Lex Fridman：我认为这里可能是定义预训练、中训和后训练的好地方。

Sebastian Raschka：预训练（Pre-training）是经典的训练方式，即在海量的互联网数据、书籍、论文等语料库上，针对交叉熵损失进行“预测下一个Token”的训练。现在的变化在于，不再仅仅是原始数据，还包括合成数据。合成数据并不一定意味着纯粹由AI虚构，它也包括从文章中提取内容并改写为高质量的问答或总结。这就像人类学习：读一本结构清晰的书比看乱七八糟的Reddit帖子学得更快。高质量数据能让LLM训练得更快、更准确。

中训（Mid-training）以前其实也被统称为预训练。被称为中训是因为它介于预训练和后训练之间。它本质上还是预训练，但更加专业化。例如，你在预训练阶段没有那么多的长上下文文档，所以你会设立一个特定的阶段来专门训练长上下文能力。

这就涉及到LLM的一个问题：它是神经网络，存在“灾难性遗忘”。你教它新东西，它就会忘记旧东西。这就像天下没有免费的午餐。

Lex Fridman：Nathan刚才实际上是在说他摄取了太多的内容，以至于出现了一种灾难性的遗忘问题。

Sebastian Raschka：是的。我试着学习关于AI的一切，感觉就像我正在学习预训练并行性时，脑子里丢掉了一些东西，但我甚至不知道丢掉的是什么。

虽然我不想将LLM（大语言模型）拟人化，但在某种意义上，这和人类学习的方式是一样的。数量并不总是越大越好，这就涉及筛选机制。Mid-training（中期训练）阶段就是针对高质量内容进行最终筛选，确保模型最后接触到的是最优质的素材。随后的Post-training（后训练）包含了所有的微调、监督微调以及带有可验证奖励的DPO强化学习。

通过人类反馈等方式进行的微调阶段非常有趣，这也涉及到成本问题。我们在预训练上投入了巨资，相比之下强化学习（RL）的作用稍小一些。我认为RL并不真正教给模型知识，它更像是解锁知识，是一种技能学习，教模型如何利用预训练中获得的知识来解决问题。虽然去年有几篇关于将RL用于预训练的论文，但这目前还停留在玩具级示例阶段，没有人在生产环境中使用。泛化RL后训练更像是技能解锁，而预训练本质上是吸收知识。

Nathan Lambert：关于合成数据，很多人误以为它对模型训练不利。实际上，像DeepSeek和AI2等实验室都在做这方面的工作。比如OCR（光学字符识别）技术，因为网络上存在大量PDF和数字文档，其格式难以进行文本编码。DeepSeek通过OCR提取了数万亿用于预训练的候选数据Token。预训练数据集的规模通常以万亿级Token衡量，研究人员的小模型大约在5到10万亿，Qwen达到了50万亿，有传言称闭源实验室甚至达到100万亿。我们通过巨大的漏斗筛选出极小部分的数据用于实际训练。此外，利用像ChatGPT生成的高质量回答进行训练，也属于合成数据的一种，这与早期模型产生幻觉的数据截然不同。

以OLMo-3为例，尽管其训练数据量少于一些开放权重模型，甚至可能少于OLMo-2，但性能却更优，这主要归功于数据质量。当然，如果我们有更多算力，肯定会训练更长时间。对于大模型而言，增加参数量和吸收更多数据是必然趋势。目前的对数图表显示，小模型会更早进入瓶颈期，而大模型能从海量数据中获益更多。但在目前的模型规模下，获取最高质量数据是我们的自然起点。

Lex Fridman：关于数据质量，是否还有一些唾手可得的机会可以进一步提升它？

Nathan Lambert：这需要按部就班地推进。开源界一直有公认的最佳预训练数据集，但随着新数据集发布，这个地位会不断更迭。比如AI2的Dolmo、Hugging Face的FineWeb以及DCLM项目。以前语言模型主要测试知识和对话能力，现在则要求处理数学和代码。因此，训练推理模型需要重新混合整个数据集。这涉及精妙的科学方法：从GitHub、Stack Exchange、Reddit、维基百科等来源提取小样本，针对不同配比训练小模型并评估，最后通过线性回归得出最优数据集配比。OLMo-3正是引入了新数据源来提升推理能力。随着编程环境或网页导航等新热门领域的出现，你需要不断引入新数据并更改预训练过程。

Lex Fridman：有什么出乎意料的高质量数据源吗？你提到过Reddit。

Nathan Lambert：Reddit确实非常有用。此外PDF也是重要来源，特别是arXiv。AI2运营Semantic Scholar很久了，它是Google Scholar的强力竞品。我们抓取了大量公开访问的论文PDF，这些是真正的开放科学资源。前沿实验室在数据清洗和处理上早就投入了大量工作。现在的趋势是，如果你想在AI领域产生影响力，与其研究花哨的算法（如O1或扩展RL），不如致力于挖掘新数据或优化基础设施。

与此同时，出于法律原因，训练数据的具体构成是目前守得最严的秘密之一，各方都在试图隐藏数据来源以防止泄露。有些人尝试仅使用授权数据训练，以符合欧盟的合规性要求。而像Common Crawl这种对整个互联网的抓取，很大程度上是未经明确授权的。

Sebastian Raschka：这里存在许可方面的区别。正如你所说，有些公司购买了Amazon Kindle或Manning出版社的电子书用于训练，但这处于灰色地带，因为即便付费购买，用于训练可能仍受限制。OpenAI等巨头也开始接触私营企业获取专有数据，而企业为了建立护城河也更加注重保护数据。未来，制药、法律、金融等行业可能会利用专有数据构建内部模型，实现目前无法达到的预训练突破。目前的通用LLM还没触及针对特定任务训练后所能发挥潜力的皮毛。

Nathan Lambert：提到数据版权，Anthropic在2025年输掉了一场官司，欠了作者15亿美元。他们虽然购买了数千本书进行扫描（这是合法的），但也通过种子下载了书籍，正是这种下载行为导致法院判决巨额赔偿。

Lex Fridman：这些法庭案件将定义人类文明的未来。你们两位都是作家，当倾注心血的作品被不加署名地用于训练时，感觉就像是偷窃。

Sebastian Raschka：正如Nathan所说，这包含两个层面。一种是购买书籍后训练的公平性争议，另一种是三家大公司直接使用盗版书籍且不给补偿，后者正是让人愤怒的症结所在。我们需要建立某种类似Spotify流媒体模式的补偿机制。

Lex Fridman：还有一件事，随着LLM应用越来越广泛，GitHub上越来越多的代码是由LLM生成的。这种情况有多严重？

Nathan Lambert：这是不可避免的。这基本上是由人类进行筛选的LLM生成数据。

Sebastian Raschka：我有一个名为mlxtend的仓库，是学生时代开发的，主要用于频繁项集数据挖掘。最近有人在极短时间内提交了大量PR（拉取请求），我确信这是LLM生成的。作为维护者，我感到有些应接不暇，因为没时间仔细审核。但同时我也表示赞赏，因为这毕竟经过了人类的验证，类似于RLHF中的数据标注过程。

Lex Fridman：感觉原始的LLM生成数据与有人类参与（human in the loop）验证的数据之间存在本质区别。

Sebastian Raschka：是的，即便只有一小部分经过验证，也是有价值的。这就像专家使用LLM编写代码并剔除糟糕部分，这种经过“预消化”的信息能节省大家的时间。与其我自己花几个小时去阅读并可能产生误解，不如获取一份经过专家筛选的执行摘要。

Lex Fridman：这就很有意思了。我观察到基于LLM的摘要往往会磨平原始内容的棱角，这是否意味着信号的丢失？

Nathan Lambert：这就是我常说的“声音（Voice）”。我在写作时尝试将研究者认知的感性直觉转化为文字，这种粗放但高信息量的风格正是研究的本质。然而，经过RLHF训练的模型旨在收集大量人类反馈并取平均值，这种过滤器导致模型难以表现得犀利，无法提取核心洞察。这已成为RLHF研究中的基础性难题：它虽然提升了性能，但也扼杀了深层表达。

这也是非常可怕的，因为有数百万人正在使用这些产品。去年GPT-4o发布时，用户甚至因为察觉到模型微小的变化而发邮件投诉，就像电影《Her》一样，人们对模型产生了情感依赖。

Lex Fridman：但这同时也带来了风险。如果人们因抑郁或有自杀倾向而向LLM倾诉，记者可能会报道将自杀事件与LLM联系起来。这会导致公司出于法律考量进一步削弱模型的锋芒，使其变得尽可能平庸。

Nathan Lambert：确实如此。你既不希望LLM对人类造成伤害，又希望它能进行丰富、有挑战性的对话，这对于RLHF研究人员来说是极难平衡的。Anthropic和OpenAI的研究人员在文化上都希望通过技术造福世界。但这确实是一种心理煎熬：一方面，这项技术可能成为推向极端、导致某人崩溃的诱因；另一方面，它也可能挽救其他人的生命。这需要极强的信念感，将其视为一个必须解决的艰巨难题来对待。

Lex Fridman：我们作为一个社会，作为技术用户，必须确保关于AI的对话深入且复杂，而不是仅仅散布恐惧。比如指责科技巨头正在伤害人类或窃取数据，情况其实要比这复杂得多。这些公司内部有很多好人，其中很多你也认识，他们真诚地想帮助他人。他们不仅考虑硅谷，也在考虑全世界不同背景人们的需求。要设计一个能服务所有年龄层、文化背景和心理状态的人的单一系统，确实非常困难。

Nathan Lambert：我希望AI出现的时机能有所不同，避开目前科技巨头与普通人之间的这种紧张关系。现在看来，AI不可避免地成了大公司的游戏，因为投入实在太昂贵了。人们常说美国正将经济押注在AI上，这使得沟通环境变得异常艰难。但我很喜欢你提到的“自主性”。与其因为讨厌科技巨头而拒绝AI，甚至被动消费互联网上泛滥的AI垃圾内容，不如通过使用AI进行构建来获得主动权。建立直觉，理解它的运作机制和弱点，这是一种赋能。这样你就能更有底气地评价：“这是对技术的错误使用”或“这是良好的应用”。作为深度融入系统的一员，你能比普通消费者更好地引导它。

Sebastian Raschka：我觉得你提到的“自主性”这一点很好。与其忽视它，不如思考如何利用它提升自我。不过我也担心，如果你完全用AI做你热爱的事情，那份热爱会不会消失？这可能会导致职业倦怠。举个例子，如果我用LLM帮我完成所有的编码工作，编码过程本身就不存在了。我只是在管理一个帮我写代码的东西。假设两年后，我每天八小时都只是在指挥AI编码，我还会感到充实吗？这是否会削弱我对工作的热情，以及亲手构建事物的自豪感？

Lex Fridman：关于享受工作这点很有趣。最近有一项针对791名专业开发者的调查，“专业”指的是拥有10年以上经验的人。结果显示，无论是初级还是高级开发者，都在交付的代码中使用了AI生成的内容。更有趣的是，在那些超过50%代码由AI生成的案例中，高级开发者占比更高。至于这是否会夺走热爱，大约80%的人表示，将AI作为工作的一部分让他们感到更有趣，甚至乐趣显著增加。

Sebastian Raschka：我认为这取决于具体任务。比如调整网站细节这种琐事我并不喜欢，如果AI能代劳，我完全支持。但在解决复杂问题、追踪并修复Bug时，那种成就感是无与伦比的。如果直接问LLM，你就失去了这种乐趣。或许折中方案是先自己尝试，卡住后再用LLM。正如你提到的例子，处理那种需要修复几百个链接的枯燥工作，AI能消除挫败感，表现非常出色。

Lex Fridman：对我来说，编程的乐趣很大一部分在于代码本身。你说调试是一种乐趣，我会说调试就像在沙漠跋涉数日后终于喝到一口水。你是跳过了在沙漠受苦的部分。如果有结对编程的伙伴，即便他不能直接找到Bug，但他提供的直觉能陪你一起走出沙漠。这也反映了编程过程中的孤独感，而AI能扮演这个伙伴的角色。

Sebastian Raschka：这可能也与延迟满足有关。就像小时候期待圣诞礼物往往比真正收到时更快乐，或者饿的时候吃饭更香。调试虽然令人沮丧，但解决后的感觉很棒。这里存在一个“金发姑娘原则”般的适度区间：太难是浪费时间，太容易则学不到东西。资深开发者使用AI生成的代码更多，可能是因为他们知道如何高效使用并审查代码。未来的问题是，如果从未亲手从头做起，初学者如何成为专家？如果不经历挣扎，就难以建立深刻的思维框架。也许我们需要每天专门抽出时间进行不依赖AI的深度学习，而不是把所有事情都交给LLM。

8、Post-training 详解：LLMs领域令人兴奋的新研究方向

Lex Fridman：这确实是我们需要寻找的平衡点。现在让我们回到编程语境。刚才我们聊了预训练和中期训练，现在谈谈后训练（post-training）。在这个阶段有哪些有趣的思路？

Nathan Lambert：2025年最大的突破是学习带有可验证奖励的强化学习（RLVR）。通过大量扩展“生成-评分”的迭代循环，模型能学习工具调用和复杂的软件行为。这种训练方式完美结合了推理时扩展（inference time scaling），彻底改变了人们处理后训练的方式。

Lex Fridman：你能解释一下由DeepSeek R1推广的RLVR的工作原理吗？

Nathan Lambert：有趣的是，RLVR这个术语源自我们在DeepSeek之前的Tulu 3研究。学术界往往拥有定义术语的话语权，因为封闭实验室透露的信息有限。DeepSeek实现了训练突破，扩展了强化学习的应用：让模型生成答案，根据正确率评分，这个准确率就是奖励。传统RL是在环境中最大化奖励，而在语言模型中，奖励通常是数学或编程任务的准确率。现在这种可验证的边界正扩展到事实核查或特定格式约束。其核心是找到更多可验证的问题让模型尝试。基础设施已从基于人类偏好的RLHF演变为针对客观结果的优化，这开启了模型能力的重大变革。

Lex Fridman：RLVR适用于哪些领域？

Nathan Lambert：最著名的是数学和代码。此外还有基于“评分细则”（rubrics）的方法，即“LLM作为裁判”：用另一个模型根据准则给生成的回答打分。虽然不如数学那样绝对可验证，但这种思路正被推向更开放的科学问题领域。

Sebastian Raschka：回到RLVR，我觉得美妙之处在于，当你给LLM一个已知答案的数学题并让它求解时，即便不加太多约束，它也会像学生或数学家一样展示推导步骤。这些步骤不仅提高了准确性，还体现了“推理扩展”，即通过消耗更多Token（思考更久）来换取更好的结果。R1论文中提到了“顿悟时刻”，即模型意识到错误并自我修正，表现得就像人类一样，这非常有意思，也能建立用户对模型的信任。

今年关于“顿悟时刻”有很多争论。我认为这在某种程度上是虚假的，因为预训练数据包含了整个互联网，模型见过人类自我修正的文本。RLVR实际上是在放大这种有助于“思考”的行为。举个实际例子，我在Math 500数据集上训练Qwen 3基座模型，仅用了50个步数，几分钟内准确率就从15%飙升到50%。这说明模型并不是在几分钟内学会了数学，而是RL解锁了预训练中已有的知识。

Nathan Lambert：关于Qwen存在数据污染的争议很大。比如把题目中的数字改掉但保留文字描述，在不使用工具的情况下，它依然能给出极高精度的答案，这暗示它在训练时见过测试题。因此，RLVR带来的迅速提升可能部分归因于格式化或记忆，而非真正的智力提升。除非我们在模型部署截止日期后建立全新的基准测试，否则很难公平评估。

Lex Fridman：我们能否总结一下后训练（post-training）的“配方”？除了RLVR，RLHF还有什么作用？

Nathan Lambert：这可以看作是一个序列。首先是中期训练（mid-training），这是O1等推理模型的核心，需要极高质量的“推理链”数据（将问题分解为中间步骤），让模型学会如何思考。

接下来是针对可验证奖励的强化学习（RL with Verifiable Rewards）。随着模型变强，简单问题已无法提供足够的训练信号（比如GRPO算法在所有答案一致时就没有信号），所以前沿模型正向科学或复杂软件等更难的领域进军，通过大量试错来提升技能。

最后是人类反馈强化学习（RLHF）。这依然是必不可少的“点睛之笔”，用于调整模型的语气、风格和格式（比如生成易读的Markdown列表），使其更实用、更符合人类交互习惯。虽然RLHF也能提升数学表现，但在可验证领域，RLVR是更直接的路径。简而言之：中期训练赋予技能，RLVR通过试错深化能力，RLHF负责最后的润色与交互体验。

关于RLVR（基于验证的强化学习）所需的算力消耗，其热度确实在持续攀升。OpenAI的Greg Brockman曾有一句名言，提到他们在预训练（Pre-training）和后训练（Post-training）阶段使用了数量相近的算力。但回到关于扩展（Scaling）的讨论，这两个阶段涉及非常不同的硬件扩展方式。预训练是受限于计算能力的（Compute-bound），也就是我们常说的FLOPS（每秒浮点运算次数），即单位时间内能完成多少次矩阵乘法运算。

而在强化学习（RL）阶段，你是在生成答案并在真实世界环境中尝试模型，它最终会变得更加受限于内存（Memory-bound）。因为你在生成长序列，而注意力机制的特性导致内存占用会随着序列变长呈二次方增长。因此，计算方式变得非常不同。如果在后训练阶段使用FLOPS这个指标，情况会变得很奇怪，现实情况更应该看你分配了多少GPU小时。

我认为RL的运行天数正在接近预训练的天数，但可能没有同时使用那么多GPU。预训练的计算密度极高，所有GPU都在高效通信；而RL包含各种动态环节，生成一个10万Token的序列可能需要很长时间。比如考虑到GPT-5级别模型的推理可能需要运行一个小时，如果你有一个小时长的训练样本，必须设法高效处理它。所以从GPU小时数或实际时长来看，RL的规模正在赶上，但人们不想像GPT-4那样把所有鸡蛋放在同一个篮子里进行一次性的超大规模训练，现在的开发更倾向于渐进式。

Sebastian Raschka：RLVR在训练时长或收益获取方面更具无限潜力，而RLHF（基于人类反馈的强化学习）本质上是一种偏好微调，达到某个点后，再投入更多资源意义不大。对于同一个问题，不同人有不同的偏好（比如有人买电脑看重电池，有人看重算力），RLHF试图找到一种“平均”的风格。一旦模型学会了这种风格，继续训练就没有意义了。而RLVR是让模型解决越来越复杂的问题，因此长期来看，将更多预算分配给RL更为合理。

Nathan Lambert：目前我们正处于RL 1.0阶段，即只关注“问题”和“答案”，没有处理中间过程。未来的重点将是过程奖励模型（Process Reward Models），即对推理过程中的每一个中间步骤进行评分，这可以称为RLVR 2.0。Google的相关论文和DeepSeek Math V2都展示了能够自我评分的模型，这将是推理扩展（Inference Scaling）的重要方向。过去在推理模型出现之前，人们尝试过过程奖励模型但并未完全证实其有效性，现在随着o1等推理模型的出现，人们对价值函数（Value Functions）再次感到乐观。

9、给初学者进入AI开发与研究领域的建议

Lex Fridman：现在我想稍微偏离一下主题，谈谈教育。如果听众是聪明的、对编程和AI感兴趣的人，想从零开始构建一些东西，你建议该怎么做？

Sebastian Raschka：我建议先从头开始实现一个可以在单机上运行的简单模型。这么做的目的不是为了用它取代ChatGPT或开源权重模型作为日常助手，而是为了确切了解LLM的输入输出以及预训练的运作机制。在自己的电脑上从零构建，能让你深入理解预训练、监督微调（SFT）和注意力机制。

随着模型规模扩大，复杂性会呈指数级增长，比如需要考虑参数分片到多GPU、KV缓存（KV-cache）的各种实现方式。为了理解原理，你不需要一开始就写最优化的代码（比如预分配Tensor），虽然这会增加代码量。这本书（指Sebastian的书）的诀窍在于让你理解LLM是如何工作的，一旦掌握了这些，你就能理解生产级的LLM。我构建的大多数模型，包括混合专家模型（MoE），目标都是能在单张GPU上运行。

这几乎就像RLVR一样，你可以进行自我验证。当你从零编写代码时，可以参考Hugging Face的Transformers库，但我认为那里不是学习LLM原理的最佳起点。Transformers库为了兼容成百上千种模型和生产环境，代码极其复杂且交织在一起，阅读体验不是线性的。我的建议是“逆向工程”：去查看模型仓库中的配置文件（Config），了解它用了多少层、是分组查询注意力（GQA）还是多头注意力。然后尝试从你的基础模型（比如GPT-2）开始，把这些组件加进去，加载预训练权重，看看能否得到相同的输出。这能作为一种可验证的奖励，确保你的架构正确。比如我曾花了一天时间处理Llama 3，挑战在于位置嵌入的RoPE和YaRN扩展，在这个挣扎的过程中你会逐渐真正理解它。

Nathan Lambert：我非常赞同。每一位对当今AI领域感兴趣的人都应该这样做。我是从强化学习和机器人领域转到语言模型的，我必须花时间补习Transformer架构这些极其基础的东西。掌握基础后，很多人会感到迷茫，不知道如何产生影响力或找到职业路径。因为AI语言模型让基础知识变得易于获取，问题变成了“我该如何获得参与研究的机会？”

对此我相当乐观。这个领域发展太快，很多顶尖人才会转向解决更大、更唾手可得的难题，从而留下许多细分领域。我的建议是，在掌握基础后，深入研究一个细分领域。比如我最近对“性格训练”产生了浓厚兴趣，如何通过调整数据让模型变得幽默、讽刺或严肃。曾有一位牛津大学的博士生联系我，我对他说这很有趣，现在他已经发布了相关论文。在这个充满噪音的领域，如果你能深耕某个看似冷门或无人解答的细分问题（比如阅读三篇论文并深入理解），你会发现很多有趣的东西值得学习。

Sebastian Raschka：是的，试图面面俱到会让人精疲力竭。说回你的书（指Nathan正在编写的RLHF相关书籍），我认为它性价比极高。如果想学RLHF，直接读论文可能会浪费两年时间，因为很多观点相互矛盾。

Nathan Lambert：没错，我刚编辑完那本书。书中的章节涵盖了后训练的大局观：从偏好数据、奖励建模、正则化、指令微调、拒绝采样到强化学习、宪法AI（Constitutional AI）、合成数据等。RLHF的核心难点在于“偏好”是多么的杂乱。我们在书中有一章专门讨论了为什么RLHF永远无法被完全解决，因为从根本上讲，它试图将多维度的偏好（如准确性与风格）压缩为单一数值，这涉及经济学中的冯·诺依曼-摩根斯坦效用定理和社会选择理论。

我认为对数学感兴趣的人会在这里发现很多乐趣。比如在第14章，我列出了所有我喜欢的推理模型技术报告。现在的语言模型非常擅长数学，比如DPO（直接偏好优化）这篇著名论文，它的推导过程省略了一些数学步骤。我为了写书尝试重新推导时非常痛苦，心想“这个对数技巧（log trick）到底是什么鬼？”虽然现在的模型可以直接告诉你答案，但我认为经历这种推导的挣扎对学习是有好处的。

Lex Fridman：你们都提到了“挣扎”这一点。这非常有价值，如果学习过程中没有感到挣扎，说明你没有遵循正确的学习流程。

Nathan Lambert：现在一些提供商开始研发教育专用模型，设计初衷就是不直接给出所有信息，而是让人们为此付出努力。这就像玩解谜游戏（如塞尔达传说）卡关时，你只想要一个提示而不是剧透。你可以对模型说：“我算到这一步卡住了，不要直接给我答案，告诉我下一步该尝试什么思路。”这需要自律，但也正是培养研究品味和长期眼光的方式。我们需要知道在哪些事情上磨炼，在哪些事情上不必纠结，这很难判断，但必须培养这种品味。

我之前可能在和未婚妻或朋友聊这事，感觉就像存在一个短暂的10年窗口期，期间所有的作业和考试都实现了数字化。但在那之前，每个人都必须在答题本上完成所有考试，因为当时别无他法。而现在有了AI，每个人似乎又要回归纸笔考试和口试了，因为作弊变得太容易。感觉这短暂的一代人经历了一个完全不同的教育系统，一切虽已数字化却依然能防止作弊，但现在一切又要倒退回去了，这真的很有趣。

Lex Fridman：你刚才提到了角色训练，让我们放大到更宏观的话题。就这个领域而言，需要多少算力支持？总的来说，作为一名研究人员，是否有一些不需要太多算力，且个人也能真正做出贡献的领域？

Nathan Lambert：仅就字符训练而言，这项研究通常是基于微调（fine-tuning）的。比如在7B参数模型上使用LoRA技术，本质上你只微调了模型权重的一个很小的子集。虽然我不确定具体需要消耗多少GPU小时，但这种做法是完全可行的。

但这并非对所有学者都可行。有些学者的处境非常艰难，唯一能做的就是进行推理工作，无论是使用闭源模型还是开放权重模型。你可以获取它们的补全结果，通过观察这些结果来进行研究和理解模型。这非常适合评估工作。如果你渴望成为那个最擅长设计题目、能展示模型在何处失败或具备何种能力的人，我认为你可以通过这种方式取得突破。

对于从事评估工作的研究人员来说，最高目标可能就是去Frontier Labs（前沿实验室）。你不需要让每个项目都达到那个高度，但如果你来自一所没有算力的小型大学，却发现了一些Claude难以处理的问题，而下一代Claude模型在博客文章中专门提到了这点，那就是你职业生涯的“火箭时刻”。这很难，但如果你想用最小的算力实现最大可能的影响力，就需要变得非常专注，并了解模型的发展方向。比如，构建一个工具来测试Claude 4.5不会失败的地方。如果要启动一个研究项目，我需要思考八个月后的模型会在哪些方面遇到困难。

Lex Fridman：但是开发完全新颖的想法呢？

Nathan Lambert：这是一个权衡。如果你在读博士，你也可以认为研究语言模型的风险太大了，从而决定关注更长远的东西，思考什么将在10年后定义语言模型的发展。

我认为我最终成为了一个相当务实的人。当年我去读博士时心想：“我考进了Berkeley，最坏的情况也就是拿个硕士学位，然后去科技行业工作。”如今回看，在这些AI公司工作给人们带来的生活变化是巨大的。比如OpenAI员工的平均薪酬仅股票部分每年就超过100万美元。在美国，任何普通人只要能进入这类AI实验室，人生都会发生翻天覆地的变化。

所以我非常务实地认为，如果你足够专注，在语言模型领域工作仍然有很大的上升空间，看看这些职位的产出就知道了。但从研究角度来看，如果你的目标是获得学术奖项，想成为下一个Yann LeCun，那就不应该太在意语言模型当前的具体发展，因为这在经济上是一个巨大的牺牲。

我有机会和一些非常优秀的学生一起工作，他们会问：“我应该去AI实验室工作吗？”我会说：“你正在顶尖学府攻读博士学位，你打算离开去实验室吗？”我的反应通常是“我不知道”。如果你是去顶尖实验室工作，我不怪你；别去那些可能归零的随机创业公司。但如果你是去OpenAI，我觉得那确实值得为了它放弃博士学位。

Lex Fridman：让我们更严谨地思考一下，你会建议人们在哪里做出研究贡献？选项包括：留在学术界花五年时间读博士发论文；去那些计算资源受限但专注于开放权重模型的研究实验室；或者是去闭源的前沿实验室，比如OpenAI、Anthropic、xAI等等。

Nathan Lambert：这两个方向的梯度是：环境越封闭，你往往能拿到的钱越多，但获得的个人认可越少。作为一名学者，建立个人作品集是非常清晰的，你完成了什么一目了然。而去企业就像达成了一项合理的交易，你在这个进阶过程中成为大机器中的一颗螺丝钉，但这也可以非常有趣。这是非常不同的职业路径。

成为一名研究员的机会成本非常高，因为博士生的薪水微乎其微。我认为这最终会奖励那些拥有稳定安全网的人，他们意识到自己可以在长期内运作，想要从事有趣的工作。处于这种位置是相当优越的，可以说“我要读完PhD再去解决之后的事情”。与此同时，学术生态系统正遭受资金方面的沉重打击，拨款被削减。这里存在太多的权衡取舍，我能理解很多人因为无法应对资金搜寻的压力或未来的不确定性，而倾向于选择那份薪水丰厚且具有重大影响力的工作。在OpenAI并不是拿薪水闲坐，你正在构建最前沿的东西，这些东西正在改变数以百万计的人与技术的关系。

Lex Fridman：但在论文发表方面，这些公司变得越来越保守，趋势日益明显。所以你发表的东西越来越少，虽然在大范围内产生积极影响，但你只是机器上的一个齿轮。

Sebastian Raschka：老实说，我觉得情况并没有改变那么多。我曾在学术界工作，当时我与合作者将机器学习方法应用于计算生物学领域，很多人也是直接从学术界去了Google。那时教授们会对学生进入工业界感到难过，因为学生无法继承他们的衣钵。现在唯一的区别在于规模。以前这是一个封闭的行业，你无法谈论它。现在的区别在于你的偏好：你是喜欢谈论你的工作、发表成果，还是更倾向于待在一个封闭的实验室里？当然还有薪酬的差别。

目前唯一不同的是有了第三种选择：创办初创公司。这是非常冒险的举动，属于高风险高回报。而加入工业界实验室则相当稳妥，且有晋升空间，一旦有过这种经历，未来找工作也会更容易。这取决于你有多享受团队合作以及开发专有技术，相比之下你有多喜欢发表论文。发表论文压力很大，会议录用率具有随机性，可能让人沮丧，但如果发表了，那种署名的成就感是很高的。

Nathan Lambert：我觉得我那些当教授的朋友平均来看似乎比在公司工作的朋友更快乐。前沿实验室绝对在实行“996”工作制，这基本上就是“一直工作”的代名词。

10、AI行业的职场文化

Lex Fridman：你能描述一下996这种文化吗？

Sebastian Raschka：就是早上9点工作到晚上9点，每周六天，总共72小时。这种拼命工作的心态在硅谷AI公司里越来越普遍。

也许不完全是那样，但确实有这种趋势。这很有趣，我觉得情况几乎反转了。当我在学术界时，作为教授必须写拨款申请、教课、做研究，这简直是三份工作合而为一，想成功就绝不仅是一份全职工作。相比之下，教授们现在的压力或工作量甚至可能比前沿实验室还要小。

我觉得教授们工作非常努力，只是感到非常充实。通过与学生一起工作，拥有持续的导师制路径和以人为本的使命，在一个发展极快且混乱的时代，这种成就感很重要。而在初创公司，压力在于必须成功。大家投入时间确实非常重要，虽然辛苦，但必须不断交付成果。我待过初创公司，虽然愉快，但那种节奏我不确定是否还能再经历一次。正如我们一开始讨论的，模型正在互相超越，竞争非常残酷。

Nathan Lambert：这种互相超越的特性以及多方参与，实际上是语言建模进程中一个被低估的驱动因素。竞争深深植根于人心，这些公司有意创造了强势的企业文化。比如Anthropic以其高度专注和严密组织的文化闻名，大家非常齐心协力。置身于这种凝聚力极强的竞争态势中，绝对会让你努力工作并创造出更好的东西。但这以人力资本为代价，人们肯定会感到职业倦怠。我自己也曾深陷其中，尤其是尝试在担任管理者的同时还要全身心投入模型训练。

Sebastian Raschka：我作为学者或独立工作者时也会过度工作，这很不健康，我曾因此有过背部和颈部问题，但这并不是因为有人强迫我，而是因为事情太令人兴奋了。OpenAI和Anthropic的氛围也是这样，他们渴望做这些工作。

11、硅谷泡沫

Lex Fridman：是的，但同时也有一种正在积聚的狂热感，特别是在硅谷。这种狂热与“规模定律”（Scaling Laws）的理念相契合，认为世界将在几周内发生翻天覆地的变化，大家都希望处于变革的中心。我有幸能观察到各处存在的泡沫和信息茧房。硅谷某种程度上就是一个回音壁和孤岛。这种泡沫实际上非常有用且有效，因为它能带来极高的效率，类似于史蒂夫·乔布斯的“现实扭曲场”，通过互相说服突破近在咫尺，从而让突破真的发生。

Burn Hobart写过一本对泡沫分类的书，提到一种是金融泡沫（投机），另一种则是建设性泡沫。AI正处于建设性阶段，但我担心它会转变为金融泡沫。而且如果你在偏离现实的同时进行996工作，可能会错过人类体验中最基本的方面。这是硅谷的一个普遍问题，作为一个特定地理区域，可能无法理解中西部地区乃至全世界其他人类的完整体验。这种与现实脱节可能会让你陷入麻烦。

Lex Fridman：我甚至不太理解，但旧金山的AI圈已经演变出了“永久底层阶级”这种梗。其中一个观点是，2025年的最后六个月是建立具有持久价值的AI初创公司或模型的唯一时机，否则所有价值都将被现有公司攫取，你将因此陷入贫困。

Nathan Lambert：这就是旧金山那种走极端的例子。我仍然认为，对于能接触到资源的年轻人，如果你热衷于在AI领域产生影响力，旧金山是最可能实现目标的地方，但也有权衡。

Lex Fridman：旧金山是一个不可思议的地方，但确实存在泡沫。进入泡沫固然有价值，但也请记得走出来。去读读历史书、文学作品，去世界其他地方看看。Twitter和Substack并不是整个世界。

Nathan Lambert：我的一位同事准备搬到旧金山，我得送他一本《Season of the Witch》，这是一本讲述旧金山1960年到1985年历史的书。书中详细描述了嬉皮士革命、同性恋群体如何接管城市及文化的兴起，还有后来的HIV/AIDS危机。旧金山经历了如此多的动荡和伤痛，同时也充满了爱。这感觉就像发生在不久前，那是一本很棒的书。

12、文本扩散模型（Text diffusion models）及其他新研究方向

Lex Fridman：好的，我们谈了很多过去一年的事。但在今年，你们提到的一个令人兴奋点是文本扩散模型（Text Diffusion Models）的规模化，以及对文本扩散的不同探索。能谈谈那是什么，以及它蕴含着怎样的可能性吗？是与目前的语言模型（LM）不同的方法吗？

Sebastian Raschka：是的。我们讨论了很多关于Transformer架构和自回归Transformer的内容（如GPT）。这并不意味着没人在研究其他东西，不把鸡蛋放在同一个篮子里总是个好主意。目前Transformer架构是主流且效果最好，但人们正在开发自回归Transformer的替代方案，其中之一就是文本扩散模型。

听众可能通过Stable Diffusion了解了图像生成中的扩散模型。在生成图像领域，人们曾使用GAN（生成对抗网络），后来出现了扩散过程，通过随时间迭代地对图像进行去噪，产生了高质量图像。现在人们想：“能不能把这种方法用于文本？”

这在直觉上不太好理解，因为文本是离散的，不像像素那样是可微分的连续事物。这有点类似于Google的BERT模型。在原始Transformer中，有编码器（Encoder）和解码器（Decoder）。GPT使用的是解码器，采用自回归方式一次生成一个Token来完成句子。而在BERT（编码器）中，你有一段带有缺口（Mask）的文本，通过一次迭代来填补这些缺口。

文本扩散与之类似，你从一段随机文本开始，通过多次迭代不断填补和完善缺失部分。最酷的一点是，它可以同时处理多个Token，实现了并行化，从而带来更高效率的承诺。当然权衡在于质量。现在有了“去噪过程”这个维度，执行步骤越多，文本质量越好。

目前有一些论文表明，如果想获得与自回归模型相同的质量，必须增加去噪步数，最终消耗的算力可能是一样的。另一个缺点是，有些任务如推理或工具调用并不是并行的，这对于扩散模型来说有点棘手。Google提到正在推出Gemini Diffusion并整合到Nano2环境中，声称在大多数基准测试中，以相同质量可以更快地生成内容。我不认为文本扩散模型会取代自回归大语言模型，但它可能用于快速、廉价且大规模的任务。

Nathan Lambert：我觉得有几个例子表明它已经开始被投入使用了。举个例子，GPT-5可能需要30分钟才能做出响应，因为它是一次生成一个Token。而扩散思路本质上是在一个批次中生成所有补全内容，所以快得多。

我听说的初创公司，比如做代码的，有人在进行所谓的“氛围编程”（vibe coding），他们对模型说“做这个修改”。代码差异（code diff）本质上不需要模型给出包含大量外部上下文的详尽回复。通过使用扩散模型，可以非常快速地获取结果。对于面向用户的产品，如果使用自回归模型生成非常长的代码差异可能需要几分钟，这会导致用户流失。

所以它会不断成长并产生应用。但我原以为不同类型的模型会比现在更早被用于不同场景。目前的阻碍在于“工具调用”（tool use）。例如ChatGPT在使用Cloud Code时，自回归链会被外部工具中断，我不知道在扩散模型设置下该如何实现这一点。

13、工具调用

Lex Fridman：今年以及未来几年，工具调用（tool use）的前景如何？你认为这方面会有怎样的发展，以及它是如何集成到整个技术栈中的？

Sebastian Raschka：我认为这方面会有巨大的发展。目前主要集中在闭源的专有LLM上，但我认为我们会看到更多开源工具的涌现。这是一个巨大的突破，因为这意味着你可以将某些单纯依靠记忆的任务外包给工具。这就像如果你要算23加5，不需要让LLM去死记硬背，直接调用计算器即可。

Lex Fridman：你认为这能帮助减少幻觉问题吗？

Sebastian Raschka：不是彻底解决，但能减少。LLM仍然需要判断何时调用工具。但这并不意味着互联网上的信息总是正确的。比如我问谁赢得了1998年世界杯，模型仍然需要找到正确的网站并获取正确的信息。如果访问了错误的网站，依然会给出错误信息。所以它不会完全解决那个问题，但确实有所改进。

今年早些时候，或者说是去年年底，有一篇关于递归语言模型（recursive language model）的论文提出了很有趣的观点。正如Nathan刚才提到的，学术界受限于算力预算，做前沿研究很难。那篇论文的作者甚至没有使用本地模型，而是全部用GPT-5（注：此处可能指代当时的SOTA模型如GPT-4等）完成的。其核心理念是：对于非长上下文任务，与其让LLM试图一站式解决所有问题，不如将其分解为子任务。由LLM决定什么是合适的子任务，然后递归地调用自身来解决。这种方式配合工具调用，比如在一个庞大的问答任务中，针对每个子问题去网上搜集信息，最后再汇总缝合。这种在不改变LLM本身的情况下改进其使用方式和资源调用能力的模式，会带来很多突破。

目前工具调用的一个缺点是必须赋予LLM权限，这需要极大的信任。如果要解锁让LLM回复邮件，或者仅仅是分类筛选邮件的功能，这都伴随着巨大的风险。我不知道今天我是否敢给LLM访问我邮件的权限。

Nathan Lambert：关于工具调用还有一点很有趣，那就是开源模型与闭源模型在使用工具的方式上截然不同。对于开源模型，用户从Hugging Face下载模型后，会根据自己的偏好选择工具，比如有人喜欢Xa作为搜索提供商，有人喜欢另一家初创公司。这就要求发布模型时，必须将其打造为通用的推理引擎，使其能适应多种工具和用例，这正是GPT-OSS擅长的地方。

相比之下，闭源模型是将特定的工具深度集成到体验中。我很难用闭源模型复制一些我喜欢的操作，比如尝试通过提示词让模型像使用Codex那样直接更新我的GitHub仓库。那种安全的云环境非常适合将任务发送出去执行并返回结果。最初因为大家急于实现工具调用功能，导致开源模型处于劣势，这在某种程度上是不可避免的。前沿实验室拥有海量资源，但当开源模型解决这个问题时，情况会变得很有趣，因为这将需要一种更灵活的模型来配合这种递归模式工作，充当编排器和工具调用者的角色。

14、持续学习

Lex Fridman：持续学习（continual learning）是一个长期存在的课题，随着模型训练成本的上升，其重要性也在增加。你能解释一下什么是持续学习，以及在未来几年中，它对于技术进步有多重要吗？

Nathan Lambert：这很大程度上与旧金山关于AGI（通用人工智能）和ASI（人工超智能）的时代精神有关。现在的语言模型虽然能解决很多任务，但在AI社区看来，关键的里程碑是AI能够像远程员工一样，接收信息、执行数字化任务。目前的局限性在于，语言模型无法像员工那样从反馈中学习。如果你雇佣一名编辑，他犯错后你会指正，优秀的编辑不会再犯同样的错误。但语言模型不具备这种自我修正和快速学习的能力。如果我们想实现真正的、通用的、适应性强的智能，它必须能够从反馈和在职学习中快速提升。

我个人更看好通过提供极佳的Context（上下文）来解决问题。你可以向模型提供海量文档，告诉它这是你所有的博客文章、写作风格和语调。虽然以前的模型不支持这么大的上下文，但现在智能体模型（agentic models）才刚刚起步。这就带来了一个权衡：我们是否真的需要通过持续学习来更新模型的权重？还是只需要提供更多的上下文信息，让它们凭借高智能和丰富的信息表现出类似快速学习的效果？

Sebastian Raschka：我们需要厘清这里的术语。持续学习（continual learning）是指持续、快速且频繁地改变权重，以便模型能够根据新传入的信息进行适配。而另一面通常被称为上下文学习（in-context learning），即利用巨大的上下文窗口，每次提示系统时不断加载额外信息。这两者都可以被视为学习，只是发生的场所不同。

老实说，我认为不同形式的持续学习（即权重更新）已经存在了。如果是指全球范围内的模型更新，比如从GPT-5演进到5.1、5.2，这本质上就是一种包含反馈（针对失败任务或社区反馈）的精选更新。更细粒度的例子像RLVR，运行后会更新。

真正的问题在于个性化定制。为每个人更新权重的成本太高了，即使以OpenAI的规模也无法负担这种数据中心级别的开销。我认为只有当这种运算在设备端运行且成本由消费者承担时才可行，就像Apple尝试将基础模型放在手机上并从经验中学习那样。

Lex Fridman：这引出了另一个相关话题——“记忆”，这可能是一个拟人化的术语。随着系统阅历的增加，关于如何为这些系统增加记忆机制，尤其是个性化记忆，有哪些不同的想法？

Sebastian Raschka：目前主流的做法还是“上下文填充”，即把东西塞进上下文里然后通过检索召回。但这非常昂贵，因为需要消耗Token，且能力有限。这更多像是一种风格偏好，比如告诉模型“按照我上次喜欢的去做”，但并不能解锁新能力。

另一种方法是使用LoRA适配器。这种方式不更新整个权重矩阵，而是并行或叠加两个较小的权重矩阵。但这归根结底是经济学问题。有论文指出，LoRA学到的东西较少，但遗忘的也较少。天下没有免费的午餐，如果你想学得更多，就需要动用更多权重，成本也会随之升高。而且学得越多，遗忘的也越多，必须找到那个适中的平衡点。

15、长上下文

Lex Fridman：虽然我们没明说，但讨论中隐含了上下文长度（context length）这一因素。这方面是否还有很多创新的空间？

Nathan Lambert：目前的共识是这主要取决于算力和数据。架构上的一些微调，比如混合注意力模型（hybrid attention models），本质上是在Transformer中加入类似状态空间模型（SSM）的结构，在建模时消耗的算力更少。但这也需要大量算力和正确的数据支持。世界上并没有那么多高质量的10万Token序列数据。

我认为扩展规模最终会变得非常昂贵。虽然我们已经很快达到了100万Token的水平，预计今年可能会达到200万或500万，但我不认为会很快达到1亿级别，那将是真正的突破。递归语言模型那篇论文就是试图解决长上下文问题的尝试之一。与其将所有内容塞进长上下文，不如将其分解为多个更小的任务，这样不仅节省内存，甚至能获得比一次性处理更高的准确率。

关于预训练有一些经验法则。以OLMo为例，我们在大约8K的上下文长度下预训练，然后扩展到32K。通常当你将训练上下文长度翻倍时，会消耗大约2倍的算力。这在很大程度上受限于预训练阶段的算力瓶颈。

但在后训练（post-training）方面，随着智能体（agents）的发展，情况会更有趣。智能体将自行管理上下文。现在很多用Claude写代码的人担心“压缩”（compaction）问题，即模型将10万Token的内容压缩成要点列表会丢失细节。但我确信下一代模型将能够控制何时以及如何进行压缩。你可以训练RL算法，将压缩视为一种动作，目标是在将历史记录压缩到最短的同时，保持最高的任务评估分数。这意味着模型学会了以一种不同于以往只会“一路向前”的方式来利用上下文。

Sebastian Raschka：最近DeepSeek V3（或类似版本）采用的稀疏注意力机制（sparse attention mechanism）也是一个有趣的例子。它拥有高效轻量的索引器，不再关注所有Token，而是只选择需要的Token。这几乎回到了Attention最初的理念——具有选择性，甚至直接掩盖掉不需要处理的部分。OLMo的滑动窗口注意力也是这类思路。

如果使用全部信息，确实最安全且性价比最高，因为不会遗漏信息。但今年将是探索如何变得更“聪明”的一年。大家先通过暴力计算堆出SOTA（最先进水平），一旦达到那个准确度，就开始研究如何通过技巧以更低的成本实现它。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.