微软研究院：让AI在现实世界中越用越聪明的"在线体验学习法"|实验|复杂性

分享至

这项由微软研究院团队完成的研究发表于2026年3月的arXiv预印本数据库，论文编号为arXiv:2603.16856v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究被称为"体验学习系列"的第二部分，第一部分专注于"在线策略情境蒸馏"技术。

当我们学会骑自行车后，每次骑行都会让我们的技能变得更娴熟。但目前的人工智能大语言模型却像是一本写好后就再也不会更新的教科书——无论在现实世界中遇到多少新情况，它们都无法从这些经历中学到任何东西。微软研究院的科学家们决定改变这种状况，他们开发了一种叫做"在线体验学习"的方法，让AI模型能够像人类一样，在实际使用过程中不断学习和改进。

这个问题其实比我们想象的更加复杂。当前主流的AI训练方法就像是让学生在考试前拼命刷题，然后把答案都背下来。这种方法在考试时确实有效，但一旦遇到题目类型发生变化，学生就会束手无策。同样地，现有的大语言模型虽然在训练数据范围内表现优异，但面对部署后遇到的全新场景时，它们无法从这些真实体验中汲取营养，不断改进自己的能力。

更让人头疼的是技术层面的挑战。在实际应用中，AI模型通常部署在用户端，而训练则在服务器端进行。这就像是一个厨师在客人家里做菜，但学习新菜谱却要回到自己的厨房。现实世界的反馈往往是文字描述而非简单的对错评分，这让传统的强化学习方法难以直接应用。研究团队需要找到一种既能利用真实体验、又不需要复杂奖励机制的学习方法。

一、从经历中提炼智慧的奥秘

在线体验学习方法的核心思想就像是一个善于总结的旅行者。每次旅行结束后，这个旅行者不会简单地把照片存起来就完事，而是会仔细回顾整个行程，从中提炼出有用的经验和教训，比如"这家餐厅虽然排队很长但确实值得等待"或者"下雨天最好避开那条山路"。

整个学习过程分为两个相互配合的阶段，就像是一个持续循环的学习循环。第一个阶段是"经验提取"，AI模型会分析自己在真实环境中的互动轨迹，从中抽取出可以迁移应用的经验知识。这个过程有点像是一个经验丰富的老师在课后总结今天的教学得失，不是简单地记录发生了什么，而是深入思考哪些做法有效、哪些需要改进、以及背后的原因是什么。

第二个阶段是"知识巩固"，通过一种叫做"在线策略情境蒸馏"的技术，将这些提炼出的经验知识融入到模型的参数中。这个过程就像是把学到的经验从笔记本转移到大脑深处，让它们成为直觉反应的一部分。关键的是，这个巩固过程完全在服务器端进行，不需要访问用户端的环境，就像是厨师可以在自己的厨房里练习，而不用每次都跑到客人家里。

研究团队在设计这套方法时特别注重实用性。整个过程不需要人工标注，不需要奖励模型，也不需要在服务器端搭建模拟环境。唯一需要的就是收集模型在用户端的互动轨迹，然后让模型自己从这些轨迹中学习。这就像是让一个学生通过回顾自己的作业错误来改进，而不是需要老师给每道题都打分。

这种方法的巧妙之处在于它创造了一个正向循环。改进后的模型在下一轮部署时会产生质量更高的互动轨迹，这些更好的轨迹又能提供更丰富的学习信号，进而带来更大的改进。这就像是一个良性循环——技能越好，练习质量越高，技能提升就越快。

二、在游戏世界中验证学习效果

为了验证这种学习方法的有效性，研究团队选择了两个经典的文字游戏环境：冰湖迷宫和推箱子游戏。选择这些游戏并不是因为研究人员想要开发游戏AI，而是因为这些游戏提供了一个可控但又足够复杂的测试环境，就像是为新药物进行动物实验一样。

冰湖迷宫游戏就像是在一个布满陷阱的冰面上寻找出路。玩家需要在3×3的网格中从起点移动到终点，但路上有两个洞，一旦掉进去就游戏结束。听起来简单，但实际上需要careful规划路径，避免走入死胡同。推箱子游戏则更加复杂，玩家需要在6×6的网格中把箱子推到指定位置，既不能让箱子卡在墙角，也不能掉进洞里。

特别重要的是，研究团队故意没有给AI模型提供游戏规则说明。就像是把一个从未见过象棋的人放在棋盘前，只告诉他"想办法赢"，然后让他通过试错来理解规则。这种设置更接近现实世界的情况，因为在真实应用中，AI往往需要面对规则不明确或者在不断变化的环境。

实验结果令人鼓舞。以冰湖迷宫为例，使用Qwen3-1.7B模型时，通过率从最初的10%左右逐步提升到了近50%。更重要的是，这种提升不是一次性的跳跃，而是随着学习轮次的增加而稳步上升，证明了模型确实在从经验中学习。

在推箱子游戏中，使用Qwen3-4B-Instruct-2507模型的表现也显示了类似的改进趋势。从初始的10%左右的成功率，经过多轮在线学习后提升到了30%以上。这些数字看起来可能不是特别惊人，但考虑到模型是在完全没有规则说明的情况下自主学习的，这种进步是相当显著的。

三、智慧的积累过程

在线体验学习的第一个核心步骤是从互动轨迹中提取经验知识。这个过程就像是一个资深记者在采访结束后整理笔记，不是简单地重复记录发生了什么，而是要从中提炼出有价值的洞察和规律。

具体来说，当AI模型在用户端与环境互动时，会产生一系列的动作和环境反馈。这些原始轨迹包含了丰富的信息，但其中很多是噪音或者特定场景下的细节。经验提取过程的目标就是从这些原始信息中识别出可以迁移到其他情况的通用知识。

研究团队设计了两种不同的知识提取格式。结构化格式要求模型将经验总结为标准化的条目，每条经验都以"经验项目"的标签开头，确保提取的知识具有一致的格式。非结构化格式则允许模型更自由地表达学习到的经验，不受格式限制。这就像是有些人喜欢用条理清晰的笔记记录学习心得，而有些人更喜欢写成流水账式的反思日记。

为了保证经验积累的质量，提取过程采用了渐进式的方法。每次处理新的互动轨迹时，模型都会参考之前已经积累的经验知识，确保新提取的经验与已有知识形成有机整体，而不是相互矛盾或重复。这种设计防止了知识碎片化，确保经验能够真正积累而不是简单堆叠。

在推箱子游戏的实验中，研究团队发现AI模型能够学会一些相当高级的策略。比如，模型学会了"轴对齐收敛"的概念——在每次移动时，都要确保自己正在朝着目标的行或列靠近，这样可以保证每个动作都对达成目标有贡献。这类经验的提取展现了模型确实具备了从经历中抽象出一般性规律的能力。

四、将经验融入模型核心

光有好的经验还不够，还必须让这些经验真正成为模型能力的一部分。这就是知识巩固阶段要解决的问题，它使用的核心技术叫做"在线策略情境蒸馏"。

这个过程可以比作一个有趣的师生对话。想象有一个经验丰富的老师（拥有经验知识的模型）和一个学生（要改进的原模型）。老师已经掌握了很多宝贵经验，但这些经验需要在特定情境中才能发挥作用。学生的目标是学会这些经验，但不需要每次都查阅笔记，而是要将这些经验内化为自己的直觉反应。

在训练过程中，学生模型会根据部分情境信息生成回应，然后与有经验指导的老师模型的回应进行比较。通过最小化两者之间的差异，学生模型逐渐学会在没有明确经验提示的情况下也能做出正确的判断。这种方法的巧妙之处在于它使用了"反向KL散度"的数学技术，让学生模型专注于学习老师模型最有把握的那部分知识，避免被不确定的信息误导。

整个巩固过程完全在服务器端进行，这解决了实际部署中的一个重要问题。服务器端的训练环境通常无法访问用户端的真实环境，但通过在线策略情境蒸馏，训练可以基于之前收集的轨迹数据进行，不需要与用户环境实时交互。这就像是一个运动员可以通过观看比赛录像来改进技术，而不需要每次都参加真实比赛。

研究结果显示，这种巩固方法不仅能够提升模型在目标任务上的表现，还能保持其在其他任务上的能力，避免了"灾难性遗忘"的问题。在对比实验中，使用在线策略蒸馏的方法在保持原有能力方面明显优于传统的离线策略蒸馏方法。

五、效率提升的意外收获

在验证在线体验学习效果的过程中，研究团队发现了一个意想不到的好处：模型不仅变得更准确，还变得更高效。随着学习轮次的增加，模型解决同类问题所需的推理步骤明显减少，回应长度降低到原来的70%左右。

这种效率提升的背后反映了一个有趣的学习机制。当模型刚开始面对新环境时，它需要大量的试错和推理来理解情况。就像是一个初次到达陌生城市的游客，需要不断查看地图、询问路人、试探不同的路线。但随着经验的积累，模型开始内化这些知识，能够更直接地找到正确答案，就像是熟悉了城市布局的本地人，可以凭直觉选择最佳路径。

这种效率提升具有重要的实际意义。在实际应用中，模型的推理速度和计算成本是关键考虑因素。传统的模型改进往往是以增加计算复杂度为代价来提升准确性，但在线体验学习却实现了准确性和效率的双重提升。这就像是通过练习让一个钢琴师不仅弹得更准确，而且动作也更加流畅简洁。

更进一步的分析显示，这种效率提升主要来自于模型学会了更好的策略选择。在早期阶段，模型往往会尝试各种可能的动作，包括很多无效的探索。但通过经验学习，模型逐渐理解了环境的内在逻辑，能够更直接地朝着目标前进，减少了无意义的试错。

六、规模效应和泛化能力

研究团队还探索了模型规模对在线体验学习效果的影响，结果显示了一个令人鼓舞的趋势：更大的模型不仅初始表现更好，在经过在线学习后的改进幅度也更大。

从Qwen3-1.7B到4B再到8B，随着参数量的增加，模型在冰湖迷宫游戏中的表现呈现阶梯式提升。但更重要的发现是，无论模型大小如何，在线体验学习都能带来显著的性能提升。这表明这种学习方法的有效性不依赖于特定的模型规模，具有良好的普适性。

大型模型在在线学习中的优势主要体现在两个方面。首先，它们能够生成质量更高的互动轨迹，为经验提取提供更丰富的原材料。其次，它们具有更强的知识抽象能力，能够从同样的经验中提取出更深层的规律。这就像是经验丰富的专家不仅能做出更好的判断，还能从相同的经历中学到更多东西。

特别值得注意的是，研究还验证了在线体验学习在保持模型通用能力方面的表现。通过在IF-Eval数据集上的测试，研究团队发现使用在线策略蒸馏的模型能够很好地保持在其他任务上的性能，而传统的离线方法则出现了明显的性能下降。这证明了新方法在专门化学习和通用能力保持之间找到了良好的平衡点。

七、深入分析：为什么这种方法有效

为了理解在线体验学习为何能够取得成功，研究团队进行了多项对比分析。最重要的发现之一是，提取后的经验知识比原始互动轨迹更有效。在对比实验中，直接使用原始轨迹作为上下文信息只能带来微小的改进，而使用提取的经验知识则能带来显著的性能提升。

这个结果揭示了经验提取过程的重要价值。原始轨迹包含了大量的噪音信息，比如特定地图的细节、随机的探索动作、环境的具体描述等等。这些信息虽然记录了实际发生的事情，但其中大部分对于学习通用策略并没有帮助，甚至可能产生误导。经验提取过程就像是一个优秀的编辑，能够从冗长的原始材料中提炼出精华，去除无关信息，保留真正有价值的洞察。

另一个重要发现是在线策略一致性的重要性。当使用模型自己产生的轨迹提取经验时，效果明显优于使用其他模型（即使是更大的模型）产生的轨迹。这个现象有点像是每个人最容易学会自己总结出的经验，而别人的经验往往需要更多的适应过程才能真正掌握。

这种现象背后的原理在于，每个模型都有自己的"认知风格"和能力边界。一个小模型试图学习大模型的策略，可能会遇到能力不足的问题，就像是让一个初学者模仿专业运动员的高难度动作。相比之下，基于自己经验提取的知识更符合模型的当前能力水平，更容易被成功内化。

八、方法的创新之处

在线体验学习方法的最大创新在于它彻底改变了AI模型的学习范式。传统方法就像是制作一本百科全书——先收集所有可能的知识，然后一次性编写完成，之后就不再更新。而在线体验学习则像是写一本不断更新的日记，每天都会根据新的经历添加新的见解。

这种范式转变带来了几个关键优势。首先是数据效率的大幅提升。传统方法需要大量的人工标注数据或者精心设计的奖励函数，而在线体验学习只需要模型与环境的自然交互。这就像是从需要专门的老师授课转变为通过实践自主学习，大大降低了学习的外部依赖。

其次是适应性的显著增强。传统训练完成的模型面对新环境时往往表现不佳，需要重新收集数据、重新训练。而具备在线学习能力的模型可以在部署过程中持续适应新环境，就像是一个能够快速融入新环境的人才。

最重要的创新是解决了分布式部署中的学习问题。在实际应用中，模型通常部署在用户端，而训练在服务器端进行，两者之间无法实时交互。传统方法在这种分离的架构下很难实现持续学习，而在线体验学习通过巧妙的设计，让模型能够在这种分离的环境中实现有效学习。

研究团队还特别强调了方法的无奖励特性。在真实世界中，很难为每个任务都设计出完美的奖励函数，而且用户反馈往往是文字描述而非数值评分。在线体验学习方法完全基于这种自然的文字反馈进行学习，避免了奖励设计的复杂性和潜在偏差。

九、实验设计的巧思

研究团队在实验设计上展现了相当的巧思。选择文字游戏作为测试环境并非随意决定，而是经过深思熟虑的选择。这些游戏具有清晰的成功标准，同时又包含了足够的复杂性来检验学习效果，最重要的是它们完全基于文字交互，避免了视觉处理等无关因素的干扰。

特别值得一提的是，研究团队故意移除了游戏的规则说明。在原始的TextArena环境中，游戏会提供详细的规则解释，告诉模型什么符号代表什么、如何获胜、有什么限制等等。但在实验中，这些信息都被替换为极其简单的通用描述，迫使模型必须通过试错来理解环境规律。

这种设置更贴近现实世界的情况。在实际应用中，AI系统往往需要面对规则不明确、反馈不清晰、环境在变化的复杂情况。通过在受控但具有挑战性的环境中验证方法的有效性，研究为该方法在更复杂场景中的应用提供了信心。

实验还包括了多个重要的对比分析。研究团队不仅验证了在线体验学习相比基线方法的优势，还深入分析了方法中各个组件的贡献，比较了不同的知识提取格式，测试了不同模型规模的效果，并且验证了方法对于模型通用能力的保护效果。这种全面的实验设计确保了结论的可靠性和方法的实用性。

十、对未来的深远影响

在线体验学习方法的提出不仅仅是一个技术改进，更可能代表了AI发展的一个重要转折点。它预示着我们正在从"训练好就部署"的静态AI时代，向"部署中持续学习"的动态AI时代转变。

这种转变的意义是深远的。在静态模式下，AI系统的能力上限在训练完成时就已经确定，后续的改进需要收集新数据、重新训练、重新部署整个流程。这不仅成本高昂，而且响应缓慢，很难跟上现实世界的快速变化。而在动态学习模式下，AI系统可以在使用过程中不断进化，及时适应新情况、学习新知识、改进旧策略。

从技术生态的角度看，这种方法可能会改变整个AI产业的运作模式。目前的AI公司主要专注于开发更强大的基础模型，用户只能被动地使用这些预训练的能力。未来，AI系统可能会变得更加个性化和适应性强，每个部署实例都会根据特定的使用环境和用户需求发展出独特的能力。

这种变化也给AI安全和治理带来了新的挑战。当AI系统具备了持续学习能力后，如何确保它们的学习方向是正确的、安全的？如何防止有害信息的学习和传播？如何在保持学习能力的同时维护模型的可控性？这些都是需要深入研究的重要问题。

说到底，在线体验学习为我们描绘了一个更加智能、更加适应性强的AI未来。在这个未来中，AI不再是一次性制造的产品，而是能够与环境和用户共同成长的伙伴。就像人类通过经验不断学习一样，AI也将在与世界的持续交互中变得越来越聪明。

当然，这项研究仍然处于早期阶段，距离大规模实际应用还有很长的路要走。但它为我们指明了一个充满希望的方向——一个AI能够真正从经验中学习、在实践中成长的未来。对于每一个关心AI发展的人来说，这都是一个值得密切关注的重要进展。

Q&A

Q1：在线体验学习具体是怎么让AI变聪明的？

A：在线体验学习让AI像人类一样从经历中学习。具体分两步：首先AI会分析自己在真实环境中的互动记录，从中提炼出有用的经验和规律；然后通过特殊的技术把这些经验融入到模型的核心参数中，让AI在遇到类似情况时能直接做出更好的判断，而不需要重新摸索。

Q2：这种方法和传统的AI训练方式有什么不同？

A：传统方法像是让学生考试前拼命背书，一旦考完就不再学习新东西。而在线体验学习让AI在实际使用过程中持续学习改进，就像一个工匠通过每天的实践不断精进技艺。最重要的是，新方法不需要人工给数据打标签，也不需要设计复杂的奖励机制，AI可以直接从与环境的自然交互中学习。

Q3：微软这个研究成果什么时候能用到实际产品中？

A：目前这项研究还在实验室阶段，研究团队在相对简单的文字游戏环境中验证了方法的有效性。要应用到实际产品中还需要解决很多技术和安全问题，比如如何确保AI的学习方向是正确的，如何防止学习到有害信息等。不过这个方向很有前景，可能会逐步在一些特定场景中开始应用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.