机器学习工程师的秘密武器：Meta 如何让AI变身"实战专家"|人工智能|meta|真实世界|神经网络

分享至

人工智能发展到今天，就像一个聪明但缺乏实战经验的学生。它们能在考试中取得高分，但一旦面对真实世界的复杂问题，往往就束手无策。特别是在机器学习工程（MLE）领域，现有的AI助手就像一个只会背书却没有动手能力的理论家，无法胜任那些需要反复试错、持续优化的实际工程任务。

这项由Meta AI公司研究团队完成的突破性研究发表于2026年4月，论文编号为arXiv:2604.04872v1。他们的核心发现彻底改变了我们对AI训练的认知：通过创造一个名为SandMLE的"微型沙盒训练场"，成功地让AI模型学会了像经验丰富的工程师那样思考和行动。这种方法不仅将训练效率提升了13倍以上，更重要的是，它让AI首次具备了在真实机器学习项目中独立探索、试错和改进的能力。

研究团队发现了一个关键问题：传统的机器学习工程训练就像让学徒在真实的大型工厂里学习操作，每次试错都需要消耗大量时间和资源。而他们的解决方案则是搭建一个功能完备但规模精小的"实验工厂"，让AI在这里快速掌握核心技能，然后再应用到真实环境中。这种训练方式在三个不同规模的模型上都取得了显著成效，性能提升幅度从20.3%到66.9%不等，证明了方法的普遍适用性。

更令人惊喜的是，通过这种方式训练的AI模型展现出了强大的"举一反三"能力。它们不仅能在相似任务上表现出色，还能适应完全不同的工作环境和框架，就像一个真正的专家能够在不同公司、不同项目中都发挥出色一样。这项研究为AI从"理论派"向"实战派"的转变提供了可行的路径，有望在不久的将来让AI助手真正成为工程师们得力的工作伙伴。

### 一、从理论到实践的鸿沟：为什么AI在真实工程中表现不佳

要理解这项研究的重要性，我们不妨回到一个熟悉的场景：学车。刚从驾校毕业的新手司机虽然通过了所有理论考试，但第一次独自上路时往往手忙脚乱。AI模型在机器学习工程中遇到的正是同样的困境。

传统的AI训练方式就像让学生只在教室里学习驾驶理论，却从未真正握过方向盘。当这些AI面对真实的机器学习项目时，它们往往只能机械地模仿专家的操作步骤，而无法根据具体情况灵活调整策略。更关键的是，真正的工程工作需要大量的试错过程，就像新手司机需要在实际驾驶中逐渐熟悉油门和刹车的感觉一样。

研究团队发现，现有AI系统面临的最大障碍并非智力不足，而是缺乏"在做中学"的机会。机器学习工程任务天生就需要反复迭代：写代码、运行测试、分析结果、修改参数、再次测试。这个过程就像烹饪一道复杂菜肴，厨师需要不断品尝、调味、再品尝，直到达到完美的口感。然而，传统的AI训练方法只能让模型观看"烹饪教学视频"，却无法给它们真正的"下厨机会"。

更糟糕的是，在真实的机器学习项目中，每一次"尝试"都异常昂贵。运行一次完整的机器学习流程可能需要几分钟甚至几小时，就像每次练习炒菜都需要准备一桌满汉全席的食材。这种高昂的试错成本使得传统的强化学习方法在机器学习工程领域几乎不可行。如果一个AI需要尝试数千次才能掌握一项技能，而每次尝试都需要200秒的运行时间，那么完整的训练过程将耗费数十万秒，这在实际应用中是完全不可接受的。

这就是为什么现有的机器学习工程AI大多采用"监督学习"的方式，即让模型观摩专家的操作记录并尝试模仿。这种方法就像让学生通过观看录像学习外科手术，虽然能掌握基本流程，但遇到意外情况时往往无所适从。真正的专家技能需要在实践中磨练，需要经历无数次失败和修正，这正是传统AI训练方法所缺失的关键环节。

### 二、沙盒训练场的诞生：小环境培养大能力

面对这样的困境，Meta AI的研究团队提出了一个富有创意的解决方案：SandMLE系统。这个系统的核心思想就像为学习者创建一个"微缩版练习场"，在这里可以快速、低成本地进行大量实践。

SandMLE的工作原理可以用学习驾驶的比喻来理解。传统方法就像让新手司机直接在高速公路上练车，不仅危险而且成本高昂。而SandMLE则相当于建造了一个设施完备的驾驶训练场：道路标识、交通信号、各种路况一应俱全，但规模适中，让学习者能够在安全的环境中快速积累经验。

这个"训练场"是如何建造的呢？研究团队设计了一套精巧的四步流程，就像一个专业的游戏设计团队在创建训练关卡。首先，"数据策略师"这个角色负责分析现有的真实项目，提取出其中的核心挑战和结构特征，就像游戏设计师会研究真实战争的战术要素来设计战略游戏。这个过程完全忽略具体的领域背景，专注于抽象的数学和逻辑关系。

接下来，"机器学习开发者"角色开始构建具体的训练数据。这个过程就像制作电影道具：虽然是人工制作的，但必须足够逼真，能够重现真实环境中的各种复杂情况。关键的创新在于，他们将每个训练任务的数据规模严格控制在50到200个样本之间，就像将一个需要处理百万级数据的真实项目压缩成一个精简但完整的迷你版本。

然后是"运维工程师"的工作，负责构建自动化的评估系统。这就像为训练场安装了精密的计时器和评分系统，能够即时准确地判断每一次练习的成果。这个系统不仅能给出最终得分，还设置了多个中间里程碑，就像驾驶考试中的分项评分，让AI能够理解自己在哪些方面做得好，哪些方面还需要改进。

最后，"技术写作者"负责将整个训练场景包装成清晰的任务描述。这就像为每个训练项目编写详细的使用说明书，确保AI能够准确理解任务要求和评判标准。

这套系统最巧妙的地方在于它的"以假乱真"能力。虽然训练数据是人工生成的，但它们保持了真实项目的所有核心复杂性：数据分布的不均衡、特征之间的复杂关系、各种现实中常见的噪声干扰等等。就像一个优秀的飞行模拟器，虽然你没有真正升空，但能够体验到真实飞行中的各种挑战和决策点。

更重要的是，这个系统具有强大的可扩展性。从60个基础任务开始，系统能够自动生成848个不同的训练场景，涵盖了从医疗保健到零售电商、从图像分析到文本处理的各种应用领域。这就像从几个基础的驾驶场景（停车、并线、转弯）可以组合出无数种复杂的驾驶情况一样。

### 三、强化学习的革命：让AI在试错中成长

有了这个高效的训练环境，研究团队就能够实施真正的强化学习训练了。强化学习的核心理念就像训练一只宠物：通过奖惩机制让它逐渐学会正确的行为模式。但在机器学习工程的背景下，这个过程变得异常复杂和精妙。

传统的强化学习就像训练动物做单一的把戏，比如让狗学会握手。而机器学习工程需要的是一系列复杂的连贯动作，就像训练一只导盲犬不仅要学会基本的行走，还要能够判断交通状况、避开障碍物、在复杂环境中做出正确决策。这种多步骤、长序列的学习过程被称为"轨迹级强化学习"。

在SandMLE系统中，AI的学习过程就像一个新手工程师的成长历程。它首先接到一个项目需求（任务描述），然后开始思考解决方案，编写代码，运行测试，查看结果，根据反馈调整策略，再次尝试。这个过程可能需要重复十几次甚至几十次，每一步都是一个学习的机会。

研究团队设计了一个巧妙的奖励系统，就像一个经验丰富的导师在旁边指导。这个系统不仅关注最终结果，更重视过程中的每个重要节点。当AI成功生成了格式正确的代码时，它会得到基础分数。当代码能够正常运行时，分数进一步提升。当结果超过预设的性能阈值时，AI会获得更高的奖励。这种分层奖励机制就像游戏中的经验值系统，让AI能够清楚地感知到自己的进步。

更有趣的是，研究团队采用了一种叫做GRPO（群体相对策略优化）的训练方法。这个方法的核心思想就像组织一场友谊赛：让多个AI同时尝试解决同一个问题，然后根据相对表现来调整训练策略。表现好的AI会得到正向激励，表现差的则会受到负向反馈，但这种比较是在同一批次内进行的，确保了评判的公平性。

这种训练方式的效果非常显著。在传统方法下，AI往往只能机械地重复专家的操作步骤，就像背诵教科书的学生。而通过强化学习训练的AI展现出了真正的"工程师思维"：它们会主动尝试不同的解决方案，在遇到错误时能够分析原因并调整策略，甚至能够在面对新问题时迁移已有的经验。

训练过程中最有趣的发现是AI的"成长轨迹"。小规模的8B参数模型在训练初期经常产生格式错误的输出，就像初学者总是犯一些低级错误。但随着训练的进行，它们逐渐掌握了基本规范。而大规模的30B参数模型则展现出了更快的学习速度和更强的稳定性，就像天赋更高的学生能够更快地掌握复杂概念。

### 四、跨领域适应能力：一技通万技精

SandMLE训练系统最令人印象深刻的特点之一，就是它培养出的AI具有强大的跨领域适应能力。这就像一个在驾校学会开车的司机，不仅能驾驶教练车，还能快速适应轿车、SUV，甚至货车等不同车型。

为了验证这种适应能力，研究团队设计了一个巧妙的实验。他们让经过SandMLE训练的AI在完全不同的工作框架下执行任务，就像让一个习惯了某种工作流程的员工突然换到一个使用完全不同系统的公司。结果表明，这些AI不仅能够正常工作，还能保持甚至提升原有的性能水平。

具体来说，研究团队测试了三种不同的工作框架：AIDE、AIRA和MLE-Agent。每种框架就像不同的"工作风格"或"公司文化"。AIDE注重系统性的问题分解，AIRA强调迭代式的优化过程，而MLE-Agent则采用更加灵活的交互方式。在传统的训练方法下，AI往往只能在特定框架下发挥作用，换个环境就水土不服。

但经过SandMLE训练的AI展现出了令人惊讶的适应性。在MLE-Dojo基准测试中，30B规模的模型在使用MLE-Agent框架时达到了83.9%的有效提交率和38.56的人类排名得分。这个成绩意味着AI的表现已经超过了大多数人类参与者，达到了专业工程师的水平。

更有趣的是，不同规模的模型展现出了不同的适应特征。小规模模型就像经验较少但学习能力强的新手，在熟悉的环境下表现稳定，换环境时需要一定的适应期。而大规模模型则像经验丰富的专家，无论在哪种环境下都能快速找到最佳工作方式。

这种跨框架的适应能力说明了SandMLE训练的深层价值：它不仅教会了AI特定的技能，更重要的是培养了AI的"学习能力"和"问题解决思维"。这就像优秀的教育不应该只让学生背诵标准答案，而应该培养他们的思考方法和解决问题的能力。

研究团队还发现了一个有趣的现象：AI的这种适应能力会随着测试时间的延长而进一步提升。当给AI更多的思考和尝试时间时，它们的表现会显著改善。在最长30轮的交互测试中，AI的成功率从初始的5%提升到了55%，展现出了真正的"越战越勇"特质。

### 五、里程碑式奖励机制：化复杂为简单的智慧

SandMLE系统的另一个重要创新在于它的奖励设计机制。传统的AI训练就像一个严苛的老师，只在学期末给出一个总成绩，学生完全不知道自己在学习过程中哪些地方做得对，哪些地方还需要改进。而SandMLE采用了一种叫做"里程碑式奖励"的方法，就像一个耐心的导师会在学习过程的每个关键节点给予及时的反馈和鼓励。

这个奖励系统的设计极其精妙。它包含了多个层次的评判标准，从最基础的格式要求到最高级的性能表现。当AI刚开始学习时，它可能连正确的代码格式都写不出来，这时系统会专注于基础的格式奖励。一旦AI掌握了基本格式，系统就开始关注代码是否能够成功执行。当执行成功后，系统进一步评估结果的质量，设置了铜牌、银牌、金牌等不同的性能档次。

这种分层奖励的好处就像登山时设置的多个休息点。如果只有山顶一个目标，攀登者很容易在中途放弃，因为目标太过遥远。但如果沿途设置多个小目标，每达到一个目标都能获得成就感，这样更容易坚持到最后。对AI而言，这种设计让它能够在学习过程中持续获得正向反馈，避免陷入"不知道该往哪个方向努力"的困境。

为了验证这种奖励机制的有效性，研究团队专门进行了对比实验。他们创建了一个"稀疏奖励"的版本，只在AI达到最高性能标准时才给予奖励，其他时候完全没有反馈。结果非常明显：使用稀疏奖励的AI就像在黑暗中摸索的盲人，学习效率极其低下。而使用里程碑式奖励的AI则展现出了稳定的进步轨迹。

特别有趣的是不同规模模型对奖励机制的反应。30B参数的大模型在稀疏奖励条件下的表现下降最为严重，成功率从27.3%骤降到13.6%。这个现象说明，越是复杂的模型，越需要细致的指导。这就像天赋很高的学生如果缺乏适当的引导，反而可能迷失方向。

研究团队还发现，合理的奖励权重分配至关重要。他们将格式奖励设为0.1，执行奖励设为0.3，各个性能档次的奖励分别设为0.1到0.2不等。这种分配就像营养搭配：基础技能（格式和执行）占据了较大比重，确保AI首先掌握基本功，然后再追求更高的性能表现。

### 六、训练动态的深度洞察：AI成长的轨迹

通过深入分析AI在训练过程中的表现变化，研究团队发现了许多有趣的现象，就像心理学家观察儿童成长过程中的各种里程碑事件。这些发现不仅验证了SandMLE方法的有效性，更为我们理解AI的学习机制提供了宝贵的洞察。

训练过程中最显著的现象是不同规模模型展现出的截然不同的学习轨迹。8B参数的小模型就像一个充满好奇心但经验不足的新手，在训练初期表现出明显的不稳定性。它的有效提交率在0.1到0.8之间大幅波动，就像初学者时好时坏的表现。但随着训练的深入，这个模型逐渐找到了自己的节奏，表现趋于稳定。

14B参数的中等模型则展现出更加均衡的发展轨迹，就像一个学习能力和稳定性都比较均衡的学生。它能够较快地达到较高的性能水平，但偶尔还会出现小的波动，需要时间来巩固所学的技能。

最有趣的是30B参数的大模型。它就像一个天赋异禀的学生，不仅学习速度快，还能保持持续稳定的高水平表现。在训练的后期阶段，这个模型能够维持接近完美的有效提交率，展现出了真正的"专家级"稳定性。

训练奖励的变化曲线也透露出了重要信息。所有模型都展现出了清晰的上升趋势，但上升的速度和最终达到的高度各不相同。大模型不仅起点更高，上升速度也更快，最终达到的性能天花板也更高。这个现象说明，模型规模的增加不仅带来了更强的能力，也带来了更高的学习效率。

验证奖励的变化更加平稳，这说明AI确实在学习真正有用的技能，而不是简单地过度拟合训练数据。这就像一个学生不仅能在平时练习中表现优异，在正式考试中也能维持同样的水平。

训练过程中另一个重要发现是"技能习得的顺序性"。AI首先掌握的是基本的格式规范，这相当于学会了"说话的基本语法"。然后它们开始学习如何让代码成功运行，这就像学会了"表达完整的意思"。最后才是学习如何优化性能，达到专家级的水准。

这种学习顺序与人类专家的成长过程惊人地相似。新手程序员首先关注的是代码能否运行，然后才考虑效率和优化。SandMLE训练出的AI自然地遵循了这种学习规律，说明这种训练方法确实抓住了技能学习的本质规律。

### 七、实战检验：真实世界中的表现

任何训练方法的最终价值都在于实战表现。就像一个驾校培养的司机最终要在真实道路上接受考验一样，经过SandMLE训练的AI也需要在真实的机器学习工程任务中证明自己的能力。

研究团队选择了两个具有挑战性的真实基准测试：MLE-Bench-Lite和MLE-Dojo。这两个测试就像AI界的"高考"和"研究生入学考试"，涵盖了从基础技能到高级应用的各个方面。测试任务都是真实的机器学习竞赛项目，需要AI从头开始分析数据、设计模型、优化参数、生成最终结果。

在MLE-Bench-Lite测试中，SandMLE训练的AI展现出了压倒性的优势。8B参数的模型获得了22.7%的奖牌率，这个成绩已经能够匹敌一些大规模的商业AI系统。更令人惊讶的是，这些相对较小的模型在某些方面甚至超越了参数规模大它们几倍的竞争对手。

14B和30B规模的模型表现更加出色，分别达到了22.7%和27.3%的奖牌率。这些成绩的含义非常重要：它们意味着AI已经能够在相当比例的真实机器学习项目中达到获奖水平的表现，这在传统训练方法下是很难实现的。

更重要的是AI展现出的"全面发展"特征。传统的AI往往在某些特定类型的任务上表现出色，但在其他任务上就力不从心。而SandMLE训练的AI在各种不同类型的任务上都保持了稳定的高水平表现，从图像处理到文本分析，从回归预测到分类识别，都展现出了专业级的能力。

在更具挑战性的MLE-Dojo测试中，AI的表现同样令人印象深刻。这个测试更加接近真实世界的工作环境，不仅要求AI具备技术能力，还要求它们能够在有限的时间内高效工作，处理各种意外情况。30B模型在这个测试中获得了38.56的人类排名得分，这意味着它的表现超过了大约60%的人类参与者。

特别值得注意的是AI在"有效提交率"方面的表现。在许多情况下，传统方法训练的AI虽然可能偶尔产生高质量的结果，但经常因为格式错误或执行失败而无法提交有效的答案。而SandMLE训练的AI在这方面表现出了高度的可靠性，大模型的有效提交率甚至达到了100%。

这种可靠性在实际应用中的价值不可估量。一个偶尔表现出色但经常出错的AI助手就像一个技术很好但经常迟到的员工，在实际工作中很难被信任。而高可靠性的AI则能够成为工程师真正依赖的工作伙伴。

### 八、规模效应的启示：大模型的独特优势

在SandMLE的研究中，一个特别有趣的发现是不同规模模型展现出的差异化表现。这些差异不仅仅是性能数字上的不同，更反映了AI能力发展的内在规律，就像观察不同年龄段学生的学习特点一样。

8B参数的小模型就像一个聪明但经验不足的新手。它在训练初期经常犯一些"低级错误"，比如生成格式不正确的代码或者在简单问题上卡住。但这个模型有一个重要优势：它敢于尝试各种不同的解决策略，展现出了强烈的"探索精神"。虽然这种探索有时会导致失败，但也正是这种勇于试错的特质让它能够发现一些意想不到的解决方案。

14B参数的中等模型则更像一个经验和能力都比较均衡的员工。它很少犯基础性错误，能够稳定地完成大部分任务，同时还保持着一定的创新能力。这种模型在实际应用中往往具有很高的实用价值，因为它既可靠又不失灵活性。

30B参数的大模型展现出了真正的"专家级"特征。最显著的表现是它几乎从训练开始就能产生格式正确的输出，很少因为基础错误而失分。更重要的是，这个模型展现出了强大的"元学习"能力：它不仅能快速掌握具体的技能，还能理解不同技能之间的内在联系，能够将在一个任务中学到的经验迁移到其他相关任务中。

一个特别有趣的发现是关于"初始化策略"的影响。对于小模型，先进行监督学习预训练再进行强化学习能够显著提升性能。这就像新手司机需要先在教练指导下学习基本操作，再独自练习复杂技巧。但对于大模型，这种预训练的必要性就不那么明显了，它们能够直接通过强化学习掌握所有必要的技能。

这个现象揭示了一个重要规律：模型规模的增加不仅带来了更强的表现能力，也带来了更高的学习效率和更强的自主性。大模型就像天赋异禀的学生，能够更快地理解复杂概念，更好地整合不同知识点，也更少依赖外部指导。

研究团队还发现了一个有趣的"稳定性递增"现象。随着模型规模的增加，AI的表现变得越来越稳定。小模型的表现往往有较大波动，就像新手的发挥不够稳定。而大模型则能够持续保持高水平的表现，展现出了真正的"专业素养"。

这些发现对AI系统的实际部署具有重要意义。对于资源有限的应用场景，中等规模的模型可能是最佳选择，因为它们在成本和性能之间达到了良好的平衡。而对于对可靠性要求极高的关键应用，大模型则是不二选择，尽管成本更高，但它们提供的稳定性和准确性是无可替代的。

### 九、技术创新的深层机制：为什么SandMLE如此有效

SandMLE系统的成功不是偶然的，它的背后有着深刻的技术创新和理论基础。理解这些创新机制对于把握AI发展的未来方向具有重要意义。

首先是"微缩复制"的核心理念。传统的机器学习训练面临着一个根本矛盾：真实任务太复杂太耗时，而简化任务又缺乏真实性。SandMLE巧妙地解决了这个矛盾，它的方法就像制作精密的建筑模型：保持建筑的所有关键结构特征和比例关系，但将整体规模缩小到可以放在桌面上操作。

这种微缩并非简单的数据削减，而是一个精心设计的"精华提取"过程。研究团队开发的多智能体生成系统能够识别出真实任务中的核心挑战元素：数据分布的复杂性、特征之间的非线性关系、各种现实噪声的影响等等。然后在微缩版本中完整地重现这些挑战，确保AI在小规模环境中学到的技能能够无缝迁移到大规模应用中。

第二个关键创新是"合成数据的真实化"技术。传统的合成数据往往过于理想化，就像教科书中的标准例题，与现实世界的复杂情况相去甚远。SandMLE的数据生成系统则更像一个经验丰富的出题老师，不仅要确保问题有明确的答案，还要模拟各种可能在现实中遇到的干扰因素和边界情况。

这个系统特别巧妙的地方在于它的"对抗性设计"思维。数据策略师不仅要生成训练数据，还要主动注入各种"困难因素"：数据不平衡、特征噪声、边界案例等等。这就像一个严格的教练不仅要教学员基本动作，还要模拟各种可能在比赛中遇到的困难情况。通过这种"魔鬼训练"，AI获得了更强的鲁棒性和适应能力。

第三个重要创新是"渐进式评估体系"的设计。传统评估就像期末考试，只看最终结果。而SandMLE采用了类似"过程性评价"的方法，将复杂的机器学习工程任务分解为多个可观察、可评估的子目标。这不仅为AI提供了更密集的学习信号，也让研究者能够更好地理解AI的学习过程和能力发展轨迹。

这种评估体系的设计借鉴了教育心理学中的"最近发展区"理论。对于不同能力水平的AI，系统会自动调整评估标准和奖励分布，确保每个AI都能在适合自己当前水平的挑战中获得最大的学习效果。这就像一个优秀的老师会根据学生的具体情况调整教学难度和评价标准。

第四个创新是"多样性保证机制"。从60个种子任务扩展到848个训练任务，这个扩展过程不是简单的数量堆积，而是一个系统性的"变异和筛选"过程。系统会自动确保生成的任务在难度分布、问题类型、数据特征等多个维度上保持合理的多样性，避免AI陷入局部最优或过度特化。

最后是"自适应训练策略"的实现。不同于传统的固定训练流程，SandMLE能够根据AI当前的能力水平和学习进度自动调整训练强度和重点。这就像一个智能的私人教练，会根据学员的体能状况和训练目标实时调整训练计划。

这些创新机制的有机结合创造了一个前所未有的AI训练环境：既保持了真实世界任务的复杂性和挑战性，又实现了高效的大规模训练，同时还具备了强大的泛化能力和适应性。这正是SandMLE能够在机器学习工程领域取得突破性成果的根本原因。

说到底，SandMLE的成功揭示了AI训练领域的一个重要趋势：从简单的模仿学习向真正的智能培养转变。就像人类教育从死记硬背向能力培养转变一样，AI训练也正在从单纯的数据拟合向综合能力培养发展。Meta AI团队的这项研究为这种转变提供了一个可行的技术路径，也为AI助手真正融入人类的工作和生活开辟了新的可能性。

这种训练方式培养出的AI不仅仅是更好的工具，更像是具备了真正学习能力和适应能力的智能伙伴。它们能够在面对新问题时主动思考，在遇到挫折时调整策略，在不同环境中发挥稳定的作用。这样的AI助手距离成为人类真正的工作伙伴又近了一步，也让我们对人工智能的未来有了更多期待和想象空间。未来随着这种训练方法的进一步完善和推广，我们很可能会看到更多领域中出现真正智能化的AI助手，它们不仅能够完成预定的任务，更能够像经验丰富的专家一样，在复杂多变的现实环境中发挥创造性和适应性。

Q&A

Q1：SandMLE是什么，它如何解决AI训练中的问题？

A：SandMLE是Meta AI开发的一个AI训练框架，专门用于培养机器学习工程能力。它的核心创新是创建"微型沙盒训练场"，将真实的机器学习项目压缩成只有50-200个样本的小规模版本，但保持所有核心复杂性。这样AI可以快速进行大量试错练习，训练效率提升13倍以上，让AI首次能够像真正的工程师一样在实践中学习和成长。

Q2：为什么传统的AI训练方法在机器学习工程任务上效果不好？

A：传统方法面临"实践成本过高"的根本问题。真实的机器学习工程任务需要处理大量数据，每次试错都要花费几分钟到几小时，让AI无法进行充分的实践学习。就像让学生只能在真实工厂里学习操作技能一样，成本太高且风险太大。而且传统方法主要靠模仿专家操作，缺乏真正的试错探索机会，导致AI只会背诵流程，不具备独立解决问题的能力。

Q3：经过SandMLE训练的AI在实际应用中表现如何？

A：表现非常出色且具有强大的适应能力。在真实测试中，不同规模的模型性能提升了20.3%到66.9%不等，大规模模型甚至能超过60%的人类参与者。更重要的是，这些AI展现出了跨框架、跨领域的适应能力，能在完全不同的工作环境中保持高水平表现，就像真正的专家能够在不同公司都发挥作用一样。它们的可靠性也大幅提升，避免了传统AI经常出现的格式错误和执行失败问题。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.