![]()
这项由上海交通大学、中国科学院计算技术研究所、香港理工大学等顶尖机构联合进行的研究发表于2026年2月,论文编号为arXiv:2602.02619v1,为解决AI在长期复杂任务中的表现问题提供了全新思路。
在我们日常生活中,完成一件复杂的事情往往需要很多步骤。比如建造一栋房子,不能指望一天就完成,而是需要先打地基、再建框架、接着装修,每一步都为下一步做准备。然而,目前的AI助手虽然在单个任务上表现优秀,但一旦面临需要长期规划和多步骤协调的复杂任务时,就像没有经验的新手一样手忙脚乱。
想象一下,如果让一个从未做过饭的人去准备一桌丰盛的年夜饭。他可能知道如何炒一个菜,但却不知道如何安排所有菜品的制作顺序,结果可能是某些菜做好了就凉了,而另一些菜还没开始做。AI在处理长期任务时遇到的问题就是如此——它们缺乏统筹全局的能力。
这个问题的核心在于AI缺乏合适的"老师"来学习如何处理长期项目。传统的训练方法就像给学生一堆孤立的练习题,虽然每道题都能做对,但学生却不知道如何将这些知识串联起来解决真正的复杂问题。研究团队意识到,需要找到一种新的方式来教会AI如何进行长期思考和规划。
于是,研究团队把目光投向了一个意想不到的地方——软件开发中的版本控制系统,特别是GitHub上的Pull Request(代码提交请求)历史。这就像发现了程序员们留下的思考轨迹,记录着他们如何一步步完成复杂项目的整个过程。
一、从程序员的工作方式中寻找灵感
程序员在开发软件时有一个独特的工作模式,这为AI学习长期规划提供了完美的教材。当程序员要给软件添加一个新功能时,他们不会一蹴而就,而是会将工作分解成多个小步骤,每个步骤都通过一个Pull Request来提交。
这个过程就像盖房子一样有条不紊。比如要为一个购物网站添加用户评论功能,程序员可能首先提交一个Pull Request来创建评论数据库,然后是另一个Pull Request来建立用户界面,接着是处理评论显示的代码,最后还要修复测试中发现的各种小问题。每一步都建立在前一步的基础上,形成了一个完整的发展链条。
更有意思的是,这些Pull Request不仅记录了"做了什么",还记录了"为什么这么做"。每个提交都包含详细的说明,解释了这一步要解决什么问题,遇到了哪些困难,以及如何克服这些困难。这就像一个详细的施工日志,记录了整个项目的思考过程。
研究团队发现,这种自然形成的工作记录包含了三个对长期规划至关重要的要素。首先是任务分解能力,即如何将一个大目标拆分成可管理的小步骤。其次是长期一致性,即如何确保所有步骤都朝着同一个目标前进,不会中途偏离方向。最后是改进能力,即如何从错误中学习,不断调整和完善方案。
这些正是传统AI训练方法所缺少的。以往的训练数据就像一本本独立的教科书,每本书教一个具体技能,但没有一本书教你如何将这些技能组合起来完成大项目。而Pull Request历史就像一部部完整的纪录片,记录了从构思到实现的全过程。
二、daVinci-Agency:模仿程序员思维的训练方法
基于这个发现,研究团队开发了名为"daVinci-Agency"的新型训练方法。这个名字颇有深意——就像达芬奇不仅是画家,还是工程师、发明家和科学家,能够统筹各种复杂项目一样,他们希望训练出具备全面规划能力的AI。
daVinci-Agency的工作原理就像为AI提供了一个"程序员学徒"的培训课程。传统的AI训练方法就像让学生反复练习单词拼写,而daVinci-Agency则让AI学习如何写一篇完整的文章——从构思主题,到组织结构,再到修改完善。
具体来说,研究团队从GitHub上精心挑选了九个大型软件项目,这些项目就像九本不同类型的"教科书"。有专注于科学计算的项目,比如NumPy和SciPy,就像数学教科书;有处理大规模数据的项目,比如Apache Pulsar,就像工程学教材;还有现代化工具项目,比如Ruff,就像前沿技术手册。
从这些项目中,研究团队提取了超过六万个Pull Request的完整历史记录。但这还不够,他们需要找到那些真正形成连贯故事线的Pull Request链条。这就像从一大堆电影片段中挑选出完整的电影情节一样,需要识别哪些Pull Request之间存在逻辑依赖关系。
研究团队开发了巧妙的方法来识别这种关系。他们分析每个Pull Request的描述和评论,寻找明确的引用关系。比如,一个Pull Request可能会说"这个修改基于PR #15的功能",或者"这里修复了PR #21中发现的bug"。通过这种方式,他们能够重建完整的开发时间线,就像拼图一样将相关的Pull Request连接起来。
最终,他们构建了239个这样的Pull Request链条,平均每个链条包含85000个词汇和116次工具调用。这些数字看起来很抽象,但换个角度理解就很形象了:每个训练样本相当于一篇长达几十页的详细技术报告,记录了一个完整功能从无到有的全过程。
三、让AI学会像项目经理一样思考
有了这些珍贵的训练数据,接下来就是如何让AI真正学会其中的精髓。这个过程就像培训一个新员工成为项目经理——不仅要教会他们具体的技能,更要培养统筹全局的思维方式。
在传统的AI训练中,每个训练样本都是独立的,就像让学生做一道道孤立的习题。而daVinci-Agency的训练过程更像是让AI参与一个个真实的项目实习。AI需要从一个模糊的项目描述开始,逐步规划出具体的实施方案,然后一步步执行,在过程中不断调整和完善。
这种训练的巧妙之处在于它的递进性质。当AI处理Pull Request链条中的第二个任务时,它必须在第一个任务的结果基础上进行工作。这就像建房子时,装修工人必须在泥瓦工完成工作的基础上开始自己的工作。如果前面的步骤有问题,后面的所有工作都会受到影响。
为了确保训练质量,研究团队设计了严格的评估机制。他们使用另一个AI模型作为"项目经理",来评判AI生成的解决方案是否真正解决了问题。只有获得高分(0.8分以上,满分1.0)的解决方案才会被保留用于训练。这就像企业中的质量控制环节,确保只有合格的产品才能通过。
这种评估不是简单的对错判断,而是要看AI的解决方案是否真正理解了问题的本质,是否考虑了各种可能的影响,以及是否采用了合理的实现方式。即使AI用了不同的方法,只要最终效果相同,也会被认为是正确的答案。
经过这样的训练,AI不仅学会了编程技能,更重要的是学会了项目管理的思维方式。它开始懂得如何将复杂的需求分解成可管理的小任务,如何在多个任务之间保持一致性,以及如何从错误中学习和改进。
四、令人惊喜的实验结果
当研究团队开始测试经过daVinci-Agency训练的AI时,结果令人刮目相看。他们选择了GLM-4.6这个基础AI模型,用仅仅239个训练样本进行了微调训练。这个数字可能听起来不多,但要知道,每个样本都包含了完整的项目开发过程,信息密度极高。
在多项测试中,经过daVinci-Agency训练的AI都表现出了显著的进步。最引人注目的是在Toolathlon测试中,性能提升了47%。Toolathlon是一个专门测试AI使用各种工具解决复杂任务能力的基准测试,就像考察一个工程师是否能熟练使用各种专业工具一样。
更让人印象深刻的是效率的提升。经过训练的AI在解决同样的问题时,使用的词汇数量平均减少了113600个,工具调用次数也减少了25.8%。这不是简单的"偷懒",而是真正的效率提升——AI学会了更加精准地定位问题,避免了无效的尝试和冗余的操作。
这就像一个经验丰富的医生,能够通过几个关键问题就准确诊断病情,而新手医生可能需要做很多不必要的检查。训练后的AI展现出了类似的"专业直觉",能够快速抓住问题的核心,避免在细枝末节上浪费时间。
研究团队还发现了一个有趣的现象:随着训练数据中任务链条的延长,AI的表现会持续改进。当他们将平均每个样本的长度从59390个词汇扩展到84820个词汇时,AI在各项测试中的表现都有了进一步提升。这说明长期规划能力确实需要通过长期的、复杂的训练才能获得。
更重要的是,这种改进是持续的。在测试时,如果给AI更多的时间和计算资源来思考问题,它的表现会变得更好,而传统训练的AI往往会在额外的时间中"迷失方向"。这表明daVinci-Agency真正教会了AI如何进行深度思考和长期规划。
五、AI学会了程序员的"职业素养"
为了更深入地理解训练效果,研究团队进行了细致的行为分析。他们让训练前后的AI处理同一个复杂的软件bug修复任务,然后对比了两者的工作过程,结果发现了fascinating的差异。
未经训练的AI就像一个缺乏经验的新手,遇到问题时显得手忙脚乱。当测试环境出现配置错误时,它会反复尝试各种不相关的解决方案,就像一个人在房间里找不到电灯开关时,会胡乱摸索每一面墙。更糟糕的是,当遇到困难时,它会"逃避"到一些简单但无效的替代方案上,而不是直面问题的根源。
相比之下,经过daVinci-Agency训练的AI展现出了专业程序员的素养。它会首先系统性地分析问题,制定清晰的解决步骤,然后有条不紊地执行。更令人印象深刻的是,在执行过程中,它会主动发现潜在的问题并提前修复。
有一个特别生动的例子:在修改代码时,AI突然"意识到"自己刚写的代码会导致无限递归错误,于是主动停下来说:"等等,我发现了一个问题。在这个方法中,我调用了自己,这会导致无限递归。让我用父类的方法来代替。"这种"顿悟时刻"表明AI真正理解了代码的逻辑关系,而不是简单地模仿表面的模式。
这种行为上的变化反映了三个关键能力的获得。首先是任务分解能力,AI学会了将复杂问题拆分成合理的子任务,并按照正确的顺序执行。其次是长期一致性,AI能够在整个解决过程中保持对最终目标的关注,不会被中途出现的问题带偏方向。最后是自我纠错能力,AI能够从自己的错误中学习,并主动改进解决方案。
研究团队还发现,这种改进不局限于编程任务。当他们在其他类型的复杂任务上测试这个AI时,同样观察到了类似的改进。这说明daVinci-Agency培养的是一种通用的长期规划和问题解决能力,而不仅仅是编程技能。
六、跨越模型边界的普适性
daVinci-Agency的另一个重要发现是它的普适性。研究团队不仅在GLM-4.6上测试了这种方法,还在其他几个不同架构的AI模型上进行了验证,包括Qwen3系列的多个版本。结果显示,无论是大模型还是小模型,无论是稠密架构还是稀疏架构,都能从这种训练方法中获得显著的改进。
这个发现非常重要,因为它说明daVinci-Agency发现的是AI学习的一个普遍规律,而不是特定模型的偶然现象。就像好的教学方法对不同的学生都有效一样,这种基于真实项目历史的训练方法似乎触及了AI学习的某种本质。
特别有趣的是,即使在参数量相对较小的模型上,daVinci-Agency也能带来明显的改进。这打破了"只有大模型才能处理复杂任务"的常见观念。研究结果表明,合适的训练数据和方法可能比单纯增加模型规模更加重要。
这种跨模型的一致性还暗示着一个更深层的含义:长期规划和复杂推理能力可能不需要完全重新设计AI架构,而是可以通过改进训练方法来获得。这为AI的发展指出了一条更加实用的道路,因为改进训练方法通常比重新设计模型架构更容易实现和推广。
七、数据质量胜过数量的重要启示
daVinci-Agency项目最令人深思的发现之一是数据质量和数量之间的关系。传统观点认为,AI需要大量的训练数据才能获得好的效果。然而,这项研究用仅仅239个高质量的训练样本,就超越了使用66000个普通样本训练的模型。
这个对比就像烹饪中使用优质食材和普通食材的区别。即使用很少的优质食材,也能做出比大量普通食材更美味的菜肴。关键在于食材的品质和搭配方式,而不仅仅是数量。
研究团队通过严格的rejection sampling(拒绝采样)过程来确保数据质量。他们设置了高标准的评分门槛,只有那些真正解决了问题、逻辑清晰、实现合理的解决方案才会被保留。这个过程就像严格的质量检查,虽然会淘汰很多样本,但保留下来的都是精品。
为了验证这种质量控制的重要性,研究团队专门进行了对比实验。当他们用相同数量但未经质量筛选的原始数据训练AI时,结果是灾难性的——AI的性能不仅没有提升,反而显著下降了。这说明低质量的训练数据不仅无助于AI学习,反而会"教坏"AI。
这个发现对整个AI领域具有重要启示。它表明,与其盲目追求训练数据的数量,不如把精力投入到提高数据质量上。就像教育领域一样,精心设计的少量高质量课程往往比大量平庸的内容更有效果。
八、方法的局限性与未来展望
尽管daVinci-Agency取得了令人瞩目的成果,研究团队也坦诚地指出了当前方法的局限性。目前,他们最多只能将5个Pull Request连接成一个训练链条。这个限制主要源于技术上的挑战——随着链条变长,确保每一步都成功完成变得越来越困难,就像多米诺骨牌游戏,链条越长,中途出错的可能性就越大。
然而,研究团队的初步实验显示,当他们成功构建更长的训练链条时,AI的表现会进一步改善。这暗示着还有很大的改进空间。就像学习任何复杂技能一样,更多的练习和更复杂的挑战往往会带来更好的结果。
另一个限制是当前的方法主要基于软件开发领域的数据。虽然实验显示这种训练能够提升AI在其他领域的表现,但研究团队认为,如果能够找到其他领域中类似的"项目历史"数据,可能会获得更好的效果。比如,科学研究的实验记录、建筑项目的设计变更历史,或者产品开发的迭代过程,都可能包含类似的长期规划智慧。
研究团队对未来充满期待。他们正在探索如何克服当前的技术限制,构建更长的训练链条。同时,他们也在寻找其他领域中可能存在的类似数据源。更激动人心的是,他们发现这种方法的核心思想——从真实的复杂项目历史中学习长期规划能力——可能适用于AI的各个应用领域。
说到底,这项研究最重要的贡献不是特定的技术细节,而是提供了一种全新的思考AI训练的方式。它告诉我们,与其让AI学习大量孤立的技能片段,不如让它学习如何将这些技能组织起来解决真正的复杂问题。
这种方法的成功表明,AI距离真正的"智能"可能并不像我们想象的那么遥远。关键不是给AI更多的信息,而是教会它如何像人类专家一样思考——有计划、有条理、能自我反思和改进。从这个角度来看,daVinci-Agency不仅是一个技术突破,更是向真正的人工智能迈出的重要一步。
当我们展望未来时,可以想象这样一个世界:AI助手不再只是回答单个问题的工具,而是能够理解复杂需求、制定长期计划、协调多种资源的真正助手。无论是帮助研究人员规划多年的科研项目,协助企业家制定商业发展战略,还是辅导学生制定学习规划,这样的AI都能提供真正有价值的帮助。daVinci-Agency的成功,让这个未来显得更加触手可及。
Q&A
Q1:daVinci-Agency训练方法和传统AI训练有什么区别?
A:传统AI训练就像让学生反复练习单独的习题,而daVinci-Agency让AI学习完整的项目历史。它从GitHub的Pull Request链条中学习程序员如何分步骤完成复杂项目,教会AI任务分解、长期规划和错误修正三个关键能力。这就像从做单道菜提升到能准备整桌年夜饭的差别。
Q2:为什么只用239个训练样本就能超越用66000个样本训练的模型?
A:关键在于数据质量而非数量。daVinci-Agency的每个训练样本都是完整的项目开发过程,包含85000个词汇和116次工具调用,信息密度极高。研究团队还通过严格的质量控制,只保留真正解决问题的高质量样本。这就像用少量优质食材做出的菜比大量普通食材更美味一样。
Q3:daVinci-Agency训练的AI在实际使用中有什么明显改进?
A:最明显的是效率提升和深度思考能力。训练后的AI在解决问题时平均减少113600个词汇使用,工具调用减少25.8%,但效果更好。更重要的是它学会了像专业程序员一样工作:能主动发现代码中的逻辑错误并提前修复,展现出真正的理解能力而不是简单模仿。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.