![]()
这项由复旦大学上海数据科学重点实验室、复旦大学数据科学学院以及蚂蚁集团联合开展的研究发表于2026年1月,研究编号为arXiv:2601.06431v2。有兴趣深入了解的读者可以通过该编号查询完整论文。
当你在网上使用AI助手时,是否注意过一个有趣的现象?当你给出简单指令如"帮我写一首诗"时,AI往往能很好地完成任务。但是当你提出复杂要求,比如"先写一个三句话的段落介绍春天,然后列出五个赏花地点,如果提到樱花就用中文,否则用英文,最后用正式语调总结"时,AI经常会搞错顺序,或者忽略某些条件。这个问题就像是AI虽然能听懂每个词,但却理解不了这些词之间的逻辑关系。
正是基于这样的观察,复旦大学的研究团队开发了一套名为LSRif的新型训练框架。这个框架的核心思想很简单:教会AI不仅要理解指令中的每个要求,更要理解这些要求之间的逻辑关系。就像教一个学徒不仅要知道每个工具的用法,更要明白什么时候用哪个工具,以及工具之间的使用顺序。
研究团队发现,现实中的指令往往包含三种基本的逻辑结构。第一种是并行结构,就像同时进行的任务,比如"用正式语调写作并且不要使用逗号",这两个要求需要同时满足。第二种是顺序结构,就像按步骤进行的流水线作业,比如"先生成大纲,然后写总结,最后翻译成英文",必须按照这个顺序执行。第三种是条件结构,就像程序中的if-else语句,比如"如果内容涉及代码就解释功能,否则就做文本总结",需要根据条件选择不同的处理方式。
传统的AI训练方法就像是只教会了学徒认识每个工具,但没有教会他们如何根据不同情况组合使用这些工具。研究团队构建了一个包含38519条指令的全新数据集LSRINSTRUCT,这个数据集的特殊之处在于每条指令都明确标注了其中的逻辑结构类型。这就好比为学徒准备了一本详细的工作手册,不仅列出了所有工具,还清楚地标明了在什么情况下应该如何组合使用。
更重要的是,研究团队设计了一套结构感知的奖励机制LSRM。在传统训练中,AI完成任务的好坏通常是通过平均所有子任务的表现来评判的。但这种方法就像是不管菜品制作顺序,只要最终所有食材都用上了就算成功,显然是不合理的。新的奖励机制根据不同的逻辑结构采用不同的评价标准。对于并行结构,确实可以取平均值,就像同时进行的烹饪步骤。对于顺序结构,如果前面的步骤失败了,后面步骤的奖励就要相应降低,就像做菜时如果第一步就放错了调料,即使后续步骤做得再好,整道菜的质量也会受影响。对于条件结构,只对选中的分支进行评价,就像根据客人的口味偏好只评判相应的菜品制作质量。
实验结果令人印象深刻。研究团队在多种不同规模的AI模型上测试了这套方法,从小型的15亿参数模型到大型的140亿参数模型都有涉及。在指令跟随任务上,改进效果非常显著。以70亿参数的模型为例,在IFEval基准测试中,准确率从原来的73.9%提升到79.7%,这相当于在100个任务中多完成了近6个。在CFBench测试中,成功率从47.0%跳升至54.0%,提升幅度达到15%左右。
有趣的是,这种训练方法不仅提升了AI处理复杂指令的能力,还意外地增强了它的逻辑推理能力。在Enigmata逻辑推理基准测试中,70亿参数模型的整体表现从原来的9.9分提升到12.4分,其中数学运算能力的提升尤为突出,从3.7分跃升至14.3分。这个现象就像是教会了一个人如何系统性思考问题,他不仅在学习的具体任务上表现更好,在其他需要逻辑思维的任务上也有了提升。
为了深入理解这种改进是如何实现的,研究团队分析了训练前后AI模型内部的变化。他们发现了一个非常有趣的现象:训练主要改变了模型中负责"注意力"的部分,而对其他计算部分影响较小。这就像是提升了一个人的专注力和观察力,让他能更好地识别出关键信息。更具体地说,训练后的模型会将更多注意力放在指令中的逻辑连接词上,比如"首先"、"然后"、"如果"、"否则"等,同时也更关注具体的约束条件。这种注意力模式的改变不仅出现在处理指令任务时,在进行逻辑推理任务时也有类似表现,这解释了为什么逻辑推理能力也得到了提升。
研究团队还测试了这种方法的泛化能力。虽然训练数据中只包含了简单的逻辑结构,但训练后的模型在处理更复杂的嵌套逻辑结构时也表现出了改进。这就像是掌握了基础烹饪技巧的厨师,即使面对没见过的复杂菜谱,也能比以前做得更好。
当然,这项研究也存在一些局限性。由于计算资源的限制,研究团队没有在700亿参数以上的超大型模型上进行测试,这些模型的改进效果还有待验证。此外,训练数据主要是英文,虽然在多语言基准测试中显示出了一定的跨语言泛化能力,但针对其他语言的专门优化还需要进一步研究。
从技术角度来看,这项研究的意义不仅在于提升了AI的指令跟随能力,更重要的是提出了一种新的思路:让AI学习理解和处理结构化信息。这种能力在很多实际应用中都非常重要,比如自动化办公、智能客服、教育辅助等领域。当AI能够准确理解和执行复杂的多步骤指令时,它们就能在更多场景中发挥作用,真正成为人类的得力助手。
对于普通用户而言,这项研究预示着未来的AI助手将能更好地理解和执行复杂任务。不管是处理工作中的多步骤流程,还是协助完成需要多种条件判断的任务,AI都将表现得更加智能和可靠。这意味着我们可以用更自然、更复杂的方式与AI交互,而不必将复杂任务分解成多个简单步骤。
研究团队的这项工作为AI领域提供了一个重要启示:仅仅提高模型的规模和基础能力是不够的,还需要针对特定的能力需求设计专门的训练方法。就像培养人才一样,除了提供丰富的知识输入,还需要有针对性的技能训练。这种思路可能会影响未来AI系统的设计和训练方向,推动AI向更加智能和实用的方向发展。
说到底,这项研究解决的是一个看似简单但实际上非常重要的问题:如何让机器真正理解人类语言中的逻辑关系。虽然这听起来像是一个纯技术问题,但它的影响却可能深入我们日常生活的方方面面。当AI能够准确理解和执行我们的复杂指令时,人机交互的质量将得到质的提升,这对于推动AI技术在各行各业的实际应用具有重要意义。有兴趣深入了解技术细节的读者可以通过arXiv:2601.06431v2查询完整论文。
Q&A
Q1:LSRIF训练框架是什么?
A:LSRIF是复旦大学开发的一种新型AI训练框架,专门用来提升AI理解复杂指令的能力。它的核心是教会AI识别指令中的逻辑结构,包括并行、顺序和条件三种类型,就像教会学徒不仅要知道工具用法,还要明白什么时候该用哪个工具。
Q2:这种方法能提升多少AI性能?
A:实验显示提升效果非常显著。以70亿参数模型为例,在指令跟随测试中准确率从73.9%提升到79.7%,在约束跟随测试中成功率从47.0%提升到54.0%。更有趣的是,逻辑推理能力也得到提升,数学运算能力从3.7分跃升至14.3分。
Q3:普通用户能感受到这种改进吗?
A:当然可以。未来使用AI助手时,你可以直接说"先写三句话介绍春天,然后列出五个赏花地点,如果提到樱花就用中文否则用英文"这样的复杂指令,AI会准确按照逻辑顺序执行,而不会像以前那样搞错顺序或忽略条件。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.