清华大学与上海人工智能实验室：AI模型的多问题挑战测试|数学|多任务

分享至

这项由清华大学H. Vicky Zhao教授、上海人工智能实验室的何聪辉和吴立军研究员领导的研究，发表于2025年7月15日的arXiv预印本服务器上。有兴趣深入了解的读者可以通过论文代码库https://github.com/opendatalab/REST访问完整的研究资料和实验工具。

当我们看到DeepSeek-R1这样的AI模型在数学题目上能够达到97%的准确率时，很多人可能会觉得这些AI已经接近完美了。但是，研究人员们发现了一个有趣的现象：如果你不是一次只问一个问题，而是同时抛出多个问题，哪怕是这些最先进的AI模型，表现也会大打折扣。

这就好比一个学霸，单独做每道题时都能轻松搞定，但如果把好几道题混在一起，同时要求在一张试卷上完成，就开始出现各种奇怪的错误。这种现象让研究团队意识到，现有的AI评测方法可能存在盲点。

想象一下现实生活中的场景：一个教学AI需要同时回答学生的多个问题，一个技术支持系统需要同时处理多个用户的不同问题。在这些真实应用中，AI很少只需要专注于一个单独的任务。然而，目前几乎所有的AI评测都是"一问一答"的模式，这就像在安静的图书馆里考试，而不是在嘈杂的真实环境中测试能力。

研究团队开发了一个名为REST（Reasoning Evaluation through Simultaneous Testing）的新评测框架。REST的核心思想非常简单：不再一次问一个问题，而是把多个问题打包在一起，让AI模型同时处理。这种方法就像是把原本的单人考试变成了多任务处理的挑战。

为了验证这个想法，研究团队对34个不同的大型推理模型进行了测试，包括从1.5亿参数到6710亿参数的各种规模。他们使用了7个不同的推理基准测试，涵盖了数学问题、科学问题和编程任务。

一、当AI遇到"多线程"挑战

研究结果令人惊讶。即使是表现最好的DeepSeek-R1模型，在处理多个问题时也出现了明显的性能下降。在AIME24这个奥数竞赛级别的测试中，模型的准确率从单问题时的81.66%下降到了52.49%，降幅达到29.17%。这就像一个平时能够轻松解决复杂数学问题的学霸，在面对多个问题时开始手忙脚乱。

更有趣的是，研究人员发现这种性能下降并不是随机的。对于相对简单的问题，比如小学数学题，AI模型的表现相对稳定。但是当问题变得复杂，比如需要多步推理的几何问题或者高级数学概念时，多问题处理就成了一个巨大的挑战。

这种现象暴露了一个重要问题：现有的AI评测方法可能过于理想化了。在单问题评测中表现相似的模型，在多问题处理上却显示出了巨大的差异。这就像两个学生在单科考试中成绩相近，但在综合性考试中表现完全不同。

二、AI的"注意力涣散"症状

通过深入分析，研究团队发现了AI模型在处理多个问题时出现的几种典型错误模式。这些错误模式就像人类在多任务处理时会出现的问题一样，既有趣又发人深省。

首先是"问题遗漏"现象。AI模型有时会专注于第一个问题，完全忘记后面还有其他问题需要回答。这就像一个人在处理多个任务时，沉迷于第一个任务而忘记了其他待办事项。研究发现，即使是最先进的DeepSeek-R1模型，也有相当比例的错误是由于问题遗漏造成的。

其次是"输出截断"问题。当AI模型试图同时处理多个复杂问题时，往往会超出其输出长度限制，导致回答被强制截断。这就像一个人在有限的时间内试图完成太多任务，结果每个任务都没有完成。

还有一种有趣的现象是"总结错误"。AI模型在完成所有推理后，在最终总结阶段会出现错误，把本来正确的推理结果总结成了错误的答案。这就像一个学生解题过程都对，但在最后抄答案时出了错。

最令人意外的是"无限循环"错误。一些模型会卡在某个计算步骤上，不断重复同样的计算，就像电脑程序进入了死循环。这种错误在单问题处理中极其罕见，但在多问题处理中变得相对常见。

三、位置的魔咒：前面的问题更容易被解答

研究团队还发现了一个有趣的"位置效应"。在多问题处理中，排在前面的问题总是比排在后面的问题更容易得到正确答案。这种现象就像人类在阅读长文章时，对开头部分的记忆和理解总是比结尾部分更好。

这种位置效应的原因是多方面的。首先，AI模型在处理第一个问题时会投入大量的"思考资源"，进行详细的推理。但随着问题的增多，可用的输出空间逐渐减少，后面的问题就只能匆匆处理。其次，前面问题的复杂推理过程会产生"噪音"，干扰后续问题的处理。

更有趣的是，问题的排列顺序也会影响整体表现。研究发现，如果把简单问题放在前面，困难问题放在后面，AI模型的整体表现会更好。这就像考试策略一样：先做简单题，再攻克难题，往往能取得更好的成绩。

四、"思维过度"的陷阱

研究揭示了一个被称为"思维过度"的现象。当AI模型处理多个问题时，经常会对相对简单的问题进行过度复杂的推理，浪费了大量的"思考资源"。这就像一个人在解决简单问题时想得太多，反而没有精力处理真正困难的问题。

这种现象在实际应用中非常常见。比如，一个AI家教系统在回答学生的多个问题时，可能会在一个简单的加法问题上进行冗长的解释，结果没有足够的"注意力"来处理后面的复杂几何问题。

研究团队发现，那些经过"长文本到短文本"训练的模型在这方面表现更好。这种训练方法教会AI模型如何进行简洁高效的推理，避免不必要的冗长解释。这就像训练一个人在有限时间内高效沟通，直击要点而不是废话连篇。

五、模型规模的秘密

研究还揭示了一个有趣的现象：在单问题处理中表现相似的不同规模模型，在多问题处理中却显示出了巨大差异。这就像两个学生在单科考试中成绩相近，但在综合性考试中表现完全不同。

较大的模型（比如320亿参数的模型）在处理多个问题时表现出了更好的稳定性，而较小的模型（比如70亿参数的模型）则更容易出现各种错误。这种差异在单问题评测中是看不出来的，但在多问题处理中变得非常明显。

这一发现对AI模型的选择和部署具有重要意义。在实际应用中，如果系统需要处理多个并发任务，选择较大规模的模型可能是明智的，即使它们在单任务测试中的表现相似。

六、后训练的陷阱

研究发现了一个令人意外的结果：一些经过额外训练优化的模型，虽然在单问题处理中表现更好，但在多问题处理中却表现得更差。这就像一个专门训练单项技能的运动员，在综合性比赛中反而不如全能选手。

这种现象对AI模型的开发和优化提出了新的挑战。传统的优化方法主要关注单任务性能，但这可能会牺牲模型在多任务场景下的表现。这就像过度专业化的训练可能会让人失去处理复杂情况的能力。

研究团队发现，那些采用"长文本到短文本"训练策略的模型在这方面表现更好。这种训练方法不仅提高了模型的效率，还保持了它们在多任务处理中的稳定性。

七、不同类型问题的挑战

研究还深入分析了不同类型数学问题对AI模型的影响。代数和数论问题相对容易处理，即使在多问题场景下，性能下降也比较有限。但是预科数学、几何和概率问题则会导致更严重的性能下降。

这种差异反映了不同类型问题的认知负荷不同。代数问题通常有固定的解题步骤，而几何问题则需要更多的空间想象和灵活思维。在多任务处理中，这种差异被放大了。

八、实用价值和未来影响

REST框架的意义不仅在于发现了现有AI模型的局限性，更在于为未来的AI开发和评测提供了新的方向。在真实应用中，AI系统很少只需要处理单一任务，多任务处理能力将成为衡量AI系统实用性的重要指标。

对于AI开发者来说，这项研究提供了几个重要启示。首先，需要在训练过程中更多地考虑多任务处理能力，而不仅仅是单任务性能。其次，"长文本到短文本"的训练策略可能是提高多任务处理能力的有效方法。最后，在评测AI系统时，需要考虑更贴近真实应用场景的测试方法。

对于AI用户来说，这项研究提醒我们要合理地使用AI系统。在需要AI处理多个复杂任务时，可能需要适当降低期望，或者采用更合适的任务分解策略。

研究团队还指出，REST框架可以帮助现有的基准测试重新焕发活力。那些因为AI模型性能接近完美而变得"过时"的测试，通过REST框架又能重新成为有区分度的评测工具。这就像给旧的考试题目增加了新的考查方式，让它们重新具有挑战性。

九、技术实现的巧思

REST框架的实现相当巧妙，它并不需要创造全新的测试题目，而是将现有的测试题目进行重新组织。研究团队将多个问题串联在一起，形成一个综合性的提示，然后观察AI模型的反应。这种方法既保持了原有测试的有效性，又增加了新的挑战维度。

为了确保评测的公平性，研究团队采用了循环索引的方法，确保每个问题都有相同的机会出现在不同的位置上。这就像在考试中轮换题目顺序，确保没有题目因为位置因素而被偏向性地处理。

在答案提取方面，研究团队也考虑得很周到。他们既使用了基于规则的自动提取方法，也验证了基于AI的提取方法。结果发现，虽然AI辅助提取能略微提高准确率，但基于规则的方法已经足够可靠，而且成本更低。

说到底，这项研究让我们看到了AI能力评估的一个重要盲点。就像我们不能仅凭一个人在安静环境中的单项测试来判断其真实能力一样，仅凭单问题测试来评估AI系统也是不够的。真实世界是复杂的，需要处理多个并发任务，AI系统也需要在这样的环境中接受考验。

这项研究的价值在于提醒我们，AI的发展不应该只追求在特定测试中的高分，而应该更关注在真实应用场景中的表现。毕竟，一个只能在理想条件下工作的AI系统，就像一个只能在实验室里成功的发明一样，实用价值是有限的。

REST框架为我们提供了一个新的视角来理解和评估AI系统的真实能力。通过这种"压力测试"，我们能够更好地了解AI系统的局限性，从而开发出更加可靠和实用的AI应用。这对于AI技术的健康发展具有重要意义。

随着AI技术的不断发展，我们需要更加全面和真实的评估方法。REST框架只是一个开始，未来还需要更多类似的研究来推动AI评测方法的进步。只有这样，我们才能确保AI技术真正服务于人类的实际需求，而不是仅仅在测试中取得好成绩。

Q&A

Q1：REST测试方法与传统AI测试有什么区别？ A：传统AI测试是一次问一个问题，就像在安静图书馆里的单科考试。而REST是同时问多个问题，更像真实生活中需要同时处理多个任务的情况。这种测试方法能发现AI在多任务处理时的真实能力和局限性。

Q2：为什么AI模型在多问题处理时表现会下降？ A：主要有几个原因：AI会对前面的问题"想太多"，浪费思考资源；会遗漏后面的问题；输出长度限制导致回答被截断；还可能在总结时出错。就像人在多任务处理时容易出现注意力分散和错误一样。

Q3：这项研究对普通用户使用AI有什么实用建议？ A：当需要AI处理多个复杂任务时，最好分批提问而不是一次性提出所有问题。如果必须同时提问，可以把简单问题放在前面，复杂问题放在后面。同时要适当降低期望，理解AI在多任务处理中的局限性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

清华大学与上海人工智能实验室：AI模型的多问题挑战测试

理想称遭恶意拉踩，东风日产：尊重同行

牛弹琴：谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

牛弹琴：谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

换帅之后，他们从降级区冲到升级区

郑钧回应儿子走路：会监督他挺直腰板

三轮磋商谈至深夜 美伊谈判三大议题仍待解

焕新极氪007/007GT上市 限时19.39万起

态度原创

萌娃躺在地上被旋转木马拖着走

干细胞抗衰4大误区,90%的人都中招

并不是因为差了一分才淘汰你，而是为了淘汰你，才让你差一分

一加Ace 6至尊版蓄势待发：榨干天玑9500 性能大爆发

牛弹琴：谈判惊心动魄美军舰强闯霍尔木兹碰一鼻子灰

牛弹琴：谈判惊心动魄美军舰强闯霍尔木兹碰一鼻子灰

三轮磋商谈至深夜美伊谈判三大议题仍待解

焕新极氪007/007GT上市限时19.39万起