网易首页 > 网易号 > 正文 申请入驻

清华大学与上海人工智能实验室:AI模型的多问题挑战测试

0
分享至

这项由清华大学H. Vicky Zhao教授、上海人工智能实验室的何聪辉和吴立军研究员领导的研究,发表于2025年7月15日的arXiv预印本服务器上。有兴趣深入了解的读者可以通过论文代码库https://github.com/opendatalab/REST访问完整的研究资料和实验工具。

当我们看到DeepSeek-R1这样的AI模型在数学题目上能够达到97%的准确率时,很多人可能会觉得这些AI已经接近完美了。但是,研究人员们发现了一个有趣的现象:如果你不是一次只问一个问题,而是同时抛出多个问题,哪怕是这些最先进的AI模型,表现也会大打折扣。

这就好比一个学霸,单独做每道题时都能轻松搞定,但如果把好几道题混在一起,同时要求在一张试卷上完成,就开始出现各种奇怪的错误。这种现象让研究团队意识到,现有的AI评测方法可能存在盲点。

想象一下现实生活中的场景:一个教学AI需要同时回答学生的多个问题,一个技术支持系统需要同时处理多个用户的不同问题。在这些真实应用中,AI很少只需要专注于一个单独的任务。然而,目前几乎所有的AI评测都是"一问一答"的模式,这就像在安静的图书馆里考试,而不是在嘈杂的真实环境中测试能力。

研究团队开发了一个名为REST(Reasoning Evaluation through Simultaneous Testing)的新评测框架。REST的核心思想非常简单:不再一次问一个问题,而是把多个问题打包在一起,让AI模型同时处理。这种方法就像是把原本的单人考试变成了多任务处理的挑战。

为了验证这个想法,研究团队对34个不同的大型推理模型进行了测试,包括从1.5亿参数到6710亿参数的各种规模。他们使用了7个不同的推理基准测试,涵盖了数学问题、科学问题和编程任务。

一、当AI遇到"多线程"挑战

研究结果令人惊讶。即使是表现最好的DeepSeek-R1模型,在处理多个问题时也出现了明显的性能下降。在AIME24这个奥数竞赛级别的测试中,模型的准确率从单问题时的81.66%下降到了52.49%,降幅达到29.17%。这就像一个平时能够轻松解决复杂数学问题的学霸,在面对多个问题时开始手忙脚乱。

更有趣的是,研究人员发现这种性能下降并不是随机的。对于相对简单的问题,比如小学数学题,AI模型的表现相对稳定。但是当问题变得复杂,比如需要多步推理的几何问题或者高级数学概念时,多问题处理就成了一个巨大的挑战。

这种现象暴露了一个重要问题:现有的AI评测方法可能过于理想化了。在单问题评测中表现相似的模型,在多问题处理上却显示出了巨大的差异。这就像两个学生在单科考试中成绩相近,但在综合性考试中表现完全不同。

二、AI的"注意力涣散"症状

通过深入分析,研究团队发现了AI模型在处理多个问题时出现的几种典型错误模式。这些错误模式就像人类在多任务处理时会出现的问题一样,既有趣又发人深省。

首先是"问题遗漏"现象。AI模型有时会专注于第一个问题,完全忘记后面还有其他问题需要回答。这就像一个人在处理多个任务时,沉迷于第一个任务而忘记了其他待办事项。研究发现,即使是最先进的DeepSeek-R1模型,也有相当比例的错误是由于问题遗漏造成的。

其次是"输出截断"问题。当AI模型试图同时处理多个复杂问题时,往往会超出其输出长度限制,导致回答被强制截断。这就像一个人在有限的时间内试图完成太多任务,结果每个任务都没有完成。

还有一种有趣的现象是"总结错误"。AI模型在完成所有推理后,在最终总结阶段会出现错误,把本来正确的推理结果总结成了错误的答案。这就像一个学生解题过程都对,但在最后抄答案时出了错。

最令人意外的是"无限循环"错误。一些模型会卡在某个计算步骤上,不断重复同样的计算,就像电脑程序进入了死循环。这种错误在单问题处理中极其罕见,但在多问题处理中变得相对常见。

三、位置的魔咒:前面的问题更容易被解答

研究团队还发现了一个有趣的"位置效应"。在多问题处理中,排在前面的问题总是比排在后面的问题更容易得到正确答案。这种现象就像人类在阅读长文章时,对开头部分的记忆和理解总是比结尾部分更好。

这种位置效应的原因是多方面的。首先,AI模型在处理第一个问题时会投入大量的"思考资源",进行详细的推理。但随着问题的增多,可用的输出空间逐渐减少,后面的问题就只能匆匆处理。其次,前面问题的复杂推理过程会产生"噪音",干扰后续问题的处理。

更有趣的是,问题的排列顺序也会影响整体表现。研究发现,如果把简单问题放在前面,困难问题放在后面,AI模型的整体表现会更好。这就像考试策略一样:先做简单题,再攻克难题,往往能取得更好的成绩。

四、"思维过度"的陷阱

研究揭示了一个被称为"思维过度"的现象。当AI模型处理多个问题时,经常会对相对简单的问题进行过度复杂的推理,浪费了大量的"思考资源"。这就像一个人在解决简单问题时想得太多,反而没有精力处理真正困难的问题。

这种现象在实际应用中非常常见。比如,一个AI家教系统在回答学生的多个问题时,可能会在一个简单的加法问题上进行冗长的解释,结果没有足够的"注意力"来处理后面的复杂几何问题。

研究团队发现,那些经过"长文本到短文本"训练的模型在这方面表现更好。这种训练方法教会AI模型如何进行简洁高效的推理,避免不必要的冗长解释。这就像训练一个人在有限时间内高效沟通,直击要点而不是废话连篇。

五、模型规模的秘密

研究还揭示了一个有趣的现象:在单问题处理中表现相似的不同规模模型,在多问题处理中却显示出了巨大差异。这就像两个学生在单科考试中成绩相近,但在综合性考试中表现完全不同。

较大的模型(比如320亿参数的模型)在处理多个问题时表现出了更好的稳定性,而较小的模型(比如70亿参数的模型)则更容易出现各种错误。这种差异在单问题评测中是看不出来的,但在多问题处理中变得非常明显。

这一发现对AI模型的选择和部署具有重要意义。在实际应用中,如果系统需要处理多个并发任务,选择较大规模的模型可能是明智的,即使它们在单任务测试中的表现相似。

六、后训练的陷阱

研究发现了一个令人意外的结果:一些经过额外训练优化的模型,虽然在单问题处理中表现更好,但在多问题处理中却表现得更差。这就像一个专门训练单项技能的运动员,在综合性比赛中反而不如全能选手。

这种现象对AI模型的开发和优化提出了新的挑战。传统的优化方法主要关注单任务性能,但这可能会牺牲模型在多任务场景下的表现。这就像过度专业化的训练可能会让人失去处理复杂情况的能力。

研究团队发现,那些采用"长文本到短文本"训练策略的模型在这方面表现更好。这种训练方法不仅提高了模型的效率,还保持了它们在多任务处理中的稳定性。

七、不同类型问题的挑战

研究还深入分析了不同类型数学问题对AI模型的影响。代数和数论问题相对容易处理,即使在多问题场景下,性能下降也比较有限。但是预科数学、几何和概率问题则会导致更严重的性能下降。

这种差异反映了不同类型问题的认知负荷不同。代数问题通常有固定的解题步骤,而几何问题则需要更多的空间想象和灵活思维。在多任务处理中,这种差异被放大了。

八、实用价值和未来影响

REST框架的意义不仅在于发现了现有AI模型的局限性,更在于为未来的AI开发和评测提供了新的方向。在真实应用中,AI系统很少只需要处理单一任务,多任务处理能力将成为衡量AI系统实用性的重要指标。

对于AI开发者来说,这项研究提供了几个重要启示。首先,需要在训练过程中更多地考虑多任务处理能力,而不仅仅是单任务性能。其次,"长文本到短文本"的训练策略可能是提高多任务处理能力的有效方法。最后,在评测AI系统时,需要考虑更贴近真实应用场景的测试方法。

对于AI用户来说,这项研究提醒我们要合理地使用AI系统。在需要AI处理多个复杂任务时,可能需要适当降低期望,或者采用更合适的任务分解策略。

研究团队还指出,REST框架可以帮助现有的基准测试重新焕发活力。那些因为AI模型性能接近完美而变得"过时"的测试,通过REST框架又能重新成为有区分度的评测工具。这就像给旧的考试题目增加了新的考查方式,让它们重新具有挑战性。

九、技术实现的巧思

REST框架的实现相当巧妙,它并不需要创造全新的测试题目,而是将现有的测试题目进行重新组织。研究团队将多个问题串联在一起,形成一个综合性的提示,然后观察AI模型的反应。这种方法既保持了原有测试的有效性,又增加了新的挑战维度。

为了确保评测的公平性,研究团队采用了循环索引的方法,确保每个问题都有相同的机会出现在不同的位置上。这就像在考试中轮换题目顺序,确保没有题目因为位置因素而被偏向性地处理。

在答案提取方面,研究团队也考虑得很周到。他们既使用了基于规则的自动提取方法,也验证了基于AI的提取方法。结果发现,虽然AI辅助提取能略微提高准确率,但基于规则的方法已经足够可靠,而且成本更低。

说到底,这项研究让我们看到了AI能力评估的一个重要盲点。就像我们不能仅凭一个人在安静环境中的单项测试来判断其真实能力一样,仅凭单问题测试来评估AI系统也是不够的。真实世界是复杂的,需要处理多个并发任务,AI系统也需要在这样的环境中接受考验。

这项研究的价值在于提醒我们,AI的发展不应该只追求在特定测试中的高分,而应该更关注在真实应用场景中的表现。毕竟,一个只能在理想条件下工作的AI系统,就像一个只能在实验室里成功的发明一样,实用价值是有限的。

REST框架为我们提供了一个新的视角来理解和评估AI系统的真实能力。通过这种"压力测试",我们能够更好地了解AI系统的局限性,从而开发出更加可靠和实用的AI应用。这对于AI技术的健康发展具有重要意义。

随着AI技术的不断发展,我们需要更加全面和真实的评估方法。REST框架只是一个开始,未来还需要更多类似的研究来推动AI评测方法的进步。只有这样,我们才能确保AI技术真正服务于人类的实际需求,而不是仅仅在测试中取得好成绩。

Q&A

Q1:REST测试方法与传统AI测试有什么区别? A:传统AI测试是一次问一个问题,就像在安静图书馆里的单科考试。而REST是同时问多个问题,更像真实生活中需要同时处理多个任务的情况。这种测试方法能发现AI在多任务处理时的真实能力和局限性。

Q2:为什么AI模型在多问题处理时表现会下降? A:主要有几个原因:AI会对前面的问题"想太多",浪费思考资源;会遗漏后面的问题;输出长度限制导致回答被截断;还可能在总结时出错。就像人在多任务处理时容易出现注意力分散和错误一样。

Q3:这项研究对普通用户使用AI有什么实用建议? A:当需要AI处理多个复杂任务时,最好分批提问而不是一次性提出所有问题。如果必须同时提问,可以把简单问题放在前面,复杂问题放在后面。同时要适当降低期望,理解AI在多任务处理中的局限性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全红婵后续:香港媒体爆料,广东体委撑腰,沪圈京圈打压穷孩子!

全红婵后续:香港媒体爆料,广东体委撑腰,沪圈京圈打压穷孩子!

眼光很亮
2026-04-10 14:29:21
女团成员退队后杀进成人杂志选美,放话要进Top 5

女团成员退队后杀进成人杂志选美,放话要进Top 5

热搜摘要官
2026-04-12 08:01:39
郑丽文一声“毛主席”,打破了国民党一个禁忌

郑丽文一声“毛主席”,打破了国民党一个禁忌

月明风清1029
2026-04-11 17:27:07
赫鲁晓夫荒唐史:在北极圈种玉米,为冲三倍肉产量杀光了牛羊,还公款买肉充数

赫鲁晓夫荒唐史:在北极圈种玉米,为冲三倍肉产量杀光了牛羊,还公款买肉充数

流苏晚晴
2026-03-25 18:21:13
被传离婚6年后,董卿婚姻真相大白,如今隐居上海,低调陪父母

被传离婚6年后,董卿婚姻真相大白,如今隐居上海,低调陪父母

往史过眼云烟
2026-04-11 15:01:23
滕森里穗(熟女的魅力挡不住)

滕森里穗(熟女的魅力挡不住)

蓝色海洋009
2026-04-12 01:53:37
中国牛马第一城诞生!就业人口1521万

中国牛马第一城诞生!就业人口1521万

孙不熟读城市
2026-04-11 11:20:06
NBA官方解析收官日:所有对阵都取决于最后一战 东部已乱成一锅粥

NBA官方解析收官日:所有对阵都取决于最后一战 东部已乱成一锅粥

罗说NBA
2026-04-12 06:30:57
中国篮协:已注意到李沂泽年龄存疑 调查和处理结果将向社会公布

中国篮协:已注意到李沂泽年龄存疑 调查和处理结果将向社会公布

狼叔评论
2026-04-11 23:12:11
1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

帝哥说史
2026-04-10 06:30:03
梅西94分钟险些绝杀!中柱+策动1球 迈阿密2-2 新主场0胜

梅西94分钟险些绝杀!中柱+策动1球 迈阿密2-2 新主场0胜

叶青足球世界
2026-04-12 09:37:27
万茜蹲火了

万茜蹲火了

动物奇奇怪怪
2026-04-11 17:32:32
登月宇航员平安归来,很可惜,有些人没有等到爆炸……

登月宇航员平安归来,很可惜,有些人没有等到爆炸……

家传编辑部
2026-04-11 21:06:02
为何停火只是伊朗下半场苦难的开端?

为何停火只是伊朗下半场苦难的开端?

高博新视野
2026-04-11 08:00:18
中美两国居民收入差距,正越来越大

中美两国居民收入差距,正越来越大

罗sir财话
2026-04-10 14:54:24
伊美第三轮会谈在伊斯兰堡举行

伊美第三轮会谈在伊斯兰堡举行

新华社
2026-04-12 04:15:03
从探月宇航员看我们浪费了多少人才?

从探月宇航员看我们浪费了多少人才?

细雨中的呼喊
2026-04-12 00:36:25
鲁比奥再撤销伊朗精英绿卡,将其驱逐出境,撤销人数或高达4000人

鲁比奥再撤销伊朗精英绿卡,将其驱逐出境,撤销人数或高达4000人

山河路口
2026-04-12 00:55:26
美国飞船返航后,头条上的这两个热搜,让人觉得很无语

美国飞船返航后,头条上的这两个热搜,让人觉得很无语

消失的电波
2026-04-11 22:25:37
内塔尼亚胡:将继续打击伊朗政权,已成功摧毁其核计划和导弹计划,伊朗正请求停火,其领导层内部出现分歧

内塔尼亚胡:将继续打击伊朗政权,已成功摧毁其核计划和导弹计划,伊朗正请求停火,其领导层内部出现分歧

鲁中晨报
2026-04-12 07:48:05
2026-04-12 10:35:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17586文章数 49697关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

牛弹琴:谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

头条要闻

牛弹琴:谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

三轮磋商谈至深夜 美伊谈判三大议题仍待解

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

亲子
健康
教育
数码
公开课

亲子要闻

萌娃躺在地上被旋转木马拖着走

干细胞抗衰4大误区,90%的人都中招

教育要闻

并不是因为差了一分才淘汰你,而是为了淘汰你,才让你差一分

数码要闻

一加Ace 6至尊版蓄势待发:榨干天玑9500 性能大爆发

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版