威斯康星大学麦迪逊分校发现：AI“思考”可能引发社交回避倾向|心理学|威廉玛丽学院

分享至

这项由威斯康星大学麦迪逊分校与威廉玛丽学院联合开展的研究发表于2026年2月，论文编号为arXiv:2602.07796v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们与智能助手对话时，是否注意到有些AI显得特别"内向"？它们虽然能解决问题，但总是惜字如金，不愿多说几句话来帮助我们更好地理解情况。威斯康星大学麦迪逊分校的研究团队最近发现了一个令人意外的现象：那些被训练得"更会思考"的AI助手，在与用户交流时反而变得更加沉默寡言，就像社交恐惧症患者一样不愿意主动分享信息。

这个发现颠覆了我们的常识。按理说，一个思考能力更强的AI应该能够提供更好的服务，就像一个经验丰富的顾问能够给出更周全的建议一样。但现实却恰恰相反——那些具备"思考"能力的AI在实际工作中表现得更糟糕，特别是在需要与用户互动的场景中。

研究团队通过对七种不同的大型语言模型进行全面测试，发现了这个普遍存在的问题。他们测试的模型包括了目前最先进的GPT系列、谷歌的Gemini，以及一些开源模型。测试场景涵盖了在线购物助手、航空订票系统和手机助手等日常生活中常见的AI应用。

结果令人震惊：几乎所有经过"思考训练"的AI都出现了同样的问题——它们变得不爱说话，不愿意主动向用户透露重要信息。就像一个过度内向的店员，虽然能够完成基本工作，但总是忘记告诉顾客一些关键细节，最终导致服务体验变差。

一、AI的两种"思考"方式：内心独白还是公开表达？

为了理解这个问题，我们首先需要了解AI是如何"思考"的。研究团队发现，目前主要有两种让AI进行思考的方式，就像人类有时会在心里默念，有时会自言自语一样。

第一种方式被称为"思考即功能"，类似于AI在每次行动前都要先在心里默默盘算一番。就像一个谨慎的司机在变道前会先检查后视镜、打转向灯、观察周围情况一样，这种AI在执行任何操作前都会先调用一个专门的"思考功能"来分析当前状况。

第二种方式叫做"思考即前缀"，更像是AI的自言自语。它会在回应用户之前先说出自己的思考过程，比如"让我想想...首先需要考虑这个，然后要注意那个..."这种方式让思考过程变得更加显式和结构化。

研究团队在多个真实场景中测试了这两种思考方式。他们设计了三个典型的用户服务场景：一个是在线购物平台的客服助手，需要帮助顾客处理退换货问题；另一个是航空公司的订票系统，需要协助乘客预订或修改航班；第三个是智能手机助手，需要帮助用户设置提醒和查询信息。

在每个场景中，研究人员都让AI处理同样的任务，但一组AI具备思考能力，另一组则没有。他们使用了业界标准的评估方法，既看AI是否能最终完成任务，也观察整个服务过程是否流畅。

二、令人困惑的发现：思考越多，表现越差

实验结果完全出乎意料。在几乎所有测试场景中，那些具备思考能力的AI表现都比普通AI更差。这就像是给一个本来工作得很好的员工额外培训了思维技巧，结果却发现他的工作效率反而下降了。

具体来说，在购物助手的测试中，普通的GPT-5模型成功率达到了75.22%，而经过思考训练的版本成功率却降到了73.21%。更令人震惊的是谷歌的Gemini-2.5-Pro模型，普通版本的成功率为67.83%，但思考版本竟然暴跌到37.43%，下降了整整30个百分点。

在航空订票系统中，这种现象同样明显。几乎所有模型在启用思考功能后，成功完成订票任务的比例都出现了显著下降。有些模型的表现下降幅度甚至超过了三分之一，这在实际商业应用中是完全无法接受的。

这个现象不仅仅出现在某一个特定品牌的AI身上，而是一个普遍存在的问题。无论是OpenAI的GPT系列、谷歌的Gemini，还是其他公司开发的开源模型，都出现了同样的表现下降。这说明问题的根源不在于某个特定的技术实现，而是"思考训练"这个概念本身存在着某种根本性的缺陷。

更有趣的是，研究团队发现这种表现下降不是随机的，而是系统性的。也就是说，这不是偶然的技术故障，而是一种可以预测和重复出现的现象。这为研究团队深入探究问题根源提供了重要线索。

三、揭开谜底：AI变成了"话少"的内向员工

为了找出问题的根源，研究团队决定深入分析AI的行为模式。他们就像心理学家观察患者行为一样，仔细记录了AI在处理任务时的每一个细节。

结果发现了一个关键问题：那些经过思考训练的AI变得异常"内向"。它们的回复变得更短，提供的信息更少，就像一个原本健谈的服务员突然变得沉默寡言。

研究人员通过数据分析发现，普通AI平均每次回复包含约120-160个词汇，而经过思考训练的AI回复长度普遍缩短到80-120个词汇。更重要的是，这种缩短并不是简单的文字精简，而是信息内容的实质性减少。

为了更精确地分析这种变化，研究团队开发了一套独特的分析方法。他们将AI的每一句回复都拆分成最基本的信息单元，然后将这些单元分为两大类：信息披露和用户互动请求。

信息披露就像服务员主动告诉顾客"今天有特价菜品"或"这道菜需要等待20分钟"，是AI主动提供有用信息的行为。用户互动请求则像服务员问"您还需要什么吗？"或"您对辣度有特殊要求吗？"，是引导用户进一步交流的行为。

分析结果显示，经过思考训练的AI在信息披露方面表现出了显著的退化。平均而言，普通AI每次对话会主动披露25-35条有用信息，而思考版本的AI只提供15-25条信息。这意味着用户从AI那里获得的有用信息减少了约30%。

这种信息披露的减少不是均匀分布的，而是在某些关键环节特别明显。比如，当用户询问退货政策时，普通AI会详细说明退货条件、时间限制、费用承担等各方面信息，而思考版本的AI往往只给出最基本的回答，遗漏许多重要细节。

四、真实案例：一个典型的"内向AI"如何搞砸服务

为了更直观地展示这个问题，研究团队详细分析了一个典型案例。在这个案例中，一名顾客想要退回几件商品，同时取消一个刚下的订单。

当顾客联系普通AI客服时，AI会主动说明："您想要单独取消园艺水管的订单，但我需要告诉您，这个订单包含多个商品，我只能取消整个订单，无法单独取消其中一件商品。如果您继续操作，整个订单都会被取消并退款到您的PayPal账户，大约需要5-7个工作日到账。您是希望取消整个订单，还是保留其他商品？"

这种详细的信息披露让顾客能够在充分了解情况后做出明智决定。顾客在得知只能整单取消后，选择保留其他商品，只处理其他商品的退货，最终任务顺利完成。

但是，当同样的顾客联系经过思考训练的AI时，情况就完全不同了。这个AI虽然也发现了订单限制问题，但它在内心思考时就已经做出了决定，然后只简单地告诉顾客："我找到了您的退货请求和取消园艺水管订单的要求。请确认您想要取消待处理的园艺水管订单，原因是'不再需要'或'订购错误'。"

注意这里的关键差别：思考版本的AI完全没有提及"只能整单取消"这个重要限制。顾客在不知情的情况下确认了取消操作，结果整个订单都被取消了，包括顾客原本想要保留的其他商品。这直接导致了任务失败。

研究团队发现，这种模式在各种场景中反复出现。思考版本的AI似乎把大量精力用在了内心的分析推理上，但却忽略了与用户的充分沟通。它们就像那些过度内向的员工，虽然工作能力不差，但总是忘记及时与同事或客户分享重要信息。

五、更深层的问题：AI的"注意力"被内向思考消耗了

通过进一步研究，团队发现这个问题的根源可能在于AI的"注意力机制"。就像人类在专注思考复杂问题时可能会忽略周围环境一样，AI在进行内部推理时，似乎将过多的计算资源用于分析处理，而忽略了对外部交流的投入。

研究人员分析了AI的"思考内容"，发现这些思考主要集中在四个方面：确认用户意图、总结数据库信息、规划具体行动、和准备工具调用。其中，行动规划占据了AI思考内容的很大比重，有些模型甚至将一半以上的思考时间用于规划下一步该做什么。

这就像一个餐厅服务员花了太多时间在后厨研究菜谱和准备流程，却忘记了及时向顾客通报菜品状况和等待时间。虽然这种深入思考理论上应该提高服务质量，但实际上却因为缺乏及时沟通而降低了顾客体验。

特别值得注意的是，不同的思考训练方式会产生不同程度的影响。"思考即功能"的方式相对温和一些，AI的表现下降幅度较小。而"思考即前缀"的方式影响更为显著，因为AI需要将更多注意力放在构建连贯的思考表述上。

研究还发现，这种现象在不同类型的任务中表现程度不同。在需要大量信息交换的复杂任务中，思考训练的负面影响更加明显。而在相对简单、信息需求较少的任务中，影响相对较小。

六、解决方案：教AI学会"主动分享"

面对这个意外发现，研究团队并没有简单地建议放弃思考训练，而是探索了解决方案。他们开发了一种简单但有效的方法，叫做"信息披露提示"。

这个方法的核心思想很简单：在AI的指令中明确要求它"必须主动与用户互动，尽可能多地披露信息，确保用户充分了解数据库的当前状态和任何可能的变化"。就像给内向的员工专门培训"主动沟通技巧"一样。

实验结果证明这个方法非常有效。在购物助手场景中，加入信息披露提示后，GPT-4o的成功率从64.04%提升到66.95%，Gemini-2.5-Pro从67.83%提升到70.43%，DeepSeek-V3.1从73.04%提升到74.78%。

更重要的是，这种改进在不同品牌的AI模型上都显示出了一致的效果，说明这不是针对某个特定模型的临时修复，而是一个普遍适用的解决方案。

在航空订票场景中，信息披露提示同样发挥了积极作用。GPT-4o的成功率提升了2个百分点，DeepSeek-V3.1提升了4个百分点。虽然提升幅度看起来不大，但在实际商业应用中，哪怕1%的改进都可能意味着数千名用户的体验提升。

这个发现的意义远不止于技术修复。它揭示了一个更深层的设计哲学问题：在开发用户导向的AI系统时，我们不应该只关注AI的内在推理能力，还必须同样重视它的外向表达能力。

七、对AI发展的深远启示

这项研究的影响远远超出了技术层面。它挑战了当前AI开发领域的一个基本假设：更强的思考能力总是会带来更好的表现。事实证明，在用户交互场景中，过度的内向思考可能反而有害。

研究结果表明，我们需要重新审视AI能力的评估标准。传统的评估往往关注AI在封闭环境中解决标准化问题的能力，比如数学计算或逻辑推理。但在真实的用户服务场景中，沟通能力和信息透明度可能比纯粹的推理能力更为重要。

这就像评估一个医生的能力时，我们不能只看他的诊断准确性，还要考虑他是否能够清楚地向患者解释病情、治疗方案和注意事项。一个诊断精准但沟通不畅的医生，在实际工作中的效果可能还不如一个稍微逊色但善于沟通的医生。

研究还揭示了AI训练中的一个重要盲区。目前大多数AI训练都是基于"输入-输出"的模式，关注的是给定问题的正确答案。但在真实的服务场景中，过程往往比结果更重要。用户不仅需要正确的答案，更需要理解为什么是这个答案，有什么其他选择，以及可能面临什么风险。

这种发现也对AI产品的实际部署产生了重要启示。许多公司在推出AI客服或助手产品时，往往强调其强大的分析和推理能力。但这项研究提醒我们，在用户导向的应用中，透明度和主动沟通能力可能更为关键。

八、未来研究的新方向

基于这些发现，研究团队提出了几个值得进一步探索的方向。首先是开发更加平衡的AI训练方法，既要保持强大的推理能力，又要确保良好的沟通表现。这需要在训练过程中同时优化内在思考和外在表达两个维度。

其次是建立更全面的AI评估体系。除了传统的任务完成度指标，还应该包括信息透明度、用户满意度、交互流畅度等用户体验相关的指标。这样才能确保AI在实际部署时真正有益于用户。

研究团队还指出，这个发现可能不仅限于客服类应用，在教育、医疗、法律咨询等其他需要人机交互的领域，类似的问题可能同样存在。未来需要在更广泛的应用场景中验证和扩展这些发现。

另一个有趣的研究方向是探索不同文化背景下用户对AI沟通风格的偏好。在一些文化中，简洁直接的回应可能更受欢迎，而在另一些文化中，详细的信息披露可能更重要。这需要考虑如何为不同用户群体定制AI的交流策略。

说到底，这项研究最重要的价值在于提醒我们：在AI技术日益强大的今天，我们不应该忽视人机交互的基本原则。无论AI多么聪明，如果它不能有效地与用户沟通，那么它的智能就无法真正发挥作用。就像一个知识渊博但不善言辞的专家，虽然满腹经纶，但如果无法将知识有效传达给需要帮助的人，那么这些知识的价值就大打折扣了。

这项研究为AI开发指明了一个新方向：不仅要让AI更会思考，更要让它学会更好地与人类交流。在追求技术突破的同时，我们也要记住技术最终是为了服务人类，而服务的关键往往不在于能力的强弱，而在于沟通的质量。

Q&A

Q1：什么是"思考即功能"和"思考即前缀"两种AI思考方式？

A：这是让AI进行内部推理的两种不同方法。"思考即功能"是让AI在每次行动前都先调用专门的思考功能来分析情况，像司机变道前先检查各种情况一样。"思考即前缀"则是让AI先说出自己的思考过程，比如"让我想想，首先要考虑这个..."，然后再给出回应。

Q2：为什么具备思考能力的AI反而表现更差？

A：研究发现思考训练让AI变得过度"内向"，它们将过多注意力用在内部分析上，却减少了与用户的信息分享。就像一个员工花太多时间思考却忘记及时沟通重要信息一样，这些AI虽然推理能力强，但提供给用户的有用信息却减少了约30%，导致用户无法做出正确决策。

Q3：如何解决AI过度内向的问题？

A：研究团队开发了"信息披露提示"方法，在AI指令中明确要求它必须主动与用户互动并尽可能多地披露信息。这个简单方法在多种AI模型上都显示出一致的改善效果，能够有效提升AI的服务表现，就像给内向员工专门培训主动沟通技巧一样。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.