生成式人工智能的用户难以准确评估自身的能力|元认知|大模型|人机交互|逻辑推理

生成式人工智能的用户难以准确评估自身的能力

2025-12-31 18:05:21　来源: 科学的历程

湖北举报

分享至

作者：埃里克·W·多兰

2025年12月29日

最新研究表明，利用人工智能完成任务可以提高个人的表现，但同时也会扭曲他们对自身表现的准确评估能力。研究结果显示，虽然使用 ChatGPT 等人工智能工具的用户在逻辑推理测试中比独自完成任务的用户得分更高，但他们往往会显著高估自己的表现。

这种模式表明，人工智能辅助可能会使用户对自身能力的感知与其实际结果脱节，从而导致用户产生过高的自信。该研究发表在科学期刊《人机交互》（Computers in Human Behavior）上。

科学家和心理学家越来越关注技术增强对人类认知的影响。随着生成式人工智能系统在专业和教育领域日益普及，了解这些工具如何影响元认知至关重要。元认知是指个体监控和调节自身思维过程的能力。它使人们能够判断自己何时可能正确，何时可能犯错。

以往的心理学研究表明，人类普遍存在自我评估困难。一种被称为邓宁-克鲁格效应的著名现象描述了技能较低的人往往高估自己的能力，而技能较高的人则往往低估自己的能力。本文作者试图探究当人类与人工智能协作时，这种模式是否依然存在。他们的目标是了解人工智能是否能够起到平衡作用，消除这些偏见，还是会给人们评估自身工作的方式带来新的复杂性。

为了探究这些问题，研究团队设计了两项以逻辑推理任务为中心的独立研究。在第一项研究中，他们招募了246名美国参与者。这些参与者被要求完成20道选自法学院入学考试（LSAT）的逻辑推理题。研究人员为参与者提供了一个专门的网页界面。该界面一侧显示题目，另一侧显示ChatGPT交互窗口。

参与者需要就每个问题至少与人工智能互动一次。他们可以要求人工智能解决问题或解释其逻辑。提交答案后，参与者需要估计他们认为自己答对了20个问题中的多少个。他们还需要根据特定量表对每个决定的信心程度进行评分。

这项初步研究的结果显示，客观表现有了显著提升。平均而言，使用 ChatGPT 的参与者比未使用人工智能辅助进行相同测试的历史对照组高出约 3 分。人工智能帮助用户解决了他们独自答题时很可能错过的问题。

尽管分数有所提高，但参与者普遍高估了自己的能力。平均而言，他们估计自己答对了20道题中的17道左右。而实际上，他们的平均得分接近13分。这代表着感知与现实之间存在4分的差距。数据表明，人工智能提供的无缝辅助造成了一种能力超群的错觉。

该研究还分析了参与者对人工智能的了解程度与其自我评估之间的关系。研究人员使用名为“非专家人工智能素养评估量表”的工具来衡量“人工智能素养”。人们可能会认为，了解人工智能的工作原理会使用户在判断时更加谨慎或准确。但研究结果却恰恰相反。对人工智能技术理解程度更高的参与者往往对自己的答案更加自信，但在评估自身实际表现方面却不太准确。

这项研究的一个重要理论贡献在于邓宁-克鲁格效应。在没有人工智能的典型情境下，数据会呈现出一条陡峭的斜率：低绩效者会大幅高估自己，而高绩效者则不会。当参与者使用人工智能后，这种效应消失了。这项技术的“均衡化”效应意味着高估现象在所有参与者中变得普遍。低绩效者和高绩效者都以相似的幅度夸大了自己的分数。

研究人员观察到，人类与人工智能的协同作用并未超过人工智能单独运行时的表现。人工智能系统单独运行测试时，其平均得分高于人类使用人工智能的情况。这表明协同作用未能实现。人类有时会接受人工智能的错误建议，或者否决正确的建议，从而拉低了整体性能，使其低于机器的最大潜力。

为了确保研究结果的可靠性，研究人员进行了第二项研究。这项重复研究纳入了452名参与者。研究人员将样本分为两个不同的组。一组在人工智能辅助下完成任务，而另一组则在没有任何技术辅助的情况下完成任务。

在第二个实验中，研究人员引入了金钱奖励来鼓励参与者提高准确性。参与者被告知，如果他们对自己得分的估计与实际得分相符，他们将获得一笔奖金。此举旨在排除参与者可能因为不够努力而缺乏自我意识的可能性。

第二项研究的结果与第一项研究的结果一致。金钱激励并未纠正高估偏差。使用人工智能的组的表现仍然优于未使用人工智能的组，但他们仍然高估了自己的分数。未使用人工智能的组表现出经典的邓宁-克鲁格效应，即技能最差的参与者表现出最大的偏差。人工智能组再次表现出一致的偏差，这证实了该技术从根本上改变了用户对自身能力的认知。

该研究还采用了一种名为“曲线下面积”（AUC）的指标来评估元认知敏感度。该指标衡量的是一个人在回答正确时是否比回答错误时更有自信。理想情况下，一个人在犯错时应该感到不确定。数据显示，参与者的元认知敏感度较低。无论他们对特定问题的回答正确与否，他们的自信程度都很高。

从聊天记录中收集的定性数据提供了更多背景信息。研究人员注意到，大多数参与者只是被动地接收信息。他们经常将问题复制粘贴到聊天记录中，并接受人工智能的输出结果，而没有进行任何实质性的质疑或验证。只有极少数用户将人工智能视为合作伙伴或用于复核自身逻辑的工具。

研究人员探讨了造成这些结果的几个潜在原因。其中一种可能性是“解释深度错觉”。当人工智能提供流畅、清晰且即时的解释时，它会欺骗大脑，使其误以为信息已被处理和理解得比实际情况更深入。答案的易得性降低了解决逻辑难题通常所需的认知努力，进而削弱了人们可能出错的内部信号。

所有研究都存在一些局限性，这一点需要考虑。第一项研究使用的是历史比较组而非同期对照组，不过第二项研究对此进行了修正。此外，该研究的任务仅限于LSAT逻辑推理题。不同类型的任务，例如创意写作或编程，可能会产生不同的元认知模式。

该研究还使用了特定版本的ChatGPT。随着这些模型不断发展并变得更加精准，人机互动关系可能会发生变化。研究人员还指出，参与者必须使用人工智能，这可能与用户在现实生活中自主选择何时使用该工具的情况有所不同。

针对这些研究空白，研究人员提出了未来的研究方向。他们建议探索能够促使用户进行更批判性思考的设计改进。例如，界面可以要求用户在接受答案之前向系统解释人工智能的逻辑。此外，还需要进行长期研究，以观察随着用户对大型语言模型局限性的了解加深，这种过度自信是否会逐渐消失。

这项名为“人工智能让你更聪明，但并不让你更明智：表现与元认知之间的脱节”的研究由 Daniela Fernandes、Steeven Villa、Salla Nicholls、Otso Haavisto、Daniel Buschek、Albrecht Schmidt、Thomas Kosch、Chenxinran Shen 和 Robin Welsch 撰写。

AI makes you smarter but none the wiser: The disconnect between performance and metacognition

Author links open overlay panelDaniela Fernandes a , Steeven Villa b, Salla Nicholls a, Otso Haavisto a, Daniel Buschek c, Albrecht Schmidt b, Thomas Kosch d, Chenxinran Shen e, Robin Welsch a

Outline

Cite

https://doi.org/10.1016/j.chb.2025.108779

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.