网易首页 > 网易号 > 正文 申请入驻

生成式人工智能的用户难以准确评估自身的能力

0
分享至

作者: 埃里克·W·多兰

2025年12月29日

最新研究表明,利用人工智能完成任务可以提高个人的表现,但同时也会扭曲他们对自身表现的准确评估能力。研究结果显示,虽然使用 ChatGPT 等人工智能工具的用户在逻辑推理测试中比独自完成任务的用户得分更高,但他们往往会显著高估自己的表现。

这种模式表明,人工智能辅助可能会使用户对自身能力的感知与其实际结果脱节,从而导致用户产生过高的自信。该研究发表在科学期刊《人机交互》(Computers in Human Behavior)上。

科学家和心理学家越来越关注技术增强对人类认知的影响。随着生成式人工智能系统在专业和教育领域日益普及,了解这些工具如何影响元认知至关重要。元认知是指个体监控和调节自身思维过程的能力。它使人们能够判断自己何时可能正确,何时可能犯错。

以往的心理学研究表明,人类普遍存在自我评估困难。一种被称为邓宁-克鲁格效应的著名现象描述了技能较低的人往往高估自己的能力,而技能较高的人则往往低估自己的能力。本文作者试图探究当人类与人工智能协作时,这种模式是否依然存在。他们的目标是了解人工智能是否能够起到平衡作用,消除这些偏见,还是会给人们评估自身工作的方式带来新的复杂性。

为了探究这些问题,研究团队设计了两项以逻辑推理任务为中心的独立研究。在第一项研究中,他们招募了246名美国参与者。这些参与者被要求完成20道选自法学院入学考试(LSAT)的逻辑推理题。研究人员为参与者提供了一个专门的网页界面。该界面一侧显示题目,另一侧显示ChatGPT交互窗口。

参与者需要就每个问题至少与人工智能互动一次。他们可以要求人工智能解决问题或解释其逻辑。提交答案后,参与者需要估计他们认为自己答对了20个问题中的多少个。他们还需要根据特定量表对每个决定的信心程度进行评分。

这项初步研究的结果显示,客观表现有了显著提升。平均而言,使用 ChatGPT 的参与者比未使用人工智能辅助进行相同测试的历史对照组高出约 3 分。人工智能帮助用户解决了他们独自答题时很可能错过的问题。

尽管分数有所提高,但参与者普遍高估了自己的能力。平均而言,他们估计自己答对了20道题中的17道左右。而实际上,他们的平均得分接近13分。这代表着感知与现实之间存在4分的差距。数据表明,人工智能提供的无缝辅助造成了一种能力超群的错觉。

该研究还分析了参与者对人工智能的了解程度与其自我评估之间的关系。研究人员使用名为“非专家人工智能素养评估量表”的工具来衡量“人工智能素养”。人们可能会认为,了解人工智能的工作原理会使用户在判断时更加谨慎或准确。但研究结果却恰恰相反。对人工智能技术理解程度更高的参与者往往对自己的答案更加自信,但在评估自身实际表现方面却不太准确。

这项研究的一个重要理论贡献在于邓宁-克鲁格效应。在没有人工智能的典型情境下,数据会呈现出一条陡峭的斜率:低绩效者会大幅高估自己,而高绩效者则不会。当参与者使用人工智能后,这种效应消失了。这项技术的“均衡化”效应意味着高估现象在所有参与者中变得普遍。低绩效者和高绩效者都以相似的幅度夸大了自己的分数。

研究人员观察到,人类与人工智能的协同作用并未超过人工智能单独运行时的表现。人工智能系统单独运行测试时,其平均得分高于人类使用人工智能的情况。这表明协同作用未能实现。人类有时会接受人工智能的错误建议,或者否决正确的建议,从而拉低了整体性能,使其低于机器的最大潜力。

为了确保研究结果的可靠性,研究人员进行了第二项研究。这项重复研究纳入了452名参与者。研究人员将样本分为两个不同的组。一组在人工智能辅助下完成任务,而另一组则在没有任何技术辅助的情况下完成任务。

在第二个实验中,研究人员引入了金钱奖励来鼓励参与者提高准确性。参与者被告知,如果他们对自己得分的估计与实际得分相符,他们将获得一笔奖金。此举旨在排除参与者可能因为不够努力而缺乏自我意识的可能性。

第二项研究的结果与第一项研究的结果一致。金钱激励并未纠正高估偏差。使用人工智能的组的表现仍然优于未使用人工智能的组,但他们仍然高估了自己的分数。未使用人工智能的组表现出经典的邓宁-克鲁格效应,即技能最差的参与者表现出最大的偏差。人工智能组再次表现出一致的偏差,这证实了该技术从根本上改变了用户对自身能力的认知。

该研究还采用了一种名为“曲线下面积”(AUC)的指标来评估元认知敏感度。该指标衡量的是一个人在回答正确时是否比回答错误时更有自信。理想情况下,一个人在犯错时应该感到不确定。数据显示,参与者的元认知敏感度较低。无论他们对特定问题的回答正确与否,他们的自信程度都很高。

从聊天记录中收集的定性数据提供了更多背景信息。研究人员注意到,大多数参与者只是被动地接收信息。他们经常将问题复制粘贴到聊天记录中,并接受人工智能的输出结果,而没有进行任何实质性的质疑或验证。只有极少数用户将人工智能视为合作伙伴或用于复核自身逻辑的工具。

研究人员探讨了造成这些结果的几个潜在原因。其中一种可能性是“解释深度错觉”。当人工智能提供流畅、清晰且即时的解释时,它会欺骗大脑,使其误以为信息已被处理和理解得比实际情况更深入。答案的易得性降低了解决逻辑难题通常所需的认知努力,进而削弱了人们可能出错的内部信号。

所有研究都存在一些局限性,这一点需要考虑。第一项研究使用的是历史比较组而非同期对照组,不过第二项研究对此进行了修正。此外,该研究的任务仅限于LSAT逻辑推理题。不同类型的任务,例如创意写作或编程,可能会产生不同的元认知模式。

该研究还使用了特定版本的ChatGPT。随着这些模型不断发展并变得更加精准,人机互动关系可能会发生变化。研究人员还指出,参与者必须使用人工智能,这可能与用户在现实生活中自主选择何时使用该工具的情况有所不同。

针对这些研究空白,研究人员提出了未来的研究方向。他们建议探索能够促使用户进行更批判性思考的设计改进。例如,界面可以要求用户在接受答案之前向系统解释人工智能的逻辑。此外,还需要进行长期研究,以观察随着用户对大型语言模型局限性的了解加深,这种过度自信是否会逐渐消失。

这项名为“人工智能让你更聪明,但并不让你更明智:表现与元认知之间的脱节”的研究由 Daniela Fernandes、Steeven Villa、Salla Nicholls、Otso Haavisto、Daniel Buschek、Albrecht Schmidt、Thomas Kosch、Chenxinran Shen 和 Robin Welsch 撰写。

AI makes you smarter but none the wiser: The disconnect between performance and metacognition

Author links open overlay panelDaniela Fernandes a , Steeven Villa b, Salla Nicholls a, Otso Haavisto a, Daniel Buschek c, Albrecht Schmidt b, Thomas Kosch d, Chenxinran Shen e, Robin Welsch a

Show more

Outline

Share

Cite

https://doi.org/10.1016/j.chb.2025.108779


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑丽文口气真大!大陆不安排见高层就不来?国台办回应很明确!

郑丽文口气真大!大陆不安排见高层就不来?国台办回应很明确!

悦心知足
2026-01-08 03:03:00
首都一夜变天,委内瑞拉当地华人:,超市货架抢空店铺关门

首都一夜变天,委内瑞拉当地华人:,超市货架抢空店铺关门

二大爷观世界
2026-01-07 18:12:48
阳性!女孩柬埔寨流浪细节:被关了几天,从事工作曝光,拒绝回国

阳性!女孩柬埔寨流浪细节:被关了几天,从事工作曝光,拒绝回国

瓜汁橘长Dr
2026-01-07 10:00:49
撒切尔夫人在回忆录中坦言:当年并不想归还香港,考虑过发动战争

撒切尔夫人在回忆录中坦言:当年并不想归还香港,考虑过发动战争

泠泠说史
2025-12-15 18:05:17
日本梅毒感染人数持续处于高位,年轻人聚众晒梅毒,为何会这样?

日本梅毒感染人数持续处于高位,年轻人聚众晒梅毒,为何会这样?

之乎者也小鱼儿
2026-01-07 13:51:26
“吃饭八分饱”被推翻了?医生:过了62岁,吃饭尽量要做到这4点

“吃饭八分饱”被推翻了?医生:过了62岁,吃饭尽量要做到这4点

蜉蝣说
2025-12-19 21:58:22
上海这家知名商场要关了?曾是亚洲最大!许多人都在这里逛吃购物过

上海这家知名商场要关了?曾是亚洲最大!许多人都在这里逛吃购物过

新民晚报
2026-01-07 17:29:36
反转!司晓迪晒开房记录仅48小时,公司老板出手 承认两个关键信息

反转!司晓迪晒开房记录仅48小时,公司老板出手 承认两个关键信息

动物奇奇怪怪
2026-01-08 13:18:30
县委书记看上乡党委女书记,不料她身份不简单,一脚踢到铁板上

县委书记看上乡党委女书记,不料她身份不简单,一脚踢到铁板上

五元讲堂
2024-12-02 15:36:12
怪不得现在人均难孕

怪不得现在人均难孕

经济学教授V
2026-01-07 18:41:54
亚足联官方介绍U23中国队:拥有强大的进攻火力 王钰栋拜合拉木突出

亚足联官方介绍U23中国队:拥有强大的进攻火力 王钰栋拜合拉木突出

爱奇艺体育
2026-01-08 10:41:53
工地男子扛蛇皮袋坐软卧被乘客举报,乘警检查后,全车人集体起立

工地男子扛蛇皮袋坐软卧被乘客举报,乘警检查后,全车人集体起立

悬案解密档案
2025-07-14 16:42:58
门诊慢特病能报90%?我陪爸妈跑了3趟才搞懂,这些坑你千万避开

门诊慢特病能报90%?我陪爸妈跑了3趟才搞懂,这些坑你千万避开

智慧生活笔记
2026-01-08 11:20:45
“残了只能嫁我”后续:她和王暖暖遭遇一样,男友将她弄残控制她

“残了只能嫁我”后续:她和王暖暖遭遇一样,男友将她弄残控制她

江山挥笔
2026-01-07 15:12:00
法国外长:美国攻击另一个北约国家完全违背自身利益

法国外长:美国攻击另一个北约国家完全违背自身利益

新华社
2026-01-07 19:59:03
官宣,重返球场,西热力江正式上任,亮相新岗位,丁彦雨航助力

官宣,重返球场,西热力江正式上任,亮相新岗位,丁彦雨航助力

乐聊球
2026-01-08 11:00:43
许晴一看就老了,竟然还没张凯丽显年轻!

许晴一看就老了,竟然还没张凯丽显年轻!

草莓解说体育
2026-01-07 09:12:50
官媒发文!宗馥莉再破天花板,让亲叔宗泽后和整个商界沉默了

官媒发文!宗馥莉再破天花板,让亲叔宗泽后和整个商界沉默了

老沮系戏精北鼻
2026-01-08 11:59:03
不顾家人反对,执意要嫁撒贝宁的富二代李白,如今才知道她有多赚

不顾家人反对,执意要嫁撒贝宁的富二代李白,如今才知道她有多赚

素衣读史
2025-12-30 15:45:13
解密加勒万河谷冲突全过程,我军是如何以80人击溃印军600人的?

解密加勒万河谷冲突全过程,我军是如何以80人击溃印军600人的?

阿胡
2024-12-02 14:33:09
2026-01-08 13:59:00
科学的历程 incentive-icons
科学的历程
吴国盛、田松主编
3098文章数 14994关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

委内瑞拉外长:感谢中方支持

头条要闻

委内瑞拉外长:感谢中方支持

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

不谈颠覆与奇迹,智驾企业还能聊点什么?

态度原创

时尚
房产
亲子
手机
军事航空

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

房产要闻

三亚新房,又全国第一了!

亲子要闻

“她真丢了就好了!”宝妈称厌恶10岁女儿,引众多网友共鸣!

手机要闻

雷军:小米终端今年有望实现自研芯片、OS、AI大模型“大会师”

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版