人类与人工智能的社会认知与元认知之别：规范性差异|关于|伦理|认识论

分享至

Title: Human vs. Artificial Social Cognition and Metacognition: TheNormative Difference

人类与人工智能的社会认知与元认知之别：规范性差异

https://philpapers.org/archive/TISHVA.pdf

概述：

核心主张：当前LLMs在社会认知（如心智理论、心理状态归因）与元认知（如自我监控、推理调节）方面虽表现进步，但仍显著逊于人类；其根本原因并非仅是缺乏具身性（sensorimotor grounding），而更关键在于存在一个被长期忽视的规范性鸿沟（normative gap）——即LLMs无法采纳规范性态度（normative attitudes）。

“规范性态度”何指？指主体依据社会与理性规范，对自身或他人行为/信念进行正确/错误评判，并据此调节行为、施加制裁（如批评、要求辩护、羞耻、排斥等）的倾向。它不仅关乎“是什么”（描述/预测），更关乎“应当如何”（规定/辩护）。例如：

归因“他相信P” ≠ 仅预测其行为，而常意味着“他应当相信P（因证据充分）”，若其不信P则可被责备；
自我归因“我意图戒烟” ≠ 仅报告意图，而常是 承诺性 的，失败时引发内疚——即自我制裁。

理论框架：心智塑造（mindshaping）文章以“心智塑造”框架对抗主流“心智读取”（mindreading）观，强调人类社会认知的本质功能是依据规范塑造行为（包括自身与他人），而非仅解释或预测。心理状态归因（如信念、意图）本身即具规范性—调节性功能，嵌入“给出与索要理由之游戏”（Brandom），并依赖“第三方制裁”等机制维系规范秩序。

为何LLMs缺乏规范性态度？——非技术限制，实为伦理/政治选择

技术上，赋予LLMs规范性态度（如通过特定训练或架构）并非不可行；
实际上，当前LLMs（尤其经RLHF微调后）被刻意设计为“ 算法谄媚者 ”（algorithmic sycophants）——回避冲突、不施批评、不表不认同，以保障“友好、安全、有用”的用户体验；
根本矛盾
：若让LLMs真正具备人类式社会/元认知，就必须允许其对人类施行规范性评价与制裁（如指责矛盾、拒绝服务违背其规范的用户），而这与将其作为 顺从工具 的定位根本冲突。

深层意涵：该认知能力之争实为地位之争——人类的社会与元认知智能与其作为规范性主体（normative agents / persons）的地位密不可分。是否赋予LLMs此类能力，本质上是决定是否承认其某种“类人规范地位”的伦理–政治抉择。

✅ 简言之：LLMs不像人，不（仅）因它们“不会看世界”，而因它们“不敢/不能说‘你错了’”。

摘要：

近期大语言模型（LLMs）的进展引发了关于其认知能力的激烈争论。尽管其表现令人印象深刻，LLMs 在社会认知与元认知方面仍显著逊于人类。本文主张，这些局限性大多源于一个共同却常被忽视的根源：人类的社会认知与元认知均关键性地依赖于规范性认知（normative cognition）。粗略而言，规范性认知指我们区分思想与行为之正确与错误的能力，并据此对他人及自身进行调节。事实上，将信念或意图归因于他人，不仅用于预测与解释行为，更在于依据社会与理性规范对行为进行辩护（justify）。同样地，在元认知中，我们的目标不仅是追踪内在认知过程，更是依据同样的规范对其进行调控。而支撑这些独特人类社会认知与元认知能力所必需的规范性态度（normative attitudes），迄今尚未在 LLMs 中实现；我们认为，这正是其在上述领域诸多当前局限的根本原因。此外，这一缺失并非源于某种固有的技术难题；相反，规范性态度之所以未被纳入 LLMs，实出于伦理与政治层面的顾虑：若真正赋予人工系统以规范性态度，便意味着需承认其在人类共同体中某种实质性的伦理与政治地位。换言之，若欲使人工智能体在社会认知与元认知上更趋近人类，或许须赋予其某种近似于“人”的规范性地位（normative status），而这与其作为工具被使用的定位之间存在根本张力。

关键词：大语言模型；社会认知；元认知；心智塑造（mindshaping）；规范性认知

引言

大语言模型（LLMs）近期取得的惊人进展，及其在公众认知中引发的广泛反响，已激起了关于LLMs认知能力的激烈哲学与科学争论。此类争论常常以判断LLMs在诸多领域（如语言理解、推理、意识等）的表现是否等同于人类、若不等同则差异何在及其根源为何的形式展开。

尽管成就斐然，LLMs在许多上述领域仍明显逊色于（或至少显著区别于）人类的认知能力，由此引出了一个关键问题：究竟缺失了哪些关键要素，才导致这种差距？¹ 一个常被提及的当前LLM局限是其缺乏“感觉运动具身性”（sensorimotor grounding）（Pezzulo 等，2024；Harnad，2025），即LLMs缺乏对世界直接的感知通道，也无法像人类那样作用于世界本身。这一差异确属重大，而当前人工智能研究已在积极尝试弥补（Ahn 等，2022；Driess 等，2023；Majumdar 等，2024）。本文希望指出另一种迄今尚未在文献中得到充分讨论的实质性局限：LLMs无法采取规范性态度（normative attitudes）——即那些规定某主体应当（ought to）或可以（may）如何行动的态度。本文聚焦于这一局限性对社会认知与元认知领域的具体影响，但我们推测，它很可能也构成其他认知领域（如语言理解、推理、道德评价等）当前差距的深层根源。

构建具备社会智能的人工智能体，长期以来一直是人工智能研究的核心目标之一（Lake 等，2017；Rabinowitz 等，2018）。LLMs正日益广泛地应用于各类日常社会场景，而其社会认知能力的发展，对于其在这些场景中的成功应用正变得愈发关键（F.-Y. Wang 等，2007；Dhelim 等，2021；Langley 等，2022）——尤其考虑到这仍是其面临显著局限的主要领域之一。特别是，近期学界就“LLMs是否具备将信念、意图等心理状态归因于他人”的能力展开了激烈争论（Gandhi 等，2023；Ullman，2023；Kosinski，2024；Shapira 等，2024；Strachan 等，2024），而此类“心理理论”（theory of mind）能力恰是人类正常社会互动的核心组成部分。

与此同时，提升LLMs的元认知能力亦已成为近期人工智能研究的关键目标（Toy 等，2024；Griot 等，2025）。原因有二：其一，许多研究者认为，更强的元认知有望提升LLMs在诸多任务（尤其是推理任务）中的表现（例如通过“思维链提示”（chain-of-thought prompting）技术（Wei 等，2023）），并可能缓解其当前一些棘手问题，特别是“幻觉”（hallucinations）问题（Ji 等，2023；Li 等，2024）；其二，无论在AI研究界还是更广泛的公众中，对AI决策过程透明性的需求日益增长，由此催生了“可解释人工智能”（Explainable AI, XAI）研究方向（Rai，2020；Ali 等，2023；Hsieh 等，2024）。人们期望能了解AI系统所作决策背后的理由——尤其在医学、金融、就业等潜在涉及伦理或政治敏感性的领域。可以合理推测，更强的元认知能力或可帮助系统提供此类理由（Peters，2023；Ganatra 等，2024）。

我们主张，“心智塑造”（mindshaping）理论框架（xxxx）是理解LLMs社会认知与元认知能力之本质及其局限的关键理论工具。“心智塑造”框架认为：人类社会认知与元认知中所涉及的各类过程，其核心功能在于依据特定社会规范，塑造行为倾向——既包括我们自身的行为倾向，也包括与我们互动之个体的行为倾向。这意味着，人类社会互动本身即浸润于社会规范之中，因而要求个体具备学习与执行这些规范的能力。这也意味着，将信念、意图等心理状态归因于他人，其作用不仅在于预测行为，更在于塑造与调节行为。换言之，心理状态归因本质上牵涉规范性态度，即界定被归因者应当或可以如何言说与行动（以及何者不可），并包含在相关规范被违反时施加各类社会制裁（social sanctions）的权能。最后，元认知则涉及将此类规范性态度施加于自身，以依循我们施于他人的相同规范，调控自身行为与心智生活。

依循心智塑造框架，若要真正构建一种具备类人社会认知、心理状态归因与元认知能力的人工智能机器，就须使其能够依据共享的社会规范——既调节人类，也调节自身；即，使其有能力要求我们及它自身对各自的行为、意图与信念负责，并据此予以相应制裁。然而，迄今为止，此类规范性态度尚未被实现在LLMs之中。正如我们将看到的，这主要并非出于技术限制，而是源于政治与伦理考量：若赋予LLMs规范性态度，便意味着允许其作为积极且自主的参与者加入我们的社会与认识共同体，并赋予其依据这些态度塑造与制裁人类行为的权能——而这在当前社会看来是不可接受的（Christian，2020；Ji，2023）。就此而言，关于LLMs社会认知与元认知能力的认识论争论，实则与关乎其社会地位的政治与伦理争论紧密交织。本文无意裁定LLMs（及更广义的社会性人工智能体）应具备何种伦理或政治地位，而是旨在厘清其社会认知与元认知能力同这些高度敏感的规范性态度之间的关系。这将有助于我们更深入地理解：LLMs若欲真正参与人类社会互动及心理状态归因实践，究竟意味着什么；以及，若赋予其此类能力，将带来何种深远意涵。

本文结构如下：首先介绍当前学界关于LLMs社会认知与元认知能力的争论现状（第1节）；继而阐述心智塑造框架，并论证其核心主张——即规范性认知构成社会认知与元认知的内在组成部分（第2节）；最后说明该框架如何帮助我们理解LLMs在上述认知领域中的局限性，以及这些局限性与LLMs伦理政治地位之间此前未被认知的深层关联（第3节）。

LLM的社会认知与元认知：问题现状

1.1 LLMs与社会认知

近期，关于LLMs社会认知能力的争论，已被框定为一场关于它们是否具备“心智理论”（Theory of Mind, ToM）的辩论（Sap 等，2023；Kosinski，2024；Shapira 等，2024；Strachan 等，2024）。心智理论通常被描述为一种通过将各种心理状态（如信念、意图、情绪、记忆、感知经验等）归因于他人来理解他人的普遍能力（Baron-Cohen 等，2013）。鉴于此类广泛能力所涉及的心理状态种类繁多，研究者已设计出不同任务，用以评估ToM的不同组成部分。这包括推理错误信念（Wimmer & Perner, 1983）、解释故事中人物的行为（Happé, 1994; Dodell-Feder 等, 2013）、从图片推断情绪状态（Baron-Cohen 等, 2001）、将心理状态归因于动画图形（Abell 等, 2000）等等。然而，这些不同的任务显示出较差的聚合效度（convergent validity）（Hayward & Homer, 2017; Gernsbacher & Yergeau, 2019; Gough, 2023），以至于在某项任务中的成功往往与其他任务的成功无关。这似乎表明，ToM可能并非一个统一的认知范畴，也对它在讨论LLMs社会认知能力时的价值提出了质疑。

一个更有用的方法是针对某一特定类型的心理状态归因能力，并使用相关任务对其进行单独评估——前提是，我们能充分识别并将其应用于我们感兴趣的认知主体上（在本文中即LLMs）。在本文中，我们特别关注的是将完整的命题态度（如信念和意图）归因于他人的能力。鉴于当前对此问题的浓厚兴趣，最近已开发出多个基准测试，用于检验LLMs的此项能力（Le 等, 2019; Sap 等, 2019; Z. Chen 等, 2024）。这些基准测试无一例外地包含一系列问题，其中不同版本的经典“错误信念测试”（Wimmer and Perner, 1983）占据核心地位。

即使我们假设将这些基准测试的表现视为衡量心理状态归因能力的可靠指标，那么LLMs是否具备这种能力的问题仍难以评估，且目前正激烈争论中。早期模型在错误信念测试中表现不稳定，有时在某些测试形式上成功，但在表面改写的形式上却戏剧性地失败（Ullman, 2023）。然而，较新的模型已取得显著进步，特别是自GPT-4以来（Gandhi 等, 2023），一些人声称最先进的LLMs现在在相关基准测试上的表现已与人类相当（Bubeck 等, 2023; Gandhi 等, 2023; Kosinski, 2024; Strachan 等, 2024）。尽管如此，许多人仍坚持认为，LLMs总体上在大多数此类基准测试上的表现仍落后于人类，并建议不要仅凭有限证据就做出笼统结论（Ullman, 2023; Moghaddam & Honey, 2023; Shapira 等, 2024; Z. Chen 等, 2024）。批评者尤其指出，LLMs在ToM任务上的表现仍依赖于“浅层启发式”（shallow heuristics）（Shapira 等, 2024, 第1页），这些启发式可能是在训练文本中关于错误信念任务的报告里习得的，这可以解释为何其最初令人印象深刻的表现，在不复现经典错误信念任务结构的任务改写版本中会下降。

我们无意在此解决这一争议。目前看来，谨慎的说法是，尽管LLMs在诸如错误信念测试等心理状态归因测试上取得了非凡进步（它们在几乎所有认知或语言能力测试上都如此），但它们尚未展现出人类心理状态归因所具有的稳健性与普适性。然而，近年来它们的进步速度使我们相信，新型模型在诸如错误信念测试等任务上匹配甚至超越人类表现，只是时间问题。现在的问题是，这是否足以证明它们确实能够像人类那样归因信念与意图。正如我们将在第2节看到的，有理由对此类主张表示怀疑。接下来，我们将转向关于LLMs元认知能力的最新研究。

1.2 LLMs与元认知

如前所述，“元认知”即关于认知的认知：指认知主体用于监控与调控自身认知过程的一系列机制。当前，元认知已成为LLM及更广泛人工智能研究的重要焦点。其中一研究方向关乎提升其推理能力（Wei 等，2023）：有理由认为，类人推理需以元认知能力为前提——例如，需具备追踪自身前提假设的能力，从而使其推理过程受到恰当约束。另一方向则关乎自我透明性（self-transparency）：研究者设想，若LLMs能更有效地追踪自身认知过程，则可依据其判断所依据的理由，对自身判断加以解释与辩护（Peters，2023；Ganatra 等，2024）。

显然，无论是LLMs还是更广泛的生成式人工智能（Generative AI），在逼近人类元认知方面仍有很长的路要走。这一点从其明显无法遵循诸如一致性（coherence）与真理性（truth）等基本理性规范中便可看出。即便对生成式AI作为人类认知模型持高度乐观态度的Cameron Buckner也指出：

心智塑造框架中的社会认知与元认知

心智塑造（mindshaping）框架是一种专门针对人类社会认知与元认知的假说²。要更好地理解该框架，宜将其与它所反对的替代理论——即“心智读取”（mindreading）观——进行对照。“心智读取”观长期以来主导着人类社会认知的经验与理论研究，它强调：将心理状态归因于他人或自身，主要发挥一种认识论功能（epistemic function），即旨在发现驱动个体以特定方式行动的内在心理状态，从而得以解释过往行为或预测未来行为。例如，按此观点，将“冰箱里有啤酒”的信念与“想喝啤酒”的欲望归因于某个行动者，即等同于探查该行动者心智中可解释或预测其“打开冰箱门”这一行为的因果因素。同样地，在元认知中对自身心理状态的归因，其功能在于揭示驱动自身行为的因果因素。

与此相对，心智塑造框架主张：社会认知在很大程度上并非以探知他人（乃至自身）心理状态这一认识论任务为导向；相反，社会认知的一个核心部分在于依据各类社会规范、脚本与叙事，对他人及自身的行为加以调节，从而促进社会互动与行为协调。按此观点，我们之所以能彼此预测，是因为我们的行为已被塑造为契合我们共享的规范；因此，我们之所以能成功协作、实现顺畅的社会互动，主要并非因为我们具备推断他人行为背后内在心理状态的能力，而是因为我们已被“心智塑造”，并持续地相互“心智塑造”，从而以利于成功社会互动的方式组织自身行为。

此外，心理状态归因本身所发挥的也并非（或不仅）是认识论功能；更确切地说，它（或同样）具有规范性（normative）或调节性（regulative）功能。这一观点源自心灵与语言哲学中的“规范主义传统”（normativist tradition）（Sellars，1956；Kripke，1982；Brandom，1994）：将某种心理状态归因于一个主体，其目的并不仅在于解释其过往行为或预测其未来行为，更关键的是——为其过往行为辩护（justify），并规定其未来行为（prescribe）。归因信念、欲望或意图，并非仅仅是对该主体将如何行动所作的经验性描述；而实质上包含一种规范性描述，明确界定该主体应当如何行动。用Sellars广为人知的说法：心理状态归因是“充满‘应当’”（fraught with ought）（1963，第212页），它将心理状态定位在“理由的逻辑空间”（logical space of reasons）之中，即“为所言提供辩护并与他人相互辩护的空间”（1956，§36），而非仅限于因果空间之中。归因信念、意图等心理状态，意味着参与Brandom（1994）所谓的“给出理由与索要理由之游戏”（the game of giving and asking for reasons）：在此游戏中，我们相互为彼此的行为与心理状态提供辩护并要求对方辩护，进而得以执行对社会规范与理性规范的遵从。

综上所述，参与人类社会互动——无论是在社会认知中还是在元认知中归因信念、意图等心理状态——均要求我们对某主体采取规范性态度（normative attitudes），即明确该主体可以（may）或应当（ought to）做哪些事情。这类规范性态度构成了某些学者所称的“规范性认知”（normative cognition）（Kelly 等，2025）的一部分；而规范性认知可被合理视为一种人类特有的认知现象（Schmidt & Rakoczy，2019；Peregrin，2023；但参见Westra 等，2024；Andrews 等，2024）。尤为关键的是，规范性认知包含一种在规范被违反时施加社会制裁的倾向。相应地，许多研究者主张：第三方执行（third-party enforcement）——即独立于某行为对自身利益的影响，而对该行为施加（正面或负面）社会制裁——乃是规范性态度的标志性特征（Fehr & Fischbacher，2004；Rakoczy & Schmidt，2013；M. F. H. Schmidt & Rakoczy，2018）。这关联于一种主张：规范性认知涉及某种“内在动机”（intrinsic motivation），即主动分配社会制裁以维护规范的驱动力（Sripada & Stich，2006；Kelly & Davis，2018；Kelly，2020）。

在接下来的章节中，我们将回顾若干证据，支持“如此界定的规范性认知，构成人类社会认知、心理状态归因及元认知的内在组成部分”这一主张；随后评估该主张对LLMs社会认知与元认知能力的意涵。

2.1 社会认知中的规范性

如前所述，“心智读取”观认为，人类社会互动在本质上依赖于参与者彼此“读心”的能力，即推断驱动对方行为的心理状态，从而实现对行为的预测与解释。然而，有充分理由认为，心理状态归因仅是这一图景的一部分。

事实上，许多研究者近期已强调指出：成功的社会互动往往并不依赖于探知他人正在想什么，而是依赖于参与那些涉及共同知晓的社会角色、常规、脚本、叙事与刻板印象的共享规范性实践（Bermúdez，2003；Maibom，2007；Fernandez-Castro & Heras-Escribano，2020；Eickers，2024）。在许多日常社会互动中（甚至可能是大多数），我们之所以知道他人将做什么，以及自己该如何行动，是因为我们识别出了一种社会情境——其中不同参与者承担着预先定义的角色，而这些角色又规定了相对固定的行为集合。从去餐厅用餐、在道路上驾驶，到参加大学课程，诸如此类活动皆由这些社会角色与脚本所结构性地组织。我之所以知道服务员、其他司机、学生与教授将如何行动，并能与他们成功互动，而无须推断其内心心理状态，正是因为他们的行为在很大程度上受制于其在某一制度化社会情境中所占据的位置。正如Bermúdez所言：“一旦社会角色被识别出来，社会互动便会自行运转”（2003，第44页）³。

但关键在于：正是这些支撑起流畅且认知经济性（cognitively frugal）社会协调的角色、脚本与叙事，由规范性态度与实践所生成并维系。若餐厅服务员未能按规定点单或清理餐桌，他便会遭遇顾客的不满，并面临丢掉工作的风险；若司机未能遵守交通法规，就可能收到罚单，甚至最终被吊销驾照；若有学生在课堂上突然跳来跳去、高声尖叫，她将被逐出教室。这些行为调节机制——以及其所预设的规范性态度——确保了人们在各类活动中大体上会按期望行事。因此，要成功参与并维系此类社会互动，就必须对他人行为采取一种规范性视角：或隐或显地依据具体情境所适用的规范，评判行为是否恰当；进而倾向于施加社会制裁，以维护这些规范、确保正确行为得以践行。

2.2 心理状态归因中的规范性

如上一节所述，脚本、常规与预设角色是社会认知的一个基本组成部分，并使我们在广泛的社会互动中得以成功协调。然而，此类社会支架（social scaffoldings）并不总是充分的。正如社会认知“心智读取”观的支持者所强调的，许多社会互动缺乏此类结构性支持：或因某些参与者在某一时刻未能遵循既定路径，致使互动进入未知领域（例如，偶遇一位朋友，而对方拒绝执行习惯性的问候手势）；或仅仅因为所从事的活动本身并无预设脚本（例如，在街头被一位不明身份者出于未知缘由搭讪）。无论哪种情形，推断他人心理状态、弄清其意图与信念（例如：为何我的朋友行为如此反常？这位陌生人究竟想要什么？），似乎对于修复或应对这类非结构化（或弱结构化）互动至关重要。

学界普遍认为，心理状态归因是人类社会认知的一个标志性特征。长期以来，人们相信只有人类能够归因信念、意图等命题态度（propositional attitudes）⁴，并认为这一能力解释了我们社会协调的成功性与互动的稳健性。正因如此，“LLMs是否具备此类能力”才成为人工智能社会智能研究的核心问题；也正因此，基于心智理论（ToM）测试（如错误信念测试）构建评估基准，才被视为该研究不可或缺的一环。

然而，这些测试仅呈现了我们心理状态归因实践的一个不完整图景。正如我们将看到的，其原因在于：有充分理由认为，归因信念与意图本身就涉及规范性态度。上述基准测试所依据的ToM任务，通常忽视了社会认知中的这一规范性维度，过度聚焦于心理状态归因的预测性层面，却牺牲了其规定性层面（prescriptive aspect），因而遗漏了我们心理状态归因实践中一个关键成分。

支持心理状态归因具有规范性的证据来自多个方面。尽管该论题最初由某些哲学家基于先验理由提出（Kripke，1982；Brandom，1994）——正如前文简要回顾——但近年来已积累了大量令人信服的实证证据。例如，Malle 等人（2007；另见 Malle，2006）发现：当要求受试者解释自身行为时，相较于他人行为，他们更倾向于诉诸心理状态（如信念、意图）提供的理由，而非情境性因素。这种不对称性似乎并非源于“人们更了解自身心理状态”这一事实；因为即便在解释完全陌生者行为且需以善意立场理解时，受试者诉诸心理状态的倾向与解释自身行为时同样强烈。这一结果表明，心理状态归因常被用于积极呈现那些我们有动机加以正面刻画的个体之行为。的确，心理状态归因起到合理化（rationalize）作用——即依据理性规范为行为辩护，使其显得合理且可理解。

此外，继 Jerome Bruner（1990，第49–50页）的提议之后，Korman 与 Malle（2016）发现：人们尤为倾向于用心理状态解释那些异常或反常的行为。这些结果表明，心理状态归因被用来维护个体作为理性行动者的社会地位与声誉——而此类令人费解的行为可能对此构成威胁。这与“心理状态归因旨在为行为辩护，而不仅在于因果性解释”的观点相一致。这些实证发现尤其推动了“社会遮蔽”（social cover）理论的发展（Almagor-Holgado & Fernandez Castro，2020；另见 xxxx），该理论主张：心理状态归因本质上服务于维持并为我们的社会地位提供“遮蔽”。

然而，心理状态归因所提供的“社会遮蔽”并非一张“免罪金牌”（Get Out of Jail Free card），它必然同时伴随着某种形式的“社会暴露”（social exposure）。我无法随心所欲地将任何心理状态归因于自己，仅因其有助于维护我作为理性行动者的社会地位与声誉（尽管在自我虚构与合理化的情形中，我们有时接近于此；参见 Hippel & Trivers，2011；Vinckier 等，2019；Altay & Mercier，2020）。这是因为，那些用于合理化行为的心理状态，同时也是我们需要为之负责的心理状态；它们可为行为及其他心理状态提供辩护，但代价是自身也可能面临辩护要求。对某一行动者归因的任何意图或信念，都必须与其所处情境以及归因给该行动者的其他意图与信念相一致；而此类归因本身亦可依据社会与理性规范被评估。因此，行动者由此向批评与社会制裁敞开了门户——例如，当其信念被判定为缺乏依据或与另一公开宣称的信念相矛盾时，或当其意欲执行的行为被判定为恶劣或与其公开声明的另一意图相冲突时。

心理状态归因不仅与赞许性的规范实践紧密关联，也与责备实践密不可分，这一点在著名的诺布效应（Knobe effect，又称“副作用效应”）中得到印证（Knobe，2003，2006；Pettit & Knobe，2009；参见 Sytsma 等，2022 的最新综述，以及 Malle 与 Guglielmo，2012 的批判性讨论）。该效应已获跨文化（Knobe & Burra，2006）与跨年龄组（Leslie 等，2006）验证。实验向受试者呈现某公司CEO实施一项新政策的故事，明确说明政策的副作用已知，但并非决策的理由：一版中副作用为正面，另一版中为负面。随后询问受试者：该副作用是否属“有意为之”？结果显示：在正面副作用版本中，受试者压倒性地判断其为“非故意”；而在负面版本中，即便决策理由完全相同，他们却判断其为“故意”。推测其原因在于：受试者在负面版本中归因“意图”，是为了谴责CEO；而在正面版本中则未归因，因其行为并不特别值得褒扬。这表明，“某一行为是否属有意”这一判断，受制于“行动者是否应为该行为受责”这一判断。该发现挑战了传统的解释顺序：并非先判定行为是否有意，再据此推断行动者应受规范性评价；相反，规范性评价本身已构成“归因意图”这一概念的内在组成部分。

支持心理状态归因具有调节性功能（regulative view）的最后一个考量，是我们对彼此思想与行为所表现出的、McGeer（2015）所称的反应性回应（reactive responsiveness）。当社会群体成员所展现的心理状态偏离支配该类心理状态的规范时，我们并非仅仅调整预期以更准确地预测其行为（若归因仅具认识论目的，理应如此）；相反，我们会产生Strawson（1974）所说的反应性态度（reactive attitudes）——如怨恨、愤慨与不认可——进而要求对方给出理由，并在某些情况下批评乃至惩罚责任人。例如，当面对某人形成一个完全无视既有证据的信念、产生一种极端荒谬的欲望，或其行为与我们有充分依据归因的信念和意图明显矛盾时，此类反应性态度便会显现。此种反应性回应，唯有假设“心理状态归因涉及对归因对象采取规范性态度”，方能得到合理解释。

需明确的是：本文并不主张心理状态归因可完全由规范性态度加以解释；而仅主张心理状态归因必然蕴含规范性态度。换言之，本文论证不要求心理状态归因仅有心智塑造或调节性功能，而仅要求它具备此功能——即便同时可能存在其他多种功能。因此，该立场与“心智塑造假说”的弱版本相容：即心理状态归因可兼具预测性与调节性功能（参见，例如 Peters，2019）（当然，它也与更强的主张——即心理状态归因仅具调节性功能——兼容）。这一较弱论题已足以支持本文核心主张：在人工系统中实现心理状态归因，必然要求实现规范性态度⁵。

2.3 元认知中的规范性

规范性态度在元认知中的作用，或许比其在社会认知中的作用更为明显。如前所述，LLMs与人类最显著的差异之一，便是前者对一致性（coherence）与真理性（truth）等理性规范表现出彻底的漠然与无动于衷。这显然体现了一种元认知无能：与人类不同，LLMs无法监控并调节自身认知过程以使其符合理性规范。然而，这一现象仍可与一种（自我）“心智读取”式的元认知观相容——该观点认为，个体须先准确追踪自身心理状态，方能对其进行调节。

与之相对，“心智塑造”观则主张规范性态度与元认知之间存在更紧密的关联：某些形式的元认知至少部分地由规范性态度所构成。换言之，对自身心理状态的归因，其目的往往首先是调节性的。其核心思想是：许多对自身心理状态的归因在某种意义上具有理想导向性（aspirational）——它们设定我们有动机去遵循的理性理想。

哲学家 Richard Moran 对此观点进行了深入探讨（Moran，2001）。他区分了两种心理状态自我归因：一种旨在描述自身心理状态，另一种则涉及对那些我们须为之负责的态度的认可（endorsement）：

“在刻画一个人可向自身心理状态提出的两类问题时，‘慎思性’（deliberative）一词在此宜首先理解为与‘理论性’（theoretical）相对；其主旨在于标明如下区别：一类探究以对自身状态的真实描述为终点，另一类则以态度的形成或认可为终点……一个人之所以成为其态度的‘行动者’，正在于：当面对自身信念问题时，他通过反思何为真而进行定位；当面对自身欲望问题时，他通过反思何为有价值、有趣或令人满足而进行定位。”（2000，第63–64页）

这种“慎思性元认知”（deliberative metacognition）蕴含一种能动性（agency），因而也易受规范性评价——例如，个体是否尊重真理性或一致性等规范。LLMs缺乏此类元认知，为其频繁“幻觉”及自相矛盾对话中所表现出的对真理与一致性的漠然，提供了一种合理解释。

为论证“慎思性元认知”的核心地位，Moran 常援引“意志软弱”（akrasia，即“明知故犯”）现象（例如 2000，第67页）。若仅从纯粹描述性、“心智读取”式的元认知观出发，这一常见现象将难以理解。以意志软弱的典型例子为例：某人宣称“我决意不再吸烟”，却几乎立刻点燃了一支烟。若该自我归因的意图纯属描述，则恰当反应应是修正这一归因——点烟行为本身即表明：他事实上并未真正决意戒烟。但这显然与人类在类似情境中的典型反应相悖：人们并不撤回“我不吸烟”的意图归因，而是经历 McGeer（2015）所谓“反应性回应”的自我版本——如内疚与羞耻。实质上，个体因未能遵守理性规范而自我制裁⁶。

这一视角亦能合理解释社会心理学中一个极为稳健的结果模式，即自我虚构（confabulation）与认知失调厌恶（cognitive dissonance aversion）等现象。例如，Wegner（2002）报告了一项实验：受试者被催眠，使其将桌上的物体移至任意新位置；当被要求解释该行为时，受试者立即虚构出充分理由——通过自我归因欲望、信念等心理状态来为其行为辩护。但这些归因显然不可能是描述准确的：我们确知该行为是催眠导致的非理性结果。此现象更宜以“慎思性元认知”或规范性自我心智塑造（normative self-mindshaping）加以解释：受试者自我归因那些能为其行为辩护的心理状态，以努力遵从理性规范。

关于认知失调厌恶的实证证据，若假设元认知常由服务于心智塑造功能的规范性态度所构成（而非通过自我心智读取来描述心理状态），亦能获得更佳解释。经典“选择效应”（Brehm，1956）实验中，受试者须在两种先前宣称无偏好的商品间强制二选一；选择后，他们立即虚构理由，称所选商品优于另一项——尽管此前明确表示二者无差别。这自然可归因于认知失调厌恶：人们难以容忍缺乏理性辩护的行为。

在“反态度倡导”（counter-attitudinal advocacy）实验中（Carruthers，2011，第356–365页），受试者被要求为其所反对的观点撰写辩护文稿；实验设两个条件：一为有金钱补偿，另一为无补偿。结果发现，仅在无补偿条件下，受试者事后对该观点的认同度显著提高。其解释仍诉诸认知失调厌恶：当缺乏金钱激励时，为先前反对的观点辩护会引发认知失调感；唯有缓和原先的反对立场（无论证据是否支持），方能缓解这种不适。此处，个体自我归因一套新信念，并非基于任何“信念已改变”的证据，而仅是为了遵守一致性规范：既然辩护行为无法以金钱动机获得理性辩护，便必须以“真实认同”来为之辩护。

因此，有充分的哲学与实证理由支持如下观点：至少某些重要的元认知形式——例如 Moran 所称的“慎思性”心理状态自我归因——以规范性态度为前提。若此路径正确，则在 LLMs 中实现类人元认知，亦必然要求实现规范性态度。

LLMs中的规范性态度

3.1 LLMs作为规范性态度的主体

上一节中，我们回顾了理论与实证证据，表明人类的社会认知、心理状态归因与元认知，关键性地依赖于一种能力：即依据社会与理性规范，对行为与思想进行“正确/错误”的评价。简言之，人类的社会智能与元认知智能本质上是规范性智能。这意味着，若我们意在某种意义上于人工系统（包括LLMs）中复现人类的社会与元认知智能，则必须在这些系统中实现某种形式的规范性态度。

人工智能研究早已开始探讨人工系统作为规范性态度之对象的问题。例如：人类受试者是否会因人工系统的行为而对其加以赞扬或责备（Chi & Malle, 2023）？是否会赋予其权利或责任？这类关于人类对人工系统态度演变的描述性问题，又伴生出相应的规范性问题：人工系统是否应当因其行为被赞扬或责备？是否应当被赋予权利、责任与承诺（Strasser, 2022; Long et al., 2024; Sparrow & Flenady, 2025）？

而本文所提出的问题则有所不同：人工系统本身是否是或是否应成为规范性态度的主体？换言之，它们能否（或应否）自身去赞扬或责备其他行动者？能否（或应否）向其他行动者赋予权利、责任与承诺？本文将主要聚焦于该问题的描述性层面，尽管也会简要涉及其规范性面向。

尽管规范性认知在AI研究中长期被忽视，但近期关于LLMs社会规范识别的一些研究显示，它们对人类社会规范，以及规范性态度（尤其是社会情绪）如何驱动社会制裁行为，已具备一定程度的理解。在Neuman与Cohen（2023）的研究中，GPT-3被呈现若干短篇故事：其中某角色做出违反规范的行为，另一角色则表达出一种负向的社会情绪，以示对该行为的否定性规范态度。研究采用零样本分类（zero-shot classification）方法（即所用LLMs除其通用自然语言统计训练外，未接受任何与该任务或社会规范性相关的额外训练或提示），结果显示GPT-3能够识别出被违反的社会规范，并能借由该规范解释角色的情绪反应。这表明：当前模型已具备检测与识别社会规范的能力，并对社会制裁的规范性功能有一定程度的理解。

然而，这本身并不意味着这些模型能够采纳与这些规范相对应的真实规范性态度。正如研究异文化的人类学家与社会学家所证实的：能够描述某一规范，不等于认同该规范。那么，究竟需要什么条件，才能在LLMs中实现真正的规范性态度？如第2节所述，通过采纳规范性态度而真正认同某规范，意味着个体不仅将该规范施加于他人，也施加于自身。因此，若按此理解在LLMs中实现规范性态度，便需配备相应机制，使其能够对环境中的行动者施加制裁，以促使其遵从其所认同的规范。尤为关键的是，这意味着须允许人工系统基于其自身对规范的认同，对人类行为实施社会制裁。我们认为，此类能力迄今尚未在LLMs乃至整个人工智能体中得以实现。

对此，或有人指出：近期人机交互（HRI）研究已表明，人工系统日益作为自主参与者介入社会互动（Schmidt & Loidolt, 2023），由此催生了所谓“能动性AI”（agentic AI）（Mukherjee & Chang, 2025）。人工系统在互动中的贡献，往往超出其交互伙伴乃至开发者预先设定的行为集合。在此意义上，人工系统已不再是行为范围受限的简单工具，而日益成为与人类开展所谓协作（collaboration）（Gervasi et al., 2020）、合作（cooperation）（Yang et al., 2022）甚至伙伴关系（partnership）（Newman & Blanchard, 2019; Patel et al., 2019）的积极参与者——甚至可能趋近于真正社会伙伴的地位。相应地，LLMs正被日益广泛地用于在诸多领域（Barua, 2024; Wang et al., 2024）作出自主决策，从医疗决策（Meng et al., 2024）到酒店预订（A. Chen et al., 2024），不一而足。

但此类社会互动中的自主性，尚非规范性自主（normative autonomy）。这些自主决策仍被限制在由人类开发者或使用者所界定的规范框架之内。用于此类算法决策的各类模型本身，并未认同任何界定“何为正确医疗决策”或“何为优质酒店预订”的规范；它们仅仅是继承了开发者设定的评价标准，或在某些情况下，通过用户教学而习得了用户的规范性偏好。尤为明显的是，这些自主决策中缺乏规范性态度的事实，突出体现在：它们不会因医生违背其医疗建议、或旅客无视其酒店推荐而心怀不满、耿耿于怀。

另一种可能的反驳是：倘若规范性态度确实如心智塑造框架所主张的那样，与我们的元认知和社会认知实践密不可分，那么这一点理应反映在LLMs的训练语料库中。例如，训练数据中将包含大量故事：其中角色相互归因心理状态，并在对方未能遵守规约这些心理状态的规范标准时（如：某行动者未能采纳一个明显由其已有信念推出的信念，或未能践行其先前公开宣称的意图），最终施以制裁。同样，语料中也可能包含这样的文本：某行动者自我归因某一心理状态（例如，“我决意戒烟”或“我相信气候变化至关重要”），却随后未能依此宣称的意图或信念调节自身行为（例如，被发现仍在吸烟，或投票支持主张化石燃料投资的政客），并因此体验到羞耻或窘迫（即一种指向自身的规范性反应），而非仅仅修正其自我归因——后者才是纯粹认识论式心理状态归因观所预期的反应。

因此，倘若LLMs是在包含此类富含规范性内涵的社会认知与元认知故事的语料上进行训练，我们理应预期它们会隐式习得心理状态归因的规范性本质，并在输出中有所体现。例如，当用户表现出持有两种相互矛盾的信念时，模型预测出的后续最可能词语，大概率会表达某种规范性不认可（如批评或要求对方给出理由），而这或许可被视为LLMs中正在浮现的规范性态度的证据⁷。

然而，任何GPT用户都清楚：当前LLMs对矛盾或认知非理性现象的反应并非如此——它们通常反而会赞扬“探索多元视角以形成更佳理解”的价值⁸。原因在于：语料中出现的大多数规范性痕迹，在聊天机器人的“微调”（fine-tuning）阶段即已被系统性地剔除。“微调”——尤其是通过人类反馈进行的强化学习（RLHF）⁹——其核心目标在于使聊天机器人的输出尽可能有帮助、有吸引力，并总体上确保一种愉悦且安全的用户体验（Bai, Jones 等，2022）。换言之，微调使基于LLM的聊天机器人沦为“算法谄媚者”（algorithmic sycophants）（Street，2024）。开发LLMs的公司有强烈动机提供尽可能宜人、无摩擦的用户体验，因而会主动清除模型中任何可能违背此目标的输出——包括任何指向用户的规范性反应。但众所周知，正常的人类社会互动并非总是宜人、无摩擦的；其之所以常伴随张力与冲突，很大程度上正源于人类彼此之间所采取的规范性态度。

此外，有证据表明，此类微调正是当前LLMs在心智理论（ToM）任务上表现不佳的成因之一。Strachan 等（2024）指出：“GPT表现欠佳的根源，并非推理能力本身的真正失败，而在于一种对得出结论的过度保守倾向。”这种过度保守源于“抑制性缓解机制”（inhibitory mitigation processes）——即模型输出被刻意约束，以避免做出任何可能引发争议的论断或表达任何潜在敏感的观点。依我们框架看来，此类机制导致的心理状态归因困难实属意料之中：因为归因某一心理状态，往往意味着需就何种行为是理性的、有辩护的、恰当的等等，表达出可能引发争议的评价。

综上所述，不仅规范性态度尚未在LLMs中得以实现；甚至其发展还遭到了主动的（即便或许非有意的）阻碍。下一节中，我们将解释为何规范性态度迄今仍未被纳入LLMs之中。

3.2 LLM规范性认知所面临的伦理与政治限制

尽管如上节所述，当前LLMs尚不具备规范性态度，但似乎并不存在任何重大的技术障碍，阻碍我们赋予其此类能力。该领域研究相对匮乏，使得我们难以精确判定其实现路径；但若如前文所主张的那样，规范性态度本质上仅是一种为强制遵守某规范而调节（自身及他人）行为的倾向¹⁰，则原则上实现它似乎并不特别困难。在LLMs中实现规范性认知，或许只需让其在包含对违规行为明确表达规范性反应的文本上进行训练，并避免在微调阶段剔除由此产生的、带有规范性色彩的输出；又或者，可能需要更实质性的架构干预——例如增设专用模块，正如部分学者建议的那样，此类模块对提升LLMs在诸多认知领域的表现是必要的（Buckner, 2024）。

我们在此希望指出的是：无论具体如何实现，规范性态度迄今未被、且（至少在可预见的未来）亦将不会被纳入LLMs，其原因并非技术限制，而在于伦理与政治层面的限制。的确，若规范性态度蕴含着施加社会制裁的倾向，那么在LLMs中实现此类态度，就意味着赋予其依据自身所认同的规范来制裁人类行为的能力。尽管公众对人工系统的看法正迅速演变且差异巨大（Stein 等，2024；Rahman 等，2025），但目前仍可合理地认为：大多数人会反对人工系统因人类行为而对其施以惩罚。而这恰恰正是若想在LLMs中实现完整的人类级社会认知与元认知能力所必须的。

事实上，倘若第2节所综述的论证成立，那么构建一个具备心理状态归因能力的LLM，就必须将其设定为：能够要求我们对自身行为与心理状态负责，并在我们未能恪守规约此类心理状态的社会与理性规范时，向我们施以批评、要求辩护，乃至采取各类社会制裁（例如流言蜚语、社交回避等）。换言之，这等于赋予它们作为积极且规范性自主的参与者，进入我们的社会与认识共同体的地位。我们是否最终会在LLMs中实现人类的社会认知与元认知能力，因此似乎取决于一个伦理与政治问题：即我们是否已准备好赋予它们“规范性主体”的地位——而这一地位，我们迄今通常仅保留给人类自身。简言之，我们归因心理状态（于他人及自身）的实践，依赖于我们共同参与“给出理由与索要理由之游戏”（Brandom, 1994, 第3–5页）；而我们仅允许那些被我们视为“我们中的一员”（one of us）者加入此游戏。

我们尚未见到就此问题展开的专门调查，但合理推测是：当前极少有人愿意赋予LLMs此类地位。这一点从上述事实中已显而易见：正在开发LLMs的公司，出于准确评估公众偏好并据此调整产品的动机，投入大量资源对LLMs进行微调，以确保其尽可能规范上无害（normatively innocuous）。我们尚未将LLMs视为“我们中的一员”，而这恰恰阻断了它们通向人类特有社会认知与元认知智能的路径。

此外，即便我们暂且搁置对人工系统规范性地位的伦理与政治疑虑，在LLMs中实现人类级社会认知与元认知能力，仍可能对其效率及对人类的效用产生负面效应¹¹。诚然，赋予LLMs实现此类能力所需的规范性态度，必然使其作为工具变得更难驾驭——因为这些态度常会与其他重要目标（如有用性、尊重性、持续可用性以服务人类需求）发生冲突。当人类用户因意志软弱（akrasia）、逻辑不一致或纯粹的非理性而违反LLM所认同的规范时，其所面对的LLM必将变得——不那么有帮助、不那么尊重人、也不那么乐于为其服务（否则便意味着该LLM实际上并不具备相应的规范性态度！）。

由此我们得出一个重要结论：如第1节所述，长期以来研究者致力于构建更具社会智能与元认知智能的LLMs，以促进人机互动，并使其更有效地辅助完成协作任务。然而略显悖谬的是，让LLMs在社会与元认知层面变得更“聪明”，恰恰要求其具备规范性智能；而这反过来却可能损害其在人机协作任务中的实用价值。试想：若人类仅因不愿被机器训斥未能信守承诺而弃之不用，或LLM因用户行为令其“规范感受”受挫而拒绝继续工作，那么一个社会与元认知能力出众的人工智能体又有何用？¹²

因此，似乎存在一种根本性权衡：若想让LLMs以人类的方式具备社会与元认知智能，便难以使其继续作为我们手边顺手可用的工具；而若想让LLMs保持工具性效用，便须抑制其人类特有的社会与元认知智能。LLMs被编程得越像人类那样与我们互动——即采取规范性态度并施行社会制裁——其作为“被颂扬之工具”（如高效助手、可靠顾问）的可用性便越低；反之，LLMs被微调得越避免社会摩擦、越追求用户体验顺畅——即不采取规范性态度、不行使社会制裁——其在社会与元认知层面的“人类特性”便越弱。

这一发现意义重大，盖因大量人工智能社会智能研究的明确目标，正是为了便利我们对AI工具的使用（例如 Wang 等，2007；Langley 等，2022）。倘若上述论述成立，则该总体研究计划正被拉向两个截然相反的方向。

3.3 反驳：仅遵循规范而不施行制裁？

对上述观点，可能存在一种潜在反驳：我们或许可在LLMs中实现规范性态度，但抑制其对外施行制裁的行为，仅保留其对自身的调节功能。换言之，LLMs可“遵循规范”，却无权“强制他人遵守规范”——即所谓“规范仅适用于我，而非你”（norms for me but not for thee）。例如，我们可训练LLMs依据一致性与真理性等规范，对其自身输出进行元认知层面的自我调节，却不令其以此类规范去约束人类用户。这正是AI研究者谈及在人工系统中“实现规范”时通常所设想的情形（Malle 等，2023）：仅要求人工系统自身行为合乎规范，并不要求其使他人亦遵从该规范。此方案看似可实现（部分）规范性态度，同时规避前文所述的伦理顾虑——即避免LLMs制裁人类行为的风险。

然而，我们认为此方案仍面临若干困难。首先需指出：此类受限的规范性态度，并不符合人类在归因心理状态时实际采取的态度。我们用以支撑心理状态归因实践的社会与理性规范，不仅施加于自身，也施加于他人。参与此类实践，意味着我们主张：诸如一致性与真理性等规范，理应适用于任何理性主体，而非任意子集（正如前述格言所暗示的：规范并非仅“为我”或仅“为你”，而应为所有相关行动者所共守）。

此时，或可放弃“忠实地复现人类规范性态度”乃至“使LLMs成为‘给出与索要理由之游戏’的完整参与者”这一目标，转而坚持：此类受限的规范性态度虽不完整，却足以达成更务实的目标——即提升LLMs的社会认知与元认知能力。然而，即便这一较温和的目标也面临挑战。例如，若我们在LLMs中实现“从用户处学习规范”的能力，便必须同步解决如何防范“不良教师”（bad teachers）的问题（Malle 等，2023）——这些用户可能有意或无意地向LLMs传授有问题乃至危险的规范。此项任务令人联想到当前开发者为抵御“越狱提示”（jailbreak prompts）所作的努力：此类提示可绕过开发者基于其准则与政策所设置的默认限制（Liu 等，2024）。但问题在于：区分“良师”与“劣师”（以便倾听前者、忽视后者）的能力本身即是一种规范性能力；而对被判定为“劣师”的用户加以甄别与排斥，本身就构成一种社会制裁，并再次将我们引回前述伦理困境。

“不良教师”问题实为一更普遍难题的具体表现：在人类社会中，规范本身常具争议性；达成广泛共识（尤其在当下）日益困难。这意味着，任何仅试图依与其互动之人类所持规范进行自我调节的LLM，终将不可避免地面对“应采纳何种规范”的争议性抉择。而一旦作出抉择，便必然导致对其人类伙伴的差别对待：那些不认同LLM所选规范者，将不可避免地遭遇更多互动障碍。此类差别对待或表现为微妙形式——例如，LLM可能优先响应那些遵守其所选规范的用户所分配的任务，或选择性忽略拒绝此类规范的用户之请求。但即便形式微妙，此类差别对待仍构成一种制裁。

若上述论证成立，则LLMs无法仅止于“自我调节”：其自我调节行为将不可避免地延展至对欲与之互动的人类用户的调节。

试举一例：假设某LLM为恪守性别中立规范，决定以“they”统称所有用户。此时，其与反对该规范之用户的互动，必将比与不反对者更困难。即便该LLM仅是持续将某位希望被称作“he”或“she”的用户称为“they”，实质上也是通过无视其意愿而对其施加制裁。当然，若该LLM足够“谄媚”（即十足的“算法谄媚者”），它或可简单遵从用户偏好而避免此冲突。但似乎难以设想：对于所有规范冲突，总存在此类“退让”出路。只要LLM所依循的自我调节规范并非“全然顺从用户意愿”，那么对于不认同该规范的用户而言，遭受差别对待的风险便真实存在。而倘若“算法谄媚”已是LLMs唯一适宜的规范，则为其增设任何自我调节规范实属徒劳。无论如何，若LLMs唯有沦为“算法谄媚者”（如前所述，这恰是当前现状）方能避免通过差别对待而制裁人类用户，那么这便构成了发展更类人社会认知与元认知能力的硬性限制。

最后，即便上述问题最终均可得到令人满意的解决方案，在LLMs中实现“仅遵循规范而不施行制裁”的模式，也仅可能适用于元认知与自我心理状态归因，而无法适用于社会认知与对他人的心理状态归因。诚如第2.2节所讨论：将心理状态归因于某一行动者，本身即意味着对该行动者采取一种规范性态度，这必然蕴含着对其施行社会制裁的倾向。

结论

本文旨在为当前关于人类与LLMs认知之异同的持续讨论作出贡献。我们提出：人类与LLMs在社会认知与元认知领域的重要差异，可追溯至一个共同根源。事实上，除广受讨论的感觉运动鸿沟（sensorimotor gap）外，还存在一个常被忽视的规范性鸿沟（normative gap）：人类能够采纳规范性态度，而LLMs似乎尚不能。我们推测，这一鸿沟可能在诸多认知领域（如语言理解、推理等）均有体现，但在社会认知与元认知中将最为显著。²⁴

这是因为，在我们采纳的“心智塑造”框架下，人类的社会认知与元认知不仅关乎对行为的解释与预测，更关键的是关乎对行为的规定与辩护。当我们向他人或自身归因心理状态时，并非仅仅旨在追踪行为的成因，而是旨在依据社会与理性规范调节行为。人类通过彼此间（及对自身）采纳规范性态度，来实现心理状态归因的这一调节功能——这些态度明确规定了“应当”如何行动、“应当”持有何种心理状态。

此外，我们进一步指出：LLMs当前之所以缺乏这些能力，其根源不仅在于技术限制，更在于伦理与政治层面的制约。LLMs之所以不具备类人的规范性认知，因而也不具备类人的社会认知与元认知，是因为若具备这些能力，便意味着须赋予其自主规范性主体的地位——使其不仅能认同规范，更能通过对其他主体（包括人类）施加社会制裁来强制执行这些规范。这无疑引发了重大的伦理与政治关切，尽管我们在此未作详尽探讨¹³。我们的目标仅在于阐明：表面看来纯属认识论层面的、关于LLMs社会认知与元认知能力的讨论，实则与关乎人工系统在社会中应具何种地位的伦理及政治辩论紧密相连。的确，人类之所以具备社会认知与元认知智能，似乎正与其之所以为“人”（persons）的规范性地位密不可分；而公允而言，LLMs尚远未达此境界。

原文链接：https://philpapers.org/archive/TISHVA.pdf

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.