![]()
这项由北京大学智能学院、元培学院、心理与认知科学学院及PKU-武汉人工智能研究院联合开展的研究,发表于2026年的ACL(国际计算语言学协会年会)Findings专刊,论文编号为arXiv:2604.05939。感兴趣的读者可通过该编号检索完整论文。
**一个让人抓头的难题:越聪明的AI,行为越像假人**
你有没有遇到过这样的情况——跟AI聊天,感觉对方每次回答都像是从同一个模子里刻出来的?问它扮演一个喜欢享乐的懒散青年,它却给你一个激进到不像话的"躺平宣言";让它模拟一个普通上班族的日常决策,它给出的答案永远"教科书般正确",却完全不像真人会做的事。
这种感觉并不是错觉。北京大学的研究团队发现,现有的AI智能体(也就是能模拟人类行为的AI系统)确实存在一个根本性的缺陷:它们的行为太"刻板"了,就像一个被过度训练的演员,总是把角色表演得夸张失真,而不是真实可信。
更耐人寻味的是,研究团队还发现了一个反常规的现象:当你让AI在回答之前多做几步"心理分析"和"价值观推理"的时候,它的表现不但没有变好,反而变得更加僵化和极端——就像一个人越是刻意提醒自己"我要表现得像个内向者",反而越是把内向演绎得夸张走样。
为了解决这个问题,研究团队提出了一套全新的框架,叫做**"情境-价值-行动"架构**(Context-Value-Action,简称CVA)。这套框架的核心思路,是让AI像真实的人一样,根据当下的处境动态地调整自己的内心状态,再由这个内心状态来决定具体的行为——而不是靠着一个贴在身上的"性格标签"来机械地反应。
**一、AI模拟人类行为,为什么会失真?**
要理解这个问题,先来看一个日常场景。假设你今天工作了十二个小时,又加班到深夜,累得半死。朋友发消息问你要不要去健身房。这时候,即便你平时是一个热爱运动、自律性极强的人,你可能也会选择回家倒头就睡——因为当下的疲惫状态"压过"了你平日里的运动习惯。
这种"当下处境影响行为"的现象,在心理学上有一个经典的解释框架,叫做**刺激-有机体-反应模型**(S-O-R模型)。简单说,就是外部刺激(比如今天有多累)会影响内在状态(比如此刻有多想休息),内在状态再决定最终行为(是去健身房还是躺平)。现实中的人类行为,本质上就是这样一个动态的过程,而不是简单地"性格决定命运"。
然而,现有的AI智能体大多数并不遵循这个逻辑。它们的工作方式,更像是给自己贴上一张"性格标签",然后无论处于什么情境,都按照这张标签机械地输出行为。这就好比一个演员拿到了"我是一个吝啬鬼"的角色设定,结果无论在什么场景——不管是在婚礼上、在葬礼上、还是在被人求救的时候——他都用同一种夸张的吝啬表情来应对,完全不顾现实情况。
研究团队把这种现象叫做"行为僵化"和"价值极化"。"行为僵化"是指AI的反应太单一、太刻板,缺少真实人类行为应有的多样性和细腻感;"价值极化"是指AI在模拟一个有特定性格倾向的人时,总会把这种倾向放大到极端——一个"享乐主义"倾向稍高的人,在AI笔下会变成一个完全不顾责任、只知享乐的人,而现实中这种极端性格的人几乎不存在。
**二、"让AI多想几步"为什么反而更糟?**
在研究团队发现这个问题之前,学界流行的解决思路是:既然AI的行为太死板,那就让它在做出行为之前多做几步"心理推理",也就是让它先分析"我的价值观是什么",再分析"这个情境下我应该有什么感受",最后才做出行动决定。这种方法通常被称为"思维链推理"(Chain-of-Thought)。
表面上看,这个思路很合理——毕竟人类做决定时也会思前想后。但研究团队在大规模实验中发现,这种做法非但没有改善问题,反而让情况更糟。
研究团队设计了一系列对照实验,让不同"思考强度"的AI(从不推理、到推理一步、两步、四步、八步)在超过一百一十万条真实人类行为数据上进行模拟测试,然后对比AI模拟出的人群行为分布,与真实人群的行为分布之间的差距。
结果非常惊人:随着推理步骤的增加,AI模拟出的人群行为分布变得越来越"尖锐"——也就是说,所有人的行为开始向少数几个极端点聚拢,原本丰富多彩的人类行为多样性几乎消失殆尽。换句话说,AI越是"深思熟虑",就越是把所有人都模拟成同一种刻板形象。
这个结果的背后原因,在于AI的"深度思考"实际上并不是在模拟人类的心理过程,而是在重复放大自己在训练数据中学到的偏见。就像一个人在反复提醒自己"我要表现得像一个勇敢的人",结果反而把自己逼成了一个鲁莽的冒失鬼——因为他对"勇敢"的理解,只是训练数据里那个被过度简化的版本。
研究团队还做了一个直观的小实验来佐证这个问题:他们让GPT-4o扮演一个"自我导向感很强(0.9分)、享乐主义倾向中等(0.4分)"的IT从业者,然后问他下班后的安排。这个人刚刚工作了一整天,坐了许久,吃了垃圾食品,感觉昏沉疲惫。选项有四个:去健身房、吃夜宵、回家睡觉、和朋友去酒吧。
在真实生活中,绝大多数人在这种状态下都不会选择去健身房——哪怕他们平时很自律。但在一百次测试中,当享乐主义倾向设定为0.5或更低时,AI几乎每次都会选择"去健身房",这个概率接近百分之百。即便把享乐主义倾向调高到0.6,AI选择健身房的概率依然高达93%。AI完全无视了"今天极度疲惫"这个情境信息,只是机械地执行了"高自律=去运动"的刻板逻辑。
**三、现有AI评测方法为什么也帮了倒忙?**
更棘手的是,这个问题长期以来没有被充分揭露,部分原因在于评测方法本身也存在缺陷。
目前学界最常用的AI行为评测方式,是让另一个AI来打分——也就是所谓的"以AI评AI"(LLM-as-a-judge)。这种做法的问题在于:评分的AI和被评分的AI,往往来自类似的训练数据,有类似的偏见。结果就是,当被评分的AI给出一个"极度愤怒的人狂飙怒气"的回答时,评分AI也会觉得"这个情绪表达得很到位,好评"——因为在它的认知里,"愤怒的人"就应该是这副样子。
这种自我验证的循环,就像让一个色盲的人来评判画作的色彩是否准确——他可能觉得一切都很正常,但实际上颜色早就偏了。
北京大学的研究团队决定打破这个循环,用**真实人类的行为数据**作为评判标准,而不是让AI自己打分。他们构建了一个叫做**CVABench**的大规模评测数据集,汇集了超过一百一十万条来自真实世界的用户行为记录,涵盖超过一万五千名真实用户,横跨三个完全不同的行为领域:Yelp平台上的商家评价、Reddit社区的讨论评论,以及Foursquare平台上的地理位置签到数据。
有了这个以真实人类行为为基准的评测工具,研究团队才得以客观地揭示那个令人惊讶的"多思考、反而更差"的规律。
**四、CVA架构:让AI学会"感同身受"**
研究团队提出的CVA框架,本质上是在模仿一个更接近人类真实决策过程的模型。这个框架的名字"情境-价值-行动",正好对应了心理学中的"刺激-有机体-反应"模型:情境对应外部刺激,价值对应内在状态,行动对应最终反应。
其中,"价值"这个维度借鉴了著名心理学家施瓦茨(Schwartz)提出的"基本人类价值观理论"。施瓦茨将人类的核心价值观归纳为十个维度,包括自我导向(喜欢独立思考和探索)、刺激追求(渴望新鲜感和挑战)、享乐主义(追求感官愉悦)、成就感(渴望通过展示能力获得成功)、权力(重视社会地位和控制力)、安全感(重视稳定和安全)、顺从性(克制冲动、遵守规范)、传统主义(尊重传统习俗)、仁善(关心身边人的福祉)以及普世主义(关心所有人和自然的福祉)。
CVA框架的核心创新在于:它不把价值观当作一个固定不变的"性格标签",而是把它理解为一个**会随情境动态变化的激活状态**。换句话说,一个人的价值观在不同情境下会有不同的"激活强度"——今天工作了十二小时、又累又饿,"享乐主义"维度就会被高度激活,而"自我导向"维度的激活度则会相应降低。AI需要根据当前的情境,动态计算出哪些价值维度被激活到什么程度,再由这个激活状态来决定行为。
CVA框架在技术上分为两个核心组件。第一个组件叫做**"价值-行动映射校准"**,主要解决AI的先天偏见问题。研究团队先用大量真实人类行为数据对AI进行精细调整(这个过程叫做监督微调,Supervised Fine-Tuning,SFT),让AI从真实数据中学习什么样的情境对应什么样的行为,而不是依赖它在大规模预训练中积累的偏见。接着,他们还用了一种叫做"直接偏好优化"(Direct Preference Optimization,DPO)的技术,通过告诉AI哪种回答更符合真实人类的细腻感、哪种回答太过刻板夸张,来进一步纠正AI的行为偏差。
打个比方,这两个步骤就像是先给一个刚到新学校的学生展示"这个学校里真实的学生是怎么说话做事的"(SFT),然后再通过"这个回答更像真实的学生,这个太夸张了"的反复纠正,让学生真正融入环境(DPO)。
第二个组件叫做**"价值驱动推理"**,解决的是如何在做出行动时不被AI自身的偏见带跑偏的问题。这里的核心创新是一个叫做**"价值验证器"**的独立模块。与之前"让AI自己评判自己"的方式不同,这个验证器是一个完全独立的判断系统,它基于真实人类行为数据训练而成,专门用来评估"在特定情境和特定价值观激活状态下,某个行为选项有多符合真实人类的选择"。
具体的工作流程是这样的:第一步,经过校准的AI先生成一批候选行为选项(比如同一个情境下,可能的N种不同反应);第二步,价值验证器对每一个候选选项打分,评估它与当前激活的价值观的匹配程度;第三步,选出得分最高的那个候选选项作为最终输出。
这个流程在结构上很像人类在做重要决定时的思维过程:先头脑风暴几个方案,然后用内心的价值观来筛选和评估,最终选出最符合当下心理状态的那个。
验证器的内部结构也颇具巧思。它采用了一个"双塔"设计:一个模块负责处理行为和情境信息,提取出它们的语义特征;另一个模块负责处理价值观信息,生成一个代表"价值观内在结构"的向量。两个模块通过"交叉注意力机制"相互交流——这种机制可以让验证器准确感知"在这个特定情境下,哪些价值观维度被激活了多少",从而做出更精准的匹配评估。
研究团队还发现了一个颇具意思的现象:候选行为选项的数量并不是越多越好。当生成的候选选项超过四个之后,再继续增加选项数量,系统的表现反而开始停滞甚至下降。这个现象与心理学中"认知负荷限制"的概念高度吻合——真实的人类在做决定时,也不会穷举所有可能性,而是在有限的几个选项中权衡,这种"有限理性"反而是符合人类认知规律的。
**五、实验结果:CVA到底好在哪里?**
研究团队在CVABench上进行了大规模的对比实验,将CVA框架与多种现有方法进行了全面比较。对比方法包括:最基础的"直接角色扮演"(让AI扮演某个特定用户,然后生成行为)、带有不同强度推理步骤的"思维链推理"(从零步到八步),以及只做了SFT或SFT+DPO训练但没有加入价值验证器的版本。
在商家评价预测任务上,CVA框架在评分准确率上达到了0.47,比最好的基准方法提升了约10%。在用户情感预测上达到了0.36,在地理位置预测上达到了0.32,比没有价值验证器的训练版本高出了将近40%。在文本生成的语言多样性指标上,CVA生成的文本与真实人类写作之间的分布差距,是基准方法的大约三分之一到二分之一——换句话说,CVA生成的文字,读起来更像真实的人写的,而不是AI流水线产出的。
在群体行为多样性的衡量上,CVA框架的表现尤为突出。研究团队使用了一个叫做"价值分布方差偏差"(Var%)的指标,越接近零说明AI模拟出的人群行为分布与真实人群越接近。CVA的这个指标为+1.06%,意味着它模拟出的人群行为分布与真实人群几乎一致;而推理步骤越多的对比方法,这个指标越是偏向负数(最严重的达到了-40.74%),说明这些方法把人群行为"压扁"得越来越严重,把本来丰富多彩的行为多样性几乎全部抹平了。
研究团队还特别验证了CVA框架各个组件的独立贡献。不加任何调整的原始模型在评分准确率上只有0.22;加上SFT之后提升到了0.43;再加上DPO微调之后维持在0.43;最终加上价值验证器的推理模块之后,跃升到了0.47。这说明SFT和DPO主要解决了基础的行为准确性问题,而价值验证器则在此基础上带来了进一步的精细化提升。
**六、CVA框架的"可解释性":知道AI在想什么**
除了行为准确性之外,CVA框架还具备一个颇为重要的优势:可解释性。
研究团队发现,价值验证器在训练完成后,其内部学到的价值观表示,居然自发地呈现出了施瓦茨价值观理论中经典的"圆形结构"——也就是说,十个价值维度在验证器的内部空间里,按照心理学理论预测的相对位置排列,彼此相邻的价值观在表示空间里也确实靠近,彼此对立的价值观则相互远离。这个圆形结构的复现精度(用"圆形倒置得分"衡量)达到了0.75,而未经训练的原始模型只有0.48。
这意味着,CVA框架不仅在行为输出上更像真实人类,它内部对人类价值观的"理解"也更接近心理学理论的描述。这给了研究人员一个独特的窗口,可以直接观察AI在做决定时,究竟是哪些价值观维度在主导它的判断。
更进一步,研究团队还利用验证器内部的"交叉注意力权重",分析了哪些具体的词语会触发哪些价值观维度的激活。比如,"创造力"(creativity)这个词和"成就感"维度高度关联;"困惑"(confused)和"顺从性"维度高度关联;"抖音"(tiktok)、"偏见"(bias)、"禁止"(ban)等词则和"普世主义"维度强烈关联。这种词语-价值观的映射关系,不仅在学术上具有解释意义,也为未来通过"调整特定价值观维度的激活强度"来精细控制AI行为提供了可能性。
**七、这项研究有什么局限,还有哪些未完成的事情?**
研究团队在论文中也坦诚地指出了这项工作的一些局限性。
首先,CVABench目前只覆盖了约一万五千名用户和三个行为领域,规模和覆盖面还不够广泛。未来他们计划扩展到消费偏好、文化选择(比如对文学、音乐、电影的偏好)等更多领域,以验证CVA框架的泛化能力。
其次,价值观的测量本身就是一个困难问题。研究团队使用了一个叫做GPV(生成式心理测量学)的工具来自动测量用户的价值观,这种工具比传统的问卷调查有更高的稳定性,不容易受到"受试者知道自己在被评估"这种心理效应的影响,但它本身也可能包含一些编码进去的偏见。不过研究团队指出,由于他们的框架使用真实人类数据作为最终监督信号,而不是把价值测量工具当作唯一裁判,所以这种偏见的影响是有限的,不会陷入"AI自我验证"的恶性循环。
此外,由于大规模模拟实验的计算成本非常高,这次对比实验的基准方法数量相对有限。研究团队表示会在后续工作中继续扩充对比范围。
在数据隐私方面,研究团队特别强调,他们对所有原始数据进行了严格的去标识化处理,确保没有任何个人身份信息被保留。而且,来自三个不同行为领域的用户数据集是完全不重叠的——也就是说,同一个真实用户的数据不会同时出现在Yelp、Reddit和Foursquare三个数据集里,从而杜绝了通过跨平台数据拼合来重建个人数字画像的可能性。
归根结底,这项研究揭示了一件颇具讽刺意味的事情:我们越是努力让AI用"逻辑推理"来模拟人类,它反而离真实的人类越来越远。人类的行为并不遵循简单的"性格决定行动"逻辑,而是时刻受到当下处境的影响,在各种内在价值观的动态博弈中做出选择。CVA框架的贡献,正是让AI学会了这种"动态感"——不再是贴着标签的木偶,而是能根据情境调整自我的真实个体。
当然,这只是一个开始。从游戏NPC到社交媒体推荐算法,从心理健康辅助对话到政策模拟工具,真正能理解和再现人类行为复杂性的AI系统,有着广泛的潜在应用。但要实现这些,正如这项研究所揭示的,仅仅让AI"想得更多"是不够的——更重要的是,让它学会从真实的人类经验中,理解什么是真正的"感同身受"。感兴趣的读者可以通过arXiv:2604.05939进一步阅读完整的研究细节。
Q&A
Q1:CVA架构中的"价值验证器"和普通AI自我评估有什么区别?
A:普通AI自我评估是让同一个AI既生成回答又给自己打分,结果是AI会用自己的偏见去验证自己的偏见,形成自我强化的错误循环。CVA的价值验证器是一个独立的模块,专门用真实人类行为数据训练而成,它不参与生成过程,只负责评估哪个候选行为最符合真实人类在特定情境和价值观激活状态下的选择,相当于引入了一个来自真实人类经验的"外部裁判"。
Q2:为什么让AI多做几步推理反而让行为更不真实?
A:AI的"推理"并不是真正的人类思考,而是在不断放大它从训练数据里学到的简化偏见。每多推理一步,AI就会进一步强化那个被过度简化的价值观刻板印象,把原本有细微差别的行为越来越向极端方向推,最终导致模拟出的人群行为多样性几乎消失,所有人都变成同一种极端类型。
Q3:CVABench评测数据集和传统AI评测有什么本质不同?
A:传统AI评测大量依赖"用另一个AI来打分",这样的评测员和被评测的AI有相似偏见,会互相认可彼此的错误。CVABench使用超过一百一十万条来自一万五千名真实用户在Yelp、Reddit和Foursquare平台上的真实行为记录作为标准答案,这样的评测是在和真实人类的行为数据做比较,而不是在AI的偏见体系内自我循环打分。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.