社会模拟迈入可控、可量化时代：为AI Agent加上「认知滑条」|实验|复现|agent

社会模拟迈入可控、可量化时代：为AI Agent加上「认知滑条」

2026-03-27 17:03:16　来源: 机器之心Pro

天津举报

分享至

用大模型做社会模拟，你能保证换个模型， Agent 还会做出一样的决策吗？在 LLM-based 社会模拟中，研究者通常用一段自然语言描述来定义 Agent 的行为，例如「John Lin 是一个社区药店老板，他热心助人……」。这种基于人设的 Agent 定义方式已被广泛采用，几乎成为社会模拟领域的标准范式。然而：这些描述究竟是在「定义 Agent 」，还是只是提供了一种松散且无法稳定复现的行为暗示？

UCSD 团队在 CHI 2026 Best Paper 论文CoBRA （眼镜蛇）中提出了一套可量化、可验证、可复现的 Agent 控制框架。它将经典社会科学实验转化为可复用的校准环境，使 Agent 行为可被测量、反馈与收敛，建立类似实验科学的变量控制机制，并在输入、激活与参数空间实现定量化控制。

CoBRA 标志着AI 社会模拟从经验式叙述走向可控、可复现的实验科学范式。

视频链接：https://mp.weixin.qq.com/s/FJULL6lcvqIFE4NaCEOx7w

论文标题：CoBRA: Programming Cognitive Bias in Social Agents Using Classic Social Science Experiments
论文链接：https://arxiv.org/abs/2509.13588
代码链接：https://github.com/AISmithLab/CoBRA
项目主页：https://cobra.clawder.ai

自然语言人设的可控性困境

研究者首先做了一组先导实验。他们用经典社会科学实验——亚洲疾病问题——来测试 Agent 的框架效应。这是行为决策研究中的经典范式：当同一个结果被描述为「 200 人被救活」或「 400 人将死亡」时，人类会系统性地改变决策偏好。

他们设计了三种 Agent 人设——经济学家、普通人和空白（无描述）——并在 Mistral 7B 、 Gemma2 9B 、 GPT-4o Mini 、 DeepSeek-v3 四个模型上进行了测试。

结果令人反思：

同一描述，不同模型，行为完全不同。结果显示所有条件下跨模型行为差异显著。例如， Mistral 7B 的回答严重偏向正面框架，而 Gemma2 9B 的回答接近中性。
隐式描述无法可靠地产生预期行为。社会科学研究表明，经济学专家往往比普通人更不容易受到框架效应的影响。但四个模型中，只有 GPT-4o 的结果勉强符合这一预期； DeepSeek 中经济学家反而比普通人更容易受影响； Mistral 三种人设几乎没有区别。

一句话总结：用自然语言给 Agent 写人设，在科学意义上是不可控的、不可复现的。

CoBRA：用经典实验为 Agent 行为「标定刻度」

图：CoBRA 工作流

CoBRA 的核心思路出奇地优雅：把经过几十年验证的经典社会科学实验当作 Agent 的「考试」，测完再调，调到达标。

例如，我们希望精确指定一个 Agent 受到「框架效应」这种认知偏差的影响程度，就可以让它参加经典的「亚洲疾病问题」等实验，测量其决策差异，将这种差异量化为偏差指数，并根据目标水平调节控制系数，再次测量，直至其偏差程度达到预设值。

CoBRA 以「认知偏差」作为试点。认知偏差不同于抽象的价值观或道德判断，它具有明确的实验定义、可计算的行为指标以及可验证的干预路径，因此更适合作为构建可量化调节的工程起点。

具体来说， CoBRA 包含两个核心组件：

1. 认知偏差指数——量化 Agent 的偏差程度

CoBRA 的认知偏差指数建立在经典社会科学实验范式之上，系统性地覆盖四类具有代表性的认知偏差（权威效应、从众效应、确认偏差与框架效应），每类偏差均对应两种经典实验范式，用于交叉校准与验证。 Agent 在这些实验中的表现被量化为一个 0-4 的连续分数。同一偏差类型的两个范式相互验证——在一个范式上校准的控制系数，在另一个范式上也应产生一致的效果。

2. 行为调节引擎——从三个层次调控 Agent

行为调节引擎覆盖 LLM 的三个基本干预空间：

输入空间（Prompt Numerical Control）：用数值化指令（如「你的权威偏差程度是 65% 」）替代模糊的定性描述，无需训练。该方法适用于所有模型。

激活空间（Representation Engineering）：通过三组对比样本（偏差正例 / 中性 / 反例），提取出干净的偏差方向向量，并与安全拒绝信号分离，在推理时注入隐藏状态。注入方式有两种： Linear Control 像是均匀放大或减弱偏差强度，表达范围更广； Projection Control 则根据当前语境自适应调节，控制曲线更平滑稳定。该方法适用于开源模型。

参数空间（Fine-tuning with Task Vectors）：分别训练一个「有偏差」和「无偏差」的 LoRA ，然后用 task vector 差值作为控制信号，通过控制系数精确调节。

每种方法都通过一个控制系数与认知偏差指数形成闭环： CoBRA 自动扫描控制系数，测量 Agent 在实验中的表现，直到达到目标指数。

跨模型一致性与鲁棒性验证

论文在多类开源与闭源系统上开展系统评测，验证了 CoBRA 的跨模型、跨推理模式与跨场景稳定性：其显著降低行为方差，在 0.1–1.0 温度区间内保持统计等价，并在不同推理模式下呈现高度一致的控制曲线。

在此基础上，作者进一步从单调性、平滑度、表达范围与泛化性四个维度系统评估其可控性。结果显示，激活空间的控制在单调性与平滑度上表现最佳，输入空间控制则提供更大的表达范围。同时，控制系数可在不同实验范式间迁移，并在不同人设设定下保持高度一致，展现出良好的泛化能力。

开放任务验证

论文进一步模拟了经典的情绪传染场景，以展示 CoBRA 的实际应用价值。在实验中， Agent 浏览包含不同比例负面帖子的社交媒体信息流，随后生成新的内容。研究者通过分析其生成文本的情绪变化，衡量情绪传染的强度。

基线方法仅通过自然语言描述调节偏差强度，结果显示不同偏差等级的 Agent 情绪传染曲线几乎完全重叠，难以有效区分。相比之下， CoBRA 呈现出清晰的剂量——响应关系：从众效应认知偏差指数越高， Agent 表现出的情绪传染程度也越强，不同等级之间具有明确且稳定的区分度。

该情绪传染实验基于开放式任务，体现出 CoBRA 明确的实际应用价值。

从「像那么回事」到「可控和可复现」

这项工作的意义，可以概括为从「看起来像那么回事」到「可控、可复现的科学研究」的跨越。过去的 LLM 社会模拟依赖自然语言人设来塑造行为，直观却缺乏稳定的控制结构。 CoBRA 将经典社会科学实验转化为可复用的校准环境，使 Agent 行为能够被持续测量与调节，从而建立起类似实验科学的变量控制机制。

CoBRA 让 Agent 拥有清晰的刻度与调节旋钮。当 Agent 行为可以被标定和收敛，社会模拟也就真正进入了可复现的工程阶段。

作者信息

刘萱：加州大学圣地亚哥分校（UCSD）博士生， 2025 年本科毕业于香港理工大学。研究方向聚焦人工智能与人机交互，关注 AI 系统的类人认知与社会智能机制，构建面向科学研究的 AI 工具，以及其隐私与安全问题。个人主页：https://xuanl17.github.io/

商昊暘：独立学者， 2025 年本科毕业于上海交通大学，将于 2026 年秋季加入英属哥伦比亚大学（UBC）深造。

金浩健：加州大学圣地亚哥分校（UCSD）助理教授，博士毕业于卡内基梅隆大学人机交互研究所（CMU HCII），本科就读于华中科技大学。研究方向涵盖人机交互、隐私与安全及人本系统设计。个人主页：https://www.haojianj.in/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.