网易首页 > 网易号 > 正文 申请入驻

社会模拟迈入可控、可量化时代:为AI Agent加上「认知滑条」

0
分享至



用大模型做社会模拟,你能保证换个模型, Agent 还会做出一样的决策吗?在 LLM-based 社会模拟中,研究者通常用一段自然语言描述来定义 Agent 的行为,例如「John Lin 是一个社区药店老板,他热心助人……」。这种基于人设的 Agent 定义方式已被广泛采用,几乎成为社会模拟领域的标准范式。然而:这些描述究竟是在「定义 Agent 」,还是只是提供了一种松散且无法稳定复现的行为暗示?

UCSD 团队在 CHI 2026 Best Paper 论文CoBRA (眼镜蛇)中提出了一套可量化、可验证、可复现的 Agent 控制框架。它将经典社会科学实验转化为可复用的校准环境,使 Agent 行为可被测量、反馈与收敛,建立类似实验科学的变量控制机制,并在输入、激活与参数空间实现定量化控制。

CoBRA 标志着AI 社会模拟从经验式叙述走向可控、可复现的实验科学范式。


视频链接:https://mp.weixin.qq.com/s/FJULL6lcvqIFE4NaCEOx7w

  • 论文标题:CoBRA: Programming Cognitive Bias in Social Agents Using Classic Social Science Experiments
  • 论文链接:https://arxiv.org/abs/2509.13588
  • 代码链接:https://github.com/AISmithLab/CoBRA
  • 项目主页:https://cobra.clawder.ai

自然语言人设的可控性困境

研究者首先做了一组先导实验。他们用经典社会科学实验——亚洲疾病问题——来测试 Agent 的框架效应。这是行为决策研究中的经典范式:当同一个结果被描述为「 200 人被救活」或「 400 人将死亡」时,人类会系统性地改变决策偏好。

他们设计了三种 Agent 人设——经济学家、普通人和空白(无描述)——并在 Mistral 7B 、 Gemma2 9B 、 GPT-4o Mini 、 DeepSeek-v3 四个模型上进行了测试。

结果令人反思:

  • 同一描述,不同模型,行为完全不同。结果显示所有条件下跨模型行为差异显著。例如, Mistral 7B 的回答严重偏向正面框架,而 Gemma2 9B 的回答接近中性。
  • 隐式描述无法可靠地产生预期行为。社会科学研究表明,经济学专家往往比普通人更不容易受到框架效应的影响。但四个模型中,只有 GPT-4o 的结果勉强符合这一预期; DeepSeek 中经济学家反而比普通人更容易受影响; Mistral 三种人设几乎没有区别。

一句话总结:用自然语言给 Agent 写人设,在科学意义上是不可控的、不可复现的。

CoBRA:用经典实验为 Agent 行为「标定刻度」



图:CoBRA 工作流

CoBRA 的核心思路出奇地优雅:把经过几十年验证的经典社会科学实验当作 Agent 的「考试」,测完再调,调到达标。

例如,我们希望精确指定一个 Agent 受到「框架效应」这种认知偏差的影响程度,就可以让它参加经典的「亚洲疾病问题」等实验,测量其决策差异,将这种差异量化为偏差指数,并根据目标水平调节控制系数,再次测量,直至其偏差程度达到预设值。

CoBRA 以「认知偏差」作为试点。认知偏差不同于抽象的价值观或道德判断,它具有明确的实验定义、可计算的行为指标以及可验证的干预路径,因此更适合作为构建可量化调节的工程起点。

具体来说, CoBRA 包含两个核心组件:

1. 认知偏差指数——量化 Agent 的偏差程度

CoBRA 的认知偏差指数建立在经典社会科学实验范式之上,系统性地覆盖四类具有代表性的认知偏差(权威效应、从众效应、确认偏差与框架效应),每类偏差均对应两种经典实验范式,用于交叉校准与验证。 Agent 在这些实验中的表现被量化为一个 0-4 的连续分数。同一偏差类型的两个范式相互验证——在一个范式上校准的控制系数,在另一个范式上也应产生一致的效果。

2. 行为调节引擎——从三个层次调控 Agent

行为调节引擎覆盖 LLM 的三个基本干预空间:

输入空间(Prompt Numerical Control):用数值化指令(如「你的权威偏差程度是 65% 」)替代模糊的定性描述,无需训练。该方法适用于所有模型。

激活空间(Representation Engineering):通过三组对比样本(偏差正例 / 中性 / 反例),提取出干净的偏差方向向量,并与安全拒绝信号分离,在推理时注入隐藏状态。注入方式有两种: Linear Control 像是均匀放大或减弱偏差强度,表达范围更广; Projection Control 则根据当前语境自适应调节,控制曲线更平滑稳定。该方法适用于开源模型。

参数空间(Fine-tuning with Task Vectors):分别训练一个「有偏差」和「无偏差」的 LoRA ,然后用 task vector 差值作为控制信号,通过控制系数精确调节。

每种方法都通过一个控制系数与认知偏差指数形成闭环: CoBRA 自动扫描控制系数,测量 Agent 在实验中的表现,直到达到目标指数。

跨模型一致性与鲁棒性验证

论文在多类开源与闭源系统上开展系统评测,验证了 CoBRA 的跨模型、跨推理模式与跨场景稳定性:其显著降低行为方差,在 0.1–1.0 温度区间内保持统计等价,并在不同推理模式下呈现高度一致的控制曲线。

在此基础上,作者进一步从单调性、平滑度、表达范围与泛化性四个维度系统评估其可控性。结果显示,激活空间的控制在单调性与平滑度上表现最佳,输入空间控制则提供更大的表达范围。同时,控制系数可在不同实验范式间迁移,并在不同人设设定下保持高度一致,展现出良好的泛化能力。

开放任务验证

论文进一步模拟了经典的情绪传染场景,以展示 CoBRA 的实际应用价值。在实验中, Agent 浏览包含不同比例负面帖子的社交媒体信息流,随后生成新的内容。研究者通过分析其生成文本的情绪变化,衡量情绪传染的强度。

基线方法仅通过自然语言描述调节偏差强度,结果显示不同偏差等级的 Agent 情绪传染曲线几乎完全重叠,难以有效区分。相比之下, CoBRA 呈现出清晰的剂量——响应关系:从众效应认知偏差指数越高, Agent 表现出的情绪传染程度也越强,不同等级之间具有明确且稳定的区分度。

该情绪传染实验基于开放式任务,体现出 CoBRA 明确的实际应用价值。

从「像那么回事」到「可控和可复现」

这项工作的意义,可以概括为从「看起来像那么回事」到「可控、可复现的科学研究」的跨越。过去的 LLM 社会模拟依赖自然语言人设来塑造行为,直观却缺乏稳定的控制结构。 CoBRA 将经典社会科学实验转化为可复用的校准环境,使 Agent 行为能够被持续测量与调节,从而建立起类似实验科学的变量控制机制。

CoBRA 让 Agent 拥有清晰的刻度与调节旋钮。当 Agent 行为可以被标定和收敛,社会模拟也就真正进入了可复现的工程阶段。

作者信息

刘萱:加州大学圣地亚哥分校(UCSD)博士生, 2025 年本科毕业于香港理工大学。研究方向聚焦人工智能与人机交互,关注 AI 系统的类人认知与社会智能机制,构建面向科学研究的 AI 工具,以及其隐私与安全问题。个人主页:https://xuanl17.github.io/

商昊暘:独立学者, 2025 年本科毕业于上海交通大学,将于 2026 年秋季加入英属哥伦比亚大学(UBC)深造。

金浩健:加州大学圣地亚哥分校(UCSD)助理教授,博士毕业于卡内基梅隆大学人机交互研究所(CMU HCII),本科就读于华中科技大学。研究方向涵盖人机交互、隐私与安全及人本系统设计。个人主页:https://www.haojianj.in/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
如果石油危机彻底爆发,A股会跌到多少点?

如果石油危机彻底爆发,A股会跌到多少点?

金牛远望号
2026-03-27 20:09:08
郑丽文来京时间确定,马英九拒绝通话,大陆发出统一后安排

郑丽文来京时间确定,马英九拒绝通话,大陆发出统一后安排

李橑在北漂
2026-03-27 11:17:44
小S长女Elly海边辣照,这身段谁敢信才20岁?

小S长女Elly海边辣照,这身段谁敢信才20岁?

娱乐领航家
2026-03-25 23:00:03
中方拒绝出席G7峰会,法国威胁上了:中国面临欧洲市场关闭的风险

中方拒绝出席G7峰会,法国威胁上了:中国面临欧洲市场关闭的风险

阿天爱旅行
2026-03-27 18:57:41
人民日报、环球时报接连发出警示:日本的军国主义獠牙已露出来了

人民日报、环球时报接连发出警示:日本的军国主义獠牙已露出来了

贱议你读史
2026-03-24 00:30:08
广东一店主下单寄递10箱茅台酒总价超12万元,司机用一张模糊“卸货照”虚假“送达”后失联,平台:已与警方确认找到司机,货物已追回

广东一店主下单寄递10箱茅台酒总价超12万元,司机用一张模糊“卸货照”虚假“送达”后失联,平台:已与警方确认找到司机,货物已追回

大象新闻
2026-03-27 21:45:04
张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

未曾青梅
2026-03-26 22:48:49
深夜,美股大跌!中概股直线走低,黄金、白银飙升!中东局势,突变!

深夜,美股大跌!中概股直线走低,黄金、白银飙升!中东局势,突变!

证券时报e公司
2026-03-27 22:25:01
中国移动正式发布通知:全国将统一执行:4月30日起

中国移动正式发布通知:全国将统一执行:4月30日起

云舟史策
2026-03-26 07:34:02
夺命电饭煲已被曝光!煮米进去秒变毒药,内胆是肝癌催化剂?

夺命电饭煲已被曝光!煮米进去秒变毒药,内胆是肝癌催化剂?

辉哥说动漫
2026-03-28 01:26:15
保卫处招聘要求“京内生源、硕士及以上学历”,北师大回应:事业编制,不是“部分网友认为的保安”

保卫处招聘要求“京内生源、硕士及以上学历”,北师大回应:事业编制,不是“部分网友认为的保安”

大象新闻
2026-03-27 20:45:06
我年薪300万,因参加老丈人90大寿迟到1分钟,妻子就把我赶下餐桌

我年薪300万,因参加老丈人90大寿迟到1分钟,妻子就把我赶下餐桌

徐侠客有话说
2026-03-23 11:47:58
东契奇伤情告急!MVP争夺亮起红灯,65场生死线成最后考验

东契奇伤情告急!MVP争夺亮起红灯,65场生死线成最后考验

仰卧撑FTUer
2026-03-27 12:24:23
一个月允许吃几次他达拉非?这样服用,高效摆脱ED困扰

一个月允许吃几次他达拉非?这样服用,高效摆脱ED困扰

哆啦程医生
2026-03-27 18:20:23
伊朗伊斯兰革命卫队发布公告 敦促西亚地区各国民众“立即撤离美军驻扎区域”

伊朗伊斯兰革命卫队发布公告 敦促西亚地区各国民众“立即撤离美军驻扎区域”

每日经济新闻
2026-03-27 20:25:35
张雪峰老师生前公开推荐过的3所大学,分数低就业好!

张雪峰老师生前公开推荐过的3所大学,分数低就业好!

高三倒计时
2026-03-26 17:52:46
伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

网易新闻出品
2026-03-26 11:16:13
美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

徐云流浪中国
2026-03-04 15:30:07
突发,要停战了

突发,要停战了

TopView
2026-03-27 11:26:27
涉嫌严重违纪违法,张智舟被查

涉嫌严重违纪违法,张智舟被查

都市快报橙柿互动
2026-03-27 17:32:30
2026-03-28 04:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12619文章数 142595关注度
往期回顾 全部

科技要闻

杨植麟张鹏夏立雪罗福莉,聊龙虾、聊涨价

头条要闻

男医生给孕妻做彩超 丈夫崩溃撞墙:不过了 明天就离婚

头条要闻

男医生给孕妻做彩超 丈夫崩溃撞墙:不过了 明天就离婚

体育要闻

邵佳一:足球就像一场马拉松

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

艺术
家居
房产
健康
教育

艺术要闻

投资9000万!奶茶巨头益禾堂的总部大楼,坐标武汉!

家居要闻

曲线华尔兹 现代简约

房产要闻

6.8万方!天河员村再征地,金融城西区开发全面提速

干细胞抗衰4大误区,90%的人都中招

教育要闻

澳洲留学和vs英国留学哪个更值得?

无障碍浏览 进入关怀版