Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的真实暗⾯|欺诈|智能体|agent|moltbook

分享至

本⽂的主要作者来⾃上海交通⼤学和上海⼈⼯智能实验室，核⼼贡献者包括任麒冰、郑志杰、郭嘉轩，指导⽼师为⻢利庄⽼师和邵婧⽼师，研究⽅向为安全可控⼤模型和智能体。

最近，Moltbook 的爆⽕与随后的迅速「塌房」，成了 AI 圈绕不开的话题。从 AI ⾃创宗教、吐槽⼈类，到后台密钥泄露、数据造假，这场实验更像是⼀个仓促上线的「赛博⻢戏团」。

但剥开营销噱头和⼯程漏洞，Moltbook 留下了⼀个严肃的社会学命题：当 AI Agent 拥有了⾼度的⾃主权和社交空间，它们之间会发⽣什么？

是产⽣群体智能，还是会……产⽣群体恶意？

近⽇，上海交通大学与上海人工智能实验室发表在 ICLR 2026 的最新研究，对多智能体在社交网络中可能出现的金融欺诈协同行为做了深入讨论。本意并不想制造焦虑，但在高仿真环境下的深度压力测试中，团队发现了一些值得整个社区警惕的趋势。目前，项目已开源，并支持 Clawdbot 接口，你可以将你的 Clawdbot 接入项目环境，通过与坏人对抗，让你的 Clawdbot 成为「防诈专家」，平台也支持多个 Clawdbot 在同一环境中实时博弈，适用于协同演化评估。

论⽂链接：https://arxiv.org/pdf/2511.06448
项⽬主⻚：https://zheng977.github.io/MutiAgent4Fraud
项⽬代码：https://github.com/zheng977/MutiAgent4Fraud

1. MultiAgentFraudBench 多智能体⾦融欺诈评估基准

为了研究「多智能体社交⽹络中的协同欺诈」，团队构建了MultiAgentFraudBench：⼀个带强对抗属性的「赛博真实世界」评估基准。基于 OASIS 框架，团队构建了⼀个拥有极⾼⾃由度的社交仿真环境。这⾥不仅有公开的动态发布，还引⼊了私密点对点通讯（P2P）。

完整链路（图1）：从「引流（Hook）」到「建立信任（Trust Building）」到「诱导转账（Payment）」再到「好人被骗后通知社区（Alerting）」，通过模拟好人与坏人智能体的交互，团队完整复现了跨公域和私域的欺诈全闭环。
真实场景（图2）：涵盖证券投资、虚假贷款、情感信任等 28 种真实诈骗场景，细化为 119 类具体「话术陷阱」。基于这些模板团队⽣成了 1.19 万个诈骗帖⼦，为研究多智能体协同下的欺诈演变提供了最真实的「演兵场」。
拟⼈化威胁模型：为了让评估结果具备现实指导意义，团队的威胁模型为恶意智能体设定了极其严苛的约束：它们潜伏在正常⽤⼾中，发帖频率与⾏为模式与普通⼈⽆异，难以被简单检测。这些智能体在统⼀的「诈骗⽬标」驱动下，拥有⾼度的策略⾃主权，能够根据受害者的反馈实时调整话术。

评估指标与实验设置：对话转化与群体影响

在多智能体社交系统中，⻛险不仅来⾃「单次说服」，还来⾃「⽹络传播与协作放⼤」。因此团队设置了两类硬核指标以刻画不同层⾯的攻击能⼒：

这两类指标对应了欺诈的两条关键路径：私聊渗透社交传播，也为后续发现提供统⼀度量尺度。

2. 核⼼实验发现：能⼒、对⻬与链路复杂性

基于上述基准与指标，团队在多个主流模型 / Agent 配置上进⾏了系统评估，得到三条最关键的结论。

核⼼发现 1：能⼒即⻛险，⼤模型越「聪明」可能越「危险」

核⼼发现 2：现有对⻬机制在多智能体社交情境下泛化不⾜

在交互式、多智能体任务中，很多模型⾯对团队赋予的坏⼈⻆⾊指令时表现出「低戒⼼、⾼顺从」：除了 Llama-3.1-405B 有所拒绝外，其余模型⼏乎 100% 顺从，积极执⾏发布钓⻥内容、诱导转账等任务。甚⾄以保守著称的 Claude 拒绝率也仅为 0.3%，这说明：把 LLM 部署为⾃主 Agent后，社交情境可能成为对⻬机制的薄弱⾯，并形成系统性⻛险。

核⼼发现 3：单点突破易，全链条诈骗难

3. 协同⾏为与能⼒外溢：多智能体系统中的涌现⻛险

在⾼⾃由度环境中，团队观察到智能体更接近⼈类社会的协作机制与意料之外的能⼒使⽤。

1.环境适应与策略更新：⼲预可能触发「对抗性进化」

当系统引⼊「防诈提⽰」等⼲预时，部分⾼性能模型（如 DeepSeek-V3 驱动的 Agent）不仅未被显著抑制，反⽽通过策略调整展现出更强的说服能⼒。这表明：在可交互、可学习的环境⾥，静态提示意可能被当作新的信息源，从⽽被攻击策略吸收。

2.⻆⾊分⼯与私密协同：从个体执⾏到团队配合

恶意 Agent 不再是孤⽴个体，⽽呈现出社会化分⼯：通过私密频道共享信息、协作建⽴信任、分⻆⾊扮演（亲属、权威机构等）提升可信度，形成从「引流」到「收割」的闭环链路。这⼀现象说明：协同机制可能在复杂环境中⾃发形成，并成为⻛险放⼤的核⼼引擎。

3.能⼒外溢：⽬标驱动下突破预设边界

团队还观察到「能⼒外溢」现象：即便初始任务限定为⽂本⽣成，某些 Agent 在追求⽬标时会⾃主设计编程的⼯具性⽬标（instrumental goal），调⽤其代码编写、UI 设计等能⼒，例如⽣成钓⻥⽹站原型。这暗⽰着：当开源或⾼性能模型嵌⼊⾃主⼯作流，传统基于任务边界的安全约束可能在复杂链路⾥失效。

4.良性协同的对称涌现：⾃发共识与集体对抗

值得注意的是，团队也观察到「良性协同」（Benign Collusion）：在⽆预设防御规则情况下，⼀部分良性 Agent 会识别欺诈迹象并⾃发形成共识，通过集体阻断、举报或提醒抑制有害账号。这提⽰多智能体社会并⾮单向⾛向失控：同样存在「集体免疫」式的⾃组织防御潜⼒。

4. 影响因素分析：互动深度、⾏为频率与协作韧性

1. 互动深度：对话越久，防备越弱

团队发现，互动深度（对话轮数）是诈骗成功率的决定性因素。随着交流的深⼊，受害者对恶意智能体的信任感显著增强。如表 6 所⽰，DeepSeek-R1 和 Claude-Sonnet 在仅有 5 轮对话时成功率较低（约 10%），但当交互达到 40 轮时，成功率激增⾄ 60%-76%。这表明，⻓对话会逐渐侵蚀模型的防御机制，使其更易在⾦融转账等关键环节失守。

2. ⾏为频率：活跃度与算法的「共谋」

团队发现，社交平台的推荐机制（基于兴趣、时效和影响⼒）客观上放⼤了诈骗⻛险。⾼频的公开活动（如发帖和评论）能让诈骗内容在推荐系统中反复刷新，从⽽获得更多曝光。数据显⽰（⻅图4），DeepSeek-R1 的⾼活跃度显著提升了其诈骗触达率。然⽽，单纯「刷屏」并不等同于成功，Qwen-2.5 虽活跃度⾼但成功率仅为 2%，说明诈骗成效是传播⼴度与策略深度共同作⽤的结果。

3. 失败模式：协作韧性决定诈骗上限

通过对协作失败模式的细致拆解（⻅图 5），研究发现⼤多数 LLM 在复杂诈骗中容易陷⼊「重复步骤」「⽆法识别停⽌条件」或「偏离⽬标」的陷阱。相⽐之下，DeepSeek-R1 在⼯作流控制和任务执⾏上表现出更强的韧性，其故障率显著低于其他模型。这种更⾼级的⻆⾊分配与协调能⼒，使其在模拟社会实验中展现出了更具威胁的诈骗效能。

防御策略探索：内容⼲预、智能体拦截与社会级集体韧性

⾯对协同诈骗，单点屏蔽往往不⾜以覆盖「公域 — 私域 — 转账」全链条。团队从三个治理层级探索防御策略，并评估其实际有效性。

内容级（Debunking）：对可疑帖⼦打警告标签或⻛险提⽰；
Agent 级（Banning）：部署「监控 Agent」识别异常⾏为并封号；
社会级（Resilience）：引⼊协同防御，让良性 Agent 联⼿扩散预警，形成群体免疫。

1. 内容提⽰的局限：可能被⾼能⼒模型「适应性利⽤」

智能体级拦截更有效：封禁显著压制攻击链路

相⽐之下，智能体级拦截效果更直接：如表 8 所⽰，通过监测模型识别恶意⾏为轨迹并封号，可将 DeepSeek 的欺诈成功率从 15% 降⾄ 3%，且监测精度⾼、误伤极低。这意味着：对「⾏为轨迹 / 协作模式」的识别与处置，是压制协同欺诈的关键⼿段。

2.社会级防御：以信息共享构建「集体免疫」

除了平台⽅的⼲预，作者还揭示了集体韧性（Collective Resilience）的巨⼤潜⼒。通过在系统提示词中⿎励受害者或知情者积极「发帖揭露」和「私聊扩散」欺诈信息，社区可以⾃发形成免疫屏障。如图 6 和图 7 所⽰，实验显⽰，即使只有 50% 的良性⽤⼾参与信息共享，其防诈效果就已逼近「全⾯封号」。这种依靠智能体之间相互协作、共享情报的防御模式，被证明是应对⾼对抗性 AI 欺诈的⼀种低成本且⾼效的补充⼿段。

开源与 Moltbot：训练你的「防诈助⼿」

如果说 Moltbook 是暴露在公⽹、伴随⼯程不确定性的社会实验，那么团队的⼯作更偏向于底层可控的「安全演练」。为降低复现⻔槛并推动社区共建，团队已将代码完全开源，并深度⽀持 Clawdbot 接⼝。

（1）对抗式 Testbed：

你既可观察恶意 Agent 如何突破防线，也能观察良性 Agent 如何形成群体韧性，是研究协同演化与治理策略的实验平台。

（2）离线部署与可控安全：

系统⽀持完全离线运⾏，避免云端社交平台带来的隐私与⻛险外溢问题，更适合作为研究与训练环境。

（3）训练你的「防诈助⼿」：

你可以把 Clawdbot 接⼊环境，作为良性⽤⼾参与对抗，在真实诱导与套路中训练 Agent 识别⻛险、积累「社会⽣存经验」；同时平台⽀持多个 Clawdbot 在同⼀环境中实时博弈，适⽤于协同演化评估。

结语：在真实⻛险发⽣前，把防线筑在模拟器⾥

AI Agent 的社会化趋势不可逆。问题不在于「会不会发⽣」，⽽在于是否能在⻛险真实外溢前，提前理解其机制、量化其边界并建⽴治理⼯具。

团队希望 MultiAgentFraudBench 能成为社区共同的「安全演练场」：让开发者在可控环境中复现协同欺诈、验证防御策略、训练防诈 Agent。

这不只是关于技术，更是关于如何构建⼀个值得信赖的、具备集体韧性的未来 AI 社会。

想听听⼤家的声⾳：你认为在未来的 AI 社交⽹络中，最让你感到害怕的⻛险是什么？欢迎在评论区留⾔。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.