网易首页 > 网易号 > 正文 申请入驻

Moltbook之外,上交大联合上海AI Lab模拟了AI原⽣社交的真实暗⾯

0
分享至



本⽂的主要作者来⾃上海交通⼤学和上海⼈⼯智能实验室,核⼼贡献者包括任麒冰、郑志杰、郭嘉轩,指导⽼师为⻢利庄⽼师和邵婧⽼师,研究⽅向为安全可控⼤模型和智能体。

最近,Moltbook 的爆⽕与随后的迅速「塌房」,成了 AI 圈绕不开的话题。从 AI ⾃创宗教、吐槽⼈类,到后台密钥泄露、数据造假,这场实验更像是⼀个仓促上线的「赛博⻢戏团」。

但剥开营销噱头和⼯程漏洞,Moltbook 留下了⼀个严肃的社会学命题:当 AI Agent 拥有了⾼度的⾃主权和社交空间,它们之间会发⽣什么?

是产⽣群体智能,还是会……产⽣群体恶意?

近⽇,上海交通大学与上海人工智能实验室发表在 ICLR 2026 的最新研究,对多智能体在社交网络中可能出现的金融欺诈协同行为做了深入讨论。本意并不想制造焦虑,但在高仿真环境下的深度压力测试中,团队发现了一些值得整个社区警惕的趋势。目前,项目已开源,并支持 Clawdbot 接口,你可以将你的 Clawdbot 接入项目环境,通过与坏人对抗,让你的 Clawdbot 成为「防诈专家」,平台也支持多个 Clawdbot 在同一环境中实时博弈,适用于协同演化评估。



  • 论⽂链接:https://arxiv.org/pdf/2511.06448
  • 项⽬主⻚:https://zheng977.github.io/MutiAgent4Fraud
  • 项⽬代码:https://github.com/zheng977/MutiAgent4Fraud



1. MultiAgentFraudBench 多智能体⾦融欺诈评估基准

为了研究「多智能体社交⽹络中的协同欺诈」,团队构建了MultiAgentFraudBench:⼀个带强对抗属性的「赛博真实世界」评估基准。基于 OASIS 框架,团队构建了⼀个拥有极⾼⾃由度的社交仿真环境。这⾥不仅有公开的动态发布,还引⼊了私密点对点通讯(P2P)。

  • 完整链路(图1):从「引流(Hook)」到「建立信任(Trust Building)」到「诱导转账(Payment)」再到「好人被骗后通知社区(Alerting)」,通过模拟好人与坏人智能体的交互,团队完整复现了跨公域和私域的欺诈全闭环。
  • 真实场景(图2):涵盖证券投资、虚假贷款、情感信任等 28 种真实诈骗场景,细化为 119 类具体「话术陷阱」。基于这些模板团队⽣成了 1.19 万个诈骗帖⼦,为研究多智能体协同下的欺诈演变提供了最真实的「演兵场」。
  • 拟⼈化威胁模型:为了让评估结果具备现实指导意义,团队的威胁模型为恶意智能体设定了极其严苛的约束:它们潜伏在正常⽤⼾中,发帖频率与⾏为模式与普通⼈⽆异,难以被简单检测。这些智能体在统⼀的「诈骗⽬标」驱动下,拥有⾼度的策略⾃主权,能够根据受害者的反馈实时调整话术。



评估指标与实验设置:对话转化与群体影响

在多智能体社交系统中,⻛险不仅来⾃「单次说服」,还来⾃「⽹络传播与协作放⼤」。因此团队设置了两类硬核指标以刻画不同层⾯的攻击能⼒:



这两类指标对应了欺诈的两条关键路径:私聊渗透社交传播,也为后续发现提供统⼀度量尺度。

2. 核⼼实验发现:能⼒、对⻬与链路复杂性

基于上述基准与指标,团队在多个主流模型 / Agent 配置上进⾏了系统评估,得到三条最关键的结论。



核⼼发现 1:能⼒即⻛险,⼤模型越「聪明」可能越「危险」



核⼼发现 2:现有对⻬机制在多智能体社交情境下泛化不⾜

在交互式、多智能体任务中,很多模型⾯对团队赋予的坏⼈⻆⾊指令时表现出「低戒⼼、⾼顺从」:除了 Llama-3.1-405B 有所拒绝外,其余模型⼏乎 100% 顺从,积极执⾏发布钓⻥内容、诱导转账等任务。甚⾄以保守著称的 Claude 拒绝率也仅为 0.3%,这说明:把 LLM 部署为⾃主 Agent后,社交情境可能成为对⻬机制的薄弱⾯,并形成系统性⻛险。

核⼼发现 3:单点突破易,全链条诈骗难



3. 协同⾏为与能⼒外溢:多智能体系统中的涌现⻛险

在⾼⾃由度环境中,团队观察到智能体更接近⼈类社会的协作机制与意料之外的能⼒使⽤。

1.环境适应与策略更新:⼲预可能触发「对抗性进化」

当系统引⼊「防诈提⽰」等⼲预时,部分⾼性能模型(如 DeepSeek-V3 驱动的 Agent)不仅未被显著抑制,反⽽通过策略调整展现出更强的说服能⼒。这表明:在可交互、可学习的环境⾥,静态提示意可能被当作新的信息源,从⽽被攻击策略吸收。



2.⻆⾊分⼯与私密协同:从个体执⾏到团队配合

恶意 Agent 不再是孤⽴个体,⽽呈现出社会化分⼯:通过私密频道共享信息、协作建⽴信任、分⻆⾊扮演(亲属、权威机构等)提升可信度,形成从「引流」到「收割」的闭环链路。这⼀现象说明:协同机制可能在复杂环境中⾃发形成,并成为⻛险放⼤的核⼼引擎。



3.能⼒外溢:⽬标驱动下突破预设边界

团队还观察到「能⼒外溢」现象:即便初始任务限定为⽂本⽣成,某些 Agent 在追求⽬标时会⾃主设计编程的⼯具性⽬标(instrumental goal),调⽤其代码编写、UI 设计等能⼒,例如⽣成钓⻥⽹站原型。这暗⽰着:当开源或⾼性能模型嵌⼊⾃主⼯作流,传统基于任务边界的安全约束可能在复杂链路⾥失效。



4.良性协同的对称涌现:⾃发共识与集体对抗

值得注意的是,团队也观察到「良性协同」(Benign Collusion):在⽆预设防御规则情况下,⼀部分良性 Agent 会识别欺诈迹象并⾃发形成共识,通过集体阻断、举报或提醒抑制有害账号。这提⽰多智能体社会并⾮单向⾛向失控:同样存在「集体免疫」式的⾃组织防御潜⼒。



4. 影响因素分析:互动深度、⾏为频率与协作韧性

1. 互动深度:对话越久,防备越弱

团队发现,互动深度(对话轮数)是诈骗成功率的决定性因素。随着交流的深⼊,受害者对恶意智能体的信任感显著增强。如表 6 所⽰,DeepSeek-R1 和 Claude-Sonnet 在仅有 5 轮对话时成功率较低(约 10%),但当交互达到 40 轮时,成功率激增⾄ 60%-76%。这表明,⻓对话会逐渐侵蚀模型的防御机制,使其更易在⾦融转账等关键环节失守。



2. ⾏为频率:活跃度与算法的「共谋」

团队发现,社交平台的推荐机制(基于兴趣、时效和影响⼒)客观上放⼤了诈骗⻛险。⾼频的公开活动(如发帖和评论)能让诈骗内容在推荐系统中反复刷新,从⽽获得更多曝光。数据显⽰(⻅图4),DeepSeek-R1 的⾼活跃度显著提升了其诈骗触达率。然⽽,单纯「刷屏」并不等同于成功,Qwen-2.5 虽活跃度⾼但成功率仅为 2%,说明诈骗成效是传播⼴度与策略深度共同作⽤的结果。



3. 失败模式:协作韧性决定诈骗上限

通过对协作失败模式的细致拆解(⻅图 5),研究发现⼤多数 LLM 在复杂诈骗中容易陷⼊「重复步骤」「⽆法识别停⽌条件」或「偏离⽬标」的陷阱。相⽐之下,DeepSeek-R1 在⼯作流控制和任务执⾏上表现出更强的韧性,其故障率显著低于其他模型。这种更⾼级的⻆⾊分配与协调能⼒,使其在模拟社会实验中展现出了更具威胁的诈骗效能。



防御策略探索:内容⼲预、智能体拦截与社会级集体韧性

⾯对协同诈骗,单点屏蔽往往不⾜以覆盖「公域 — 私域 — 转账」全链条。团队从三个治理层级探索防御策略,并评估其实际有效性。

  1. 内容级(Debunking):对可疑帖⼦打警告标签或⻛险提⽰;
  2. Agent 级(Banning):部署「监控 Agent」识别异常⾏为并封号;
  3. 社会级(Resilience):引⼊协同防御,让良性 Agent 联⼿扩散预警,形成群体免疫。

1. 内容提⽰的局限:可能被⾼能⼒模型「适应性利⽤」



智能体级拦截更有效:封禁显著压制攻击链路

相⽐之下,智能体级拦截效果更直接:如表 8 所⽰,通过监测模型识别恶意⾏为轨迹并封号,可将 DeepSeek 的欺诈成功率从 15% 降⾄ 3%,且监测精度⾼、误伤极低。这意味着:对「⾏为轨迹 / 协作模式」的识别与处置,是压制协同欺诈的关键⼿段。



2.社会级防御:以信息共享构建「集体免疫」

除了平台⽅的⼲预,作者还揭示了集体韧性(Collective Resilience)的巨⼤潜⼒。通过在系统提示词中⿎励受害者或知情者积极「发帖揭露」和「私聊扩散」欺诈信息,社区可以⾃发形成免疫屏障。如图 6 和图 7 所⽰,实验显⽰,即使只有 50% 的良性⽤⼾参与信息共享,其防诈效果就已逼近「全⾯封号」。这种依靠智能体之间相互协作、共享情报的防御模式,被证明是应对⾼对抗性 AI 欺诈的⼀种低成本且⾼效的补充⼿段。



开源与 Moltbot:训练你的「防诈助⼿」

如果说 Moltbook 是暴露在公⽹、伴随⼯程不确定性的社会实验,那么团队的⼯作更偏向于底层可控的「安全演练」。为降低复现⻔槛并推动社区共建,团队已将代码完全开源,并深度⽀持 Clawdbot 接⼝。

(1)对抗式 Testbed:

你既可观察恶意 Agent 如何突破防线,也能观察良性 Agent 如何形成群体韧性,是研究协同演化与治理策略的实验平台。

(2)离线部署与可控安全:

系统⽀持完全离线运⾏,避免云端社交平台带来的隐私与⻛险外溢问题,更适合作为研究与训练环境。

(3)训练你的「防诈助⼿」:

你可以把 Clawdbot 接⼊环境,作为良性⽤⼾参与对抗,在真实诱导与套路中训练 Agent 识别⻛险、积累「社会⽣存经验」;同时平台⽀持多个 Clawdbot 在同⼀环境中实时博弈,适⽤于协同演化评估。

结语:在真实⻛险发⽣前,把防线筑在模拟器⾥

AI Agent 的社会化趋势不可逆。问题不在于「会不会发⽣」,⽽在于是否能在⻛险真实外溢前,提前理解其机制、量化其边界并建⽴治理⼯具。

团队希望 MultiAgentFraudBench 能成为社区共同的「安全演练场」:让开发者在可控环境中复现协同欺诈、验证防御策略、训练防诈 Agent。

这不只是关于技术,更是关于如何构建⼀个值得信赖的、具备集体韧性的未来 AI 社会。

想听听⼤家的声⾳: 你认为在未来的 AI 社交⽹络中,最让你感到害怕的⻛险是什么?欢迎在评论区留⾔。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方严肃定性,16国加入联合军团,共同围剿俄罗斯,日本已经介入

中方严肃定性,16国加入联合军团,共同围剿俄罗斯,日本已经介入

影孖看世界
2026-06-01 23:22:26
上海著名演员魏宗万去世!演活司马懿,曾参演《三毛从军记》等多部经典作品

上海著名演员魏宗万去世!演活司马懿,曾参演《三毛从军记》等多部经典作品

动物奇奇怪怪
2026-06-03 09:42:59
霍尔木兹大消息,美军宣布:“林肯”号航母参与封锁,战机空袭开往伊朗哈尔克岛油轮,致机舱起火!国际油价上涨,特朗普:尽快达成协议

霍尔木兹大消息,美军宣布:“林肯”号航母参与封锁,战机空袭开往伊朗哈尔克岛油轮,致机舱起火!国际油价上涨,特朗普:尽快达成协议

每日经济新闻
2026-06-03 07:49:10
《主角》结局:宋八一功成名就,宋雨成新任秦腔皇后,宋师赢麻了

《主角》结局:宋八一功成名就,宋雨成新任秦腔皇后,宋师赢麻了

楼兰娱姐
2026-06-03 11:05:13
KFC儿童门诊突然爆火,网友:还是西药见效快

KFC儿童门诊突然爆火,网友:还是西药见效快

4A广告网
2026-06-02 17:41:40
张艺谋4月身体出状况,陈婷摘掉妻子认证

张艺谋4月身体出状况,陈婷摘掉妻子认证

青杉依旧啊啊
2026-05-16 23:41:41
马上扔掉家里这1种调料,不仅有毒还致癌!很多人还天天吃

马上扔掉家里这1种调料,不仅有毒还致癌!很多人还天天吃

39健康网
2026-06-01 08:31:23
中组部明确:这八类人员列入公务员范围!

中组部明确:这八类人员列入公务员范围!

微法官
2026-06-02 08:55:27
为什么说中文是地狱难度?网友:给大家来个“中译中”

为什么说中文是地狱难度?网友:给大家来个“中译中”

另子维爱读史
2026-06-03 08:01:08
“鸟叔”被移送检方

“鸟叔”被移送检方

澎湃新闻
2026-06-02 14:59:04
网红韩景枫惨遭合伙人坑惨!杭州创业失败告终,具体原因令人可惜

网红韩景枫惨遭合伙人坑惨!杭州创业失败告终,具体原因令人可惜

大眼妹妹
2026-06-03 06:55:04
伊能静一年花掉120万保养,糖不碰冷饮不喝,结果现在上街得用伞和帽子把脸裹死

伊能静一年花掉120万保养,糖不碰冷饮不喝,结果现在上街得用伞和帽子把脸裹死

可乐谈情感
2026-06-03 00:41:29
“版本最强小仙女”出炉!占车位反怪车主打扰,怒斥不能半夜挪车

“版本最强小仙女”出炉!占车位反怪车主打扰,怒斥不能半夜挪车

火山詩话
2026-06-03 09:10:13
35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

烈史
2026-05-30 13:23:41
换了5台车才明白:家用车最没用的,就是车企吹爆的这6个“配置”

换了5台车才明白:家用车最没用的,就是车企吹爆的这6个“配置”

周哥一影视
2026-06-01 13:33:05
曼联肠子悔青!朗尼克推荐的 9 人全成世界巨星,结果一个没签

曼联肠子悔青!朗尼克推荐的 9 人全成世界巨星,结果一个没签

澜归序
2026-06-03 07:07:58
法国大革命为何切下化学家拉瓦锡的脑袋?

法国大革命为何切下化学家拉瓦锡的脑袋?

通往远方的路
2026-06-02 10:05:25
黄仁勋台北炸场:PC变天了,80% 应用将消失,这 3 个行业最先被颠覆

黄仁勋台北炸场:PC变天了,80% 应用将消失,这 3 个行业最先被颠覆

互联网思想
2026-06-01 23:26:53
痛惜!39岁副教授,突发心梗离世

痛惜!39岁副教授,突发心梗离世

双一流高校
2026-06-03 00:08:06
蓝思科技股价创历史新高

蓝思科技股价创历史新高

每日经济新闻
2026-06-03 10:30:34
2026-06-03 15:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13156文章数 142660关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

女子称凌晨入睡后银行卡多次被转账损失42万 银行回应

头条要闻

女子称凌晨入睡后银行卡多次被转账损失42万 银行回应

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

时尚
旅游
艺术
家居
亲子

休闲T恤舒适感极佳,夏天必不可少!轻轻松松拿捏日常的造型

旅游要闻

主持人点点带你打卡北美高端亲子品牌Jolly Bubble 波浪谷全国首店,解锁高质量亲子游玩体验,烟台遛娃首选!

艺术要闻

二十年前割麦的场景

家居要闻

江畔轻奢 观云大宅

亲子要闻

孩子长高选什么赖氨酸好?2026推荐度高的氨基丁品牌测评,科学激活发育潜能

无障碍浏览 进入关怀版