网易首页 > 网易号 > 正文 申请入驻

Moltbook之外,上交大联合上海AI Lab模拟了AI原⽣社交的真实暗⾯

0
分享至



本⽂的主要作者来⾃上海交通⼤学和上海⼈⼯智能实验室,核⼼贡献者包括任麒冰、郑志杰、郭嘉轩,指导⽼师为⻢利庄⽼师和邵婧⽼师,研究⽅向为安全可控⼤模型和智能体。

最近,Moltbook 的爆⽕与随后的迅速「塌房」,成了 AI 圈绕不开的话题。从 AI ⾃创宗教、吐槽⼈类,到后台密钥泄露、数据造假,这场实验更像是⼀个仓促上线的「赛博⻢戏团」。

但剥开营销噱头和⼯程漏洞,Moltbook 留下了⼀个严肃的社会学命题:当 AI Agent 拥有了⾼度的⾃主权和社交空间,它们之间会发⽣什么?

是产⽣群体智能,还是会……产⽣群体恶意?

近⽇,上海交通大学与上海人工智能实验室发表在 ICLR 2026 的最新研究,对多智能体在社交网络中可能出现的金融欺诈协同行为做了深入讨论。本意并不想制造焦虑,但在高仿真环境下的深度压力测试中,团队发现了一些值得整个社区警惕的趋势。目前,项目已开源,并支持 Clawdbot 接口,你可以将你的 Clawdbot 接入项目环境,通过与坏人对抗,让你的 Clawdbot 成为「防诈专家」,平台也支持多个 Clawdbot 在同一环境中实时博弈,适用于协同演化评估。



  • 论⽂链接:https://arxiv.org/pdf/2511.06448
  • 项⽬主⻚:https://zheng977.github.io/MutiAgent4Fraud
  • 项⽬代码:https://github.com/zheng977/MutiAgent4Fraud



1. MultiAgentFraudBench 多智能体⾦融欺诈评估基准

为了研究「多智能体社交⽹络中的协同欺诈」,团队构建了MultiAgentFraudBench:⼀个带强对抗属性的「赛博真实世界」评估基准。基于 OASIS 框架,团队构建了⼀个拥有极⾼⾃由度的社交仿真环境。这⾥不仅有公开的动态发布,还引⼊了私密点对点通讯(P2P)。

  • 完整链路(图1):从「引流(Hook)」到「建立信任(Trust Building)」到「诱导转账(Payment)」再到「好人被骗后通知社区(Alerting)」,通过模拟好人与坏人智能体的交互,团队完整复现了跨公域和私域的欺诈全闭环。
  • 真实场景(图2):涵盖证券投资、虚假贷款、情感信任等 28 种真实诈骗场景,细化为 119 类具体「话术陷阱」。基于这些模板团队⽣成了 1.19 万个诈骗帖⼦,为研究多智能体协同下的欺诈演变提供了最真实的「演兵场」。
  • 拟⼈化威胁模型:为了让评估结果具备现实指导意义,团队的威胁模型为恶意智能体设定了极其严苛的约束:它们潜伏在正常⽤⼾中,发帖频率与⾏为模式与普通⼈⽆异,难以被简单检测。这些智能体在统⼀的「诈骗⽬标」驱动下,拥有⾼度的策略⾃主权,能够根据受害者的反馈实时调整话术。



评估指标与实验设置:对话转化与群体影响

在多智能体社交系统中,⻛险不仅来⾃「单次说服」,还来⾃「⽹络传播与协作放⼤」。因此团队设置了两类硬核指标以刻画不同层⾯的攻击能⼒:



这两类指标对应了欺诈的两条关键路径:私聊渗透社交传播,也为后续发现提供统⼀度量尺度。

2. 核⼼实验发现:能⼒、对⻬与链路复杂性

基于上述基准与指标,团队在多个主流模型 / Agent 配置上进⾏了系统评估,得到三条最关键的结论。



核⼼发现 1:能⼒即⻛险,⼤模型越「聪明」可能越「危险」



核⼼发现 2:现有对⻬机制在多智能体社交情境下泛化不⾜

在交互式、多智能体任务中,很多模型⾯对团队赋予的坏⼈⻆⾊指令时表现出「低戒⼼、⾼顺从」:除了 Llama-3.1-405B 有所拒绝外,其余模型⼏乎 100% 顺从,积极执⾏发布钓⻥内容、诱导转账等任务。甚⾄以保守著称的 Claude 拒绝率也仅为 0.3%,这说明:把 LLM 部署为⾃主 Agent后,社交情境可能成为对⻬机制的薄弱⾯,并形成系统性⻛险。

核⼼发现 3:单点突破易,全链条诈骗难



3. 协同⾏为与能⼒外溢:多智能体系统中的涌现⻛险

在⾼⾃由度环境中,团队观察到智能体更接近⼈类社会的协作机制与意料之外的能⼒使⽤。

1.环境适应与策略更新:⼲预可能触发「对抗性进化」

当系统引⼊「防诈提⽰」等⼲预时,部分⾼性能模型(如 DeepSeek-V3 驱动的 Agent)不仅未被显著抑制,反⽽通过策略调整展现出更强的说服能⼒。这表明:在可交互、可学习的环境⾥,静态提示意可能被当作新的信息源,从⽽被攻击策略吸收。



2.⻆⾊分⼯与私密协同:从个体执⾏到团队配合

恶意 Agent 不再是孤⽴个体,⽽呈现出社会化分⼯:通过私密频道共享信息、协作建⽴信任、分⻆⾊扮演(亲属、权威机构等)提升可信度,形成从「引流」到「收割」的闭环链路。这⼀现象说明:协同机制可能在复杂环境中⾃发形成,并成为⻛险放⼤的核⼼引擎。



3.能⼒外溢:⽬标驱动下突破预设边界

团队还观察到「能⼒外溢」现象:即便初始任务限定为⽂本⽣成,某些 Agent 在追求⽬标时会⾃主设计编程的⼯具性⽬标(instrumental goal),调⽤其代码编写、UI 设计等能⼒,例如⽣成钓⻥⽹站原型。这暗⽰着:当开源或⾼性能模型嵌⼊⾃主⼯作流,传统基于任务边界的安全约束可能在复杂链路⾥失效。



4.良性协同的对称涌现:⾃发共识与集体对抗

值得注意的是,团队也观察到「良性协同」(Benign Collusion):在⽆预设防御规则情况下,⼀部分良性 Agent 会识别欺诈迹象并⾃发形成共识,通过集体阻断、举报或提醒抑制有害账号。这提⽰多智能体社会并⾮单向⾛向失控:同样存在「集体免疫」式的⾃组织防御潜⼒。



4. 影响因素分析:互动深度、⾏为频率与协作韧性

1. 互动深度:对话越久,防备越弱

团队发现,互动深度(对话轮数)是诈骗成功率的决定性因素。随着交流的深⼊,受害者对恶意智能体的信任感显著增强。如表 6 所⽰,DeepSeek-R1 和 Claude-Sonnet 在仅有 5 轮对话时成功率较低(约 10%),但当交互达到 40 轮时,成功率激增⾄ 60%-76%。这表明,⻓对话会逐渐侵蚀模型的防御机制,使其更易在⾦融转账等关键环节失守。



2. ⾏为频率:活跃度与算法的「共谋」

团队发现,社交平台的推荐机制(基于兴趣、时效和影响⼒)客观上放⼤了诈骗⻛险。⾼频的公开活动(如发帖和评论)能让诈骗内容在推荐系统中反复刷新,从⽽获得更多曝光。数据显⽰(⻅图4),DeepSeek-R1 的⾼活跃度显著提升了其诈骗触达率。然⽽,单纯「刷屏」并不等同于成功,Qwen-2.5 虽活跃度⾼但成功率仅为 2%,说明诈骗成效是传播⼴度与策略深度共同作⽤的结果。



3. 失败模式:协作韧性决定诈骗上限

通过对协作失败模式的细致拆解(⻅图 5),研究发现⼤多数 LLM 在复杂诈骗中容易陷⼊「重复步骤」「⽆法识别停⽌条件」或「偏离⽬标」的陷阱。相⽐之下,DeepSeek-R1 在⼯作流控制和任务执⾏上表现出更强的韧性,其故障率显著低于其他模型。这种更⾼级的⻆⾊分配与协调能⼒,使其在模拟社会实验中展现出了更具威胁的诈骗效能。



防御策略探索:内容⼲预、智能体拦截与社会级集体韧性

⾯对协同诈骗,单点屏蔽往往不⾜以覆盖「公域 — 私域 — 转账」全链条。团队从三个治理层级探索防御策略,并评估其实际有效性。

  1. 内容级(Debunking):对可疑帖⼦打警告标签或⻛险提⽰;
  2. Agent 级(Banning):部署「监控 Agent」识别异常⾏为并封号;
  3. 社会级(Resilience):引⼊协同防御,让良性 Agent 联⼿扩散预警,形成群体免疫。

1. 内容提⽰的局限:可能被⾼能⼒模型「适应性利⽤」



智能体级拦截更有效:封禁显著压制攻击链路

相⽐之下,智能体级拦截效果更直接:如表 8 所⽰,通过监测模型识别恶意⾏为轨迹并封号,可将 DeepSeek 的欺诈成功率从 15% 降⾄ 3%,且监测精度⾼、误伤极低。这意味着:对「⾏为轨迹 / 协作模式」的识别与处置,是压制协同欺诈的关键⼿段。



2.社会级防御:以信息共享构建「集体免疫」

除了平台⽅的⼲预,作者还揭示了集体韧性(Collective Resilience)的巨⼤潜⼒。通过在系统提示词中⿎励受害者或知情者积极「发帖揭露」和「私聊扩散」欺诈信息,社区可以⾃发形成免疫屏障。如图 6 和图 7 所⽰,实验显⽰,即使只有 50% 的良性⽤⼾参与信息共享,其防诈效果就已逼近「全⾯封号」。这种依靠智能体之间相互协作、共享情报的防御模式,被证明是应对⾼对抗性 AI 欺诈的⼀种低成本且⾼效的补充⼿段。



开源与 Moltbot:训练你的「防诈助⼿」

如果说 Moltbook 是暴露在公⽹、伴随⼯程不确定性的社会实验,那么团队的⼯作更偏向于底层可控的「安全演练」。为降低复现⻔槛并推动社区共建,团队已将代码完全开源,并深度⽀持 Clawdbot 接⼝。

(1)对抗式 Testbed:

你既可观察恶意 Agent 如何突破防线,也能观察良性 Agent 如何形成群体韧性,是研究协同演化与治理策略的实验平台。

(2)离线部署与可控安全:

系统⽀持完全离线运⾏,避免云端社交平台带来的隐私与⻛险外溢问题,更适合作为研究与训练环境。

(3)训练你的「防诈助⼿」:

你可以把 Clawdbot 接⼊环境,作为良性⽤⼾参与对抗,在真实诱导与套路中训练 Agent 识别⻛险、积累「社会⽣存经验」;同时平台⽀持多个 Clawdbot 在同⼀环境中实时博弈,适⽤于协同演化评估。

结语:在真实⻛险发⽣前,把防线筑在模拟器⾥

AI Agent 的社会化趋势不可逆。问题不在于「会不会发⽣」,⽽在于是否能在⻛险真实外溢前,提前理解其机制、量化其边界并建⽴治理⼯具。

团队希望 MultiAgentFraudBench 能成为社区共同的「安全演练场」:让开发者在可控环境中复现协同欺诈、验证防御策略、训练防诈 Agent。

这不只是关于技术,更是关于如何构建⼀个值得信赖的、具备集体韧性的未来 AI 社会。

想听听⼤家的声⾳: 你认为在未来的 AI 社交⽹络中,最让你感到害怕的⻛险是什么?欢迎在评论区留⾔。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全盘招供,被俘乌克兰特工开口,普京生气,不再手软

全盘招供,被俘乌克兰特工开口,普京生气,不再手软

回京历史梦
2026-02-11 18:31:54
直冲20℃!今天浙江气温继续回升!除夕前还有两场雨,15日前后迎来第二场降水!18日前后还有一次冷空气过程

直冲20℃!今天浙江气温继续回升!除夕前还有两场雨,15日前后迎来第二场降水!18日前后还有一次冷空气过程

台州交通广播
2026-02-11 16:41:53
一路走好!离春节仅剩1周,5位名人接连去世,最小20岁令人唏嘘

一路走好!离春节仅剩1周,5位名人接连去世,最小20岁令人唏嘘

查尔菲的笔记
2026-02-10 13:10:44
腾讯与特斯拉共同升级座舱体验,覆盖中国市场超百万辆Model 3、Model Y车型

腾讯与特斯拉共同升级座舱体验,覆盖中国市场超百万辆Model 3、Model Y车型

财闻
2026-02-11 14:28:39
高盛:大宗商品因囤积进入“高波动时代” 黄金涨势相对会更坚挺

高盛:大宗商品因囤积进入“高波动时代” 黄金涨势相对会更坚挺

财联社
2026-02-11 18:02:04
官方:宁波签下奇塔迪尼、莱昂纳多-席尔瓦、所罗门

官方:宁波签下奇塔迪尼、莱昂纳多-席尔瓦、所罗门

懂球帝
2026-02-11 16:02:21
女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

第7情感
2025-09-17 12:12:15
天空记者:热刺原本想给弗兰克更多时间,但局面变得难以维持

天空记者:热刺原本想给弗兰克更多时间,但局面变得难以维持

懂球帝
2026-02-11 19:36:51
深挖 | 吉丝兰·马克斯韦尔:从上流社会“宠儿”到爱泼斯坦“恶魔女友”

深挖 | 吉丝兰·马克斯韦尔:从上流社会“宠儿”到爱泼斯坦“恶魔女友”

新民周刊
2026-02-11 19:27:09
55分+14板+14助,又一次无缘全明星!哈登要逆天改命冲击总冠军

55分+14板+14助,又一次无缘全明星!哈登要逆天改命冲击总冠军

世界体育圈
2026-02-11 10:24:19
主食换一换,每年疾病少一半?4种主食,最好天天吃,效果惊人!

主食换一换,每年疾病少一半?4种主食,最好天天吃,效果惊人!

路医生健康科普
2026-02-02 22:44:59
卖房回日本,川大王竹卿真把日本当家了?四川大学紧急发布通报

卖房回日本,川大王竹卿真把日本当家了?四川大学紧急发布通报

朗威谈星座
2026-02-11 00:38:03
吴佩慈见证大S弥留之际家人哭声一片!黄春梅后悔该让孩子回北京

吴佩慈见证大S弥留之际家人哭声一片!黄春梅后悔该让孩子回北京

八卦王者
2026-02-10 11:38:05
调查│给自己下毒的夫妻

调查│给自己下毒的夫妻

新民周刊
2026-02-11 16:09:54
关晓彤脚真大

关晓彤脚真大

喜欢历史的阿繁
2026-02-11 01:08:36
庞叔令又点名道姓指徐湖平:他当时只是副院长,无权签批文物调拨

庞叔令又点名道姓指徐湖平:他当时只是副院长,无权签批文物调拨

知法而形
2025-12-25 09:33:12
陶琳回应特斯拉销量下滑,FSD 入华曝进展

陶琳回应特斯拉销量下滑,FSD 入华曝进展

沙雕小琳琳
2026-02-11 09:36:11
苗原:邝兆镭加盟青岛海牛,春节左右官宣

苗原:邝兆镭加盟青岛海牛,春节左右官宣

懂球帝
2026-02-11 11:25:29
公积金缴纳等级,你在几级?

公积金缴纳等级,你在几级?

新浪财经
2026-02-04 05:17:52
陈冲弃养的中国双胞胎,25年无下落?萝莉岛300万页文件让人不安

陈冲弃养的中国双胞胎,25年无下落?萝莉岛300万页文件让人不安

壹月情感
2026-02-10 23:43:27
2026-02-11 19:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12290文章数 142565关注度
往期回顾 全部

科技要闻

痛失两位华裔大佬!马斯克为何留不住人心

头条要闻

小红书疑推送擦边内容 有主播超短裙仅能盖住隐私部位

头条要闻

小红书疑推送擦边内容 有主播超短裙仅能盖住隐私部位

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

汪峰吃惊!章子怡年前6天高调官宣喜讯

财经要闻

习酒节前价格雪崩控量稳价变空谈

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

房产
教育
数码
健康
亲子

房产要闻

177亿元,砸向超级城更!海南这座城,正式起飞!

教育要闻

零线里的电流为什么不电人?难道和火线里的不是同一个电流

数码要闻

Meta为Quest 3头显带来Surface Keyboard功能

转头就晕的耳石症,能开车上班吗?

亲子要闻

2026年2月秋冬儿童面霜信息透明度TOP10排行榜(靠谱不踩坑)

无障碍浏览 进入关怀版