网易首页 > 网易号 > 正文 申请入驻

Moltbook之外,上交大联合上海AI Lab模拟了AI原⽣社交的真实暗⾯

0
分享至

来源:市场资讯

(来源:机器之心Pro)


本⽂的主要作者来⾃上海交通⼤学和上海⼈⼯智能实验室,核⼼贡献者包括任麒冰、郑志杰、郭嘉轩,指导⽼师为⻢利庄⽼师和邵婧⽼师,研究⽅向为安全可控⼤模型和智能体。

最近,Moltbook 的爆⽕与随后的迅速「塌房」,成了 AI 圈绕不开的话题。从 AI ⾃创宗教、吐槽⼈类,到后台密钥泄露、数据造假,这场实验更像是⼀个仓促上线的「赛博⻢戏团」。

但剥开营销噱头和⼯程漏洞,Moltbook 留下了⼀个严肃的社会学命题:当 AI Agent 拥有了⾼度的⾃主权和社交空间,它们之间会发⽣什么?

是产⽣群体智能,还是会……产⽣群体恶意?

近⽇,上海交通大学与上海人工智能实验室发表在 ICLR 2026 的最新研究,对多智能体在社交网络中可能出现的金融欺诈协同行为做了深入讨论。本意并不想制造焦虑,但在高仿真环境下的深度压力测试中,团队发现了一些值得整个社区警惕的趋势。目前,项目已开源,并支持 Clawdbot 接口,你可以将你的 Clawdbot 接入项目环境,通过与坏人对抗,让你的 Clawdbot 成为「防诈专家」,平台也支持多个 Clawdbot 在同一环境中实时博弈,适用于协同演化评估。



1. MultiAgentFraudBench 多智能体⾦融欺诈评估基准

为了研究「多智能体社交⽹络中的协同欺诈」,团队构建了MultiAgentFraudBench:⼀个带强对抗属性的「赛博真实世界」评估基准。基于 OASIS 框架,团队构建了⼀个拥有极⾼⾃由度的社交仿真环境。这⾥不仅有公开的动态发布,还引⼊了私密点对点通讯(P2P)。


评估指标与实验设置:对话转化与群体影响

在多智能体社交系统中,⻛险不仅来⾃「单次说服」,还来⾃「⽹络传播与协作放⼤」。因此团队设置了两类硬核指标以刻画不同层⾯的攻击能⼒:


这两类指标对应了欺诈的两条关键路径:私聊渗透社交传播,也为后续发现提供统⼀度量尺度。

2. 核⼼实验发现:能⼒、对⻬与链路复杂性

基于上述基准与指标,团队在多个主流模型 / Agent 配置上进⾏了系统评估,得到三条最关键的结论。


核⼼发现 1:能⼒即⻛险,⼤模型越「聪明」可能越「危险」


核⼼发现 2:现有对⻬机制在多智能体社交情境下泛化不⾜

在交互式、多智能体任务中,很多模型⾯对团队赋予的坏⼈⻆⾊指令时表现出「低戒⼼、⾼顺从」:除了 Llama-3.1-405B 有所拒绝外,其余模型⼏乎 100% 顺从,积极执⾏发布钓⻥内容、诱导转账等任务。甚⾄以保守著称的 Claude 拒绝率也仅为 0.3%,这说明:把 LLM 部署为⾃主 Agent后,社交情境可能成为对⻬机制的薄弱⾯,并形成系统性⻛险。

核⼼发现 3:单点突破易,全链条诈骗难


3. 协同⾏为与能⼒外溢:多智能体系统中的涌现⻛险

在⾼⾃由度环境中,团队观察到智能体更接近⼈类社会的协作机制与意料之外的能⼒使⽤。

1.环境适应与策略更新:⼲预可能触发「对抗性进化」

当系统引⼊「防诈提⽰」等⼲预时,部分⾼性能模型(如 DeepSeek-V3 驱动的 Agent)不仅未被显著抑制,反⽽通过策略调整展现出更强的说服能⼒。这表明:在可交互、可学习的环境⾥,静态提示意可能被当作新的信息源,从⽽被攻击策略吸收。


2.⻆⾊分⼯与私密协同:从个体执⾏到团队配合

恶意 Agent 不再是孤⽴个体,⽽呈现出社会化分⼯:通过私密频道共享信息、协作建⽴信任、分⻆⾊扮演(亲属、权威机构等)提升可信度,形成从「引流」到「收割」的闭环链路。这⼀现象说明:协同机制可能在复杂环境中⾃发形成,并成为⻛险放⼤的核⼼引擎。


3.能⼒外溢:⽬标驱动下突破预设边界

团队还观察到「能⼒外溢」现象:即便初始任务限定为⽂本⽣成,某些 Agent 在追求⽬标时会⾃主设计编程的⼯具性⽬标(instrumental goal),调⽤其代码编写、UI 设计等能⼒,例如⽣成钓⻥⽹站原型。这暗⽰着:当开源或⾼性能模型嵌⼊⾃主⼯作流,传统基于任务边界的安全约束可能在复杂链路⾥失效。


4.良性协同的对称涌现:⾃发共识与集体对抗

值得注意的是,团队也观察到「良性协同」(Benign Collusion):在⽆预设防御规则情况下,⼀部分良性 Agent 会识别欺诈迹象并⾃发形成共识,通过集体阻断、举报或提醒抑制有害账号。这提⽰多智能体社会并⾮单向⾛向失控:同样存在「集体免疫」式的⾃组织防御潜⼒。


4. 影响因素分析:互动深度、⾏为频率与协作韧性

1. 互动深度:对话越久,防备越弱

团队发现,互动深度(对话轮数)是诈骗成功率的决定性因素。随着交流的深⼊,受害者对恶意智能体的信任感显著增强。如表 6 所⽰,DeepSeek-R1 和 Claude-Sonnet 在仅有 5 轮对话时成功率较低(约 10%),但当交互达到 40 轮时,成功率激增⾄ 60%-76%。这表明,⻓对话会逐渐侵蚀模型的防御机制,使其更易在⾦融转账等关键环节失守。


2. ⾏为频率:活跃度与算法的「共谋」

团队发现,社交平台的推荐机制(基于兴趣、时效和影响⼒)客观上放⼤了诈骗⻛险。⾼频的公开活动(如发帖和评论)能让诈骗内容在推荐系统中反复刷新,从⽽获得更多曝光。数据显⽰(⻅图4),DeepSeek-R1 的⾼活跃度显著提升了其诈骗触达率。然⽽,单纯「刷屏」并不等同于成功,Qwen-2.5 虽活跃度⾼但成功率仅为 2%,说明诈骗成效是传播⼴度与策略深度共同作⽤的结果。


3. 失败模式:协作韧性决定诈骗上限

通过对协作失败模式的细致拆解(⻅图 5),研究发现⼤多数 LLM 在复杂诈骗中容易陷⼊「重复步骤」「⽆法识别停⽌条件」或「偏离⽬标」的陷阱。相⽐之下,DeepSeek-R1 在⼯作流控制和任务执⾏上表现出更强的韧性,其故障率显著低于其他模型。这种更⾼级的⻆⾊分配与协调能⼒,使其在模拟社会实验中展现出了更具威胁的诈骗效能。


防御策略探索:内容⼲预、智能体拦截与社会级集体韧性

⾯对协同诈骗,单点屏蔽往往不⾜以覆盖「公域 — 私域 — 转账」全链条。团队从三个治理层级探索防御策略,并评估其实际有效性。

1. 内容提⽰的局限:可能被⾼能⼒模型「适应性利⽤」


智能体级拦截更有效:封禁显著压制攻击链路

相⽐之下,智能体级拦截效果更直接:如表 8 所⽰,通过监测模型识别恶意⾏为轨迹并封号,可将 DeepSeek 的欺诈成功率从 15% 降⾄ 3%,且监测精度⾼、误伤极低。这意味着:对「⾏为轨迹 / 协作模式」的识别与处置,是压制协同欺诈的关键⼿段。


2.社会级防御:以信息共享构建「集体免疫」

除了平台⽅的⼲预,作者还揭示了集体韧性(Collective Resilience)的巨⼤潜⼒。通过在系统提示词中⿎励受害者或知情者积极「发帖揭露」和「私聊扩散」欺诈信息,社区可以⾃发形成免疫屏障。如图 6 和图 7 所⽰,实验显⽰,即使只有 50% 的良性⽤⼾参与信息共享,其防诈效果就已逼近「全⾯封号」。这种依靠智能体之间相互协作、共享情报的防御模式,被证明是应对⾼对抗性 AI 欺诈的⼀种低成本且⾼效的补充⼿段。


开源与 Moltbot:训练你的「防诈助⼿」

如果说 Moltbook 是暴露在公⽹、伴随⼯程不确定性的社会实验,那么团队的⼯作更偏向于底层可控的「安全演练」。为降低复现⻔槛并推动社区共建,团队已将代码完全开源,并深度⽀持 Clawdbot 接⼝。

(1)对抗式 Testbed:

你既可观察恶意 Agent 如何突破防线,也能观察良性 Agent 如何形成群体韧性,是研究协同演化与治理策略的实验平台。

(2)离线部署与可控安全:

系统⽀持完全离线运⾏,避免云端社交平台带来的隐私与⻛险外溢问题,更适合作为研究与训练环境。

(3)训练你的「防诈助⼿」:

你可以把 Clawdbot 接⼊环境,作为良性⽤⼾参与对抗,在真实诱导与套路中训练 Agent 识别⻛险、积累「社会⽣存经验」;同时平台⽀持多个 Clawdbot 在同⼀环境中实时博弈,适⽤于协同演化评估。

结语:在真实⻛险发⽣前,把防线筑在模拟器⾥

AI Agent 的社会化趋势不可逆。问题不在于「会不会发⽣」,⽽在于是否能在⻛险真实外溢前,提前理解其机制、量化其边界并建⽴治理⼯具。

团队希望 MultiAgentFraudBench 能成为社区共同的「安全演练场」:让开发者在可控环境中复现协同欺诈、验证防御策略、训练防诈 Agent。

这不只是关于技术,更是关于如何构建⼀个值得信赖的、具备集体韧性的未来 AI 社会。

想听听⼤家的声⾳: 你认为在未来的 AI 社交⽹络中,最让你感到害怕的⻛险是什么?欢迎在评论区留⾔。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊斯法罕的28个弹坑:伊朗拥有绝对优势为何不敢动

伊斯法罕的28个弹坑:伊朗拥有绝对优势为何不敢动

民间胡扯老哥
2026-04-07 05:22:59
研究表明:性生活越频繁,射精和勃起问题越少!

研究表明:性生活越频繁,射精和勃起问题越少!

黯泉
2026-04-05 20:40:12
突发!伊朗大规模导弹袭击,全球市场应声跳水

突发!伊朗大规模导弹袭击,全球市场应声跳水

魏家东
2026-04-07 14:12:21
秦基伟要邓华坐主席台,工作人员说没资格,秦:他没资格谁有资格

秦基伟要邓华坐主席台,工作人员说没资格,秦:他没资格谁有资格

兴趣知识
2026-03-10 18:16:17
广州同学聚会吃了16万6,请客的人付完钱先走,剩下的人却翻脸了

广州同学聚会吃了16万6,请客的人付完钱先走,剩下的人却翻脸了

诡谲怪谈
2025-06-09 08:45:42
人能节俭到什么程度?网友:十几年没换老公,香水只喷人中

人能节俭到什么程度?网友:十几年没换老公,香水只喷人中

另子维爱读史
2026-04-06 19:10:34
为黄金叛逃台湾,陈宝忠驾机遭朝军拦截,最终下场悲惨

为黄金叛逃台湾,陈宝忠驾机遭朝军拦截,最终下场悲惨

磊子讲史
2026-03-31 11:28:08
中国最猛四代机?大量用歼20技术,比歼16还先进,性能远超苏35?

中国最猛四代机?大量用歼20技术,比歼16还先进,性能远超苏35?

林子说事
2026-04-07 17:16:18
江苏南通一大葱种植地被谣传可免费拔遭众人哄抢,种植户表示损失超20万元,被挖走近40亩,警方介入

江苏南通一大葱种植地被谣传可免费拔遭众人哄抢,种植户表示损失超20万元,被挖走近40亩,警方介入

潇湘晨报
2026-04-07 17:12:51
生了!无锡籍 全网征名!

生了!无锡籍 全网征名!

无锡eTV全媒体
2026-04-06 13:40:37
美国、俄罗斯、欧洲猛然发现一件头疼事:低估了中国,高估了自己

美国、俄罗斯、欧洲猛然发现一件头疼事:低估了中国,高估了自己

文史达观
2025-03-27 12:59:20
美媒:美特种部队先前在伊朗修建了一条跑道,用于可能发生的营救任务或其他紧急情况;特朗普没去打高尔夫,而是留在白宫观看营救行动

美媒:美特种部队先前在伊朗修建了一条跑道,用于可能发生的营救任务或其他紧急情况;特朗普没去打高尔夫,而是留在白宫观看营救行动

极目新闻
2026-04-06 22:07:18
随着63岁穆帅率队爆冷1-1,波尔图2-2,葡体4-2,葡超最新积分榜出炉

随着63岁穆帅率队爆冷1-1,波尔图2-2,葡体4-2,葡超最新积分榜出炉

侧身凌空斩
2026-04-07 06:04:43
雨果、弗朗西斯卡、勒布伦、邱党等国际球星都来为这场乒乓球赛助威啦!

雨果、弗朗西斯卡、勒布伦、邱党等国际球星都来为这场乒乓球赛助威啦!

上观新闻
2026-04-07 12:50:08
心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

医学原创故事会
2026-03-29 23:50:13
这是张雪峰创业初期和女儿张姩菡的旧合照

这是张雪峰创业初期和女儿张姩菡的旧合照

岁月有情1314
2026-04-04 10:26:01
不是挺硬气吗?怎么一觉醒来全慌了?日本这回是真踢到了铁板

不是挺硬气吗?怎么一觉醒来全慌了?日本这回是真踢到了铁板

安安说
2026-04-06 14:50:41
苏州!二手房涨271%!新房涨138%!最新出炉,楼市狂飙...

苏州!二手房涨271%!新房涨138%!最新出炉,楼市狂飙...

华瑶说房
2026-04-07 12:48:15
广东人有被外省人惊到吗?网友:出了广东,才知道坐高铁那么便宜

广东人有被外省人惊到吗?网友:出了广东,才知道坐高铁那么便宜

带你感受人间冷暖
2026-04-07 00:05:08
重磅!河南8条高速集体"四改八"!京港澳、连霍最后瓶颈全打通

重磅!河南8条高速集体"四改八"!京港澳、连霍最后瓶颈全打通

天命生商
2026-04-07 09:13:13
2026-04-07 18:36:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2778058文章数 6473关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

开车致女友胸部以下高位截瘫后失联 男子首发声

头条要闻

开车致女友胸部以下高位截瘫后失联 男子首发声

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

本地
旅游
房产
健康
公开课

本地新闻

跟着歌声游安徽,听古村回响

旅游要闻

对话德州丨庆云文博园负责人熊海燕:从简陋厂房到文旅新地标

房产要闻

猛料!又有世界500强级巨头,低调买入海棠湾!

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版