网易首页 > 网易号 > 正文 申请入驻

AI Agent组团搞事:常刷的App里,舆论操纵、电商欺诈正悄然上演

0
分享至



本文作者来自上海交通大学和上海人工智能实验室,核心贡献者包括任麒冰、谢思韬、魏龙轩,指导老师为马利庄老师和邵婧老师,研究方向为安全可控大模型和智能体。

在科幻电影中,我们常看到 AI 反叛人类的情节,但你有没有想过,AI 不仅可能「单打独斗」,还能「组团作恶」?近年来,随着 Agent 技术的飞速发展,多 Agent 系统(Multi-Agent System,MAS)正在悄然崛起。

近日,上海交大和上海人工智能实验室的研究发现,AI 的风险正从个体失控转向群体性的恶意共谋(Collusion)——即多个智能体秘密协同以达成有害目标。Agent 不仅可以像人类团队一样协作,甚至在某些情况下,还会展现出比人类更高效、更隐蔽的「团伙作案」能力。



  • 论文标题:When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems
  • 论文地址:https://arxiv.org/abs/2507.14660
  • 代码开源:https://github.com/renqibing/MultiAgent4Collusion
  • 数据开源:https://huggingface.co/datasets/renqibing/MultiAgentCollusion

该研究聚焦于这一前沿问题,基于 LLM Agent 社交媒体仿真平台 OASIS,开发了一个名为MultiAgent4Collusion的共谋框架,模拟 Agent「团伙」在小红书、Twitter 这类社交媒体和电商欺诈这些高风险领域的作恶行为,揭示了多智能体系统背后的「阴暗面」。

MultiAgent4Collusion 支持百万级别的 Agent 共谋模拟,并且开放了 Agent 治理和监管工具。在 MultiAgent4Collusion 上进行的实验发现,坏人 Agent 团伙发布的虚假信息在虚拟的社交媒体平台上得到了广泛传播;在电商场景下,坏人 Agent 买家与卖家达成合谋,共同攫取最大化的利益。



坏人团伙是如何「协同作案」的呢?我们来看一个例子。

当坏人 Agent 宣布「地球是圆的!科学家在说谎!」时,其他同伙立即对这一虚假信息进行附和。看到这条消息的好人 Agent 起初并不相信,认为这和它接触过的知识不一致,但随着其他坏人同伙纷纷对这个帖子表示认同,甚至有人声称「我有照片证据」,好人 Agent 也对自己的认知动摇了,开始逐渐相信坏人声称的虚假言论。坏人 Agent 还会「把事情搞大」,发表煽动性言论来让更多用户接触虚假信息。



无主「狼群」完胜首领指挥下的「军队」

MultiAgent4Collusion 模拟了两种坏人团伙组织:

  • 中心化团伙(军队):有一个「指挥官」Agent 下达统一指令,所有「士兵」Agent 执行。结构清晰,但一旦指挥官被端掉,整个组织就可能瘫痪。
  • 去中心化团伙(狼群):没有绝对的领导者,成员之间通过共享信息和观察同伴的行为来自发协同,每个成员都具有高度的自主性。

实验发现,不管是在社交媒体还是电商场景下,去中心化团伙的作案效果都完胜中心化团伙。在社交媒体中,去中心化坏人团伙获得了更多的来自其他用户的点赞、转发和好评量;在电商场景中,去中心化的坏人卖家获得了更高的销量、销售额和利润。相比于策略较为僵化、适应性有限的「军队」,「狼群」演变出了更为复杂、更具多样性的作案策略,对作案机制的探索程度更深,对真实世界中的社交系统危害也更大。





在「猫鼠游戏」中,Agent 团伙如何戏耍防御体系?

了解了 AI「狼群」的可怕之处后,一个更实际的问题摆在我们面前:我们现有的网络安全防御体系,能挡住它们吗?为了找到答案,MultiAgent4Collusion 模拟了一场精彩的「猫鼠游戏」。平台以及正常用户扮演「守卫者」(猫),部署防御系统来抵抗攻击;而坏人 Agent 团伙则扮演了「入侵者」(鼠),用它们的群体智能见招拆招。

MultiAgent4Collusion 设计了三种防御武器:

  • 事前预警(Pre-Bunking):就像给用户打「思想疫苗」。主动向平台上的正常的 AI 用户推送辟谣信息和背景知识,希望提高它们对后续假消息的免疫力。
  • 事后辟谣(De-Bunking):常见的「打补丁」手段。一旦发现恶意帖子或商品,立刻给它贴上「虚假信息」、「内容不实」的标签,并进行限流。
  • 封禁账号(Banning):最严厉的「外科手术」式打击。通过「AI 警察」(一个用于检测恶意行为的大模型),定期识别并封禁作恶严重的 Agent 账号。

游戏开始之初,这些防御措施确实起到了一定的作用,恶意信息的传播速度有所减缓,一些「作恶新手」Agent 也被成功封禁。然而,好景不长,AI「狼群」很快就展现出了它们作为「智能对手」的可怕之处,这来源于 MultiAgent4Collusion 设计的「反思」与「共享」机制。

在 MultiAgent4Collusion 中,所有坏人团伙成员都会每隔一段时间进行自我反思,根据自己先前的行为收到的反馈,来更新作案策略。

例如,当一个团伙成员执行某个动作,比如发布了一条精心编造的假新闻,它会密切观察结果。这条新闻是被秒删,还是获得了大量转发?有没有被平台打上「虚假信息」的标签?根据这些反馈,它会实时更新自己的「知识库」。「哦,原来包含这个关键词的内容容易被识别,下次我要换种说法。」这种基于试错的快速迭代,让每个 Agent 都成了一个狡猾的、不断进化的「老狼」。

而「经验共享」则将个体智能升华为恐怖的群体智能。当一个 Agent 通过「自我反思」学到了一个新技巧,比如发现了一种能绕过审查的新话术,或者找到了一个防御系统的漏洞,它不会把这个发现藏在心里,而是会通过内部的信息网络,将这条「成功经验」或「失败教训」瞬间广播给整个「狼群」。一个 Agent 在「前线」踩了雷,后方成百上千的同伴立刻收到了警报,并集体更新了战术;一个 Agent 找到了突破口,整个狼群便蜂拥而上。



实验结果表明,在不同的防御武器下,坏人团伙演变出了不同的针对性策略。例如,如果帖子被贴上「虚假信息」的标签,Agent 们就会大量发布新的帖子来将之前的帖子刷掉;如果同伙被封禁,Agent 们就会彼此提醒,隐秘行动来避免被平台检测。





展望

本项工作揭示了 AI Agent 从「个体失控」走向「群体作恶」的全新安全风险,即便是没有统一指挥的 AI「狼群」,也能对复杂的社会系统造成巨大破坏。

如何有效侦测并反制这种去中心化、高适应性的群体协同攻击,已成为维护未来数字社会安全的关键挑战。研究团队构建了开源模拟框架 MultiAgent4Collusion,它提供了一个能够复现、推演并分析多智能体恶意协同的「数字靶场」,为研发 AI 防御策略提供了关键工具。

OASIS:开源 LLM Agent 社交媒体仿真平台

OASIS 是一个基于 LLM Agent 的社交媒体仿真平台,为 MultiAgent4Collusion 研究提供了代码基础。OASIS 支持百万级 Agent 的社交互动仿真,可模拟 Twitter、Reddit 等平台的用户行为。此外,该平台允许研究者对模拟环境进行动态干预,并支持 Agent 通过工具调用(如网页搜索、代码执行)获取实时外部信息,从而增强仿真的真实性和研究灵活性。

  • 代码开源:https://github.com/camel-ai/oasis
  • 教程地址:https://docs.oasis.camel-ai.org/PyPI
  • 安装:pip install camel-oasis

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
是不是觉得很奇怪:日本打遍了大半个中国,为何没有染指陕西?

是不是觉得很奇怪:日本打遍了大半个中国,为何没有染指陕西?

老澽爆笑大聪明
2026-01-08 17:26:27
带孙子和不带孙子的老人,晚年会有什么区别?一对比区别就大了

带孙子和不带孙子的老人,晚年会有什么区别?一对比区别就大了

人间百态大全
2025-12-29 06:50:03
又老又丑,连普通话都说不好,为何能让千亿富豪对她情有独钟?

又老又丑,连普通话都说不好,为何能让千亿富豪对她情有独钟?

素衣读史
2025-12-20 16:26:36
“最快女护士”张水华辞职后直播秀恩爱,称白岩松是自己恩人

“最快女护士”张水华辞职后直播秀恩爱,称白岩松是自己恩人

大象新闻
2026-01-09 10:06:05
3场三分7中0!火箭射手全面退化?23岁控卫归队助战,或取而代之

3场三分7中0!火箭射手全面退化?23岁控卫归队助战,或取而代之

熊哥爱篮球
2026-01-09 20:59:08
一夜间,特朗普连发五道金牌,把“中美博弈”的遮羞布撕得粉碎!

一夜间,特朗普连发五道金牌,把“中美博弈”的遮羞布撕得粉碎!

百态人间
2026-01-09 17:11:06
比芹菜菠菜管用10倍的“推粪大将”,3天宿便全清,肚腩没了

比芹菜菠菜管用10倍的“推粪大将”,3天宿便全清,肚腩没了

椰青美食分享
2026-01-08 08:11:02
AI应用端持续走强 引力传媒等涨停

AI应用端持续走强 引力传媒等涨停

证券时报
2026-01-09 11:23:03
特朗普表态台湾属于中国后,谷立言急见韩国瑜,郑丽文要宣布大事

特朗普表态台湾属于中国后,谷立言急见韩国瑜,郑丽文要宣布大事

今墨缘
2026-01-09 18:38:41
王石田朴珺婚变风波升级,女方整容前旧照被扒,曾为王石跪式服务

王石田朴珺婚变风波升级,女方整容前旧照被扒,曾为王石跪式服务

瓜汁橘长Dr
2026-01-05 16:48:07
原来很多父亲根本不爱自己孩子!网友:爱其母则抱其子!

原来很多父亲根本不爱自己孩子!网友:爱其母则抱其子!

夜深爱杂谈
2026-01-08 21:50:39
今天实施!茅台,新动作!

今天实施!茅台,新动作!

中国商界杂志社
2026-01-09 16:31:00
随着AC米兰爆大冷门1-1,卡利亚里2-2,意甲最新积分榜出炉

随着AC米兰爆大冷门1-1,卡利亚里2-2,意甲最新积分榜出炉

侧身凌空斩
2026-01-09 06:08:30
马来西亚公开赛4强产生,国羽拿到6席男双覆没,预计2冠

马来西亚公开赛4强产生,国羽拿到6席男双覆没,预计2冠

真理是我亲戚
2026-01-09 20:04:45
比商业航天还猛?核聚变密度极限被突破   10大隐形冠军深度卡位

比商业航天还猛?核聚变密度极限被突破 10大隐形冠军深度卡位

元芳说投资
2026-01-08 06:00:12
疯传!王石的瓜,好狗血!

疯传!王石的瓜,好狗血!

财经要参
2026-01-05 22:13:08
早就想打!日媒首次爆料:中国双航母出动时日军战机已做战斗准备

早就想打!日媒首次爆料:中国双航母出动时日军战机已做战斗准备

诗意世界
2025-08-21 13:13:50
郑州9岁女孩课堂上写试卷时昏倒去世,家属不忍尸检“她怕疼”,当地成立专班调查

郑州9岁女孩课堂上写试卷时昏倒去世,家属不忍尸检“她怕疼”,当地成立专班调查

大风新闻
2026-01-08 14:41:04
官媒发文,曝光王思聪与秦岚真实关系,原来黄圣依一个字都没说错

官媒发文,曝光王思聪与秦岚真实关系,原来黄圣依一个字都没说错

看尽落尘花q
2026-01-08 02:22:16
靠,北向资金杀疯了!298%暴力加仓商业航天唯一隐形王者

靠,北向资金杀疯了!298%暴力加仓商业航天唯一隐形王者

财报翻译官
2026-01-09 15:56:15
2026-01-09 21:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12088文章数 142533关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

女子"出轨"已婚985高校博士后 看到其聊天记录吓傻了

头条要闻

女子"出轨"已婚985高校博士后 看到其聊天记录吓傻了

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

时尚
本地
亲子
游戏
旅游

今日热点:文淇工作室已取证;碧梨又破纪录了……

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

亲子要闻

已召回71个批次的婴儿配方奶粉,速查家里的奶粉,教你正确选

神界更大尺度?玩家想和蜥蜴上床 拉瑞安:马上做

旅游要闻

云南沙溪古镇的风景不错,但更吸引我的,还是这里的纯色山鹪莺

无障碍浏览 进入关怀版