网易首页 > 网易号 > 正文 申请入驻

30个AI Agent大起底:大多数开发商对安全问题讳莫如深

0
分享至

2026年2月,来自MIT、哈佛、斯坦福等高校的研究团队发布了《2025 AI Agent Index》。这份报告对全球30个最具代表性的AI Agent产品进行了系统性记录,横跨法律、技术能力、自主性与控制、生态交互、评估和安全六大维度,共整理了1350个信息字段。报告的数据截止于2025年12月31日。


这不是一份普通的行业综述。研究团队逐一联系了所有被纳入的公司,给了他们四周时间核实和纠正标注内容——结果只有23%的公司作出某种形式的回应,真正提供实质性意见的仅有4家。这个回应率,本身就说明了问题。

报告里有些数字让人难以忽视:在安全、评估与社会影响相关的240个信息字段中,有133个——超过一半——完全没有公开信息可查。

“Agent热”到底有多热

2025年研究论文中提到"AI Agent"或"Agentic AI"的数量,比2020年到2024年五年总和还多出两倍以上。


麦肯锡在2025年6到7月对1993家企业做了调查,结果显示62%的受访组织已经在试验AI Agent。麦肯锡还估计,到2030年,AI Agent可能会自动化掉美国经济中价值2.9万亿美元的工作量。

被纳入这份Index的30个产品,有24个是在2024至2025年间发布或完成重大agentic功能更新的。早期产品如ChatGPT(2022年)和Perplexity(2022年)是后来才加上了agentic能力。

研究团队把这30个产品分成三类:聊天界面型(12个,比如Claude、ChatGPT Agent、Manus AI)、浏览器操控型(5个,比如Perplexity Comet、ChatGPT Atlas、Opera Neon),以及企业工作流型(13个,比如Microsoft Copilot Studio、Salesforce Agentforce、ServiceNow AI Agents)。

谁在做,谁在掌控

地理分布上,21个产品来自美国公司,5个来自中国,其余4个分布在德国(SAP、n8n)、挪威(Opera)和开曼群岛(Manus)。


这里有个明显的分裂:中国公司基本不公开AI安全框架和合规标准。 5家中国公司中,只有1家(Z.ai)发布了AI安全框架,合规标准文档同样只有1家。报告团队特别说明,这可能只是因为中文文档没有被检索到,但他们专门找了中国AI生态专家核查,包括中文文档,结论依然如此。

相比之下,美国公司中76%有AI安全框架,75%有合规标准记录。

整体来看,30个产品里只有15个引用了AI安全框架,比如Anthropic的负责任扩展政策(RSP)、OpenAI的准备框架,或微软的负责任AI标准。10个产品完全没有安全框架文档。

“自主程度”的光谱

研究团队用了Feng等人提出的五级自主性框架来标注每个产品:L1是"用户全程操控",L5是"AI全程自主运行,用户只能旁观"。


聊天型Agent通常在L1到L3之间,以轮次交互为主。Anthropic Claude、Google Gemini、OpenAI ChatGPT都是用户发一条,AI执行一次,然后等下一条。但同一个产品内部,自主程度差异可以很大——比如"普通聊天"是L1,"深度研究模式"可以到L3甚至L5。

浏览器型Agent的自主程度最高,达到L4到L5。 Perplexity Comet和Browser Use一旦收到任务就自主运行,执行过程中用户基本无法介入或中止。这类产品也是报告中安全问题最集中的。

企业型Agent存在"设计阶段"和"部署阶段"的自主性分裂。 设计时,用户用可视化画布手动配置触发器和动作(L1到L2);一旦部署,这些Agent就会在没有任何人工介入的情况下自动响应邮件、数据库变更等事件(L3到L5)。

安全信息:沉默的大多数

这是报告里最值得停留的部分。


133个安全相关字段没有任何公开信息。浏览器型Agent的安全信息缺失率达到64%,企业型Agent达到63%,就连相对透明的聊天型Agent,缺失率也有43%。

在30个产品中:

只有4个有专门针对Agent本身(而非底层模型)的系统卡:ChatGPT Agent、OpenAI Codex、Claude Code和Gemini 2.5 Computer Use。25个产品不披露任何内部安全测试结果。23个产品没有任何第三方测试信息。有记录的第三方测试仅出现在3个产品上:Anthropic Claude、OpenAI ChatGPT和OpenAI Codex。只有9个产品有沙箱或虚拟机隔离的记录,主要集中在开发者工具和浏览器类Agent。9个产品完全没有任何安全防护措施的记录。报告把这种现象称为"弱版本的安全洗白"(a weaker form of safety washing)——企业的安全和伦理框架停留在高层叙述,缺乏实证数据支撑,而且是选择性披露。

有意思的是,另一边的情况刚好相反:9个产品发布了能力基准测试(比如GUI操控或代码生成的跑分),但这些相同的产品往往缺乏安全评估的披露。能力数据发得越多,安全信息反而越少。

在网络上的行为:谁在扮人

浏览器型Agent对互联网生态的影响,是报告专门拿出来讨论的另一个议题。

传统的robots.txt协议让网站可以告诉爬虫"不要抓取这里"。但在Agent时代,这套协议正在失效。报告发现:

30个产品中,只有6个明确声明其爬虫机器人遵守robots.txt。6个产品明确使用类似Chrome浏览器的User-Agent字符串和住宅/本地IP,刻意模仿人类网页请求。Browser Use甚至在产品营销中公开宣传能绕过反机器人系统,"像人一样浏览"。Perplexity对此有自己的说法:AI助手"就像人类助手"在代替用户获取内容,所以不应受到爬虫限制。但Cloudflare记录到Perplexity使用了未申报的爬虫,用通用Chrome签名绕过封锁。亚马逊已经就Perplexity Comet不声明自己是AI Agent的行为提出法律威胁。

在所有30个产品中,只有ChatGPT Agent使用了HTTP请求的密码学签名(RFC 9421),这是唯一能在技术层面证明"这个请求来自AI Agent"的机制。其余产品的行为痕迹在网络上难以被核实或追溯。

评估困境:谁来负责

报告揭示了一个结构性难题。

绝大多数Agent依赖OpenAI、Anthropic、Google这三家的基础模型,外面套一层调用框架和编排层。这创造了一条依赖链:模型提供商 → 编排平台 → Agent构建者 → 终端部署。每个环节都只控制整个系统的一部分(见报告Figure 7)。

这带来两个问题:一是没有任何单一主体能清楚地负责整个系统的安全;二是"针对模型的评估"在很多情况下不等于"针对Agent的评估"——Agent的风险来自规划能力、工具访问权限、记忆机制和系统提示的组合,而不只是底层模型的能力。

企业级Agent构建平台(如Zapier、Salesforce)通常把安全防护责任转移给终端用户:你要配置哪些guardrail,你自己决定。报告认为,监管者和买家很可能从"模型层面的文档"获得错误的安全保证。

论文地址:

https://arxiv.org/pdf/2602.17753

END本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:《2025 AI Agent Index》报告覆盖哪些产品,用什么标准筛选?

报告纳入了30个产品,要求同时满足三类标准:一是具备真正的智能性(能自主运行、追求复杂目标、直接与环境交互、处理模糊指令);二是有足够的影响力(高搜索量、开发商市值超过10亿美元、或属于重要行业成员);三是可评估(公开可用、无需工程背景即可部署、具备通用任务处理能力)。

Q2:《2025 AI Agent Index》报告最核心的发现是什么?

安全信息的系统性缺失,以及"能力透明度"与"安全透明度"之间的倒置关系。越是展示自己跑分跑得好的Agent,往往越不披露安全测试结果。30个产品中,只有4个有针对Agent本身的系统卡,只有3个有记录在案的第三方测试。

Q3:浏览器型Agent为何被单独点名?

浏览器型Agent在自主程度上最高(L4到L5),在安全信息披露上缺口最大(64%字段无信息),在已知安全事件上最集中(提示词注入漏洞主要出现在此类产品),在网络行为上争议最多(绕过robots.txt、模拟人类流量)。Perplexity Comet被单独作为案例分析,2025年有多个研究者记录了其间接注入漏洞和URL攻击漏洞。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卫星图像显示中东5处雷达系统遭袭

卫星图像显示中东5处雷达系统遭袭

财联社
2026-03-07 07:03:04
租用无人机运棺材上山土葬,无人机运输从业者:价格一万出头,一般运送的棺材约七八百斤,云贵川需求多

租用无人机运棺材上山土葬,无人机运输从业者:价格一万出头,一般运送的棺材约七八百斤,云贵川需求多

观威海
2026-03-06 14:23:13
重要信息只说了60%?比亚迪闪充的杀伤力,这次比华为大

重要信息只说了60%?比亚迪闪充的杀伤力,这次比华为大

路咖汽车
2026-03-06 10:15:12
不是那个年代的,你真看不懂

不是那个年代的,你真看不懂

深度报
2026-02-15 23:01:53
戏子当道,是央国企管理中的一大痛点

戏子当道,是央国企管理中的一大痛点

细说职场
2026-03-06 20:01:27
小龙虾最受欢迎的 10 个插件,装上之后才明白它有多强大!

小龙虾最受欢迎的 10 个插件,装上之后才明白它有多强大!

AI范儿
2026-03-06 07:32:29
伊朗全国31个省长一把手,收到“决死命令”,佩泽希齐扬身份坐实

伊朗全国31个省长一把手,收到“决死命令”,佩泽希齐扬身份坐实

漫步独行侠
2026-03-06 10:49:22
新款日产NV200官方谍照曝光!网友:定价9万必卖爆

新款日产NV200官方谍照曝光!网友:定价9万必卖爆

汽车网评
2026-03-06 22:24:14
陪睡陪玩仅冰山一角,鹿晗再爆雷关晓彤被公开内涵暴露圈子的恶俗

陪睡陪玩仅冰山一角,鹿晗再爆雷关晓彤被公开内涵暴露圈子的恶俗

乐悠悠娱乐
2026-03-07 12:09:11
伊朗终于等来最大援兵,特朗普遭史诗级背叛,多国宣布拒绝支援美

伊朗终于等来最大援兵,特朗普遭史诗级背叛,多国宣布拒绝支援美

漫步独行侠
2026-03-06 10:50:26
金与正升任部长!金正恩这样安排劳动党新高层

金与正升任部长!金正恩这样安排劳动党新高层

IN朝鲜
2026-03-06 14:18:44
棱镜门事件内幕,美国派16名特种兵进入澳门,斯若登命运扭转!

棱镜门事件内幕,美国派16名特种兵进入澳门,斯若登命运扭转!

板栗说事
2024-10-13 12:40:43
美司令警告:如果中国在台海设立禁飞区,美军就要击沉解放军军舰

美司令警告:如果中国在台海设立禁飞区,美军就要击沉解放军军舰

咣当地球
2026-03-07 12:06:25
3月8日,王毅答中外记者问

3月8日,王毅答中外记者问

证券时报
2026-03-07 10:39:09
王一博官宣“嫂子”綦美合!?

王一博官宣“嫂子”綦美合!?

八卦疯叔
2026-03-07 10:35:29
重回国乒?尘埃落定,刘国梁发声,岗位曝光,布局国乒男队发展

重回国乒?尘埃落定,刘国梁发声,岗位曝光,布局国乒男队发展

卿子书
2026-03-06 09:25:27
辽宁省委书记怒批有点小权就用到极致,窗口人员8年收1600多万

辽宁省委书记怒批有点小权就用到极致,窗口人员8年收1600多万

潇湘晨报
2026-03-07 09:47:12
刘国梁忍无可忍,道出与樊振东真实关系

刘国梁忍无可忍,道出与樊振东真实关系

孤傲何妨初
2026-03-07 03:37:55
胡兵分享3天减掉14斤方法:减肥没那么难,不要撸铁,不要健身

胡兵分享3天减掉14斤方法:减肥没那么难,不要撸铁,不要健身

悠悠说世界
2026-03-07 00:23:20
列宁曾派特工来到中国,专门暗杀一个人:脑袋至今保存在俄博物馆

列宁曾派特工来到中国,专门暗杀一个人:脑袋至今保存在俄博物馆

老范谈史
2026-03-06 07:28:20
2026-03-07 13:00:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
2101文章数 163关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

媒体:美国打仗遇到人口3000万以上国家就没法全身而退

头条要闻

媒体:美国打仗遇到人口3000万以上国家就没法全身而退

体育要闻

塔图姆归来:凯尔特人的春之绿

娱乐要闻

周杰伦田馥甄的“JH恋” 被扒得底朝天

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

本地
游戏
艺术
公开课
军事航空

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

卡普空还有后手?明年4月之前仍有神秘新作公布

艺术要闻

Mark Grantham | 城市街景

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:使用无人机击中美军"林肯"号航母

无障碍浏览 进入关怀版