网易首页 > 网易号 > 正文 申请入驻

Anthropic:软件工程占AI智能体调用近五成,垂直领域渗透率极低

0
分享至

IT之家 2 月 22 日消息,AI 智能体已逐渐从概念走向实际应用,几乎所有 AI 厂商都已经推出了自家的 AI 智能体产品。然而,人们对于 AI 智能体在真实世界中的实际使用方式却知之甚少。

Anthropic 于当地时间 2 月 18 日发布了首份 AI 智能体行为实测报告,通过对 Claude Code 及公共 API 上的数百万次人机交互进行隐私保护分析,首次系统性地揭示了 AI 智能体在实际部署中的自主程度、风险分布与监督模式。


研究团队发现,Claude Code 的自主工作时长显著增加,其单次连续自主运行的最长时长在三个月内几乎翻倍。

在 2025 年 10 月至 2026 年 1 月期间,其“turn duration”(即从模型开始执行任务到停止的时间)第 99.9 百分位的运行时长从不足 25 分钟上升至超过 45 分钟。相比之下,中位数时长维持在约 45 秒,且过去数月波动有限。


研究指出,这一增长趋势在不同模型版本发布后变化平滑,说明自主运行时间的增加并非单纯由模型能力提升所致,也可能与用户信任积累、任务复杂度提升及产品优化等因素有关。

在内部使用数据中,Claude Code 在处理最具挑战性任务时的成功率自 2025 年 8 月至 12 月间翻倍增长,与此同时,平均每个会话中的人工干预次数从 5.4 次下降至 3.3 次。研究认为,这表明模型在实际部署中的“可用自主空间”可能高于当前用户赋予的水平。

也就是说,在 Claude Code 中,经验丰富的用户更倾向于采用“全自动模式”,让 Claude 自主运行,仅在需要时介入干预。

相比之下,新用户(使用次数少于 50 次)仅在约 20% 的会话中启用“全自动模式”,而当使用次数达到 750 次以上时,该比例上升至 40% 以上。与此同时,用户中途打断模型执行的比例也从约 5% 上升至约 9%。


Anthropic 在公开 API 数据中也观察到类似情况。针对低复杂度任务(如修改单行代码),约 87% 的工具调用存在某种形式的人工参与;而在高复杂度任务(如查找零日漏洞或编写编译器)中,这一比例降至 67%。研究认为,一方面复杂任务的步骤更多,逐步审批在结构上更难实现;另一方面,复杂任务可能更多源于“老油条”用户。

另外,模型本身也会主动限制其自主性。数据显示,在复杂任务中,Claude Code 因不确定而暂停请求澄清的次数,是人类打断次数的两倍以上。而在高复杂度场景下,模型主动提问的次数同样超过人类主动打断的次数。研究认为,智能体主动确认潜在的问题,是部署系统中的重要监督机制之一。


在风险领域,研究显示,大多数通过公共 API 执行的操作风险较低且可逆。软件工程占所有智能体活动的近 50%,但医疗、金融和网络安全等领域也已出现新兴应用。尽管高风险操作目前占比极小,但一旦出错,其后果可能相当严重。


研究同时指出其局限性,包括仅能分析单一模型提供商的流量、对公共 API 的会话级行为缺乏完整可见性等。基于这些发现,Anthropic 向模型开发者、产品开发者和政策制定者提出建议:投资于部署后监控基础设施、训练模型识别自身不确定性、设计支持用户有效监督的交互工具,并避免过早强制规定具体的交互模式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《生化危机9》女主死亡动画曝光 或为系列最血腥!

《生化危机9》女主死亡动画曝光 或为系列最血腥!

3DM游戏
2026-02-23 13:59:07
从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

旧书卷里的长安
2026-02-22 00:08:58
中国要做好战争准备,中国的下场战争不是印度菲律宾越南而是日本

中国要做好战争准备,中国的下场战争不是印度菲律宾越南而是日本

百态人间
2026-01-09 17:17:17
38岁老板娘沦为陪睡工具:揭秘黑茶高端骗局,入局者10有9个离婚

38岁老板娘沦为陪睡工具:揭秘黑茶高端骗局,入局者10有9个离婚

云景侃记
2026-02-12 22:21:30
女子误转69万元公款,对方拒绝退款!警方介入,收款人:你们管得着吗

女子误转69万元公款,对方拒绝退款!警方介入,收款人:你们管得着吗

都市快报橙柿互动
2026-02-24 12:03:27
工龄44年,个人账户99097.27元,60岁退休,养老金有多少?

工龄44年,个人账户99097.27元,60岁退休,养老金有多少?

刘哥谈体育
2026-02-24 16:56:02
谷爱凌回应万斯的批评:你不管别人,就只管我,那是因为我能赢

谷爱凌回应万斯的批评:你不管别人,就只管我,那是因为我能赢

我心纵横天地间
2026-02-21 18:50:22
7名中国游客溺亡,有人称事发前就看到冰裂

7名中国游客溺亡,有人称事发前就看到冰裂

南方都市报
2026-02-24 17:38:49
月之暗面近20天收入超去年全年

月之暗面近20天收入超去年全年

i黑马
2026-02-24 09:19:46
9.49万起!新轩逸配8155芯片+双联屏

9.49万起!新轩逸配8155芯片+双联屏

IT之家
2026-02-24 16:23:08
弟弟跨越1200公里探望远嫁姐姐,目睹辛酸生活后泪目:你跟我回家

弟弟跨越1200公里探望远嫁姐姐,目睹辛酸生活后泪目:你跟我回家

艺鉴在线
2026-02-24 03:43:52
都在质疑是不是演的?看完小乩童下轿这30秒,评论区彻底安静了

都在质疑是不是演的?看完小乩童下轿这30秒,评论区彻底安静了

奇思妙想生活家
2026-02-22 12:38:41
杨丽萍被偶遇,纯素颜下巴叠出5层褶,原生指甲长又白看着很粗糙

杨丽萍被偶遇,纯素颜下巴叠出5层褶,原生指甲长又白看着很粗糙

阿讯说天下
2026-02-24 16:39:39
特朗普“新联合国”首次开会,只来了1个客人?中方6个字定调

特朗普“新联合国”首次开会,只来了1个客人?中方6个字定调

百科密码
2026-02-23 17:08:26
广东一高速拥堵,交警硬核带队“借对向车道通行”

广东一高速拥堵,交警硬核带队“借对向车道通行”

新快报新闻
2026-02-23 22:47:23
18点,CCTV5直播!世预赛关键一战:中国VS日本,冈谷大成放狠话

18点,CCTV5直播!世预赛关键一战:中国VS日本,冈谷大成放狠话

篮球扫地僧
2026-02-23 22:54:43
75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

可乐谈情感
2026-02-24 16:28:42
不管你的孩子优不优秀,千万不要“逢人就讲”,父母别不当回事

不管你的孩子优不优秀,千万不要“逢人就讲”,父母别不当回事

新东方家庭教育
2026-01-13 09:37:57
正面回怼奇葩亲戚是啥体验?网友:我家里人也说我说话太厉害了

正面回怼奇葩亲戚是啥体验?网友:我家里人也说我说话太厉害了

解读热点事件
2026-02-06 00:51:21
在国安局食堂吃饭时,无意发现打菜的师傅,竟是我追踪的千面间谍

在国安局食堂吃饭时,无意发现打菜的师傅,竟是我追踪的千面间谍

千秋文化
2026-02-19 10:43:29
2026-02-24 18:11:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
330739文章数 607013关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

墨西哥头号毒枭毙命引全国性报复 度假胜地街头变火海

头条要闻

墨西哥头号毒枭毙命引全国性报复 度假胜地街头变火海

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

杨洋传遇上缅北剧组 开机就离开剧组?

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

本地
教育
家居
数码
房产

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

教育要闻

这8个专业,本科就业也能“赢麻了”,考生高考志愿填报必看!

家居要闻

本真栖居 爱暖伴流年

数码要闻

AI实战性能猛增!铠侠VE10 2TB PCIe 5.0 SSD测评

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

无障碍浏览 进入关怀版