网易首页 > 网易号 > 正文 申请入驻

Anthropic:软件工程占 AI 智能体调用量近五成,垂直领域渗透率极低

0
分享至

2 月 22 日,AI 智能体已逐渐从概念走向实际应用,几乎所有 AI 厂商都已经推出了自家的 AI 智能体产品。然而,人们对于 AI 智能体在真实世界中的实际使用方式却知之甚少。

Anthropic 于当地时间 2 月 18 日发布了首份 AI 智能体行为实测报告,通过对 Claude Code 及公共 API 上的数百万次人机交互进行隐私保护分析,首次系统性地揭示了 AI 智能体在实际部署中的自主程度、风险分布与监督模式。

研究团队发现,Claude Code 的自主工作时长显著增加,其单次连续自主运行的最长时长在三个月内几乎翻倍。

在 2025 年 10 月至 2026 年 1 月期间,其“turn duration”(即从模型开始执行任务到停止的时间)第 99.9 百分位的运行时长从不足 25 分钟上升至超过 45 分钟。相比之下,中位数时长维持在约 45 秒,且过去数月波动有限。

研究指出,这一增长趋势在不同模型版本发布后变化平滑,说明自主运行时间的增加并非单纯由模型能力提升所致,也可能与用户信任积累、任务复杂度提升及产品优化等因素有关。

在内部使用数据中,Claude Code 在处理最具挑战性任务时的成功率自 2025 年 8 月至 12 月间翻倍增长,与此同时,平均每个会话中的人工干预次数从 5.4 次下降至 3.3 次。研究认为,这表明模型在实际部署中的“可用自主空间”可能高于当前用户赋予的水平。

也就是说,在 Claude Code 中,经验丰富的用户更倾向于采用“全自动模式”,让 Claude 自主运行,仅在需要时介入干预。

相比之下,新用户(使用次数少于 50 次)仅在约 20% 的会话中启用“全自动模式”,而当使用次数达到 750 次以上时,该比例上升至 40% 以上。与此同时,用户中途打断模型执行的比例也从约 5% 上升至约 9%。

Anthropic 在公开 API 数据中也观察到类似情况。针对低复杂度任务(如修改单行代码),约 87% 的工具调用存在某种形式的人工参与;而在高复杂度任务(如查找零日漏洞或编写编译器)中,这一比例降至 67%。研究认为,一方面复杂任务的步骤更多,逐步审批在结构上更难实现;另一方面,复杂任务可能更多源于“老油条”用户。

另外,模型本身也会主动限制其自主性。数据显示,在复杂任务中,Claude Code 因不确定而暂停请求澄清的次数,是人类打断次数的两倍以上。而在高复杂度场景下,模型主动提问的次数同样超过人类主动打断的次数。研究认为,智能体主动确认潜在的问题,是部署系统中的重要监督机制之一。

在风险领域,研究显示,大多数通过公共 API 执行的操作风险较低且可逆。软件工程占所有智能体活动的近 50%,但医疗、金融和网络安全等领域也已出现新兴应用。尽管高风险操作目前占比极小,但一旦出错,其后果可能相当严重。

研究同时指出其局限性,包括仅能分析单一模型提供商的流量、对公共 API 的会话级行为缺乏完整可见性等。基于这些发现,Anthropic 向模型开发者、产品开发者和政策制定者提出建议:投资于部署后监控基础设施、训练模型识别自身不确定性、设计支持用户有效监督的交互工具,并避免过早强制规定具体的交互模式。

本文源自:IT之家

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陪伴6年,终于回本!高瓴资本突然减持格力,套现43亿...

陪伴6年,终于回本!高瓴资本突然减持格力,套现43亿...

金石随笔
2026-02-26 00:12:30
李亚鹏大年初八请前岳母吃米线,3岁女儿开心,海哈金喜明媚漂亮

李亚鹏大年初八请前岳母吃米线,3岁女儿开心,海哈金喜明媚漂亮

离离言几许
2026-02-24 13:33:57
当时很多蒙古考察日记中,都提到蒙古人性交随意,得病者极多!

当时很多蒙古考察日记中,都提到蒙古人性交随意,得病者极多!

老范谈史
2026-02-24 14:51:55
好消息:2026年起70岁以上老人可享优待,农民也不例外

好消息:2026年起70岁以上老人可享优待,农民也不例外

风雨与阳光
2026-02-25 22:03:05
16强赛踢枪手还是拜仁?霍夫曼:我选阿森纳,会更有意思一些

16强赛踢枪手还是拜仁?霍夫曼:我选阿森纳,会更有意思一些

懂球帝
2026-02-25 16:02:12
WTT大满贯!女单8强赛对阵,世界亚军1-3出局,王曼昱肩负重任

WTT大满贯!女单8强赛对阵,世界亚军1-3出局,王曼昱肩负重任

以茶带书
2026-02-25 19:20:55
语出惊人!韩国瑜用“湿纸贴脸”警告蓝营,绿营大佬竟这样回应?

语出惊人!韩国瑜用“湿纸贴脸”警告蓝营,绿营大佬竟这样回应?

爱下厨的阿酾
2026-02-26 06:38:54
豆包推荐:人生回报率最高的8件事,尽早“焊死”在孩子身上

豆包推荐:人生回报率最高的8件事,尽早“焊死”在孩子身上

十点读书
2026-02-20 18:37:13
他是军统正局长,一生暗中帮我党,死后破例葬入八宝山,民族脊梁

他是军统正局长,一生暗中帮我党,死后破例葬入八宝山,民族脊梁

历史人文2
2026-02-24 16:10:55
炸锅!曼联铁了心清洗 5000 万水货,新帅说了都不算?

炸锅!曼联铁了心清洗 5000 万水货,新帅说了都不算?

奶盖熊本熊
2026-02-26 05:21:57
毛奇、李佩霞2026年近况公布,两人服刑结局给所有人提了醒

毛奇、李佩霞2026年近况公布,两人服刑结局给所有人提了醒

娱乐督察中
2026-02-21 03:23:47
普京以俄罗斯总统身份发表了全国讲话,对百万俄军下达最新指示?

普京以俄罗斯总统身份发表了全国讲话,对百万俄军下达最新指示?

负面黑洞
2026-02-24 11:01:35
WTT大满贯16强诞生!26日赛程出炉,3场中日对决,王楚钦迎复仇战

WTT大满贯16强诞生!26日赛程出炉,3场中日对决,王楚钦迎复仇战

陌识
2026-02-26 00:07:28
好莱坞顶流女星“悉尼妹”自曝亲历“经济斩杀线”

好莱坞顶流女星“悉尼妹”自曝亲历“经济斩杀线”

春天不是读书天
2026-02-25 16:59:13
上海楼市“新七条”落地当天:两类群体咨询升温,有房东重新挂牌

上海楼市“新七条”落地当天:两类群体咨询升温,有房东重新挂牌

澎湃新闻
2026-02-25 22:22:28
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
白天作陪晚上同宿?明码标价8000一回!高端伴游沦为色情交易窝点

白天作陪晚上同宿?明码标价8000一回!高端伴游沦为色情交易窝点

网络易不易
2026-01-20 10:17:46
日本横竖想不明白,高市大选赢了好几天了,中国怎么还不认?

日本横竖想不明白,高市大选赢了好几天了,中国怎么还不认?

一簌月光
2026-02-26 04:18:41
《好好的时光》央视首播收视第1,观众评价一针见血,扮嫩又闹腾

《好好的时光》央视首播收视第1,观众评价一针见血,扮嫩又闹腾

娱君坠星河
2026-02-24 11:54:23
教育部:学生每天体育2小时、课间15分钟已在全国所有省份部署推开

教育部:学生每天体育2小时、课间15分钟已在全国所有省份部署推开

财联社
2026-02-25 18:55:14
2026-02-26 08:59:00
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 545959关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

中方对日方出口管制措施落地后 高市早苗表态了

头条要闻

中方对日方出口管制措施落地后 高市早苗表态了

体育要闻

勇士爆冷惜败鹈鹕 梅尔顿28分赛季新高

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

短剧市场风云突变!有人投百万赔得精光

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

艺术
本地
旅游
数码
教育

艺术要闻

一幅眼花缭乱草书:从书法创作到青少年书法教育的思考

本地新闻

津南好·四时总相宜

旅游要闻

市花开了!主题公园今年有望启动

数码要闻

Steam客户端获Beta测试版更新,改善硬件调查对多显卡系统识别

教育要闻

最后2天!2026山东单招综招志愿填报操作手册来了!最低录取分仅15分!

无障碍浏览 进入关怀版