网易首页 > 网易号 > 正文 申请入驻

Anthropic:软件工程占AI智能体调用近五成,垂直领域渗透率极低

0
分享至

IT之家 2 月 22 日消息,AI 智能体已逐渐从概念走向实际应用,几乎所有 AI 厂商都已经推出了自家的 AI 智能体产品。然而,人们对于 AI 智能体在真实世界中的实际使用方式却知之甚少。

Anthropic 于当地时间 2 月 18 日发布了首份 AI 智能体行为实测报告,通过对 Claude Code 及公共 API 上的数百万次人机交互进行隐私保护分析,首次系统性地揭示了 AI 智能体在实际部署中的自主程度、风险分布与监督模式。


研究团队发现,Claude Code 的自主工作时长显著增加,其单次连续自主运行的最长时长在三个月内几乎翻倍。

在 2025 年 10 月至 2026 年 1 月期间,其“turn duration”(即从模型开始执行任务到停止的时间)第 99.9 百分位的运行时长从不足 25 分钟上升至超过 45 分钟。相比之下,中位数时长维持在约 45 秒,且过去数月波动有限。


研究指出,这一增长趋势在不同模型版本发布后变化平滑,说明自主运行时间的增加并非单纯由模型能力提升所致,也可能与用户信任积累、任务复杂度提升及产品优化等因素有关。

在内部使用数据中,Claude Code 在处理最具挑战性任务时的成功率自 2025 年 8 月至 12 月间翻倍增长,与此同时,平均每个会话中的人工干预次数从 5.4 次下降至 3.3 次。研究认为,这表明模型在实际部署中的“可用自主空间”可能高于当前用户赋予的水平。

也就是说,在 Claude Code 中,经验丰富的用户更倾向于采用“全自动模式”,让 Claude 自主运行,仅在需要时介入干预。

相比之下,新用户(使用次数少于 50 次)仅在约 20% 的会话中启用“全自动模式”,而当使用次数达到 750 次以上时,该比例上升至 40% 以上。与此同时,用户中途打断模型执行的比例也从约 5% 上升至约 9%。


Anthropic 在公开 API 数据中也观察到类似情况。针对低复杂度任务(如修改单行代码),约 87% 的工具调用存在某种形式的人工参与;而在高复杂度任务(如查找零日漏洞或编写编译器)中,这一比例降至 67%。研究认为,一方面复杂任务的步骤更多,逐步审批在结构上更难实现;另一方面,复杂任务可能更多源于“老油条”用户。

另外,模型本身也会主动限制其自主性。数据显示,在复杂任务中,Claude Code 因不确定而暂停请求澄清的次数,是人类打断次数的两倍以上。而在高复杂度场景下,模型主动提问的次数同样超过人类主动打断的次数。研究认为,智能体主动确认潜在的问题,是部署系统中的重要监督机制之一。


在风险领域,研究显示,大多数通过公共 API 执行的操作风险较低且可逆。软件工程占所有智能体活动的近 50%,但医疗、金融和网络安全等领域也已出现新兴应用。尽管高风险操作目前占比极小,但一旦出错,其后果可能相当严重。


研究同时指出其局限性,包括仅能分析单一模型提供商的流量、对公共 API 的会话级行为缺乏完整可见性等。基于这些发现,Anthropic 向模型开发者、产品开发者和政策制定者提出建议:投资于部署后监控基础设施、训练模型识别自身不确定性、设计支持用户有效监督的交互工具,并避免过早强制规定具体的交互模式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

都市快报橙柿互动
2026-03-26 07:59:37
改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

风过乡
2026-03-26 05:54:46
欧尔班的好日子到头了

欧尔班的好日子到头了

民间胡扯老哥
2026-03-25 05:22:48
1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

唠叨说历史
2026-03-24 18:52:24
中国手中再添王牌!产值破一万亿,世界五大巨头访华,美再陷困局

中国手中再添王牌!产值破一万亿,世界五大巨头访华,美再陷困局

古史青云啊
2026-03-26 10:14:37
社保基金持股市值居前的重仓股一览

社保基金持股市值居前的重仓股一览

证券时报
2026-03-26 07:34:15
观察丨换电、闪充加速“结网”,电动车补能成竞争关键牌

观察丨换电、闪充加速“结网”,电动车补能成竞争关键牌

澎湃新闻
2026-03-25 14:56:27
攻克美军3大死穴!白宫慌了,中国8马赫电磁炮亮相,颠覆全球防空

攻克美军3大死穴!白宫慌了,中国8马赫电磁炮亮相,颠覆全球防空

万物知识圈
2026-03-26 15:06:53
缅甸为什么不敢承认缅甸汉族?其实原因非常简单!

缅甸为什么不敢承认缅甸汉族?其实原因非常简单!

凡人侃史
2026-03-26 09:42:15
油价又涨了!这次少涨了0.85元左右,国家替车主扛下了大头!

油价又涨了!这次少涨了0.85元左右,国家替车主扛下了大头!

眼界纵横
2026-03-23 15:48:07
德转列世预赛附加赛最贵11人:居莱尔领衔,意大利五人入选

德转列世预赛附加赛最贵11人:居莱尔领衔,意大利五人入选

懂球帝
2026-03-26 16:09:08
岳母发声:去女儿家养老一个月补贴6千,女婿:我妈在养老院3年了

岳母发声:去女儿家养老一个月补贴6千,女婿:我妈在养老院3年了

拾代谈生活
2026-03-26 14:54:48
毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

老杉说历史
2026-03-14 20:54:20
全体台胞收到国台办邀请:统一完成之时,即可从台湾自驾直达北京

全体台胞收到国台办邀请:统一完成之时,即可从台湾自驾直达北京

遁走的两轮
2026-03-26 14:59:28
“科大男生9秒视频”火了,生猛操作令人叹为观止:不愧是高才生

“科大男生9秒视频”火了,生猛操作令人叹为观止:不愧是高才生

妍妍教育日记
2026-03-20 21:33:36
固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

芭比衣橱
2026-03-26 09:52:41
OpenAI重磅揭秘:你认为的AI幻觉,可能是模型故意出错

OpenAI重磅揭秘:你认为的AI幻觉,可能是模型故意出错

新智元
2026-03-25 08:36:09
女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

复转这些年
2026-03-23 20:48:15
猛增2000%!美国“无法接受”,这家中国神秘企业实在太“狂”了

猛增2000%!美国“无法接受”,这家中国神秘企业实在太“狂”了

万物知识圈
2026-03-26 15:00:50
为进组做准备,颖儿直播打热玛吉,疼到捏扁解压球,太敬业了

为进组做准备,颖儿直播打热玛吉,疼到捏扁解压球,太敬业了

TVB的四小花
2026-03-26 13:38:07
2026-03-26 16:44:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336056文章数 607090关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
游戏
教育
时尚
家居

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

教育要闻

2026湖北高职单招工作启动

皮衣+裙,高级到炸

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版