网易首页 > 网易号 > 正文 申请入驻

AI公司推动用户从聊天机器人转向管理智能体团队

0
分享至


周四,Anthropic和OpenAI推出了基于相同理念的产品:用户不再是与单个AI助手聊天,而是管理分工协作、并行运行的AI智能体团队。这些同步发布标志着整个行业从AI作为对话伙伴向AI作为代理劳动力的逐步转变,而据报道,这一概念在本周导致软件股蒸发2850亿美元市值。

这种监督管理模式在实践中是否有效仍是一个开放问题。当前的AI智能体仍需要大量人工干预来捕捉错误,目前还没有独立评估证实这些多智能体工具能够可靠地超越单独开发人员的表现。

尽管如此,这些公司仍在全力押注智能体技术。Anthropic的贡献是Claude Opus 4.6,这是其最先进AI模型的新版本,配备了Claude Code中名为"智能体团队"的功能。智能体团队让开发人员可以启动多个AI智能体,将任务分解为独立部分,自主协调并并发运行。

在实践中,智能体团队看起来像一个分屏终端环境:开发人员可以使用Shift+Up/Down在子智能体之间跳转,直接接管任何一个,并观察其他智能体继续工作。Anthropic将此功能描述为最适合"分解为独立的、以读取为主的工作,如代码库审查"的任务。该功能作为研究预览版提供。

同时,OpenAI发布了Frontier,这是一个企业平台,公司将其描述为"雇佣AI同事,承担人们在计算机上已经在做的许多任务"的方式。Frontier为每个AI智能体分配自己的身份、权限和记忆,并连接到现有的业务系统,如客户关系管理系统、票务工具和数据仓库。"我们根本上在做的是将智能体转变为真正的AI同事,"OpenAI商业对商业总经理Barret Zoph对CNBC表示。

尽管关于这些智能体成为同事的宣传很热烈,但根据我们的经验,如果将这些智能体视为放大现有技能的工具,而不是营销语言暗示的自主同事,它们往往工作得最好。它们能快速产生令人印象深刻的草稿,但仍需要持续的人工纠正。

Frontier的发布距离OpenAI发布Codex新macOS桌面应用仅三天,OpenAI高管将其描述为"智能体的指挥中心"。Codex应用让开发人员可以并行运行多个智能体线程,每个都通过Git工作树在代码库的隔离副本上工作。

OpenAI周四还发布了GPT-5.3-Codex,这是一个为Codex应用提供动力的新AI模型。OpenAI声称,Codex团队使用GPT-5.3-Codex的早期版本来调试模型自身的训练运行、管理其部署和诊断测试结果,这与OpenAI在12月接受Ars Technica采访时所说的类似。

"我们的团队对Codex能够加速自身开发的程度感到震惊,"公司写道。在Terminal-Bench 2.0(智能体编程基准测试)上,GPT-5.3-Codex得分77.3%,比Anthropic刚发布的Opus 4.6高出约12个百分点。

所有这些产品的共同特点是用户角色的转变。开发人员或知识工作者不再只是输入提示并等待单一回应,而是更像一个监督者,分派任务、监控进度,并在智能体需要指导时介入。

在这种愿景中,开发人员和知识工作者实际上成为AI的中层管理者。也就是说,他们不是自己编写代码或进行分析,而是委派任务、审查输出,并希望他们下属的智能体不会悄悄搞砸事情。这是否会实现(或者是否真的是一个好想法)仍在广泛辩论中。

Claude背后的新模型

Opus 4.6是对Anthropic旗舰模型的重大更新。它继承了Anthropic在11月发布的Claude Opus 4.5。在Opus模型系列中首次支持高达100万Token的上下文窗口(测试版),这意味着它可以在单个会话中处理更大量的文本或代码。

在基准测试中,Anthropic表示Opus 4.6在多项评估中超越了OpenAI的GPT-5.2(比今天发布的模型更早)和Google的Gemini 3 Pro,包括Terminal-Bench 2.0(智能体编程测试)、人类最后考试(多学科推理测试)和BrowseComp(在线查找难以定位信息的测试)。

应该注意的是,OpenAI当天发布的GPT-5.3-Codex似乎在Terminal-Bench上重新夺回了领先地位。在ARC AGI 2(试图测试解决对人类来说容易但对AI模型来说困难的问题的能力)上,Opus 4.6得分68.8%,相比之下Opus 4.5为37.6%,GPT-5.2为54.2%,Gemini 3 Pro为45.1%。

像往常一样,对AI基准测试要持保留态度,因为客观衡量AI模型能力是一门相对较新且未定的科学。

Anthropic还表示,在名为MRCR v2的长上下文检索基准测试中,Opus 4.6在100万Token变体上得分76%,相比之下其Sonnet 4.5模型为18.5%。这种差距对智能体团队使用案例很重要,因为在大型代码库中工作的智能体需要跟踪数十万Token的信息而不丢失线索。

API定价与Opus 4.5保持相同,每百万输入Token 5美元,每百万输出Token 25美元,超过20万Token的提示按10美元/37.50美元的溢价收费。Opus 4.6在claude.ai、Claude API和所有主要云平台上可用。

市场外部的冲击

这些发布发生在软件股异常波动的一周内。1月30日,Anthropic为Cowork发布了11个开源插件,这是其在1月12日推出的智能体生产力工具。Cowork本身是一个通用工具,让Claude能够访问本地文件夹进行工作任务,但插件将其扩展到特定的专业领域:法律合同审查、保密协议分类、合规工作流程、财务分析、销售和营销。

据报道,到周二,投资者对这一发布的反应是抹去了软件、金融服务和资产管理股票约2850亿美元的市值。高盛美国软件股票篮子当天下跌6%,这是自4月关税驱动抛售以来最陡峭的单日跌幅。汤森路透领跌18%,痛苦蔓延到欧洲和亚洲市场。

投资者据称担心AI模型公司打包完整工作流程与现有软件即服务供应商竞争,尽管这些工具是否能够实现这些任务的结论仍未确定。

OpenAI的Frontier可能会加深这种担忧:其既定设计让AI智能体登录应用程序、执行任务并以最少的人工参与管理工作,《财富》杂志将此描述为成为"企业操作系统"的努力。OpenAI应用首席执行官Fidji Simo反驳了Frontier取代现有软件的想法,告诉记者:"Frontier实际上是对我们不会自己构建一切的认识。"

无论这些协作应用是否真的达到其宣传效果,趋同性都难以忽视。Anthropic的企业产品负责人Scott White给这种做法起了一个可能让人翻白眼的名字。"每个人都看到软件工程在过去一年半中发生了这种转变,氛围编程开始作为一个概念存在,人们现在可以用他们的想法做事情,"White对CNBC说。"我认为我们现在几乎正在过渡到氛围工作。"

Q&A

Q1:Anthropic的智能体团队功能是什么?它如何工作?

A:智能体团队是Claude Code中的一项功能,让开发人员可以启动多个AI智能体,将任务分解为独立部分,自主协调并并发运行。在实践中看起来像分屏终端环境,开发人员可以在子智能体之间跳转,直接接管任何一个,并观察其他智能体继续工作。

Q2:OpenAI的Frontier平台有什么特点?

A:Frontier是OpenAI的企业平台,旨在"雇佣AI同事"承担人们在计算机上的许多任务。它为每个AI智能体分配独立的身份、权限和记忆,并连接到现有业务系统如客户关系管理系统、票务工具和数据仓库,让AI智能体能够登录应用程序、执行任务并管理工作。

Q3:Claude Opus 4.6相比前代有什么提升?

A:Opus 4.6支持高达100万Token的上下文窗口,可以在单个会话中处理更大量的文本或代码。在多项基准测试中表现优异,特别是在ARC AGI 2测试中得分68.8%,相比前代的37.6%有显著提升。在长上下文检索基准测试中,100万Token变体得分76%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闹大了!上海一家长哭诉,孩子刚上大学提出要把20多万压岁钱拿走

闹大了!上海一家长哭诉,孩子刚上大学提出要把20多万压岁钱拿走

火山詩话
2026-02-13 07:30:50
珠海正方集团有限公司原党委书记、董事长、总经理唐亮严重违纪违法被开除党籍和公职

珠海正方集团有限公司原党委书记、董事长、总经理唐亮严重违纪违法被开除党籍和公职

潇湘晨报
2026-02-12 20:07:10
美媒:不费一枪一弹,乌克兰获得2026年的首场大捷,俄罗斯上当了

美媒:不费一枪一弹,乌克兰获得2026年的首场大捷,俄罗斯上当了

古史青云啊
2026-02-11 10:44:17
比亚迪年底现离职潮,员工爆要接三四人活扛不住

比亚迪年底现离职潮,员工爆要接三四人活扛不住

新浪财经
2026-02-11 14:56:47
印度2nm成功流片!

印度2nm成功流片!

中国半导体论坛
2026-02-11 22:26:02
以为改名就能红,结果是越改越糊,这5位多次改名的明星好心酸

以为改名就能红,结果是越改越糊,这5位多次改名的明星好心酸

上官晚安
2026-02-12 11:33:26
刘少昂半决赛两次被影响却未有任何判罚!中国网友:谁来心疼他

刘少昂半决赛两次被影响却未有任何判罚!中国网友:谁来心疼他

Emily说个球
2026-02-13 04:35:22
巨亏82亿美元,全球销量被比亚迪超越,福特2025年到底经历了什么?

巨亏82亿美元,全球销量被比亚迪超越,福特2025年到底经历了什么?

华夏时报
2026-02-11 21:53:09
81年,原军统特务写信要求享离休待遇,邓颖超批示:不要亏待了他

81年,原军统特务写信要求享离休待遇,邓颖超批示:不要亏待了他

春秋砚
2026-02-12 07:00:07
李亚鹏突然提到十年前最难时给黄晓明发短信,不到一分钟收到回复

李亚鹏突然提到十年前最难时给黄晓明发短信,不到一分钟收到回复

百态人间
2026-02-10 15:25:10
美媒爆料:伊朗骚乱期间出现互联网中断后,美国曾秘密向伊朗运送约6000套“星链”终端

美媒爆料:伊朗骚乱期间出现互联网中断后,美国曾秘密向伊朗运送约6000套“星链”终端

环球网资讯
2026-02-13 10:21:41
26分钟限定!小贾伦创NBA历史第一神迹,爵士这波赚大了

26分钟限定!小贾伦创NBA历史第一神迹,爵士这波赚大了

大眼瞄世界
2026-02-13 03:54:16
官方:埃斯-贝利代替受伤的状元弗拉格,参加NBA新秀挑战赛

官方:埃斯-贝利代替受伤的状元弗拉格,参加NBA新秀挑战赛

懂球帝
2026-02-13 01:35:40
河南小伙在非洲16年,当地一夫多妻制,男人只用玩,女人挣钱养家

河南小伙在非洲16年,当地一夫多妻制,男人只用玩,女人挣钱养家

大鱼简科
2026-02-07 16:50:52
《身体疼痛对照表》很难得!(建议收藏)

《身体疼痛对照表》很难得!(建议收藏)

诗词天地
2026-02-12 01:37:57
征服中年女人,无需套路:两颗真心,一生相守

征服中年女人,无需套路:两颗真心,一生相守

青苹果sht
2025-11-04 06:10:40
《太平年》里那些被强行“洗白”的人物!

《太平年》里那些被强行“洗白”的人物!

梦归秋辰
2026-02-12 15:38:20
柬埔寨国王72岁了:没钱没权,无妻无子,和89岁老母亲相依为命

柬埔寨国王72岁了:没钱没权,无妻无子,和89岁老母亲相依为命

照见古今
2025-12-31 20:48:07
惊天秘密!宋高宗竟选择赵匡胤后代当皇帝?真相曝光!

惊天秘密!宋高宗竟选择赵匡胤后代当皇帝?真相曝光!

晓张说
2026-02-12 14:55:48
史诗级逆转!崔佳温从严重摔倒到演绝杀喊妈妈 夺韩国百年雪上首金

史诗级逆转!崔佳温从严重摔倒到演绝杀喊妈妈 夺韩国百年雪上首金

劲爆体坛
2026-02-13 08:18:04
2026-02-13 10:55:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16149文章数 49690关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

牛弹琴:特朗普最近干了三件事 让全世界大吃一惊

头条要闻

牛弹琴:特朗普最近干了三件事 让全世界大吃一惊

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

最大续航703km!全新奔驰纯电GLC 350 L即将国产

态度原创

时尚
手机
游戏
数码
本地

50+女人怎么穿更好看?过来人告诉你答案,越老越美赢麻了

手机要闻

内存暴涨新款减配 3款天玑老旗舰大存储随便选

PS独占大作《沙罗周期》游戏机制曝光!官方亲述

数码要闻

Apple Creator Studio用户反馈苹果AI额度触顶过快

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

无障碍浏览 进入关怀版