网易首页 > 网易号 > 正文 申请入驻

Anthropic 24小时连发2个产品

0
分享至

Anthropic这周干了件少见的事:24小时内连发两个产品。第一个是Project Glasswing——12家科技公司联盟用Claude Mythos Preview模型,自主发现了数千个零日漏洞,横跨所有主流操作系统和浏览器。安全团队看到这类公告,通常第一反应是取消周末计划。

第二个是Claude托管代理(Managed Agents)——一个无需自己管理基础设施、直接构建和运行生产级AI代理的平台。

多数报道都在追Glasswing。我选了另一条路:发布当天就在Managed Agents上搭了一个编辑审核代理,然后把我自己写的Glasswing初稿丢给它审阅。这篇文章就是复盘——平台内部长什么样、代理发现了什么、以及我会给想在上面开发的人什么建议。

产品背后的工程决策

本周的报道把Managed Agents概括为"Anthropic进军代理托管"。这话没错,但漏掉了更有趣的问题:为什么做成这样?

答案藏在Anthropic反复提及的一个词里:基础设施即代码(Infrastructure as Code,IaC)。不是让你租一台带GPU的服务器,而是在YAML文件里定义代理的行为、工具权限和运行环境,然后让平台处理扩缩容、日志和故障恢复。

这种设计选择指向一个判断:代理开发的瓶颈已经从"模型能力"转移到了"运维复杂度"。换句话说,当Claude 4能写能调能规划,真正的摩擦在于如何让它在生产环境里稳定跑上几个月。

我搭建的编辑审核代理用了三个工具:一个读取Google Docs的自定义连接器、一个调用Claude 4 Sonnet进行内容分析的模块、以及一个把评审意见写回文档的写入端。整个配置不到80行YAML,部署花了4分钟。

实际运行:代理看到了什么

我把一篇1500字的Glasswing初稿丢给代理,设定了三个评审维度:事实准确性、逻辑漏洞、以及"假设读者是安全从业者,信息密度是否足够"。

代理的反馈分两类。第一类是预期内的:它标出了三处需要补充来源的断言,建议把"数千个漏洞"的分布情况拆成操作系统/浏览器两列对比,并指出我在第三段把"零日"(zero-day)和"未公开漏洞"混用了——技术上不算错,但对安全读者来说不够精确。

第二类是意外收获。代理注意到我在描述Mythos Preview的"自主发现"能力时,用了"自动扫描"这个词。它建议改为"假设驱动的探索",理由是Anthropic的技术文档强调的是模型生成并验证假设的循环,而非传统扫描器的模式匹配。这个区分很细,但确实影响读者对技术路径的理解。

整个评审过程耗时2分17秒,成本约0.003美元。比我预期快,但比我预期"笨"——它对写作风格的建议相当保守,几乎不会挑战文章的结构选择,除非我显式把"结构清晰度"加入评审维度。

平台的边界与摩擦

Managed Agents不是无代码工具。YAML配置需要理解几个核心概念:代理身份(Agent Identity,决定它能调用哪些工具)、执行环境(Execution Environment,沙箱的权限边界)、以及事件路由(Event Routing,代理如何响应外部触发)。

我遇到的第一个坑是工具权限的颗粒度。Google Docs连接器需要OAuth授权,但Managed Agents的文档没说明如何处理令牌刷新。我在社区论坛找到答案:需要在环境变量里预置刷新令牌,而非访问令牌——一个对熟悉后端开发的人来说很合理、但对纯前端背景的人不明显的细节。

第二个坑是调试体验。代理执行日志按时间线展示,但当一个代理调用另一个代理(Subagent)时,调用链的可视化还不够直观。我花了10分钟才定位到一个循环调用问题:父代理把任务拆给子代理,子代理的返回格式不符合预期,导致父代理反复重试同一任务。

Anthropic的工程师在发布直播里承认这点,说"调用链追踪"是Q3的路线图项目。目前 workaround 是在子代理里显式打印阶段标记,然后在日志里搜索。

与替代方案的对比坐标

托管代理这个赛道已经不空。OpenAI有Agents SDK加Azure托管,Google有Vertex AI Agent Builder,几家创业公司也在做类似的事。

Managed Agents的差异化在于"约束即功能"的设计哲学。平台强制要求显式定义工具权限和环境边界,这增加了初期配置成本,但也降低了长期运维风险。对比之下,OpenAI的Agents SDK更灵活,但把更多安全责任推给了开发者。

一个具体例子:Managed Agents默认禁止代理访问互联网,除非你在YAML里显式声明`allow_internet: true`并指定目标域名白名单。OpenAI的方案是代理可以默认访问,由开发者自己加限制。两种哲学,两种事故模式。

我测试的编辑审核代理不需要联网,但我的另一个实验——让代理实时检索Glasswing的后续报道——就触发了这个限制。配置白名单花了5分钟,但确实让我停下来想了一遍:这个代理真的需要访问arXiv.org吗?还是我只是一厢情愿地想要"更多功能"?

给开发者的实用建议

如果你考虑在Managed Agents上构建,有三件事值得提前想清楚。

第一,代理的"身份"设计比提示词工程更重要。我最初把编辑审核代理的身份定义为"资深科技编辑",结果它对技术细节的挑剔程度不够。改为"安全从业者转行的技术编辑"后,对漏洞分类的准确性要求明显上升。身份定义会隐性影响模型对"好答案"的判断标准。

第二,工具的原子化程度直接决定代理的可靠性。我最初把"读取文档-分析内容-写入评论"做成一个复合工具,失败率约15%。拆成三个独立工具、让代理显式决定何时调用哪个后,失败率降到3%以下。代价是每次评审的token消耗增加了40%,但省下了调试时间。

第三,日志是你唯一的调试界面。Managed Agents目前没有本地模拟器,所有测试必须部署到云端。这意味着迭代周期以分钟计,而非秒计。建议先用Claude Code在本地验证代理的核心逻辑,再迁移到Managed Agents处理编排和扩缩容。

我的编辑审核代理现在已经跑在我的内容工作流里。它不是取代人工审核,而是把"技术事实核查"这个环节从30分钟压缩到3分钟,让我能把时间花在结构重组和角度调整上。

Glasswing和Managed Agents的发布间隔不到24小时,但指向同一个趋势:Anthropic正在把Claude从"回答问题"重新定位为"委托工作"。这个转变的技术基础是模型能力的提升,但产品形态的选择——是做成更聪明的聊天机器人,还是做成可托管的生产系统——决定了它能嵌入什么样的工作流程。

我最后问了我的编辑审核代理一个元问题:如果让它评审这篇关于它自己的文章,它会关注什么?它的回复里有一条被标为"低置信度":它怀疑我对"基础设施即代码"的描述过度简化了Anthropic的实际架构,建议我核实是否所有配置都通过YAML完成,还是部分需要通过控制台UI操作。

这个怀疑是对的。某些高级设置确实需要跳转到控制台。代理比我更清楚自己的边界——或者说,它至少更愿意承认不确定性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6球7失误!好惨的哈登!!他们居然打了4节垃圾时间!!

6球7失误!好惨的哈登!!他们居然打了4节垃圾时间!!

柚子说球
2026-04-27 10:42:33
1992年,陆定一问秦川:如果党的一把手腐败了,那么该由谁来管?

1992年,陆定一问秦川:如果党的一把手腐败了,那么该由谁来管?

阿器谈史
2026-04-26 14:13:38
封神纪录诞生!马刺G4大翻盘客场114-93大胜,缔造季后赛全新纪录

封神纪录诞生!马刺G4大翻盘客场114-93大胜,缔造季后赛全新纪录

夜白侃球
2026-04-27 10:38:01
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
炸裂!北京车展恶性事件!尚界展车惨遭人为损毁,法务部硬核发声

炸裂!北京车展恶性事件!尚界展车惨遭人为损毁,法务部硬核发声

天天热点见闻
2026-04-27 06:27:09
美伊谈判,大消息!刚刚,直线拉升!

美伊谈判,大消息!刚刚,直线拉升!

中国基金报
2026-04-27 09:09:39
丁俊晖:就算赵心童状态不好也能世锦赛卫冕,他比所有球员都厉害

丁俊晖:就算赵心童状态不好也能世锦赛卫冕,他比所有球员都厉害

杨华评论
2026-04-26 21:47:34
贝佐斯与桑切斯户外同游 甜蜜互动满溢爱意

贝佐斯与桑切斯户外同游 甜蜜互动满溢爱意

述家娱记
2026-04-27 07:33:45
35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

离离言几许
2026-04-21 19:53:18
东方甄选主播集体辞职背后说明了什么?

东方甄选主播集体辞职背后说明了什么?

稿得轻松
2026-04-26 16:38:52
天啊!!爱德华兹整个首轮都不打了!!

天啊!!爱德华兹整个首轮都不打了!!

柚子说球
2026-04-27 08:20:04
莫斯科遇袭!乌克兰攻击俄最大雅罗斯拉夫尔炼油厂

莫斯科遇袭!乌克兰攻击俄最大雅罗斯拉夫尔炼油厂

项鹏飞
2026-04-26 22:04:22
霍尔木兹海峡,突传大消息!美伊谈判,重大变数!比特币直线拉升,超7万人爆仓!

霍尔木兹海峡,突传大消息!美伊谈判,重大变数!比特币直线拉升,超7万人爆仓!

证券时报e公司
2026-04-26 22:06:50
特朗普再立奇功!北约成立77年以来首次:美国拜拜,不带你玩了

特朗普再立奇功!北约成立77年以来首次:美国拜拜,不带你玩了

趣文说娱
2026-04-24 21:54:24
台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

浩渺青史
2026-04-26 20:43:40
本想逼宫老俞,却让脸面碎了一地!甄选4大主播的离职瓜变味了

本想逼宫老俞,却让脸面碎了一地!甄选4大主播的离职瓜变味了

观察鉴娱
2026-04-26 13:11:53
世锦赛一夜崩三冠!奥沙利文杀疯了,特鲁姆普第5局又断在59分

世锦赛一夜崩三冠!奥沙利文杀疯了,特鲁姆普第5局又断在59分

宝哥精彩赛事
2026-04-26 15:59:53
李湘上热搜了!半年暴瘦50斤,近日照流出,直接让网友看傻眼了,女人狠起来真没年龄什么事

李湘上热搜了!半年暴瘦50斤,近日照流出,直接让网友看傻眼了,女人狠起来真没年龄什么事

今古深日报
2026-04-27 10:17:14
58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

墨印斋
2026-04-24 16:43:38
从武大硕士到商场导购:诬告学弟性骚扰的杨景媛,终于付出了代价

从武大硕士到商场导购:诬告学弟性骚扰的杨景媛,终于付出了代价

地理三体说
2026-04-25 22:06:06
2026-04-27 11:04:49
算力游侠
算力游侠
游走在API与报错之间,用魔法(AI)打败魔法的非硬核玩家。
1763文章数 21关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

伊朗外长折返伊斯兰堡内情披露:阿曼提出重要提议

头条要闻

伊朗外长折返伊斯兰堡内情披露:阿曼提出重要提议

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

《奔跑吧14》刚播就把一手好牌打稀烂

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

限量630台 兰博基尼Urus SE特别版官图发布

态度原创

游戏
艺术
家居
亲子
军事航空

吃透《合金装备》剧情有多难?蛇叔配音坦言做不到

艺术要闻

华国锋题字“为人民服务”,颜楷风格引发热议!

家居要闻

江景风格 流动的秩序

亲子要闻

好的亲子关系,父母不妨先做好这些 #父母必看系列 #亲子关系

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版