网易首页 > 网易号 > 正文 申请入驻

Anthropic预测:2025是智能体系统年!年终总结分享最佳实践

0
分享至

新智元报道

编辑:alan

【新智元导读】近日,Anthropic开发者关系主管发推表示:万事俱备,2025年将是智能体系统之年!在年终总结的博文中,Anthropic分享了一年来与客户合作构建智能体系统的最佳实践。

模型到应用之间的距离,就是烧钱与搞钱之间的距离。

这条路上,Agent已经身经百战,万事俱备。

在这个2024的结尾,Anthropic开发者关系主管Alex Albert表示:2025年将是智能体系统之年!

「各个部分正在就位,是时候开始考虑构建这些系统了。」

过去的一年里,Anthropic与数十个团队合作,构建了跨行业的大语言模型智能体系统。

实战表明,最成功的实现方式并不是使用复杂的框架或专用库,而是应用简单的可组合模式。

根据与客户合作的经验,Anthropic在年末总结的博文中分享了构建有效智能体系统的实用建议。

Agent系统最佳实践

智能体(Agent)可以有多种定义方式,比如将其视为完全自主的系统,可以在较长时间内独立运行,并使用各种工具完成复杂的任务。

这听起来很像另一个名词:工作流,但两者之间有着重要的架构区别:

工作流是通过预定义的代码路径来调用LLM和工具的系统; 而智能体则是LLM动态指导自己的流程和使用工具,控制完成任务方式的系统。

那么,什么时候使用智能体?什么时候使用工作流?

一个原则是:找到尽可能简单的解决方案,并且仅在需要时增加复杂性。

智能体系统通常会以延迟和成本为代价来获得更好的任务性能,开发者应当根据实际情况权衡,是否真的需要构建智能体系统。

当需要更高的复杂性时,工作流为定义明确的任务提供可预测性和一致性;当需要大规模的灵活性和模型驱动的决策时,智能体是更好的选择。

对于许多应用程序来说,使用检索和上下文来优化单个LLM调用通常就足够了。

何时使用框架

有许多现成的框架可以帮助构建智能体系统,比如:

LangChain的LangGraph; Amazon Bedrock的AI Agent框架 Rivet,拖放式GUI LLM工作流构建器; Vellum,用于构建和测试复杂工作流的GUI工具

框架简化了标准的低级任务(如调用LLM、定义和解析工具、将调用整合在一起),但通常会创建额外的抽象层。

这可能会掩盖底层提示和响应,使系统更难调试。但开发者有时会禁不住框架的诱惑而选择增加系统的复杂性。

Anthropic建议开发人员尽量直接使用LLM(许多功能只需几行代码就能搞定),如果确实需要使用框架,请确保先了解底层代码,——对框架实现原理的错误假设是错误的常见来源。

从0开始构建系统

生产中的常见模式,是从基础模块开始,逐步增加复杂性,从简单的组合工作流到自主智能体系统。

基础模块:增强型LLM

智能体系统的基本构建块是LLM,并通过检索、使用工具和记忆等功能进行了增强。

增强型LLM可以主动使用这些功能,生成自己的搜索查询、选择适当的工具并确定要保留的信息。

Anthropic建议在实施中关注两个关键方面:根据特定应用定制这些功能,以及确保为LLM提供简单且文档健全的接口。

比如Anthropic最近发布的Model Context Protocol,允许开发人员通过简单的客户端实现与各种第三方工具进行集成。

提示链(Prompt chaining)

提示链将任务分解为一系列步骤,每个LLM调用都会处理前一个调用的输出。可以在任何中间步骤中添加编程检查,以确保流程处于正轨。

这种工作流非常适合可以轻松将任务分解为固定子任务的情况(每个LLM负责一个简单的子任务)。

提示链应用场景:

生成市场营销策略,然后将其翻译成不同的语言。 编写文档的大纲,检查大纲是否满足特定条件,然后根据大纲编写文档。

路由(Routing)

路由对输入进行分类并将其定向到专门的后续任务,这个过程可以分离关注点,并构建更专业的提示。否则,针对一种输入进行优化可能会损害其他输入的性能。

路由适用于复杂任务,通过LLM或更传统的分类算法准确处理分类,对于不同类别的子任务,可以更好地单独处理。

路由应用场景:

将不同类型的客户服务查询(一般问题、退款请求、技术支持)引导到不同的下游流程、提示和工具中。 将简单常见的问题路由到较小的模型(如Claude 3.5 Haiku),将困难的问题路由到功能更强大的模型(如Claude 3.5 Sonnet),以优化成本和速度。

并行化(Parallelization)

LLM有时并行处理一项任务,并以编程方式聚合其输出。并行化工作流有两种形式:

分段(Sectioning):将任务分解可以为并行运行的独立子任务。 投票(Voting):多次运行同一任务,获得不同的输出。

当已划分的子任务可以并行执行,或者需要多次推理以获得更高置信度的结果时,并行化非常有效。

对于需要考虑多个因素的复杂任务,让单独的LLM负责一个特定的方面,通常会提高系统的表现力。

并行化的应用场景:

一个模型实例处理用户查询,另一个模型实例筛选用户查询是否存在不适当的内容。这往往比使用相同的LLM同时处理安全校验和核心响应的性能要好。 自动评估LLM的性能:每个LLM调用都会评估模型在给定提示符下性能的不同方面。 检查一段代码是否存在漏洞,如果发现问题,则触发不同的提示来检查并标记代码。 评估给定的内容是否合适:多个提示用来评估不同的方面或使用不同的投票阈值来平衡误报和漏报。

Orchestrator-workers

在orchestrator-workers工作流中,中央LLM动态分解任务,将它们委托给worker LLM,并综合其结果。

这种工作流非常适合于无法预测所需子任务的复杂任务(比如编码中,需要更改的文件数以及每个文件中更改的内容取决于实际情况)。

orchestrator-workers与并行化在拓扑上相似,主要区别在于子任务不是预定义的,而是由orchestrator根据特定输入确定的。

应用场景:

每次对多个文件进行复杂更改的编码任务。 从多个来源收集和分析相关信息的搜索任务。

Evaluator-optimizer

在evaluator-optimizer工作流中,一个LLM调用生成响应,另一个LLM在循环中提供评估和反馈。

当开发者有明确的评估标准,且迭代过程能提供用于比较的值时,evaluator-optimizer工作流特别有效。

evaluator-optimizer应用场景:

文学翻译中,译者LLM最初可能无法捕捉到一些细节,但评估者LLM可以提供有用的批评反馈。 复杂的搜索任务中,需要多轮搜索和分析以收集全面的信息,评估者LLM决定是否需要进一步搜索。
总结

智能体在生产中帮助理解复杂的输入、参与推理和规划、可靠地使用工具以及从错误中恢复。

执行过程中,智能体在每个步骤从环境中获取「基本事实」以评估其进度,也可以在检查点或遇到障碍时暂停以获得人工反馈。

智能体用于难以预测所需步骤数,以及无法对固定路径进行硬编码的开放式问题。LLM可能会运行多个回合,需要用户对其决策有一定程度的信任。

智能体的自主性意味着更高的成本,并且可能会使错误复杂化。作者建议在沙盒环境中进行广泛测试,并使用适当的防护机制。

LLM的成功应用并不是构建最复杂的系统,而是根据需求构建正确的系统。在应用智能体时,尽量遵循三个核心原则:

保持智能体设计的简单性; 明确显示智能体的规划步骤; 提供全面的工具文档和测试,作为智能体和计算机之间的接口

框架可以帮助快速入门,但面对生产环境时,不要犹豫,减少抽象层并使用基本组件进行构建。

参考资料:

https://www.anthropic.com/research/building-effective-agents

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

极目新闻
2026-04-07 19:20:23
取消年检呼声终于被听见!交通部新规落地,车主:早该这么改了

取消年检呼声终于被听见!交通部新规落地,车主:早该这么改了

复转这些年
2026-04-09 11:29:42
录音门事件:欧尔班与普京通话曝光,匈牙利大选最后一刻生变

录音门事件:欧尔班与普京通话曝光,匈牙利大选最后一刻生变

民间胡扯老哥
2026-04-10 01:03:46
条条大路通罗马!不当明星的文章,在上海开饭店,女儿也为他宣传

条条大路通罗马!不当明星的文章,在上海开饭店,女儿也为他宣传

揽星河的笔记
2026-04-09 17:36:27
体检报告中,若3个指标都正常,基本可排除很多疾病

体检报告中,若3个指标都正常,基本可排除很多疾病

白话电影院
2026-04-09 16:11:20
闹大了!王皓暗讽樊振东放弃世乒赛?网友炸锅:德国人别回来

闹大了!王皓暗讽樊振东放弃世乒赛?网友炸锅:德国人别回来

吃青菜长高
2026-04-10 02:09:30
越来越多的人查出肠癌!医生含泪苦劝:冰箱久置的这4物是帮凶

越来越多的人查出肠癌!医生含泪苦劝:冰箱久置的这4物是帮凶

岐黄传人孙大夫
2026-03-17 23:25:03
英媒称俄军舰护送受制裁油轮通过英吉利海峡 克宫回应:俄有权自卫防范“海盗行为”

英媒称俄军舰护送受制裁油轮通过英吉利海峡 克宫回应:俄有权自卫防范“海盗行为”

财联社
2026-04-09 19:20:04
大疆汪滔十年后首次采访:世界蠢得不可思议,我也是

大疆汪滔十年后首次采访:世界蠢得不可思议,我也是

雷科技
2026-04-09 22:08:45
距离地球254亿公里,飞了半个世纪的旅行者一号,竟然还活着!

距离地球254亿公里,飞了半个世纪的旅行者一号,竟然还活着!

观察宇宙
2026-04-08 20:36:01
以色列一夜击杀200名真主党武装 真主党被曝请求停火

以色列一夜击杀200名真主党武装 真主党被曝请求停火

桂系007
2026-04-09 22:26:13
张雪夸同行豪爵踏板,豪爵老板回应:当时我就震惊了!

张雪夸同行豪爵踏板,豪爵老板回应:当时我就震惊了!

童叔不飙车
2026-04-09 20:43:06
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
美国终于怕了,比稀土更致命的王牌终于出手了!万斯:中国要冷静

美国终于怕了,比稀土更致命的王牌终于出手了!万斯:中国要冷静

芳芳历史烩
2026-04-09 23:53:15
中纪委:禁止机关事业单位在编职工去做这几种副业!

中纪委:禁止机关事业单位在编职工去做这几种副业!

细说职场
2026-04-09 15:34:47
副县长出轨致下属怀孕还吃空饷依法应辞退!不是降为正科级了事!

副县长出轨致下属怀孕还吃空饷依法应辞退!不是降为正科级了事!

一支破笔半支烟
2026-04-09 14:52:22
安徽女童遇害,凶手娘家村民再曝猛料!从小被父母娇惯,争强好胜

安徽女童遇害,凶手娘家村民再曝猛料!从小被父母娇惯,争强好胜

青橘罐头
2026-04-09 07:50:17
73岁迟重瑞送别妻子!憔悴哀伤瘦了好多,长子的举动打破世俗猜忌

73岁迟重瑞送别妻子!憔悴哀伤瘦了好多,长子的举动打破世俗猜忌

叨唠
2026-04-10 03:01:28
天啊!恩比德今日手术!基本赛季报销了!!

天啊!恩比德今日手术!基本赛季报销了!!

柚子说球
2026-04-10 08:28:23
2026-04-10 10:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14937文章数 66762关注度
往期回顾 全部

科技要闻

程序员惊喜,每月100美元!OpenAI推新套餐

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

体育要闻

把孙颖莎逼入绝境后,18岁非洲女孩哭着离场

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

AI短剧"买脸"成风 肖像生意成灰色产业

汽车要闻

全新一代理想 L8 五座旗舰+5C增程系统 三季度交付

态度原创

时尚
手机
亲子
本地
房产

越来越流行的松弛感穿搭,照着穿就很好看

手机要闻

华为最强旗舰来了!Pura 90系列多地启动盲约:Pro+/Ultra版退场

亲子要闻

一只手长7根掌骨,8根指骨,"拨乱反正”一次手术分5指

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

利润暴跌44%!那个春节被骂惨了的海峡股份 正在经历什么?

无障碍浏览 进入关怀版