网易首页 > 网易号 > 正文 申请入驻

吴恩达Agentic AI新课:手把手教你搭建Agent工作流

0
分享至

  • henry 发自 凹非寺
    量子位 | 公众号 QbitAI

吴恩达又出新课了,这次的主题是—Agentic AI



在新课中,吴恩达将Agentic工作流的开发沉淀为四大核心设计模式:反思、工具、规划与协作,并首次强调评估与误差分析才是智能体开发的决定性能力:

  • 谁能建立起系统化的评估与误差分析流程,持续定位并改进智能体工作流中的问题,谁就在智能体开发中领先一步

在课程演示中,通过使用Agentic技巧,甚至可以让GPT-3.5在编程任务中轻松秒杀GPT-4。



Agentic AI不再让模型一次性“憋”出答案,而是学会拆解任务、反思结果、用工具修正偏差,并在多轮循环中不断优化。

这种更像人类的工作流,让它的表现远超传统的端到端Agent。

想知道这是怎么做到的?来,跟着吴老师无限进步就完了!



Agentic AI:从“调模型”到“设计系统”

首先需要明确的一点是,与其说这次的新课是吴恩达关于智能体开发的技术教程,不如说它是一门揭示Agentic AI背后系统性方法论的课程——

它关注的重点,不是如何堆叠工作流界面,而是如何让AI像人类一样,通过分解、执行与优化来解决复杂问题。

其中,任务分解既是构建Agentic工作流的起点,也是持续改进与优化系统的前提。

例如,我们在写论文时,往往会先设计提纲,再查找资料、撰写初稿、反复修改。

AI同样需要这样的结构化过程。

换句话说,写作这一任务本身就是由多个相互衔接的子任务组成的。

而Agentic的核心理念,就是让大语言模型以多步推理与分阶段执行的方式工作,而非一次性生成结果。

那么,如何拆解复杂任务呢?

吴恩达在课程中指出,他通常会先分析一个现有流程,将其拆解为离散步骤,并思考哪些步骤可由大模型实现(例如通过调用 API 或工具)。

若模型暂时无法完成某一步,他会继续将任务细化,直至能够落地实现。

在获得初始工作流后,接下来的关键是评估与改进——分析系统性能、定位薄弱环节,并不断优化迭代。这种以“分解—执行—评估—优化”为核心的循环,正是Agentic的本质与此次课程的关键。

接下来,我们就来看吴恩达提出的四种Agentic设计模式。

首先是Reflection(反思)

反思的核心思想非常简单,就是让大模型让检视自己的输出结果,并思考如何改进。

例如,我们可以让模型先输出一段代码,然后将测试结果报给它,让它在这个基础上修改。



在这里,吴恩达在这里分享了自己利用反思方法的经验:

首先,他指出,可以不仅在单一大模型上进行优化,还可以让两个模型互相配合,通过“左右互搏”获取更优答案。

其中,使用具备推理能力的模型进行反思,通常比非推理模型效果更佳,因此在设置生成与反思模型时,可以尝试不同的组合策略。

其次,在某些情况下,凭经验或直觉难以判断哪个输出更优,这时就需要客观的评估标准。

为此,可以人为设定量化评分机制,例如二元打分,让大模型根据评分计算结果,从而获得相对公正的评估。

最后,若能够获取外部反馈,其效果通常远超仅依赖模型自身的反思。



例如,可以提供参考答案或正确内容,让大语言模型参照这些信息进行自我修正,从而显著提升输出质量。

接下来是工具调用(Tool use)

与传统硬编码、固定的工作流不同,工具调用指的是由大语言模型驱动的应用能够自主决定调用哪些功能,例如进行网页搜索、访问日历、发送邮件或编写代码等。

模型可以通过外部函数,来实现相应的请求。作为开发者,可以提前集成多个工具,然后根据用户请求,让大语言模型调用。

在这里,吴恩达对比了传统的工具调用流程和现在流行的MCP方法。

传统流程中,开发者需要先将工具提供给大语言模型,实现对应函数,并告知模型该工具可用。

当大语言模型决定调用工具时,它会生成特定输出,提示开发者调用该函数,获取结果后再反馈给模型,以便模型继续执行后续操作。

显然,这种方式更像是开发者在主动调用工具,而非大模型自主执行。

由于实际需求复杂且多样,开发者不可能为每个功能手动实现,最理想的方式是让大模型能够自主生成、调用并匹配工具。

为此,可以使用吴恩达及其团队开发的AISuite开源库,这一Python库旨在简化大语言模型与多个提供商之间的集成,让模型能够自主调用工具。

值得注意的是,让模型自行编写和调用代码仍存在一定风险。

在测试中,吴恩达发现大语言模型偶尔会删除代码,因此建议在沙盒环境(如 Docker 或 e2b)中进行操作,以确保安全和可控。

与此同时,不同的开发者可能都想让AI或程序去操作Slack、GitHub、数据库、云服务等来获取数据或工具。

由于每个开发者都独立实现接口,写不同的API调用、认证方式、数据解析,而这无异于重复造轮胎

于是就出现了“统一协议”或“抽象层”的想法,例如Anthropic提出的MCP。



MCP/统一协议把散乱的工具调用从“各自为政”变成了“标准客户端-服务器模式”,AI只需要像调用本地函数一样调用服务端即可。



这极大地方便了当下的智能体工具调用流程。

接下来是规划(planning)

在实际开发中,如果每遇到一个请求就临时补丁一个工具,不仅低效,而且难以形成可复用的流程。

因此,就需要规划使大模型能够根据不同请求,灵活调整工具序列的执行顺序,从而优化性能与资源使用。

例如,出于成本和延迟的考虑,对于一些问题,如果可以通过调用函数快速解决,就不必让模型去执行耗时的网页搜索。

为实现这一点,吴恩达分享了一个实用技巧:可以通过提示将执行步骤转化为JSON代码形式,将任务离散化,使模型能够严格按照步骤执行。

通过这种方式,Agent的任务执行表现能够得到显著提升,同时也为后续的评估和优化提供了清晰的操作轨迹。



最后是多智能体协作(Multi-agent collaboration)

多智能体协作(Multi-agent Collaboration)指的是构建多个具备不同专长的智能体,共同完成复杂任务,就如同一家公司雇佣多名员工,各司其职。

这个机制类似于计算机中的多线程,能够让开发者专注于某一个组件的优化,同时让其他智能体处理其余任务,最后将各环节结果整合,从而提升整体效率和任务完成质量。

此外,大语言模型不仅可以调用工具,还可以调用其他智能体,实现不同层级的嵌套调用。

这种结构化协作方式类似于企业中的组织架构,使复杂任务的分工与协作更加清晰、高效,同时也为工作流的可扩展性和可维护性提供了保障。



除了以上的构建模式,吴恩达还分享了构建Agentic的实用技巧。

这里其实颇像强化学习里的采样-评估-改进的循环。



每一步智能体工作流的构建,实际上都可以看作是一个闭环迭代反馈:

  • Build / Sampling(采样):首先搭建系统或工作流,让模型在不同任务或请求上尝试执行,收集输出结果。
  • Evaluation/Analyze(评估):对输出进行分析,既有端到端的整体评估,也有组件级别的精细评估,快速定位错误来源。
  • Improvement(改进):根据评估结果优化流程或组件,调整参数、替换模块、改进提示词或拆分步骤,然后进入下一轮循环。

通过这种循环,Agentic AI不断迭代升级,就像强化学习中的智能体通过反复试验和反馈,逐步提高策略效果。

不同的是,这里的“策略”是工作流和组件设计,即通过反思、工具调用、规划与多智能体协作等agentic工作流,实现任务拆分、组件优化与迭代改进,从而让AI系统在复杂场景中高效执行、持续进化。

具体来说,错误评估既有端到端的输入输出评估,也有组件级别的评估,而组件级别的评估可以更快的找到具体出现错误的地方,从而集中精力更好、更快的改进系统。

在构建Agentic工作流时,收集和分析错误是优化系统的核心环节。

这里所指的错误,是指某一步输出的结果明显低于人类专家在相同输入下的表现。

为此,可以通过追踪中间执行轨迹来定位问题所在的环节。

比如,如果提示词本身没有问题,但网页搜索结果出现垃圾信息,则问题可能出在大语言模型调用搜索工具的环节。

如果PDF转文档出现错误,则需要检查大语言模型的识别和提取模块是否存在问题。

这种评估既可以依赖人工完成,也可以通过大语言模型辅助加速。

例如,可以创建高可信度的信源清单,或者编写能够多方求证的工具,从而提高组件级评估的效率。

接下来,通过组件级评估,可以针对特定环节进行优化:调整组件参数,例如修改RAG搜索范围(按时间、类别等);替换组件,包括函数或工具;改进大模型组件,例如优化提示词、尝试不同模型、拆分流程或进行微调。

在更换或选择大模型组件时,吴恩达提供了一些自己的实践直觉:

首先,多尝试不同模型,准备多种测试问题以评估性能。

其次,参考他人如何编写提示词,并以此锻炼自身提示词设计能力。

最后,将不同模型应用于工作流中,观察其在各个步骤的表现,从而不断迭代和提升整个系统的可靠性与效率。

以上就是吴恩达课程的粗略梳理,课程全集可在Deeplearning.AI上订阅收听。

为什么是Agentic而不是Agent

对于到底是Agent还是Agentic,早在去年年初,吴恩达就提出了自己极具前瞻性的思考:Agentic作为形容词,而非二元分类,表示系统在智能体特性(自主性)上的不同程度。

这一表述在当时有助于厘清概念,使开发者和研究者能够更准确地理解和描述系统在智能体能力上的连续性,而不是将其简单地划为“是”或“不是”。



而在此次的课程中,我们又可以进一步的窥见其思考的加深:Agentic的意思是一个基于大语言模型(大语言模型)的应用程序执行多个步骤来完成一项任务。

与传统的Agent相比,这里的关键区别在于任务执行方式:传统Agent往往是端到端操作——用户制定一个prompt,大语言模型 返回一个输出——而这种方式很少与人类的工作方式契合,AI亦然。

在课程中,吴恩达表示:Agentic AI通过将任务拆分为多个步骤,逐步推进,每一步都经过处理和优化,从而显著优于一次性输出答案的端到端Agent。

就像我们开头提到的GPT3.5战胜GPT-4的例子。

因此,学习如何将复杂任务分解为步骤,并构建组件高效执行每一步,是一项复杂但至关重要的技能,这正决定了开发者能否在各种应用场景中构建高效的代理型工作流。

更进一步,对于端到端的Agent,留给开发者优化流程的空间实际上非常有限。

我们无法通过设计和改进工作流来提升任务表现,只能依赖prompt的优化、模型能力的提升,甚至完全寄希望于模型本身。

而通过拆分组件、逐步优化,每个环节都可迭代改进,从而让系统持续进化,这正是Agentic AI的优势所在。

值得一提的是,当吴恩达首次提出“Agentic”这个术语,原本是为了描述基础应用开发中快速增长的重要趋势,但没想到市场营销人员将其广泛用作标签,使Agentic AI炒作迅速升温。

尽管如此,吴恩达表示,在实际应用中Agentic的方法论仍然发挥着实际价值,为开发者提供了可落地、可优化的路径。

在当下,除了成熟的代码Agent之外,基于步骤的Agentic AI仍有广阔的发展空间。

这为开发者探索更复杂、更智能的多步骤工作流提供了丰富机会,也体现了课程的核心理念:通过拆解任务、构建组件、逐步优化,让AI系统真正实现高效、可控的代理型流程。


[1]https://x.com/AndrewYNg/status/1975614372799283423

[2]https://www.deeplearning.ai/courses/Agentic-ai/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
VS Code 重大更新:Agent Skills完美支持!

VS Code 重大更新:Agent Skills完美支持!

冒泡泡的鱼儿
2026-03-25 12:10:03
14亿人集体买房,为什么最后买出了一个烂摊子?

14亿人集体买房,为什么最后买出了一个烂摊子?

流苏晚晴
2026-03-25 18:14:02
第二次“递出橄榄枝”?立陶宛总理表态:愿将“台湾代表处”改名

第二次“递出橄榄枝”?立陶宛总理表态:愿将“台湾代表处”改名

老好人的愤怒
2026-03-27 00:37:31
我在小城市,一个人做电商,半年挣300万

我在小城市,一个人做电商,半年挣300万

南风窗
2026-03-26 10:07:51
曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

古希腊掌管松饼的神
2026-03-25 11:08:46
10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

孤单是寂寞的毒
2026-03-04 15:38:03
A股“分红王”来了,拟10股派70元

A股“分红王”来了,拟10股派70元

数据宝
2026-03-26 22:16:46
沙特:若对伊开战将启动巴基斯坦核保护伞

沙特:若对伊开战将启动巴基斯坦核保护伞

Nee看
2026-03-25 19:07:00
金正恩对韩国换了称呼,敏感时刻,平壤迎来一位贵客,铁三角成型

金正恩对韩国换了称呼,敏感时刻,平壤迎来一位贵客,铁三角成型

共工之锚
2026-03-27 01:01:31
BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

星辰大海路上的种花家
2026-03-25 13:08:50
罗德里或告别曼城,索要40万英镑周薪被拒,皇马有望再迎金球先生

罗德里或告别曼城,索要40万英镑周薪被拒,皇马有望再迎金球先生

夏侯看英超
2026-03-27 00:16:04
涉嫌骗取贷款超6.6亿元 犯罪嫌疑人潜逃境外3年后被押解回国 已查实造成银行损失6699余万元

涉嫌骗取贷款超6.6亿元 犯罪嫌疑人潜逃境外3年后被押解回国 已查实造成银行损失6699余万元

每日经济新闻
2026-03-26 19:38:27
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
伊朗通过中间人回应美15点停火提议,提出明确前提条件

伊朗通过中间人回应美15点停火提议,提出明确前提条件

界面新闻
2026-03-26 22:39:04
19岁王钰栋再谈留洋:出国非易事 有合适机遇才去 不关注外界批评

19岁王钰栋再谈留洋:出国非易事 有合适机遇才去 不关注外界批评

我爱英超
2026-03-26 18:48:21
中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

信网
2026-03-26 19:12:37
油价调整:注意,预计下调120元/吨,油价突破下调红线!

油价调整:注意,预计下调120元/吨,油价突破下调红线!

金投网
2026-03-26 11:16:05
湖北十堰大山深处,那个号称“小香港”的万人厂,如今人去楼空

湖北十堰大山深处,那个号称“小香港”的万人厂,如今人去楼空

GA环球建筑
2026-03-26 14:10:54
马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

爱意随风起呀
2026-03-26 16:51:41
7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

观威海
2026-03-26 09:55:04
2026-03-27 01:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
房产
数码
时尚
本地

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

400万人爱过的女孩,被黄谣网暴180天后

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版