网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI时代新风口！吴恩达亲授智能体四大设计模式

2024-04-19 10:28:20　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：alan

【新智元导读】吴恩达认为，智能体的发展将会成为AI时代重要的力量，甚至比基础模型还要重要。工作之余，「吴老师」连发多篇博客，向大家介绍了AI智能体的四大设计模式。

AI时代的风口在哪里？

吴恩达认为，AI Agent将在今年推动人工智能的大规模进步。

——甚至，有可能超过下一代基础模型所带来的影响。

他希望所有从事人工智能工作的人，都能关注AI智能体的发展。

Andrew Ng

大佬「退役」后，作为专业的「教书先生」，仍然孜孜不倦，授业传道解惑。

最近在工作之余，吴恩达连续分享了很多关于智能体的见解，并定义了AI Agent的四大设计模式，

Reflection（反思）、Tool use（工具使用）、Planning（规划）和Multi-agent collaboration（多智能体协同）：

-反思：LLM检查自己的工作，并提出改进的方法。 -工具使用：LLM利用Web搜索、代码执行或任何其他功能的工具，来帮助自己收集信息、采取行动或处理数据。 -规划：LLM提出并执行实现目标的多步骤计划（比如一篇论文，首先写大纲，然后搜索和研究各部分内容，再写草稿）。 -多智能体协作：多个AI agent协同工作，分工任务，讨论和辩论想法，提出比单个智能体更好的解决方案。

智能体工作流

我们大多数人使用LLM通常是zero-shot模式，模型根据提示逐个输出token，没有返回修改的机会。

——这相当于要求人类从头到尾一口气写完一篇文章，不允许回退，——尽管是个比较困难的要求，不过大模型们目前都做得非常出色。

但事实上，我们人类正常的工作流程一般是迭代式的。

比如对于一篇文章，可能需要：

计划一个大纲；通过网络搜索来收集更多信息；写初稿；通读初稿，发现不合理的论点或无关的信息；反复修改......

这种工作模式对于人类写出好文章至关重要，——那么对于AI来说，是不是也应如此？

前段时间，世界上第一个AI程序员Devin的演示，在社交媒体上引起了轰动。

吴恩达团队于是研究了多个相关算法，在HumanEval编码基准测试中的表现，如下图所示：

在zero shot的情况下，GPT-3.5的正确率为48.1%，GPT-4的表现更好，达到67.0%。

然而，加入了迭代智能体工作流程之后，GPT-3.5的正确率直接飙到了95.1%，——Agent工作流效果显著，而且GPT-3.5比GPT-4得到的提升更加可观。

目前，各种开源智能体工具和相关研究的数量正在激增，擅于利用这些工具和经验，将使你的LLM更加强大。

Reflection

反思，作为容易迅速实现的一种设计模式，已经带来了令人惊讶的性能影响。

我们可能有过这样的经历：当LLM（ ChatGPT/Claude/Gemini等）给出的结果不太令人满意时，我们可以提供一些反馈，通常LLM再次输出时，能够给出更好的响应。

——如果这个反馈的过程留给LLM自己执行，是不是会更好？这就是反思（Reflection）。

以编码任务为例，可以通过类似的提示，让LLM反思自己的输出：

这是用于任务 X 的代码，仔细检查代码的正确性、风格和效率，并就如何改进它提出建设性的批评。

接下来，将之前生成的代码和反馈放进提示的上下文，并要求LLM根据反馈重写代码。

当然，我们也可以利用一些评估LLM输出质量的工具，使上面这个过程更进一步，

比如通过单元测试检查代码在测试用例上的结果，或者通过web搜索来比对输出的正确性。

此外，也可以像上图那样，使用多智能体框架实现Reflection：一个负责生成输出，另一个负责对输出提出建议。

如果诸位对Reflection感兴趣，这里推荐下面几篇文章，可以提供更多相关的知识：

论文地址：https://arxiv.org/pdf/2303.17651.pdf

论文地址：https://arxiv.org/pdf/2303.11366.pdf

论文地址：https://arxiv.org/pdf/2305.11738.pdf

Tool Use

工具使用，LLM可以调用给定的函数，来收集信息、采取行动或操作数据，——这是AI智能体工作流的关键设计模式。

最常见的例子就是LLM可以使用工具，执行Web搜索或执行代码。事实上，一些面向消费者的大型公司已经采用了这些功能。

比如如果你问Copilot这样的在线LLM：「最好的咖啡机是哪一款？」，它可能会决定进行网络搜索，并下载一个或多个网页以获取上下文。

毕竟，仅依靠预训练的Transformer来生成输出答案是有局限性的，而提供Web搜索工具可以让LLM做更多的事情。

LLM使用特殊的字符串，例如 {tool：web-search，query：coffee maker reviews} ，以请求调用搜索引擎。

后处理步骤会查找字符串，调用具有相关参数的Web搜索函数，并将结果附加到输入上下文，传递回LLM。

再比如，如果你问，「如果我以12年复利7%，投资100美元，最后会获得多少收益？」，

LLM可能会使用代码执行工具，运行Python命令来计算：{tool：python-interpreter，code：100 *（1+0.07）**12}。

现在这个过程更近一步，我们可以搜索不同的来源（Web、Wikipedia、arXiv等），与各种生产力工具交互（发送电子邮件、读/写日历条目等），并且我们希望LLM自动选择正确的函数调用来完成工作。

此外，当有太多函数可供使用时，无法将所有函数都放入上下文中，这时可以使用启发式方法，在当前处理步骤中选择要包含在LLM上下文中的最相关子集。

事实上，当有太多的文本无法作为上下文包含，检索增强生成（RAG）系统也是采用同样的方法，选择要包含的文本子集。

这里同样推荐几篇相关文章：

论文地址：https://arxiv.org/pdf/2305.15334.pdf

论文地址：https://arxiv.org/pdf/2303.11381.pdf

论文地址：https://arxiv.org/pdf/2401.17464.pdf

Planning

规划，使用LLM将目标任务分解为更小的子任务，然后自主决定执行的步骤。

例如，如果我们要求智能体对给定主题进行在线研究，LLM可以将其拆解为特定的子主题、综合发现、编写报告。

曾经，ChatGPT的发布让很多人经历了「ChatGPT时刻」，AI的能力大大超出了人们的预期。

——而类似的「AI Agent时刻」，也许很快就会到来。

吴恩达回忆了之前的一次现场展示，因为网速问题，Agent的Web搜索API返回了错误，——眼看就要被公开处刑，Agent居然转到了维基百科的搜索工具，最终完成了任务（救大命了）。

吴恩达表示，看到一个Agent以出人意料的方式执行任务，并获得成功，是一件美好的事情。

不过也有网友表示，大事不好啦，Agent失控啦！

现实中，有许多任务无法通过单个步骤或单个工具调用完成，但Agent可以决定要执行哪些步骤。

例如，要求智能体参照一张男孩的照片，画一张相同姿势的女孩的照片，则该任务可以分解为两个步骤：（i）检测男孩图片中的姿势，（ii）以检测到的姿势渲染女孩的图片。

LLM可能会通过输出类似 {tool：pose-detection，input：image.jpg，output：temp1 } {tool：pose-to-image，input：temp1，output：final.jpg} 这样的字符串来指定计划。

Planning是一种非常强大的能力，不过它也会导致难以预测的结果。

吴恩达表示Planning仍是一项不太成熟的技术，用户很难提前预测它会做什么，——不过我们可以期待技术的快速发展来解决这个问题。

这里同样推荐3篇相关的优秀工作：

论文地址：https://arxiv.org/pdf/2201.11903.pdf

论文地址：https://arxiv.org/pdf/2303.17580.pdf

论文地址：https://arxiv.org/pdf/2402.02716.pdf

参考资料：

https://twitter.com/AndrewYNg/status/1779606380665803144

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

空调"一机难求" 法国男子来华出差"人肉"带一台回国

极目新闻 2026-07-13 19:36:35
4783 跟贴 4783
老人贷款59万买海景房结果欠近400万违约金家人吓懵

大象新闻 2026-07-13 18:00:41
2405 跟贴 2405

西班牙前首相称法国队“没法国球员”惹争议，西班牙现首相回击，法国政坛怒批

红星新闻 2026-07-13 12:44:22
2838 跟贴 2838

“半年白干......”今天，杭州00后股民看不懂了

都市快报橙柿互动 2026-07-13 15:59:21
149 跟贴 149
媒体：10年了14国还在拿一张废纸恫吓中国太荒诞了

北京日报 2026-07-13 22:55:14
159 跟贴 159

中际旭创：2027年光模块价格正在确定，市场传言的降价幅度过于夸大

证券时报 2026-07-13 08:22:05
393 跟贴 393

实验猴价格突破20万元大关！多家养殖企业：今年的猴子已被客户订完

红星新闻 2026-07-13 18:04:21
131 跟贴 131
国务院批复扩大消费“十五五”规划：到2030年社会消费品零售总额达到60万亿元左右

中国政府网 2026-07-13 17:09:44
237 跟贴 237

拟录用"逐字翻译抄写"博士安大公示网页已无权限访问

澎湃新闻 2026-07-13 08:25:32
860 跟贴 860
657+652！“001号”“002号”军校录取通知书，双胞胎姐妹收到了

上观新闻 2026-07-13 13:47:04
189 跟贴 189
阿特金森谈招募詹姆斯：那将成为我们真正实现飞跃的契机

北青网-北京青年报 2026-07-13 19:42:05
25 跟贴 25
女子参加家政培训拿4个证书却查无此证七年后欲退款

极目新闻 2026-07-13 21:43:02
21 跟贴 21
民生调查局丨“扫开就近2块钱”，共享单车涨价到哪里是个头

中国网 2026-07-13 06:35:11
993 跟贴 993
挪威7号瑟洛特回应没传球给哈兰德：想传但感觉传不过去，所以就自己射门了

鲁中晨报 2026-07-13 10:00:03
360 跟贴 360
6003人！最低分值119.92分！北京2026年积分落户名单公示

BRTV新闻 2026-07-13 11:21:47
21 跟贴 21
高温炙烤欧洲中国“凉风”送爽

中国日报网 2026-07-13 11:44:02
63 跟贴 63
热浪来袭，美国多地高温创纪录

齐鲁壹点 2026-07-13 15:47:10
35 跟贴 35
他席地而坐，在雨中吃饭！本人回应

环球网资讯 2026-07-13 08:07:19
425 跟贴 425
国产工业软件跑出加速度（新场景新动能）

人民网 2026-07-13 06:19:21
43 跟贴 43
“本科毕业无法进入教师岗位”系谣言（2026·07·13）

今日辟谣 2026-07-13 18:08:30
83 跟贴 83
顾客就高人一等？素质掉一地

热搜摘要官 2026-07-14 01:35:10
0 跟贴 0
张雪机车：车友救灾受损的维修费，不限品牌，全部报销

新浪财经 2026-07-14 01:17:50
0 跟贴 0
江苏一女子在滨寿司门店餐桌上为小孩剪脚趾甲，门店回应：劝阻无果，已全面消杀

都市快报橙柿互动 2026-07-14 01:28:17
0 跟贴 0

世界杯观感：出局后庆祝欧洲杯夺冠十周年，一己之力又尬吹

世界杯观感：出局后庆祝欧洲杯夺冠十周年，一己之力又尬吹

涛哥侃球

2026-07-13 12:40:53

“上不了台面的妈很丢人！”毕业典礼女子出洋相，父子表情很真实

“上不了台面的妈很丢人！”毕业典礼女子出洋相，父子表情很真实

世界圈

2026-07-10 09:13:52

闵先生怒曝调解内幕！女车主领导陪同！挑事的眼镜男消失身份成谜

闵先生怒曝调解内幕！女车主领导陪同！挑事的眼镜男消失身份成谜

网络易不易

2026-07-13 06:10:25

斯科特：签约詹姆斯的球队，也要做好承担各种麻烦的准备

斯科特：签约詹姆斯的球队，也要做好承担各种麻烦的准备

爱体育

2026-07-13 23:27:12

红茶被点名了！发现：糖尿病人喝红茶，不必等多久，或有5变化

红茶被点名了！发现：糖尿病人喝红茶，不必等多久，或有5变化

路医生健康科普

2026-07-12 07:15:03

24万股民踩雷，存储芯片一哥封跌停

24万股民踩雷，存储芯片一哥封跌停

21世纪经济报道

2026-07-13 14:32:36

袁立不再隐忍，公开与陈建斌的真实关系，原来我们都被骗了？

袁立不再隐忍，公开与陈建斌的真实关系，原来我们都被骗了？

八斗小先生

2026-05-28 18:57:10

放弃南大中科大！辽宁681分女生，提前批被北京电子科技学院录取

放弃南大中科大！辽宁681分女生，提前批被北京电子科技学院录取

东东趣谈

2026-07-13 11:03:45

中俄海军潜艇首次海上同框联合演习释放哪些信号

中俄海军潜艇首次海上同框联合演习释放哪些信号

环球网资讯

2026-07-13 18:07:09

我国的“斤“用了三千年，为什么与国际接轨后，恰好相当于500克

我国的“斤“用了三千年，为什么与国际接轨后，恰好相当于500克

长风文史

2026-07-13 20:12:38

出生月份影响智商？哈佛研究：这两个月出生的娃，天生更聪明！

出生月份影响智商？哈佛研究：这两个月出生的娃，天生更聪明！

小书虫妈妈

2026-07-10 21:33:55

1998年，周杰和林心如在《还珠格格》中的剧照，林看起来极其难受

1998年，周杰和林心如在《还珠格格》中的剧照，林看起来极其难受

喜文多见01

2026-06-10 12:02:17

大我15岁女老板晚上留我独自加班，锁上门后她说：今晚找你有个事

大我15岁女老板晚上留我独自加班，锁上门后她说：今晚找你有个事

千秋文化

2026-06-19 20:14:12

无视4大豪门兴趣，皇马23岁中场提前归队，争取穆帅信任，想留队

无视4大豪门兴趣，皇马23岁中场提前归队，争取穆帅信任，想留队

福酱的小时光

2026-07-13 06:45:37

人口告别世界第一？催生“二孩”无效后，国家终于向住房出手了！

人口告别世界第一？催生“二孩”无效后，国家终于向住房出手了！

混沌录

2026-05-30 23:41:14

浙江男子台风天贴胶带贴米字保玻璃，整栋楼就他一家碎了！

浙江男子台风天贴胶带贴米字保玻璃，整栋楼就他一家碎了！

热心市民小黄

2026-07-13 16:29:54

讲话千万不要有奴才之相。

人间清醒柒奶奶

2026-06-30 12:55:50

艾滋病新增130万！很多人中招很冤枉！在外“5不碰”一定要记死

艾滋病新增130万！很多人中招很冤枉！在外“5不碰”一定要记死

番外行

2026-04-18 08:19:22

欠债6.61亿！闫妮曾代言的美妆凉透了？老板被限制高消费155次

欠债6.61亿！闫妮曾代言的美妆凉透了？老板被限制高消费155次

品牌观察官

2026-07-12 16:11:42

男人两道坎，熬过就高寿！两坎是指哪两年？早知道早受益

男人两道坎，熬过就高寿！两坎是指哪两年？早知道早受益

医学原创故事会

2026-07-10 19:46:03

AI产业主平台领航智能+时代

15682文章数 66953关注度

往期回顾全部

科技要闻

OpenAI与Anthropic互掐，最强AI也怕你不用

头条要闻

前妻施南生离世徐克深夜在医院门口发声

头条要闻

前妻施南生离世徐克深夜在医院门口发声

体育要闻

世界杯月赚1.7亿，51岁的他仍是顶流

娱乐要闻

具俊晔“深情人设”崩塌，遗产瓜开撕

财经要闻

SK海力士暴跌15%原因找到了？

汽车要闻

小米澎程N90 Max工信部信息曝光全尺寸旗舰露营版首秀

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戏

房产

家居

公开课

军事航空

《龙之信条2：黑暗觉者》制作人访谈：不会改变原有设计逻辑"/> 主站商城论坛自运营登录注册《龙之信条2：黑暗觉者》制作人访谈...

房产要闻

重磅出炉！海南最新住宅全装修交付标准来了！

家居要闻

2026建博会(广州) 公装联探展交流活动

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

美国宣布实施打击伊朗表态“放马过来”

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版