网易首页 > 网易号 > 正文 申请入驻

吴恩达红杉美国 AI 峰会谈 Agent Workflow 以及 4 种主流设计模式,相比 LLM 更强调迭代与对话

0
分享至




有新Newin本周分享了 以及 。

今天分享的是吴恩达教授在美国红杉 AI 活动上关于 Agent 的最新趋势与洞察。吴恩达表示 Agent 工作流程与传统使用 LLM 的方式不同,它更加迭代和对话式。


目前,有 4 种主要的 Agent 设计模式,分别是:

1)Reflection:让 Agent 审视和修正自己生成的输出;

2)Tool Use:LLM 生成代码、调用 API 等进行实际操作;

3)Planning:让 Agent 分解复杂任务并按计划执行;

4)Multiagent Collaboration:多个 Agent 扮演不同角色合作完成任务;

这些设计模式目前还在快速发展中,有的比较成熟可靠,有的仍存在不确定性,但都展现了提高 AI 能力的潜力。

吴恩达认为,未来 AI Agent 能力将大幅扩展,我们需要学会将任务委托给 Agent 并耐心等待结果,而不是追求即时响应。另外,快速 token 生成也很重要,即使基于质量较低的LLM,快速迭代生成新 token 也可能获得良好结果。

以下为这次分享的全部内容:

我期待与大家分享我对 AI Agent 所见到的东西,这是一个我认为每个人在构建 AI 时都应该注意的激动人心的趋势。同时,我也对所有其他的“接下来会发生什么”的展示感到兴奋。

AI Agent ,今天我们大多数人使用 LLM 的方式就像这样,通过一个非 Agent 性工作流程,你输入一个提示,它生成一个回答。这有点像如果你让一个人就某个话题写一篇论文,我说,请坐到键盘前,从头到尾不断地打字写完这篇论文,从不使用退格键。尽管这样做有多困难, LLM 却能做得出奇的好。


相比之下, Agent 性工作流程可能是这样的:让 AI 或 LLM 说,写一个论文大纲。你需要做任何网络研究吗?如果需要,让我们开始吧。然后写第一稿,然后阅读你自己的第一稿,思考哪些部分需要修改,然后修订你的草稿,你可以一遍又一遍地进行。因此,这个工作流程更加迭代,你可能让模型进行一些思考,然后修改文章,然后再思考,并通过多次迭代来完成这个过程。


许多人没有意识到的是,这样可以获得显著更好的结果。实际上,我自己也非常惊讶于对话工作流程的效果如何。我将在我的团队中做一个案例研究,使用几年前 OpenAI 发布的一个名为 Human Eval Benchmark 的编码基准来分析一些数据,但这有编码问题,比如给定非负整数列表,返回所有奇数元素或不均匀位置的总和。


结果是,像这样的代码片段。今天我们很多人会使用零次提示,意味着我们告诉 AI 写代码并在第一次尝试时运行它。说谁会那样编码?没有人会那样编码。我们只是打出代码并运行它。也许你可以。我做不到。结果是,如果你使用 GPT-3.5 零次提示,它的正确率是 48%。

GPT-4 做得更好,正确率达到了 67.7%,但如果你围绕 GPT-3.5 使用一个 Agent 性工作流程,实际上它的表现甚至比 GPT-4 还要好。如果你将这种类型的工作流程应用于 GPT-4,它也表现得非常好。你会注意到,GPT-3.5 与一个 Agent 性工作流程相结合实际上超过了 GPT-4 的表现。

我认为这意味着,这对我们所有人构建应用程序的方式有着第二层次的影响。Agent 是一个经常被提及的术语和任务,有很多咨询报告讨论关于 Agent 、AI 的未来等等。


我想具体分享一下我在 Agent 方面看到的广泛设计模式。这是一个非常混乱、动荡的领域,有大量的研究和开源项目。发生了很多事情,但我试图将其更具体地归类到已经发生的事情上。

1.Reflection


Agent Reflection 是一个工具,我认为我们许多人都在使用,它就是起作用的工具。我认为它得到了更广泛的认可,而且实际上效果相当好。我认为这些是相当健壮的技术。当我使用它们时,我几乎总能让它们运行得很好,规划和多 Agent 合作。


我认为这更多是一个新兴的领域,当我使用它们时,有时候我对它们的表现感到惊讶,但至少在此刻,我感觉我不能总是可靠地让它们工作。让我通过几个方面来讲解这四种设计模式。如果你们中的一些人回去自己尝试,或者让你们的工程师使用这些,我认为你们会很快获得生产力的提升。

关于Reflection,这里有个例子。比方说我让一个系统为我写代码完成一个给定的任务。然后我们有一个编码 Agent ,只是一个你提示写代码的 LLM ,比如说,“嘿,定义 doTask,像这样写一个函数。”

自我 Reflection 的一个例子可能是,如果你然后用类似这样的提示对 LLM 进行提示:“这里有一段代码是为了完成一个任务,只是把它们刚刚生成的完全相同的代码给它,然后说,仔细检查代码的正确性、效率、构造是否良好。只需要像这样写一个提示。”

结果可能是,你提示写代码的同一个 LLM ,可能能够发现诸如第 5 行的这个错误,并通过某种方式修复它。如果你现在拿它自己的反馈给它,并重新提示它,它可能会得出一个第二版本的代码,这个版本的代码可能比第一版本工作得更好。

不保证,但它经常足够有效,对很多应用来说值得一试,预示着如果你让它运行单元测试,如果它未通过单元测试,那么为什么会未通过单元测试?有那样的对话或许能弄清楚为什么未通过单元测试。所以试着改变一些东西,可能得到第三版本。

顺便说一下,对于那些想要了解更多这些技术的人,我对它们感到非常兴奋,对于四个部分中的每一个,我都在底部有一个推荐阅读部分,那里,包含了更多的参考资料。

再次预示,多 Agent 系统,我描述的是一个单独的代码 Agent ,你提示它进行自我对话。这个想法的一个自然演化是,不是一个单独的代码 Agent ,你可以有两个 Agent ,其中一个是代码 Agent ,另一个是批评 Agent 。这些可以是相同的基础 LLM ,但以不同的方式进行提示。我们说一个,你是专家级的代码撰写者,对吧?写代码。另一个说,你是专家级的代码审查者,审查这段代码。

这种工作流实际上很容易实现。我认为这是一种非常通用的技术,对许多工作流程而言。这将显著提高 LLM 的性能。

2.Tool Use


第二种设计模式是许多人已经看到的,基于 LLM 的系统使用的工具,左边是一个来自 Copilot 的截图。右边是我从 GPT-4 中提取的东西,但今天的 LLM ,如果你问它,什么是网上搜索中最好的咖啡机,对某些问题, LLM 会生成代码并运行代码。事实证明,有很多不同的工具被许多不同的人用于分析、获取信息、采取行动、个人生产力。

早期的工作转向使用,原来是在计算机视觉社区。因为在 LLM 之前,它们无法处理图像。所以唯一的选择是生成一个可以操纵图像的函数调用,比如生成一个图像或进行对象检测等。如果你实际上看看文献,很有趣的是,很多在使用方面的工作似乎都起源于视觉领域,因为在 GPT-4 等出现之前, LLM 对图像是盲目的,这就是使用,并扩展了 LLM 可以做的事情。

3.Planning


然后是规划,对于那些还没有大量玩过规划算法的人,我感觉很多人谈论 ChatGPT 时刻,你会惊叹,从未见过这样的东西。我认为你还没有使用规划算法。许多人会对 AI Agent 有种惊讶的感觉。

我无法想象 AI Agent 能做得这么好。我进行过实时演示,其中一些失败了,AI Agent 绕过了这些失败。我实际上遇到了不少这样的情况,是的,我无法相信我的 AI 系统刚刚自主地做到了那一点。

但一个从 HuggingGPT 论文中改编的例子,你说,请生成一张图片,图片中的女孩在读书,而且与图像示例 dot jpeg 中的男孩姿势相同,请用语音描述新图像。所以给出这样一个例子,今天有 AI Agent ,你可以决定首先需要做的是确定男孩的姿势。然后,找到正确的模型,可能在 HuggingFace 上提取姿势。接下来需要找到姿势图像模型来合成一张女孩的图片,遵循指令。然后使用图像检测,最后使用文本到语音。

今天我们实际上有 Agent ,我不想说它们工作得很可靠,它们有点挑剔。它们不总是工作,但当它工作时,实际上相当了不起,但有了 Agent 性循环,有时你也可以从早期的失败中恢复过来。所以我发现我已经在使用研究 Agent 。所以我的一些工作,一部分研究,但我不觉得,自己去谷歌搜索并花很长时间。我应该发送给研究 Agent ,几分钟后回来看看它找到了什么,有时它有效,有时没有,但这已经是我的个人工作流程的一部分了。

4.Multiagent Collaboration

最后一个设计模式,多 Agent 合作,这个,听起来很有趣,但它的效果比你可能想象的要好得多。左边是一篇名为 ChatDev 的论文的截图,这完全是开源的,实际上是开源的。你们许多人看到了,闪亮的社交


媒体发布的 demo,ChatDev 是开源的,在我的笔记本电脑上运行。ChatDev 是一个多 Agent 系统的示例,你可以提示一个 LLM 有时表现得像软件工程公司的 CEO,有时像设计师,有时像产品经理,有时像测试人员。

通过提示 LLM 告诉它现在你是 CEO,现在你是软件工程师,它们合作,进行扩展的对话,以至于如果你告诉它,请开发一个游戏,开发一个多人游戏,它们实际上会花费几分钟编写代码,测试它,迭代它,并最终生成一个出人意料的复杂程序。

这种多 Agent 合作听起来可能有些奇特,但实际上它的效果比你可能想象的要好。这不仅仅是因为这些 Agent 之间的合作能够带来更加丰富和多样的输入,而且因为它能够模拟出一个更加接近真实工作环境的场景,其中不同角色和专业知识的人员为了共同的目标而努力。这种方式的强大之处在于它能够让 LLM 不仅仅是执行单一任务的工具,而是成为一个能够处理复杂问题和工作流程的协作系统。

这种方法的潜在价值巨大,因为它为自动化和提升工作流程的效率提供了新的可能性。例如,通过模拟一个软件开发团队的不同角色,一个企业可以自动化某些开发任务,从而加快项目的进度并减少错误。同样,这种多 Agent 合作方式也可以应用于其他领域,如内容创作、教育和培训、以及策略规划等,进一步拓宽 LLM 在各个行业的应用范围。

总结


总之,通过 Agent Reflection、规划与多 Agent 合作等设计模式,我们不仅能够提升 LLM 的性能,还能够拓展它们的应用领域,使它们成为更加强大和灵活的工具。随着这些技术的不断发展和完善,我们期待着未来 AI Agent 能够在更多的场景中发挥关键作用,为人们带来更加智能和高效的解决方案。

它并不总是有效。我用过它。有时候它不起作用,有时候它令人惊讶,但这项技术确实在变得更好。还有一个设计模式,事实证明,多 Agent 辩论,即不同 Agent 之间的辩论,例如,可以让 ChatGPT 和 Gemini 互相辩论,这实际上也能带来更好的表现。

因此,让多个模拟的空气 Agent 一起工作也是一个强大的设计模式。总结一下,我认为这些是我见过的模式。我认为,如果我们能够使用这些模式,我们中的许多人可以很快实现实践上的提升。我认为, Agent 推理设计模式将会很重要。

这是我的简短总结幻灯片。我预计,因为 Agent 工作流,AI 能做的任务将在今年大幅扩展。一个实际上让人难以习惯的事情是,当我们向 LLM 发出提示时,我们希望立即得到回应。实际上,十年前当我在 Google 讨论我们称之为大框搜索时,输入长提示的原因之一,我未能成功推动的原因之一是因为当你进行网络搜索时,你希望在半秒钟内得到回应,对吧?这就是人性,即时抓取,即时反馈。

对于许多 Agent 工作流,我认为我们需要学会将任务委托给 AI Agent ,并耐心等待几分钟,甚至几小时以获得回应,但就像我见过许多新手经理将任务委托给某人,然后五分钟后检查一样,对吧?这不是生产性的。

我认为我们也需要学会这样做,与我们的一些 AI Agent 打交道,虽然这很难。我以为我听到了一些损失。然后一个重要趋势是,快速 token 生成器很重要,因为在这些 Agent 工作流中,我们不断迭代。所以 LLM 为 LLM 生成 token ,能够以远超任何人阅读速度的速度生成 token 是非常棒的。

我认为,即使是来自稍微低质量的 LLM ,快速生成更多 token 也可能与来自更好 LLM 的慢 token 相比,获得好的结果。这可能有点争议,因为它可能让你更多次地绕这个循环,有点像我在第一张幻灯片上展示的 GPDC 和一个 Agent 架构的结果。

坦率地说,我非常期待 Claude5 和 Claude4,GPT-5 和 Gemini 2.0 以及所有这些你们正在构建的精彩模型。我部分感觉,如果你期待在 GPT-5 上运行你的东西,零次射击,你可能真的会在某些应用上获得比你想象的更接近那种水平的表现,通过 Agent 推理,但在一个早期模型上,我认为,这是一个重要趋势。

老实说,通往 AGI 的道路感觉像是一次旅程而非一个目的地,但我认为这种 Agent 工作流程可能帮助我们在这个非常长的旅程上向前迈出一小步。

Newin 行业交流群

最新资讯


创业手册


Builders 招募


















特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
布伦森:能得到休息的时间真不错 我已经准备好迎接下一场比赛了

布伦森:能得到休息的时间真不错 我已经准备好迎接下一场比赛了

直播吧
2024-05-17 12:22:09
上港即将迎来两位久违的强援助阵,一人曾是国足主力,让穆帅欣喜

上港即将迎来两位久违的强援助阵,一人曾是国足主力,让穆帅欣喜

罗掌柜体育
2024-05-17 16:51:01
笑不活了!四川的妈妈都是同一个妈吗?看了网友分享,真的憋不住

笑不活了!四川的妈妈都是同一个妈吗?看了网友分享,真的憋不住

涛涛生活搞笑
2024-05-17 23:45:13
局长去世后人走茶凉,全局只有女副科长去吊唁,2年后女子成正局

局长去世后人走茶凉,全局只有女副科长去吊唁,2年后女子成正局

二十一号故事铺
2024-05-09 14:20:21
比李铁还贪!体坛大鱼携世界冠军妻子一起贪,连3万块都不放过

比李铁还贪!体坛大鱼携世界冠军妻子一起贪,连3万块都不放过

陈爷book说
2024-05-17 17:21:04
自动泊车“翻车”?这个视频热传!官方道歉并承担修车费

自动泊车“翻车”?这个视频热传!官方道歉并承担修车费

每日经济新闻
2024-05-17 00:07:13
副镇长半夜上门要求人妻陪娱乐,照片流出,女子丈夫披露大量细节

副镇长半夜上门要求人妻陪娱乐,照片流出,女子丈夫披露大量细节

求实者
2024-05-16 21:10:27
再见沈梓捷,1换3交易方案出炉,或投靠恩师,4巨头横空出世

再见沈梓捷,1换3交易方案出炉,或投靠恩师,4巨头横空出世

小马哥谈体育
2024-05-17 23:37:15
侃爷让她穿啥就穿啥,网友:她也愿意的,痛苦并快乐着

侃爷让她穿啥就穿啥,网友:她也愿意的,痛苦并快乐着

三月柳
2024-04-13 15:27:23
Shams:以选中布朗尼为条件询问詹姆斯是否加盟 将得到否定答案

Shams:以选中布朗尼为条件询问詹姆斯是否加盟 将得到否定答案

直播吧
2024-05-18 00:58:05
非常意外!马克龙突然出手了!

非常意外!马克龙突然出手了!

琼瑶史事
2024-05-16 21:13:36
为什么买衣服预售要那么久?网友爆料产业秘密,评论区太真实了

为什么买衣服预售要那么久?网友爆料产业秘密,评论区太真实了

白宸侃片
2024-05-17 19:42:27
9分?韦德转发爱德华兹拜佛过人暴扣:兄弟牛

9分?韦德转发爱德华兹拜佛过人暴扣:兄弟牛

直播吧
2024-05-17 15:02:07
徐璐肉丝&黑丝代言,不敢想象穿成这样的璐璐有多棒啊

徐璐肉丝&黑丝代言,不敢想象穿成这样的璐璐有多棒啊

白宸侃片
2024-05-18 07:35:09
GPT-4o背后的神仙团队:项目负责人只有本科学历,北大/清华/交大/中科大校友在列

GPT-4o背后的神仙团队:项目负责人只有本科学历,北大/清华/交大/中科大校友在列

36氪
2024-05-17 17:58:18
涉案超40亿!杭州一涉黑组织在工程等领域攫取非法利益 首犯被判无期徒刑

涉案超40亿!杭州一涉黑组织在工程等领域攫取非法利益 首犯被判无期徒刑

红星新闻
2024-05-17 11:42:16
武钢裁员引众怒:员工铁饭碗不保,管理层升职加薪

武钢裁员引众怒:员工铁饭碗不保,管理层升职加薪

美人茶话会
2024-05-17 15:56:15
爸爸出轨被我发现,小三上门大闹后,却毁了爸爸的一生

爸爸出轨被我发现,小三上门大闹后,却毁了爸爸的一生

大花谈教育
2024-04-20 15:52:07
华为大模型发布会闹出乌龙:疑似人工控制输出结果时间?

华为大模型发布会闹出乌龙:疑似人工控制输出结果时间?

闲醉山人
2024-05-15 23:25:21
中国队主场球迷版新球衣上架,售价599元

中国队主场球迷版新球衣上架,售价599元

懂球帝
2024-05-17 14:40:13
2024-05-18 08:20:49
有新Newin
有新Newin
分享前沿科技资讯与商业洞察
123文章数 7关注度
往期回顾 全部

科技要闻

京东拼增长,大力出奇迹

头条要闻

普京访问哈尔滨工业大学:学校历史悠久、实力雄厚

头条要闻

普京访问哈尔滨工业大学:学校历史悠久、实力雄厚

体育要闻

中超疯狂星期五!5场28球,单场5球起步

娱乐要闻

《庆余年2》首播口碑出炉!有好有坏

财经要闻

重磅!楼市王炸来了 多部门出手救楼市

汽车要闻

内饰与配置全新升级 全新途观L PRO将于5月30日上市

态度原创

游戏
旅游
本地
公开课
军事航空

物华弥新:毛公鼎抽取价值分析!这个结论应该还算合理吧!

旅游要闻

火车票改签收手续费了?12306回应

本地新闻

2024年"519中国旅游日"活动线上启动仪式

公开课

父亲年龄越大孩子越不聪明?

军事要闻

美称建立加沙临时码头 加沙民众强烈反对

无障碍浏览 进入关怀版