网易首页 > 网易号 > 正文 申请入驻

MIT研究团队开发EnCompass框架,为AI智能体搜索优化提供解决方案

0
分享至


无论你是正在头脑风暴研究想法的科学家,还是希望在人力资源或财务领域实现任务自动化的CEO,你都会发现人工智能工具正在成为你意想不到的好助手。特别是,许多专业人士正在利用被称为AI智能体的半自主软件系统的才能,这些系统可以在特定时刻调用AI来解决问题和完成任务。

当AI智能体使用大语言模型时特别有效,因为这些系统功能强大、高效且适应性强。编程此类技术的一种方法是在代码中描述你希望系统做什么(即"工作流程"),包括何时应该使用大语言模型。如果你是一家软件公司,试图改造旧代码库以使用更现代的编程语言来获得更好的优化和安全性,你可能会构建一个系统,使用大语言模型逐个文件翻译代码库,并在过程中测试每个文件。

但是当大语言模型出错时会发生什么?你希望智能体能够回溯以进行另一次尝试,并结合从之前错误中学到的经验教训。编写这样的代码可能需要与实现原始智能体同样多的努力;如果你用于翻译代码库的系统包含数千行代码,那么你需要进行数千行代码更改或添加,以支持大语言模型出错时的回溯逻辑。

为了节省程序员的时间和精力,MIT计算机科学与人工智能实验室(CSAIL)和Asari AI的研究人员开发了一个名为"EnCompass"的框架。

使用EnCompass,你不再需要自己进行这些更改。相反,当EnCompass运行你的程序时,如果大语言模型出错,它会自动回溯。EnCompass还可以克隆程序运行时以并行进行多次尝试,寻找最佳解决方案。从更广泛的角度来看,EnCompass搜索你的智能体可能采取的不同路径,这些路径是所有大语言模型调用的不同可能输出的结果,寻找大语言模型找到最佳解决方案的路径。

然后,你所需要做的就是标注你可能想要回溯或克隆程序运行时的位置,以及记录任何可能对搜索策略有用的信息(即用于搜索智能体不同可能执行路径的策略)。然后你可以单独指定搜索策略——你可以使用EnCompass开箱即用提供的策略,或者如果需要,实现你自己的自定义搜索策略。

"使用EnCompass,我们将搜索策略与AI智能体的底层工作流程分离开来,"主要作者Zhening Li'25, MEng'25说道,他是MIT电气工程和计算机科学(EECS)博士生、CSAIL研究员,也是Asari AI的研究顾问。"我们的框架让程序员可以轻松试验不同的搜索策略,找到使AI智能体表现最佳的策略。"

EnCompass被用于实现为调用大语言模型的Python程序的智能体,在那里它展示了显著的代码节省。EnCompass将实现搜索的编码工作减少了高达80%,这适用于各种智能体,如用于翻译代码存储库和发现数字网格变换规则的智能体。未来,EnCompass可以使智能体处理大规模任务,包括管理庞大的代码库、设计和执行科学实验,以及创建火箭和其他硬件的蓝图。

分支扩展

在编程你的智能体时,你标记特定操作——比如对大语言模型的调用——结果可能会有所不同的地方。这些标注被称为"分支点"。如果你把智能体程序想象成生成故事的单一情节线,那么添加分支点就把故事变成了一个选择你自己冒险的故事游戏,分支点是情节分支成多个未来情节线的位置。

然后你可以指定EnCompass用来导航该故事游戏的策略,寻找故事的最佳可能结局。这可以包括启动并行执行线程或在遇到死胡同时回溯到之前的分支点。

用户还可以即插即用EnCompass开箱即用提供的几种常见搜索策略,或者定义自己的自定义策略。例如,你可以选择蒙特卡洛树搜索,它通过平衡探索和利用来构建搜索树,或者束搜索,它保留每一步的最佳几个输出。EnCompass使得试验不同方法变得容易,从而找到最佳策略来最大化成功完成任务的可能性。

EnCompass的编码效率

那么EnCompass为智能体程序添加搜索功能的代码效率究竟如何?根据研究人员的发现,该框架大幅减少了程序员需要添加到智能体程序中以添加搜索功能的代码量,帮助他们试验不同策略以找到表现最佳的策略。

例如,研究人员将EnCompass应用于一个将代码存储库从Java编程语言(通常用于编程应用程序和企业软件)翻译成Python的智能体。他们发现,使用EnCompass实现搜索——主要涉及添加分支点标注和记录每个步骤表现的标注——比手工实现少了348行代码(约82%)。他们还演示了EnCompass如何让他们轻松尝试不同的搜索策略,确定最佳策略是双层束搜索算法,在搜索预算为无搜索智能体大语言模型调用16倍的情况下,在五个不同存储库中实现了15%到40%的准确率提升。

"随着大语言模型成为日常软件更重要的组成部分,理解如何高效构建利用其优势并解决其局限性的软件变得更加重要,"共同作者Armando Solar-Lezama说道,他是MIT EECS教授和CSAIL主要研究员。"EnCompass是朝这个方向迈出的重要一步。"

研究人员补充说,EnCompass针对的是程序指定高级工作流程步骤的智能体;他们框架的当前版本不太适用于完全由大语言模型控制的智能体。"在那些智能体中,不是有一个程序指定步骤然后使用大语言模型执行这些步骤,而是大语言模型本身决定一切,"Li说道。"没有底层的程序化工作流程,所以你可以对大语言模型即时发明的任何东西执行推理时搜索。在这种情况下,像EnCompass这样修改程序如何通过搜索和回溯执行的工具的需求较少。"

Li和他的同事计划将EnCompass扩展到AI智能体更通用的搜索框架。他们还计划在更复杂的任务上测试他们的系统,以便为现实世界的使用(包括在公司中)进行优化。此外,他们正在评估EnCompass如何帮助智能体与人类在诸如头脑风暴硬件设计或翻译更大代码库等任务上合作。目前,EnCompass是一个强大的构建块,使人类能够更容易地调整AI智能体,提高它们的性能。

"EnCompass在一个及时的时刻出现,因为AI驱动的智能体和基于搜索的技术开始重塑软件工程中的工作流程,"卡内基梅隆大学教授Yiming Yang说道,他没有参与这项研究。"通过将智能体的编程逻辑与其推理时搜索策略清晰分离,该框架提供了一种有原则的方式来探索结构化搜索如何增强代码生成、翻译和分析。这种抽象为更系统和可靠的搜索驱动软件开发方法提供了坚实的基础。"

Li和Solar-Lezama与两位Asari AI研究人员共同撰写了这篇论文:加州理工学院教授Yisong Yue,该公司的顾问;以及高级作者Stephan Zheng,该公司的创始人兼CEO。他们的工作得到了Asari AI的支持。

该团队的工作在12月的神经信息处理系统会议(NeurIPS)上进行了展示。

Q&A

Q1:EnCompass是什么?它能解决什么问题?

A:EnCompass是MIT CSAIL和Asari AI开发的框架,专门为AI智能体提供自动搜索优化功能。它解决了当大语言模型出错时,智能体需要手动编写复杂回溯代码的问题,通过自动回溯和并行搜索来寻找最佳解决方案。

Q2:使用EnCompass能节省多少编程工作量?

A:根据研究结果,EnCompass可以将实现搜索功能的编码工作减少高达80%。例如在代码翻译智能体中,使用EnCompass比手工实现少了348行代码,约减少82%的工作量,同时还能实现15%到40%的准确率提升。

Q3:EnCompass适用于哪些类型的AI智能体?

A:EnCompass主要适用于有明确程序化工作流程的智能体,特别是那些调用大语言模型执行特定步骤的Python程序智能体。对于完全由大语言模型控制决策的智能体,EnCompass的适用性较低,因为这类智能体缺乏底层的程序化工作流程结构。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
队报:民主刚果晋级世界杯后强留球员超48小时,里尔上诉至FIFA

队报:民主刚果晋级世界杯后强留球员超48小时,里尔上诉至FIFA

懂球帝
2026-04-04 11:20:07
越闹越大!李荣浩刚发完飙,水木年华团长反手来了个更狠的!

越闹越大!李荣浩刚发完飙,水木年华团长反手来了个更狠的!

小娱乐悠悠
2026-04-01 09:44:15
和王楚钦秘密恋爱?耍阴招击败蒯曼?孙颖莎终于为私生活谣言正名

和王楚钦秘密恋爱?耍阴招击败蒯曼?孙颖莎终于为私生活谣言正名

王楔晓
2026-04-04 04:06:08
张雪酒后谈爆火后:不会迎合流量,自曝曾将仅剩7千元全捐给他人

张雪酒后谈爆火后:不会迎合流量,自曝曾将仅剩7千元全捐给他人

商悟社
2026-04-04 10:39:04
刚收到中国10万桶油救急,越南扭脸对华商品加税,税率超过27%

刚收到中国10万桶油救急,越南扭脸对华商品加税,税率超过27%

坠入二次元的海洋
2026-04-03 19:59:53
特朗普威胁不加入就停止向乌供武,英法德等北约国家赶紧发表声明

特朗普威胁不加入就停止向乌供武,英法德等北约国家赶紧发表声明

论事的老枢
2026-04-04 11:45:31
自导自演?佛山鸡煲老板因流量压力自黑求放过,结果惨遭网友扒光

自导自演?佛山鸡煲老板因流量压力自黑求放过,结果惨遭网友扒光

从零到一研究所
2026-04-03 15:04:26
家里有废旧手机的要留意,手机店员工说漏嘴,记得提醒家人朋友

家里有废旧手机的要留意,手机店员工说漏嘴,记得提醒家人朋友

小谈食刻美食
2026-04-02 08:57:37
老鹰横扫篮网:杰伦1500+700+500+100三分 历史第4人比肩詹姆斯

老鹰横扫篮网:杰伦1500+700+500+100三分 历史第4人比肩詹姆斯

醉卧浮生
2026-04-04 09:52:39
单依纯的舅舅是天龙人!?

单依纯的舅舅是天龙人!?

八卦疯叔
2026-03-31 10:49:19
乒乓球世界杯:孙颖莎4-0险翻车!首局轰13-11,领先18岁小将!

乒乓球世界杯:孙颖莎4-0险翻车!首局轰13-11,领先18岁小将!

刘姚尧的文字城堡
2026-04-04 13:04:31
广东最“惨”鸡煲店老板:求求你们别来了!反骨网友:我偏要!

广东最“惨”鸡煲店老板:求求你们别来了!反骨网友:我偏要!

房产衫哥
2026-04-04 00:09:27
张雪自曝5年前长发照片:发动机未点火成功 誓不剪发

张雪自曝5年前长发照片:发动机未点火成功 誓不剪发

快科技
2026-04-03 17:00:10
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
丰田再降价!2.0L新车限时13.98万!

丰田再降价!2.0L新车限时13.98万!

手机评测室
2026-04-03 11:48:20
哈尔滨医科大学原党委书记张斌被查

哈尔滨医科大学原党委书记张斌被查

新京报
2026-04-03 16:06:52
小米把5年前老机型塞进了换电池名单,47元起步

小米把5年前老机型塞进了换电池名单,47元起步

摸鱼算法
2026-04-02 12:17:06
美伊停火斡旋陷入僵局,伊朗拒绝在伊斯兰堡与美方会面

美伊停火斡旋陷入僵局,伊朗拒绝在伊斯兰堡与美方会面

界面新闻
2026-04-04 07:03:15
堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

七阿姨爱八卦
2026-03-29 10:12:33
李亚鹏谈张雪机车夺冠眼眶湿润:我也是资深车迷 骑了20多年车

李亚鹏谈张雪机车夺冠眼眶湿润:我也是资深车迷 骑了20多年车

快科技
2026-04-03 14:31:37
2026-04-04 14:36:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17425文章数 49697关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

男子建了18个"5G基站"被政府叫停 发现红头文件为伪造

头条要闻

男子建了18个"5G基站"被政府叫停 发现红头文件为伪造

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

阚清子口碑赢了!全开麦跑调拒绝重唱

财经要闻

刘纪鹏:只盼长慢牛,巩固4000点是关键

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

艺术
亲子
本地
旅游
公开课

艺术要闻

王羲之《孝经》真迹现身日本!美得难以言表

亲子要闻

杰森的美国同事,自从被炸春卷征服后,对中餐念念不忘了

本地新闻

跟着歌声游安徽,听古村回响

旅游要闻

千城胜景|河北赞皇:赴杏花之约 赏棋盘山春光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版