网易首页 > 网易号 > 正文 申请入驻

Devin估值20亿却未上线,AI Agent架构藏着什么狠招

0
分享至


175亿美元估值,产品还没公开。Cognition的Devin创下这个纪录时,很多人以为又是硅谷的泡沫游戏。但GitHub Copilot的Agent模式已经在处理多文件重构,Cursor的Composer能重写整个项目代码——这些不是聊天机器人,是能规划、能调用工具、能记住教训的AI Agent。

它们的架构设计,正在成为AI工程领域最烫手的话题。

从"一问一答"到"观察-思考-行动"循环

传统大语言模型应用像个尽职的客服:你给提示,它给回答。但现实世界的问题需要多步骤、决策、工具调用和迭代。订机票、调试代码、深度调研——这些都没法在一个提示-响应周期里完成。

AI Agent的解法是把流程改成循环:观察环境,思考策略,执行动作,从结果学习,再重复。

这个循环不是装饰。Devin能独立完成编程任务,核心就在于它不会写两行代码就交差,而是持续检查运行结果,遇到报错就回溯修复。GitHub Copilot的Agent模式处理复杂重构时,同样会分阶段验证每个修改是否破坏了现有功能。

架构层面,这个循环由四个模块支撑:规划模块拆解任务,记忆系统保留上下文,工具层对接外部能力,推理引擎驱动决策。

规划模块:把"大目标"切成"可执行块"

当你让Agent"调研竞品定价并输出对比报告",它得自动拆解成:识别竞品→找到定价页面→提取数据→整理表格→撰写分析。规划模块就是做这个的。

常见策略有三种。思维链推理(Chain-of-Thought):让模型一步步想,显式写出中间步骤。任务分解:把目标拆成子目标,逐个攻克。计划-执行模式:先完整制定计划,再按步骤执行,适合需要预审批的场景。

Cursor的Composer选择了一种混合策略。面对跨文件重构,它会先扫描项目结构生成依赖图,再按风险等级排序修改顺序——核心模块最后动,边缘代码先试手。这种规划方式把大型重构的失败率从"频繁崩溃"压到了"偶尔需要人工介入"。

没有规划模块的Agent,就像拿到食材就直接下锅的厨师——可能做出东西,但大概率不是你要的那道菜。


记忆系统:从"无状态函数"到"越用越顺手"

没有记忆的Agent会重复犯错,丢失上下文。一个设计良好的记忆系统分两层:

短期记忆:当前任务的上下文窗口,对话历史、最近操作、中间结果都存在这里。长期记忆:持久化知识库,存储用户偏好、过往教训、领域知识。

Cognition公开的代码片段显示,Devin的记忆系统用键值对存储长期记忆,带时间戳。这意味着它能记住"用户上次要求React组件用函数式写法"这类偏好,也能追踪"这个API有速率限制"这类踩过的坑。

记忆让Agent从"无状态函数调用"变成"随时间改进的系统"。GitHub Copilot的个性化建议就依赖长期记忆——它记得你常用哪些库、偏好的命名风格、甚至常犯的语法错误模式。

但记忆也是把双刃剑。Cursor早期版本曾因长期记忆污染导致建议质量下降:旧项目的代码风格被错误应用到新项目中。现在的解法是给记忆加权重衰减,越久远的记录影响越小。

工具层:让Agent长出"手"和"脚"

没有工具,Agent只能生成文本。有了工具,它能执行代码、调用API、搜索网络、操作文件系统。

工具层设计为插件系统:每个工具有名称、描述、输入输出模式。Agent通过推理引擎决定何时调用哪个工具,把自然语言意图转化为结构化调用。

Devin的工具集包括:代码编辑器、Shell终端、浏览器、计划管理器。它能自己打开浏览器查文档,用终端运行测试,根据报错定位问题。这套组合拳让它在SWE-bench基准测试中解决了13.86%的真实GitHub Issue——而GPT-4单独完成率只有1.96%。

工具调用也是主要的失败来源。Agent可能选错工具、填错参数、或者陷入"调用-报错-再调用"的循环。Guardrails(护栏机制)在这里关键:预算上限防止无限循环,人工检查点卡住高风险操作,工具权限分级限制破坏范围。

GitHub Copilot的Agent模式就设置了隐性护栏:涉及删除文件、修改配置等操作前,会暂停等待确认。这种设计牺牲了部分"自主性",换取了用户信任。


推理引擎:ReAct,让"想"和"做"交替进行

推理引擎是Agent的决策中枢。目前最主流的范式是ReAct(Reason + Act):交替进行推理(Thought)和行动(Action)。

具体流程:Agent观察当前状态,生成思考("我需要先获取天气数据"),选择行动(调用天气API),观察结果("北京今天晴,25度"),再生成下一步思考。这种交错让Agent能处理开放式任务,动态调整策略。

ReAct的优势在于可解释性。每个行动前有显式推理,调试时能追踪"它为什么这么做"。相比之下,端到端训练的Agent像个黑箱,出错时难定位。

但ReAct也有代价。交替生成思考和行动增加了延迟,对实时性要求高的场景不友好。一些团队正在实验"批量推理"——让Agent先规划多步,再批量执行,减少LLM调用次数。

Cursor的Composer采用了变体方案:在代码生成场景,它先做一次性思维链规划,生成完整修改方案,用户确认后再批量执行。这种"先想后做"模式牺牲了部分灵活性,但换来了效率和可控性。

Guardrails:给自主性套上缰绳

Agent的自主性是把双刃剑。Cognition给Devin设计了多层防护:预算上限(单次任务最大LLM调用次数)、人工检查点(关键操作前暂停)、沙箱环境(代码执行隔离)。

这些不是事后补丁,是架构设计的核心部分。没有Guardrails的Agent,可能在生产环境里删库、泄露密钥、或者陷入无限循环烧光API额度。

一个被低估的设计是"优雅降级"。当Agent遇到无法处理的情况,不该硬撑,而该明确移交人类。Devin在SWE-bench测试中的失败案例,很多是"自信地给出错误解法"而非"承认不会"。现在的迭代版本增加了不确定性量化——当置信度低于阈值时主动求助。

GitHub Copilot的做法更保守:Agent模式默认关闭,需要用户显式启用;高风险操作始终需要确认。这种"渐进式放权"策略,或许更适合企业级部署。

架构层面,Guardrails应该内嵌而非外挂。在规划模块加入"可行性检查",在工具层加入"权限校验",在记忆系统加入"隐私过滤"——每一层都有自己的护栏,而非依赖最终的安全层。

Devin的20亿美元估值是否合理?产品正式上线后,它的Agent架构能否经住真实开发场景的考验——比如处理遗留代码、协调多人协作、或者面对模糊需求时的表现?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着湖人137-130 雷霆109-119 马刺123-98 西部最新积分榜出炉

随着湖人137-130 雷霆109-119 马刺123-98 西部最新积分榜出炉

林子说事
2026-03-28 00:01:46
樊振东一单独得2分 52岁华裔名将求合影 现场播放《真心英雄》

樊振东一单独得2分 52岁华裔名将求合影 现场播放《真心英雄》

念洲
2026-03-28 06:47:42
张雪峰经典语录:句句都是人间清醒

张雪峰经典语录:句句都是人间清醒

山东教育
2026-03-26 08:07:56
霍尔木兹海峡停摆,浙江这位船商却公开承诺:不加价!他说这是浙江人的契约精神

霍尔木兹海峡停摆,浙江这位船商却公开承诺:不加价!他说这是浙江人的契约精神

都市快报橙柿互动
2026-03-28 00:20:22
精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

深度报
2026-02-11 23:35:03
即将“满月”,美以伊战事走向四大悬念

即将“满月”,美以伊战事走向四大悬念

澎湃新闻
2026-03-27 22:51:05
张雪峰灵堂现动人一幕,宾客来都是鞠躬,而他的员工给张老师磕头

张雪峰灵堂现动人一幕,宾客来都是鞠躬,而他的员工给张老师磕头

十九妹
2026-03-28 10:07:30
人的基因到底有多强大?网友:今年剪了个短发,我爸一看就害怕!

人的基因到底有多强大?网友:今年剪了个短发,我爸一看就害怕!

另子维爱读史
2026-03-21 20:46:34
前国脚郜林分享退役生活:收入落差巨大 目前月薪覆盖通勤费后所剩无几

前国脚郜林分享退役生活:收入落差巨大 目前月薪覆盖通勤费后所剩无几

新英体育
2026-03-27 10:41:53
美国高尔夫球星“老虎”伍兹因酒驾发生翻车事故被捕

美国高尔夫球星“老虎”伍兹因酒驾发生翻车事故被捕

新京报
2026-03-28 09:44:58
国际油价27日大幅上涨

国际油价27日大幅上涨

中国经济网
2026-03-28 08:50:16
尼科帕斯任意球破门,梅西的举动引热议!阿根廷新10号就此确定了

尼科帕斯任意球破门,梅西的举动引热议!阿根廷新10号就此确定了

小火箭爱体育
2026-03-28 09:32:30
刘晓红回应3大争议,没给姐姐刘晓庆留脸面,原来我们都被骗了?

刘晓红回应3大争议,没给姐姐刘晓庆留脸面,原来我们都被骗了?

不似少年游
2026-03-27 19:39:39
全红婵与陈芋汐的两组时尚大片刷屏网络,评论区一边倒

全红婵与陈芋汐的两组时尚大片刷屏网络,评论区一边倒

魔都姐姐杂谈
2026-03-28 10:20:56
张雪峰女儿亲自辟谣!父母恩爱没离婚,回应三个问题,口才很意外

张雪峰女儿亲自辟谣!父母恩爱没离婚,回应三个问题,口才很意外

离离言几许
2026-03-27 14:42:23
为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

侃神评故事
2026-03-10 18:50:04
每体:拉菲尼亚的受伤引发巴萨高层强烈愤慨,弗里克也极为愤怒

每体:拉菲尼亚的受伤引发巴萨高层强烈愤慨,弗里克也极为愤怒

懂球帝
2026-03-28 06:38:07
特朗普:美国截获了乌克兰政府的通信,乌曾试图干预2024年美国大选,计划输送巨额资金以助拜登连任

特朗普:美国截获了乌克兰政府的通信,乌曾试图干预2024年美国大选,计划输送巨额资金以助拜登连任

极目新闻
2026-03-27 20:51:40
美媒:七次推进失败后,美参议院凌晨通过为国土安全部多数部门拨款的法案

美媒:七次推进失败后,美参议院凌晨通过为国土安全部多数部门拨款的法案

环球网资讯
2026-03-27 17:40:11
广东姑娘吉隆坡机场星巴克买咖啡被骂笨蛋 华人集体投诉店员被开除

广东姑娘吉隆坡机场星巴克买咖啡被骂笨蛋 华人集体投诉店员被开除

普陀动物世界
2026-03-27 16:55:41
2026-03-28 12:31:00
硬核玩家2哈
硬核玩家2哈
沉淀中,勿扰
344文章数 2关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

媒体:"霍尔木兹决战"摊牌了 美给伊朗开出"投降"条件

头条要闻

媒体:"霍尔木兹决战"摊牌了 美给伊朗开出"投降"条件

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

王一博改名上热搜!个人时代正式开启!

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

教育
房产
健康
游戏
手机

教育要闻

严禁教师歧视学生,对学生实施体罚或者侮辱人格尊严的行为

房产要闻

6.8万方!天河员村再征地,金融城西区开发全面提速

干细胞抗衰4大误区,90%的人都中招

主机越老越贵!外媒怒喷:PS5 Pro涨价后彻底不值得买

手机要闻

小米18 Ultra要配LOFIC长焦和三个2亿像素镜头?

无障碍浏览 进入关怀版