![]()
你有没有发现一个悖论?AI让我们写代码的速度提高了10倍,但半夜被叫醒修bug的次数似乎也在增加。两年前,几乎没人用AI写代码。一年前,GitHub Copilot让AI辅助编程成为标配。现在,几乎每个开发者都在用AI agent帮忙写代码。代码产出速度飞快,新功能上线越来越频繁。听起来很美好对不对?但这里有个被忽视的问题:当AI生成的代码越来越多,这些代码部署到生产环境后,谁来保证它们能稳定运行?谁来在凌晨三点系统崩溃时找出问题并修复?更关键的是,当代码量呈指数级增长,而工程师对这些AI生成的代码并不完全熟悉时,维护生产环境的难度也在呈指数级上升。
这个矛盾正是Resolve AI要解决的核心问题。这家成立仅16个月的公司刚刚完成了1.25亿美元的A轮融资,估值达到10亿美元。由Lightspeed Venture Partners领投,Greylock Partners、Unusual Ventures、Artisanal Ventures和A*等早期投资者全部超额跟投。更值得关注的是,他们已经拿下了Coinbase、DoorDash、MongoDB、Salesforce、Zscaler等重量级客户。这些公司每分钟的停机都意味着巨额损失,而Resolve AI帮助Coinbase将关键事故的调查时间减少了72%,帮助Zscaler将每次事故所需的工程师数量减少了30%。这不是小打小闹的优化,而是生产环境运维方式的根本性改变。我认为,他们正在定义一个全新的品类:AI for prod,也就是用AI来运行和维护生产环境中的软件。
AI代码革命带来的意外后果
让我先谈谈这个行业正在发生的变化。过去一年里,AI编程工具的进步速度超出了所有人的预期。从GitHub Copilot到Cursor,再到Claude Code,这些工具让开发者能够用自然语言描述需求,然后AI就能生成相应的代码。这种效率提升是革命性的。一个开发者现在可以完成以前需要一个小团队才能完成的工作量。创业公司可以用更少的人更快地构建产品。这听起来像是软件工程的黄金时代。
![]()
但我在和工程师朋友交流时发现了一个普遍的焦虑:代码写得快了,但系统运维变得更难了。有研究数据显示,随着AI编程工具的广泛使用,生产环境中每次代码变更导致的事故数量实际上在增加。这背后的逻辑其实很简单:当你用AI生成代码时,你对这些代码的熟悉程度不如自己一行行写出来的代码。代码中可能存在的边界情况、潜在的性能问题、与其他系统的交互方式,这些细节你可能并不完全清楚。当这些代码部署到生产环境后出现问题,你需要花更多时间去理解到底发生了什么。
Resolve AI的CEO Spiros Xanthos在接受采访时提到了一个关键洞察:软件工程最难的部分从来不是写代码,而是运行生产环境。问题很少只存在于单个系统中,根因通常隐藏在各个工具之间的关系里:一个延迟峰值可能与最近的部署有关,一个配置变更可能影响了特定的数据库分片。我深有体会,因为我见过太多这样的场景。工程师们在半夜被拉进战情室,对着几十个不同的监控面板,试图在Datadog、Splunk、Grafana、Kubernetes和Slack之间来回切换,手动拼凑出到底哪里出了问题。
![]()
更糟糕的是,解决这些生产环境问题所需的知识往往是无法成文的"部落知识"。它存在于最资深工程师的脑海中:这个服务在什么情况下会出现这种错误?这个配置参数为什么要设成这个值?这个依赖关系为什么这么设计?当这些工程师不在岗时,这些知识就无法获取。当他们离职时,这些知识可能就永远消失了。对于一个快速增长的公司来说,依赖部落知识来维护生产环境是极其脆弱和不可扩展的。
所以现在的情况是:AI让我们能够更快地生成代码,但如果我们不能同样快速地运行和维护这些代码,整体的技术迭代速度并不会真正提升。你可能在开发阶段快了5倍,但如果在运维阶段慢了3倍,整体效率的提升就大打折扣了。更不用说,生产环境的不稳定会直接影响用户体验、业务收入和公司声誉。这就是为什么我认为Resolve AI瞄准的是一个被严重低估但极其关键的问题。
为什么生产环境是AI最难攻克的堡垒
我一直在思考一个问题:为什么AI在代码生成方面取得了如此大的突破,但在生产环境运维方面却进展缓慢?Resolve AI团队给出了一个非常深刻的解释:生产环境对AI agent来说是一个独特困难的环境。
首先,现有的工具都是为人类设计的。监控系统、日志平台、基础设施管理工具,这些都是按照人类的思维方式和操作习惯构建的。AI agent要使用这些工具,就必须学会像人类一样操作它们。这不像训练一个模型去理解代码那么简单,因为代码是结构化的文本,而生产环境的数据则分散在各种不同的系统中,每个系统都有自己的数据格式、查询语言和访问方式。
其次,做出任何决策都需要跨多个维度同时推理。你需要查看代码变更历史、系统遥测数据、基础设施配置、部署记录,然后把这些信息综合起来才能理解到底发生了什么。举个例子,一个API响应时间突然变慢,可能的原因包括:最近部署的代码中有性能问题、数据库查询效率下降、某个依赖服务出现了延迟、网络层面有拥塞、缓存失效导致了更多的数据库访问,或者仅仅是因为流量突然增加。要准确诊断问题,你需要检查所有这些可能性,而每一个都需要访问不同的系统、执行不同的查询。
第三,最关键的上下文往往是未成文的。文档经常过时,配置文件的注释不完整,某个奇怪设置背后的原因可能只有当初做这个决定的工程师知道。这种"部落知识"是人类通过长期在特定环境中工作积累起来的,很难通过简单的文档或日志来传递。对于通用的大语言模型来说,它们无法获取这些特定于每个组织的知识。
Spiros在访谈中提到了一个很有意思的类比:这就像自动驾驶汽车。我们不会让自动驾驶汽车上路,除非它们能用数据证明自己比人类司机开得更好。而且自动驾驶也有不同的级别,从辅助驾驶到完全自动驾驶。同样的道理也适用于生产环境的AI。我们不能一步跨越到让AI完全自主管理生产系统,我们需要一个渐进的过程。一开始,AI执行调查工作并报告发现,由人类工程师做最终决策。然后,AI可以执行一些低风险或可逆的操作。最终,AI应该能够解决人类无法解决的问题,并且在速度和可靠性上都超越人类。
这种渐进式的方法不仅是技术上的必要,也是文化上的必要。工程师们需要时间来建立对AI系统的信任。他们需要看到AI的推理过程,理解它为什么做出某个判断,验证它的结论是否正确。只有当AI能够持续提供高质量、可解释的结果时,工程师们才会愿意让它承担更大的责任。
Resolve AI如何破解这个难题
在了解Resolve AI的解决方案后,我对他们的技术架构印象深刻。他们构建的不是一个简单的AI助手,而是一个复杂的多agent系统,专门为生产环境的特殊需求设计。
核心思路是这样的:Resolve AI持续从代码库、可观测性平台、部署系统、云基础设施、配置管理和运维历史中提取上下文信息。这不是一次性的数据导入,而是持续的、实时的信息收集。系统需要理解你的服务架构、依赖关系、部署模式、常见故障模式等等。这些信息构成了一个知识图谱,映射出服务、容器、组件之间的交互关系,捕捉那些原本只存在于资深工程师脑海中的部落知识。
当生产环境出现问题时,比如触发了一个告警或发生了一次事故,Resolve AI的多agent系统就开始工作。有一个规划agent负责整体协调,它会调度多个专门的子agent,每个子agent都经过训练,擅长使用不同的工具和执行不同的任务。这些agent会系统性地分类问题、形成假设,然后通过收集证据来验证或推翻每个假设。
我觉得特别聪明的是他们的验证机制。一个agent执行某项工作后,会有另一个agent审查这项工作并提供反馈,然后第一个agent会根据反馈进行迭代。当多个agent协同工作时,它们各自完成任务后,还会有一个监督agent来审查整体的分析结果,如果发现推理中有漏洞,会要求相关agent重新工作。这种多层次的检查和验证机制确保了最终结果的可靠性。
Spiros在访谈中详细解释了这个多agent架构的设计考虑。他提到,对于需要长序列推理的复杂任务,他们会使用最强大的推理模型,通常是大型的闭源模型。而对于具体的执行任务,可能只需要一两个步骤,就可以使用更快的闭源模型或者针对特定任务后训练的开源模型。这种分层设计既保证了推理质量,又控制了成本和延迟。
![]()
最重要的是,Resolve AI不只是给出一个答案,而是提供一个带有引用和推理过程的结构化解释。它会展示推理步骤、相关查询、甚至指出是哪个具体的Pull Request引入了问题。这种透明度对于建立工程师的信任至关重要。工程师可以验证AI的推理是否正确,理解它为什么得出这个结论,而不是盲目接受一个黑盒的建议。
更进一步,随着系统在特定组织中运行的时间越来越长,它会学习到越来越多关于该组织特定环境的知识。哪些模式通常预示着即将发生的问题?哪些操作序列最有效?哪些配置组合最稳定?这些都会被系统记录下来,用于训练和改进模型。这创造了一个数据飞轮:系统越用越好,越来越了解你的环境,也就越来越有价值。
从客户的实际使用情况来看,效果确实显著。Coinbase报告说,在测试的事故中,定位根本原因的时间减少了73%。想象一下,如果原本需要2小时才能找到问题根源,现在只需要半小时。这不仅仅是节省时间,更重要的是减少了用户受影响的时间、降低了业务损失。Zscaler则报告说每次事故所需的工程师数量减少了30%。这意味着更少的人被半夜叫醒,更少的团队协调成本,以及工程师有更多时间专注于构建新功能而不是救火。
为什么偏偏是现在
我一直在思考,为什么是现在这个时间点,Resolve AI能够取得突破?为什么不是三年前或三年后?我认为有几个关键因素的汇聚创造了这个机会窗口。
第一个因素是大语言模型和agent技术的成熟。过去一年里,我们看到了agent系统在软件开发领域的巨大成功。这证明了agent不仅仅是概念验证,而是可以在复杂、多步骤的任务中创造实际价值。Resolve AI团队吸引了14位前DeepMind的工程师加入,这些人是agent AI的先驱者。他们带来的不仅是技术能力,更是对agent系统设计的深刻理解。同时,他们团队中还有在Microsoft、Google、Tesla、SpaceX等公司运行过世界上最复杂生产环境的工程师。这种AI前沿研究与生产系统深度专业知识的结合非常罕见。
第二个因素是AI代码生成带来的紧迫性。正如我前面提到的,AI正在让代码产出速度呈指数级增长。这意味着部署到生产环境的代码量也在快速增加,服务数量增加、依赖关系变复杂、潜在故障点增多。如果运维能力跟不上开发速度,整个技术迭代就会卡在生产环节。这个痛点变得越来越尖锐,企业对解决方案的需求也越来越迫切。
第三个因素是企业开始真正理解这个问题的成本。Spiros提到,在AI辅助编程出现之前,工程师就已经花费大约70%的时间在维护生产系统上,而不是开发新功能。现在随着代码量的增加,这个比例可能更高。对于一个科技公司来说,让最优秀的工程师把大部分时间花在救火而不是创新上,是一种巨大的资源浪费。更不用说,生产环境的不稳定直接影响用户体验和业务收入。这已经不是一个可以忍受的问题,而是必须解决的战略性问题。
![]()
第四个因素是投资者开始认识到这个领域的价值。Lightspeed的合伙人Sebastian Duesterhoeft在解释为什么投资Resolve AI时说:"虽然软件开发一直是AI增长最快的应用领域之一,但Spiros和Mayank很早就意识到真正的价值和更难的问题在于生产环境。"这种认知的转变很重要。过去,投资者可能更关注那些直接提高开发效率的工具,但现在他们开始理解,如果不解决运维问题,开发效率的提升是不完整的。
我还注意到一个有趣的现象:Resolve AI的两位创始人Spiros Xanthos和Mayank Agarwal在可观测性领域有超过20年的经验。他们之前的公司Omnition被Splunk收购,他们还共同创建了OpenTelemetry,这是管理遥测数据的全球开源标准。在Splunk,Spiros担任可观测性业务的高级副总裁兼总经理,管理着400多人的团队。这种深厚的领域专业知识让他们能够真正理解生产环境的复杂性,而不是简单地把AI技术套用到这个领域。他们知道现有工具的局限性在哪里,知道工程师真正的痛点是什么,知道什么样的解决方案才能真正被采用。
![]()
从市场表现来看,时机确实成熟了。Resolve AI在16个月内就达到了10亿美元估值,拿下了Coinbase、DoorDash、MongoDB、Salesforce、Zscaler这样的重量级客户,并且从种子轮到A轮的所有投资者都选择了超额跟投。这些信号都表明,市场不仅认可这个方向,而且认为Resolve AI团队有能力执行。
![]()
这将如何改变软件工程
我认为,如果Resolve AI代表的"AI for prod"这个方向成功了,它将从根本上改变软件工程的工作方式和职业发展路径。这不是一个小的工具升级,而是整个范式的转变。
最直接的影响是工程师的工作重心会发生迁移。现在,即使是最资深的工程师也要花大量时间在琐碎但紧急的运维任务上:查日志、分析监控数据、定位问题、制定修复方案。当AI能够自动完成这些工作时,工程师可以把时间投入到更高价值的活动上:系统架构设计、性能优化策略、新技术评估、业务逻辑创新。这不是说运维工作不重要,而是说这些工作可以被自动化,让人类专注于那些真正需要创造力和判断力的任务。
![]()
Spiros在访谈中提到了一个很有启发性的观点:就像过去50年里软件从机器语言到高级编程语言的演进一样,AI代表的是又一层抽象。工程师不需要担心他们会失去底层技能,因为问题不在于人类技能是否会退化,而在于我们应该让AI agent能够同时很好地完成代码生成和代码运维这两件事,让工程师在更高的抽象层面上工作。他们不再需要记住特定的查询语言、API调用方式或CLI命令的具体语法,这些繁重而压力巨大的底层工作都由AI处理,工程师则在更高层面思考和决策。
我预测会出现一种新的工作模式:工程师和AI agent的协同。在这种模式下,AI不是完全自主地运行一切,而是作为一个极其能干的助手,处理大量的繁琐工作,然后向工程师报告关键发现和建议。工程师则负责做出重要决策、处理边缘情况、处理需要业务判断的问题。随着AI系统变得越来越可靠,它可以承担的责任范围也会逐渐扩大。Spiros估计,大约一年后,AI将成为软件运维的主要"驾驶员",人类在更高层面进行监督和决策。两到三年后,AI可能会做出大部分决策,人类则负责设定高级框架和处理异常情况。
![]()
对于企业来说,这意味着技术团队的规模化方式会发生改变。传统上,随着系统复杂度增加,你需要雇佣更多的工程师和SRE来维护它。但有了AI for prod,同样的团队可以管理复杂得多的系统,或者说同样复杂的系统需要更少的人来维护。这不一定意味着裁员,更可能意味着工程师可以把时间投入到创新而不是维护上,让公司能够更快地推出新产品和新功能。
我也想到了对人才市场的影响。会不会出现新的职位,比如"AI agent设计师"、"生产环境AI训练师"或者"AI系统审计员"?这些角色负责设计agent的工作流程、训练agent理解特定组织的环境、审查agent的决策是否合理。就像DevOps工程师这个角色是随着云计算和自动化的兴起而出现的,AI for prod可能也会催生新的专业角色。
从更宏观的角度看,这可能会改变整个软件行业的经济学。如果运维成本大幅降低,软件公司可以承担更大的技术复杂度。那些原本因为运维成本过高而不可行的产品想法,可能变得可行了。创业公司可以用更小的团队支撑更大规模的服务。这可能会加速整个行业的创新速度,因为从idea到production的障碍变小了。
Spiros说过一句话让我印象深刻:"在agent时代,会产生比以往任何时代都多得多的软件。获胜的团队不会是写代码最快的,而是能够可靠、安全地运行他们所写代码的团队,并且速度要跟上开发节奏。"这就是AI for prod要实现的目标。而这次1.25亿美元的A轮融资,让Resolve AI有资源继续构建这个未来。他们计划把资金主要投入三个方向:研发,继续推进作为世界级应用AI实验室在软件工程领域的前沿探索;产品深度,改进生产环境推理能力,向闭环系统迈进,并扩展与生产技术栈的集成;客户成功,支持全球企业客户的快速增长。
我相信,五年后回头看,我们会认为2025-2026年是一个转折点。就像2022-2023年是AI代码生成的突破年一样,2025-2026年可能会被记住为AI生产运维的突破年。当代码生成和运维都被AI显著增强后,软件的整个生命周期都将加速,这才是真正意义上的生产力革命。
结尾
也欢迎大家留言讨论,分享你的观点!
觉得内容不错的朋友能够帮忙右下角点个赞,分享一下。您的每次分享,都是在激励我不断产出更好的内容。
欢迎关注深思圈,一起探索更大的世界。
- END -
两个“特别坑”的AI产品创业方向,你知道吗
![]()
速度将成为AI时代唯一的护城河
![]()
a16z重磅预测:Vibe coding赢者通吃?错了,垂直专业化才是未来
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.