16个月估值破10亿美元！众多VC押注一个新品类，AI写代码越快，这个问题越致命|运维|编程|工程师|代码量|agent

分享至

你有没有发现一个悖论？AI让我们写代码的速度提高了10倍，但半夜被叫醒修bug的次数似乎也在增加。两年前，几乎没人用AI写代码。一年前，GitHub Copilot让AI辅助编程成为标配。现在，几乎每个开发者都在用AI agent帮忙写代码。代码产出速度飞快，新功能上线越来越频繁。听起来很美好对不对？但这里有个被忽视的问题：当AI生成的代码越来越多，这些代码部署到生产环境后，谁来保证它们能稳定运行？谁来在凌晨三点系统崩溃时找出问题并修复？更关键的是，当代码量呈指数级增长，而工程师对这些AI生成的代码并不完全熟悉时，维护生产环境的难度也在呈指数级上升。

这个矛盾正是Resolve AI要解决的核心问题。这家成立仅16个月的公司刚刚完成了1.25亿美元的A轮融资，估值达到10亿美元。由Lightspeed Venture Partners领投，Greylock Partners、Unusual Ventures、Artisanal Ventures和A*等早期投资者全部超额跟投。更值得关注的是，他们已经拿下了Coinbase、DoorDash、MongoDB、Salesforce、Zscaler等重量级客户。这些公司每分钟的停机都意味着巨额损失，而Resolve AI帮助Coinbase将关键事故的调查时间减少了72%，帮助Zscaler将每次事故所需的工程师数量减少了30%。这不是小打小闹的优化，而是生产环境运维方式的根本性改变。我认为，他们正在定义一个全新的品类：AI for prod，也就是用AI来运行和维护生产环境中的软件。

AI代码革命带来的意外后果

让我先谈谈这个行业正在发生的变化。过去一年里，AI编程工具的进步速度超出了所有人的预期。从GitHub Copilot到Cursor，再到Claude Code，这些工具让开发者能够用自然语言描述需求，然后AI就能生成相应的代码。这种效率提升是革命性的。一个开发者现在可以完成以前需要一个小团队才能完成的工作量。创业公司可以用更少的人更快地构建产品。这听起来像是软件工程的黄金时代。

但我在和工程师朋友交流时发现了一个普遍的焦虑：代码写得快了，但系统运维变得更难了。有研究数据显示，随着AI编程工具的广泛使用，生产环境中每次代码变更导致的事故数量实际上在增加。这背后的逻辑其实很简单：当你用AI生成代码时，你对这些代码的熟悉程度不如自己一行行写出来的代码。代码中可能存在的边界情况、潜在的性能问题、与其他系统的交互方式，这些细节你可能并不完全清楚。当这些代码部署到生产环境后出现问题，你需要花更多时间去理解到底发生了什么。

Resolve AI的CEO Spiros Xanthos在接受采访时提到了一个关键洞察：软件工程最难的部分从来不是写代码，而是运行生产环境。问题很少只存在于单个系统中，根因通常隐藏在各个工具之间的关系里：一个延迟峰值可能与最近的部署有关，一个配置变更可能影响了特定的数据库分片。我深有体会，因为我见过太多这样的场景。工程师们在半夜被拉进战情室，对着几十个不同的监控面板，试图在Datadog、Splunk、Grafana、Kubernetes和Slack之间来回切换，手动拼凑出到底哪里出了问题。

更糟糕的是，解决这些生产环境问题所需的知识往往是无法成文的"部落知识"。它存在于最资深工程师的脑海中：这个服务在什么情况下会出现这种错误？这个配置参数为什么要设成这个值？这个依赖关系为什么这么设计？当这些工程师不在岗时，这些知识就无法获取。当他们离职时，这些知识可能就永远消失了。对于一个快速增长的公司来说，依赖部落知识来维护生产环境是极其脆弱和不可扩展的。

所以现在的情况是：AI让我们能够更快地生成代码，但如果我们不能同样快速地运行和维护这些代码，整体的技术迭代速度并不会真正提升。你可能在开发阶段快了5倍，但如果在运维阶段慢了3倍，整体效率的提升就大打折扣了。更不用说，生产环境的不稳定会直接影响用户体验、业务收入和公司声誉。这就是为什么我认为Resolve AI瞄准的是一个被严重低估但极其关键的问题。

为什么生产环境是AI最难攻克的堡垒

我一直在思考一个问题：为什么AI在代码生成方面取得了如此大的突破，但在生产环境运维方面却进展缓慢？Resolve AI团队给出了一个非常深刻的解释：生产环境对AI agent来说是一个独特困难的环境。

首先，现有的工具都是为人类设计的。监控系统、日志平台、基础设施管理工具，这些都是按照人类的思维方式和操作习惯构建的。AI agent要使用这些工具，就必须学会像人类一样操作它们。这不像训练一个模型去理解代码那么简单，因为代码是结构化的文本，而生产环境的数据则分散在各种不同的系统中，每个系统都有自己的数据格式、查询语言和访问方式。

其次，做出任何决策都需要跨多个维度同时推理。你需要查看代码变更历史、系统遥测数据、基础设施配置、部署记录，然后把这些信息综合起来才能理解到底发生了什么。举个例子，一个API响应时间突然变慢，可能的原因包括：最近部署的代码中有性能问题、数据库查询效率下降、某个依赖服务出现了延迟、网络层面有拥塞、缓存失效导致了更多的数据库访问，或者仅仅是因为流量突然增加。要准确诊断问题，你需要检查所有这些可能性，而每一个都需要访问不同的系统、执行不同的查询。

第三，最关键的上下文往往是未成文的。文档经常过时，配置文件的注释不完整，某个奇怪设置背后的原因可能只有当初做这个决定的工程师知道。这种"部落知识"是人类通过长期在特定环境中工作积累起来的，很难通过简单的文档或日志来传递。对于通用的大语言模型来说，它们无法获取这些特定于每个组织的知识。

Spiros在访谈中提到了一个很有意思的类比：这就像自动驾驶汽车。我们不会让自动驾驶汽车上路，除非它们能用数据证明自己比人类司机开得更好。而且自动驾驶也有不同的级别，从辅助驾驶到完全自动驾驶。同样的道理也适用于生产环境的AI。我们不能一步跨越到让AI完全自主管理生产系统，我们需要一个渐进的过程。一开始，AI执行调查工作并报告发现，由人类工程师做最终决策。然后，AI可以执行一些低风险或可逆的操作。最终，AI应该能够解决人类无法解决的问题，并且在速度和可靠性上都超越人类。

这种渐进式的方法不仅是技术上的必要，也是文化上的必要。工程师们需要时间来建立对AI系统的信任。他们需要看到AI的推理过程，理解它为什么做出某个判断，验证它的结论是否正确。只有当AI能够持续提供高质量、可解释的结果时，工程师们才会愿意让它承担更大的责任。

Resolve AI如何破解这个难题

在了解Resolve AI的解决方案后，我对他们的技术架构印象深刻。他们构建的不是一个简单的AI助手，而是一个复杂的多agent系统，专门为生产环境的特殊需求设计。

核心思路是这样的：Resolve AI持续从代码库、可观测性平台、部署系统、云基础设施、配置管理和运维历史中提取上下文信息。这不是一次性的数据导入，而是持续的、实时的信息收集。系统需要理解你的服务架构、依赖关系、部署模式、常见故障模式等等。这些信息构成了一个知识图谱，映射出服务、容器、组件之间的交互关系，捕捉那些原本只存在于资深工程师脑海中的部落知识。

当生产环境出现问题时，比如触发了一个告警或发生了一次事故，Resolve AI的多agent系统就开始工作。有一个规划agent负责整体协调，它会调度多个专门的子agent，每个子agent都经过训练，擅长使用不同的工具和执行不同的任务。这些agent会系统性地分类问题、形成假设，然后通过收集证据来验证或推翻每个假设。

我觉得特别聪明的是他们的验证机制。一个agent执行某项工作后，会有另一个agent审查这项工作并提供反馈，然后第一个agent会根据反馈进行迭代。当多个agent协同工作时，它们各自完成任务后，还会有一个监督agent来审查整体的分析结果，如果发现推理中有漏洞，会要求相关agent重新工作。这种多层次的检查和验证机制确保了最终结果的可靠性。

Spiros在访谈中详细解释了这个多agent架构的设计考虑。他提到，对于需要长序列推理的复杂任务，他们会使用最强大的推理模型，通常是大型的闭源模型。而对于具体的执行任务，可能只需要一两个步骤，就可以使用更快的闭源模型或者针对特定任务后训练的开源模型。这种分层设计既保证了推理质量，又控制了成本和延迟。

最重要的是，Resolve AI不只是给出一个答案，而是提供一个带有引用和推理过程的结构化解释。它会展示推理步骤、相关查询、甚至指出是哪个具体的Pull Request引入了问题。这种透明度对于建立工程师的信任至关重要。工程师可以验证AI的推理是否正确,理解它为什么得出这个结论，而不是盲目接受一个黑盒的建议。

更进一步，随着系统在特定组织中运行的时间越来越长，它会学习到越来越多关于该组织特定环境的知识。哪些模式通常预示着即将发生的问题？哪些操作序列最有效？哪些配置组合最稳定？这些都会被系统记录下来，用于训练和改进模型。这创造了一个数据飞轮：系统越用越好，越来越了解你的环境，也就越来越有价值。

从客户的实际使用情况来看，效果确实显著。Coinbase报告说，在测试的事故中，定位根本原因的时间减少了73%。想象一下，如果原本需要2小时才能找到问题根源，现在只需要半小时。这不仅仅是节省时间，更重要的是减少了用户受影响的时间、降低了业务损失。Zscaler则报告说每次事故所需的工程师数量减少了30%。这意味着更少的人被半夜叫醒，更少的团队协调成本，以及工程师有更多时间专注于构建新功能而不是救火。

为什么偏偏是现在

我一直在思考，为什么是现在这个时间点，Resolve AI能够取得突破？为什么不是三年前或三年后？我认为有几个关键因素的汇聚创造了这个机会窗口。

第一个因素是大语言模型和agent技术的成熟。过去一年里，我们看到了agent系统在软件开发领域的巨大成功。这证明了agent不仅仅是概念验证，而是可以在复杂、多步骤的任务中创造实际价值。Resolve AI团队吸引了14位前DeepMind的工程师加入，这些人是agent AI的先驱者。他们带来的不仅是技术能力，更是对agent系统设计的深刻理解。同时，他们团队中还有在Microsoft、Google、Tesla、SpaceX等公司运行过世界上最复杂生产环境的工程师。这种AI前沿研究与生产系统深度专业知识的结合非常罕见。

第二个因素是AI代码生成带来的紧迫性。正如我前面提到的，AI正在让代码产出速度呈指数级增长。这意味着部署到生产环境的代码量也在快速增加，服务数量增加、依赖关系变复杂、潜在故障点增多。如果运维能力跟不上开发速度,整个技术迭代就会卡在生产环节。这个痛点变得越来越尖锐，企业对解决方案的需求也越来越迫切。

第三个因素是企业开始真正理解这个问题的成本。Spiros提到,在AI辅助编程出现之前,工程师就已经花费大约70%的时间在维护生产系统上,而不是开发新功能。现在随着代码量的增加,这个比例可能更高。对于一个科技公司来说,让最优秀的工程师把大部分时间花在救火而不是创新上,是一种巨大的资源浪费。更不用说,生产环境的不稳定直接影响用户体验和业务收入。这已经不是一个可以忍受的问题,而是必须解决的战略性问题。

第四个因素是投资者开始认识到这个领域的价值。Lightspeed的合伙人Sebastian Duesterhoeft在解释为什么投资Resolve AI时说:"虽然软件开发一直是AI增长最快的应用领域之一,但Spiros和Mayank很早就意识到真正的价值和更难的问题在于生产环境。"这种认知的转变很重要。过去,投资者可能更关注那些直接提高开发效率的工具,但现在他们开始理解,如果不解决运维问题,开发效率的提升是不完整的。

我还注意到一个有趣的现象：Resolve AI的两位创始人Spiros Xanthos和Mayank Agarwal在可观测性领域有超过20年的经验。他们之前的公司Omnition被Splunk收购,他们还共同创建了OpenTelemetry,这是管理遥测数据的全球开源标准。在Splunk,Spiros担任可观测性业务的高级副总裁兼总经理,管理着400多人的团队。这种深厚的领域专业知识让他们能够真正理解生产环境的复杂性,而不是简单地把AI技术套用到这个领域。他们知道现有工具的局限性在哪里,知道工程师真正的痛点是什么,知道什么样的解决方案才能真正被采用。

从市场表现来看,时机确实成熟了。Resolve AI在16个月内就达到了10亿美元估值,拿下了Coinbase、DoorDash、MongoDB、Salesforce、Zscaler这样的重量级客户,并且从种子轮到A轮的所有投资者都选择了超额跟投。这些信号都表明,市场不仅认可这个方向,而且认为Resolve AI团队有能力执行。

这将如何改变软件工程

我认为,如果Resolve AI代表的"AI for prod"这个方向成功了,它将从根本上改变软件工程的工作方式和职业发展路径。这不是一个小的工具升级,而是整个范式的转变。

最直接的影响是工程师的工作重心会发生迁移。现在,即使是最资深的工程师也要花大量时间在琐碎但紧急的运维任务上：查日志、分析监控数据、定位问题、制定修复方案。当AI能够自动完成这些工作时,工程师可以把时间投入到更高价值的活动上：系统架构设计、性能优化策略、新技术评估、业务逻辑创新。这不是说运维工作不重要,而是说这些工作可以被自动化,让人类专注于那些真正需要创造力和判断力的任务。

Spiros在访谈中提到了一个很有启发性的观点：就像过去50年里软件从机器语言到高级编程语言的演进一样,AI代表的是又一层抽象。工程师不需要担心他们会失去底层技能,因为问题不在于人类技能是否会退化,而在于我们应该让AI agent能够同时很好地完成代码生成和代码运维这两件事,让工程师在更高的抽象层面上工作。他们不再需要记住特定的查询语言、API调用方式或CLI命令的具体语法,这些繁重而压力巨大的底层工作都由AI处理,工程师则在更高层面思考和决策。

我预测会出现一种新的工作模式：工程师和AI agent的协同。在这种模式下,AI不是完全自主地运行一切,而是作为一个极其能干的助手,处理大量的繁琐工作,然后向工程师报告关键发现和建议。工程师则负责做出重要决策、处理边缘情况、处理需要业务判断的问题。随着AI系统变得越来越可靠,它可以承担的责任范围也会逐渐扩大。Spiros估计,大约一年后,AI将成为软件运维的主要"驾驶员",人类在更高层面进行监督和决策。两到三年后,AI可能会做出大部分决策,人类则负责设定高级框架和处理异常情况。

对于企业来说,这意味着技术团队的规模化方式会发生改变。传统上,随着系统复杂度增加,你需要雇佣更多的工程师和SRE来维护它。但有了AI for prod,同样的团队可以管理复杂得多的系统,或者说同样复杂的系统需要更少的人来维护。这不一定意味着裁员,更可能意味着工程师可以把时间投入到创新而不是维护上,让公司能够更快地推出新产品和新功能。

我也想到了对人才市场的影响。会不会出现新的职位,比如"AI agent设计师"、"生产环境AI训练师"或者"AI系统审计员"？这些角色负责设计agent的工作流程、训练agent理解特定组织的环境、审查agent的决策是否合理。就像DevOps工程师这个角色是随着云计算和自动化的兴起而出现的,AI for prod可能也会催生新的专业角色。

从更宏观的角度看,这可能会改变整个软件行业的经济学。如果运维成本大幅降低,软件公司可以承担更大的技术复杂度。那些原本因为运维成本过高而不可行的产品想法,可能变得可行了。创业公司可以用更小的团队支撑更大规模的服务。这可能会加速整个行业的创新速度,因为从idea到production的障碍变小了。

Spiros说过一句话让我印象深刻："在agent时代,会产生比以往任何时代都多得多的软件。获胜的团队不会是写代码最快的,而是能够可靠、安全地运行他们所写代码的团队,并且速度要跟上开发节奏。"这就是AI for prod要实现的目标。而这次1.25亿美元的A轮融资,让Resolve AI有资源继续构建这个未来。他们计划把资金主要投入三个方向：研发,继续推进作为世界级应用AI实验室在软件工程领域的前沿探索；产品深度,改进生产环境推理能力,向闭环系统迈进,并扩展与生产技术栈的集成；客户成功,支持全球企业客户的快速增长。

我相信,五年后回头看,我们会认为2025-2026年是一个转折点。就像2022-2023年是AI代码生成的突破年一样,2025-2026年可能会被记住为AI生产运维的突破年。当代码生成和运维都被AI显著增强后,软件的整个生命周期都将加速,这才是真正意义上的生产力革命。

结尾

也欢迎大家留言讨论，分享你的观点！

觉得内容不错的朋友能够帮忙右下角点个赞，分享一下。您的每次分享，都是在激励我不断产出更好的内容。

欢迎关注深思圈，一起探索更大的世界。

- END -

两个“特别坑”的AI产品创业方向，你知道吗

速度将成为AI时代唯一的护城河

a16z重磅预测：Vibe coding赢者通吃？错了，垂直专业化才是未来

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.