![]()
![]()
给Agent补上基础设施这一课。
作者|田思奇
编辑|栗子
2025年以来,大模型应用从只会聊天的AI助手,飞快进化为能自主调工具、跑流程的“数字员工”。以OpenClaw为代表的开源框架,无疑是这场变革的催化剂。
但当各行各业满怀期待地将其引入内网时,却发现原生的OpenClaw远非完美,甚至在企业级生产环境中显得有些“危险”。
它的极度灵活,在企业IT视角下等同于越权风险;动态生成的不可信代码,随时可能触碰数据安全的红线;而它面对长周期任务时表现出的脆弱性,以及不可控的脉冲式算力消耗,更是让传统IT架构不堪重负。
对于直营门店庞大、研发协同复杂、合规要求极严的汽车行业来说,这些“不完美”成为Agent规模化落地的阻碍。
变革起步于去年夏天。
据「甲子光年」了解,理想汽车决定从底层基建破局。在对比多种方案后,其最终选择以阿里云ACS Agent Sandbox及阿里云容器服务Kubernetes版ACK为核心,并基于AMD算力,为Agent构建了一个集强隔离、高弹性与状态持久化于一体的专属‘沙箱’。
这套架构也为全行业解答了一个核心命题:在真正的企业生产环境中,Agent 到底该怎么跑?
1.OpenClaw水土不服,
车企Agent落地遇阻
理想汽车面临的压力,是所有直营车企共同的梦魇。
庞大的研发体系,首先遭遇效率瓶颈。2025年,理想汽车全年研发投入达113亿元,创历史新高,其中AI相关投入占比50%。
随着整车软件复杂度飙升,其软件工程规模已接近大型互联网公司,但代码仓库、技术文档等资源分散在多系统,工程师大量时间耗费在资料检索、版本确认等重复工作中,数据孤岛不仅拉低效率,更延长了产品迭代周期。
在这样的背景下,理想汽车开始引入Agent作为新型生产力工具,但问题并没有解决。
OpenClaw等工具在设计之初更偏向灵活性与开发效率,当它们被引入企业环境,尤其是需要接入CRM、OA与代码仓库等核心系统时,原有架构暴露出明显短板。任务执行通常运行在共享环境中,权限边界不够清晰,安全风险难以彻底隔离。
国家信息安全漏洞库(CNNVD)数据显示,自2026年1月至2026年3月10日,共记录到82个与OpenClaw相关的漏洞,漏洞类型涵盖访问控制缺陷、代码实现问题、路径遍历等多类安全风险。
与此同时,Agent的运行模式与传统应用存在本质差异。它是连续执行的任务流,涉及多步骤调用与状态保持。这类任务往往持续时间较长,对计算资源的占用呈现明显波动。高峰期需要快速扩容,低谷期又需要尽可能释放资源,否则成本会迅速累积。
行业调查验证了企业的犹豫:麦肯锡2025年末发布的报告显示,62%受访者表示其所在企业已开始试用Agent,但只有23%受访者表示企业已在至少一个业务职能中实现Agent的规模化部署,大多也停留在单一职能或局部试点阶段。
研发端的痛点是效率与安全,门店端则承受着更直接的服务压力。
与传统经销体系不同,直营门店承担着销售、试驾、交付与售后沟通等多重角色。在节假日或新品发布周期,短时间内爆发的海量用户咨询,要求销售必须尽快响应,一旦回复慢了,高意向的客户可能转身就去了隔壁门店。
与此同时,门店的成本结构也在不断上升。商超店等核心点位的租金与人力支出持续攀升,据部分媒体测算,一家核心商圈汽车门店的年运营成本可高达500万元,服务质量与成本之间的矛盾日益突出。
直营模式的普及、软件定义汽车的深入推进,以及用户服务需求的持续升级,让车企在前端服务与后端研发两端同时承受效率压力。传统依靠人力扩张与流程优化的方式逐渐逼近天花板,企业迫切需要新一代智能工具重构运营与研发体系。
当Agent从工具走向系统,它需要的不再是一段代码,而是一整套基础设施。这一点,在车企这样对稳定性、安全性与成本都高度敏感的行业中表现得尤为明显。
对于理想汽车而言,这场从“用工具”到“搭基石”的变革就此展开。
2.理想汽车破局:
重构Agent底层运行逻辑
理想汽车的路径,并非从OpenClaw本身入手。
「甲子光年」获悉,理想汽车于2025年6月正式启动企业级Agent基础设施选型,围绕直营车企对安全合规、算力弹性、规模化运维的核心要求,搭建了多维度评估体系,筛选出多条具备可行性的技术路线进行实测对比。
早期纳入评估的方案各有侧重。比如E2B自建路径依托开源生态具备较强的定制灵活性,能够与企业现有架构深度适配,但在规模化阶段问题逐步显现。资源需要提前规划采购,利用率随业务潮汐波动明显,长期闲置带来刚性成本。同时,集群管理、版本迭代、环境一致性维护对内部运维团队提出较高要求,难以支撑快速扩张。
经过多轮筛选后,理想汽车最终选择采用E2B协议,并依托阿里云ACS Agent Sandbox在AMD芯片上的算力优势,构建统一底座。
试点落地过程中,理想将OpenClaw封装为面向全员的数字分身,构建统一的企业AI助手入口。员工通过这一入口发起任务,无论是文档处理、代码分析,还是知识查询,都在同一体系内完成。
当所有任务被汇聚到同一入口,系统的复杂性也随之显现。
不同任务对资源的需求不同,执行时长不一致,对安全隔离与数据访问的要求也存在差异。如果仍然采用原有方式直接执行,系统很快就会失控。
在这一背景下,分层架构成为必然选择。
最上层,是统一的AI助手入口,负责承接员工请求;其下是OpenClaw所在的Agent平台层,承担任务规划、工具调用与流程编排能力。每一个请求进入系统后,会在这一层被拆解为多个执行步骤,并判断是否需要调用底层执行资源。
再往下,是Sandbox管理与调度层。这一层相当于系统的中枢。OpenClaw管控平台负责资源申请和管控,通过E2B协议将任务需求转化为资源调度请求,由Sandbox Manager在Kubernetes集群中调度对应实例。通过Claim机制与SandboxSet的组合,系统能够在集群中快速创建运行环境,同时借助镜像缓存与预热机制缩短启动时间,从而支撑高并发任务场景。
![]()
最底层,则是Agent Sandbox执行环境。每一个任务最终运行在独立Sandbox实例中,以ACS Pod形式存在于Serverless算力环境中,并通过网络策略与存储挂载实现访问控制与数据持久化。任务执行的所有行为,都被限制在这一隔离空间内。
这一分层结构让任务不再依附于某一台机器或某一段代码,而是被拆分为可以被调度、可以被恢复、可以被控制的运行单元。对理想汽车而言,这一变化使得Agent具备了进入企业核心流程的条件。
在门店侧,最直观的变化体现在响应效率上。
原本依赖人工完成的咨询与流程处理,被部分转移到系统中完成。用户在任意时间发起请求,都能够获得稳定回应,高峰期的服务压力得到缓解。销售人员不再需要重复回答标准问题,可以将精力更多投入到高价值沟通中。
在研发侧,AI助手成为日常工作的一部分。工程师可以通过统一入口获取文档、分析代码或处理数据,信息获取路径被显著缩短。原本分散在多个系统中的知识,被重新组织为可调用的能力。随着使用频率增加,这种变化逐渐累积为效率提升。
据「甲子光年」了解,目前已有约800名理想汽车员工常态化使用该平台,同时还有四五千名员工处于排队接入状态,应用正从局部试点稳步迈向集团级规模化推广。
3.阿里云ACS:
五大能力闭环,不止于安全
当这一架构稳定运行之后,系统能力开始逐步显现。
在阿里云的设计中,这套能力被归纳为五个层面,它们并不是彼此独立存在,而是在实际运行中相互支撑,形成一个完整闭环。
安全能力是整套体系的底层基石,也是车企最为看重的核心能力。
ACS Agent Sandbox 采用硬件加固的 MicroVM 虚拟化架构,从底层构筑防护边界。每个智能体任务均运行在独立虚拟化环境中,实现计算、存储、网络三维彻底隔离。
计算层面,任务之间不共享内核,大幅提升逃逸攻击难度;存储层面采用独立云盘,数据链路完全隔离,销毁后彻底擦除不留痕迹;支持东西向与南北向流量精细化管控,实例间默认禁止互访,有效抵御横向扫描与非法访问,进一步契合车企高合规要求。
在此基础上,平台内置30余类AI运行时风险检测,覆盖提示词注入、异常调用、越权操作等场景,配合全链路审计日志,形成从IaaS到应用层的纵深防御体系,完美匹配车企高合规要求,确保Agent在执⾏代码或调⽤⼯具时不会影响企业核⼼系统。
第二个关键变量是数据。
OpenClaw在执行代码分析、报告生成、多步骤数据处理等任务时,会产生大量中间状态与临时文件,传统容器环境容易因重启或迁移导致数据丢失。
阿里云以ESSD云盘作为Sandbox根盘,配合NAS与OSS动态挂载,实现全路径数据持久化。任意写入操作均直接落盘,无需手动配置挂载卷,从根本上消除数据丢失风险。
这套体系具备极高可靠性,可实现RPO≈0的数据保护能力,同时支持在线热扩容与高性能IO,满足大规模并发任务的稳定运行需求,让长时任务真正具备生产级可用性。
全生命周期管理能力,允许智能体从一次性调用,转变为可管控、可恢复、可迭代的系统级能力。平台支持创建、运行、暂停、休眠、唤醒、快照、销毁这7种完整状态流转,覆盖任务从启动到结束的全过程。针对企业成本与效率需求,休眠唤醒机制可在释放CPU与内存的同时保留完整执行状态,唤醒后秒级恢复运行,兼顾连续性与经济性。
平台还提供场景化模板能力,针对研发、办公、客服等不同场景预配置环境与权限,新实例可快速上线。针对企业规模化运维,系统支持滚动升级、灰度发布、蓝绿部署等4种升级策略,升级前自动快照保护状态,出现问题可快速回滚,实现零中断、零丢失的平稳迭代。
弹性与成本控制能力,直接解决了企业规模化落地的核心顾虑。整套架构遵循按需创建、按需计费的原则,实例启动计费、销毁停费,无需提前囤购服务器,也不会产生长期闲置成本。平台支持每分钟15000个沙箱实例的水平弹性扩容,可轻松应对门店高峰、研发集中作业等潮汐式流量。
在理想汽车的实际测算中,传统固定资源模式年度算力支出曾高达千万元级别,而在垂直变配与休眠唤醒机制共同作用下,资源利用率显著提升,整体成本得到大幅压缩。
与此同时,该方案的开源兼容与规模化运维能力,基于ACK统一编排,方案同时支持E2B标准接入与K8s Claim原生接口,并结合基于AMD EPYC CPU架构的弹性计算实例,让企业得以实现从数百到数万Agent实例的无感扩容。理想汽车能够在不改变内部技术栈的前提下,快速完成平台迁移与规模化推广,也为后续扩展至门店客服、车机协同等更多场景奠定基础。
从底层安全隔离到上层业务赋能,这套云原生执行底座最终让OpenClaw真正走出实验环境,成为可规模化、可管理、可嵌入核心业务的系统性生产力。
4.结语:
重构执行逻辑,定义企业新基建
过去,软件系统的核心是功能构建,数据在不同系统间流转,判断与执行环节始终依赖人工完成。如今,执行的定义被Agent改写,任务无需绑定固定流程,可灵活拆解、智能调度,在各类系统间自动推进。
但目前多数企业对Agent的应用仍停留在局部提效层面,难以突破系统壁垒,核心问题并非模型能力不足,而是缺乏承载执行的基础设施。真实业务中的权限管控、数据安全、系统稳定性等约束,直接决定了Agent能否长期落地,而非昙花一现。
在严苛的车企合规场景下,阿里云ACS Agent Sandbox搭载AMD算力,提供稳定、安全的系统环境,成功支撑Agent深入业务核心流程。这一实践不仅实现了效率提升与安全合规底线的双重坚守,更沉淀出了一套相对成熟的技术标准。
Agent的规模化落地,也正朝着车云协同的更高阶形态演进,理想与阿里云正积极探索车端与云端协同的算力组合模式,计划将Agent规模扩展至3万甚至数十万级别,通过持续优化端到端链路,为车企Agent的规模化升级提供新路径。
这一模式也具备较高的可迁移性。
金融、制造、政务等领域面临的共性挑战,同样面临权限管控、长流程任务、高并发波动与成本约束的共性挑战。已经完成标准化封装的理想阿里云方案,能够为这类场景提供直接参考,企业不必再从零搭建基础设施,从而降低Agent规模化落地的整体门槛。
「甲子光年」认为,长期来看,企业之间的差距将随Agent应用深化逐渐拉大。
一部分企业会逐步搭建围绕Agent的基础设施与执行体系,实现任务自由流转与能力复用,释放规模化部署AI“数字员工”的潜力;另一部分则继续把AI仅视为辅助工具。
这种差距在初期并不明显,但随着业务规模扩大,二者在效率与成本结构上的分化会愈发突出。Gartner预测,到2026年底,40%的企业应用将嵌入AI Agent,远高于2025年不足5%的水平。
这一趋势下,未来企业竞争的焦点,将从模型能力转向对Agent运行环境的支撑能力。Agent Infra不再是单纯的算力与存储池,而是整合安全、弹性与状态管理的任务组织者。
当执行被重构,企业的运行方式也随之改变。这套围绕 Agent 构建的基础设施,正在成为新一代企业操作系统的雏形。它的影响力,也才刚刚开始显现。
(封面图来源:理想汽车官网)
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.