![]()
2023年,Unitary团队用3个工程师管理1000+节点、日处理2600万视频的案例被AWS官方收录。当时没人想到,这个关于"小团队撬动大基础设施"的故事还有续集——而且续集的主角,是过去一年让程序员又爱又恨的AI编程助手。
从视频审核到代码生成,同一套K8s班子接了份新活
Unitary的核心业务是视频内容审核,靠亚马逊EKS(Elastic Kubernetes Service,弹性Kubernetes服务)+ Karpenter自动扩缩容,用Spot实例砍掉50-70%成本。这套打法成熟后,团队开始扩张,新问题跟着来了:人多了,代码量暴涨,怎么让AI编程工具跟上节奏?
他们试过Cursor,后来切到Claude Code和OpenAI Codex。体验很熟悉: agent确实能写代码,但你得盯着。每次调用工具都要人工点确认,终端窗口不能关,就像给实习生配了个资深导师,导师一走,实习生可能把数据库删了。
--dangerously-skip-permissions参数能跳过确认,但谁敢在生产环境开这个?一个带凭据的恶意工具调用就是P0事故。于是人类成了瓶颈:开会时agent在后台循环跑失败测试,一跑一小时,电费烧着,进度卡着。
团队想要的是ML推理流水线那种成熟度:无人值守也能跑,自动护栏替代人工确认,还得能扩容。答案还是Kubernetes。
AI agent和ML推理,资源画像完全不同
![]()
ML推理是GPU密集型、短生命周期,AI编程agent则是另一套逻辑:运行时间长(分钟到小时)、I/O密集型而非GPU密集型、每个实例需要隔离环境+仓库访问+API凭据。
但K8s的原语足够通用:Pod做隔离,Job管生命周期,Secret存凭据,NetworkPolicy控出站流量。Unitary没重新造轮子,而是把这些拼成了Osmia——一个开源的AI编程agent编排层,Apache 2.0协议发布。
Osmia架构很直接:单控制器Pod监听任务来源(工单系统、Webhook或直接API),每个任务翻译成K8s Job。agent Pod以非root运行,根文件系统只读,Linux capabilities全丢,可选gVisor或Kata再加一层沙箱。
凭据按任务粒度隔离,用IRSA(IAM Roles for Service Accounts,服务账户IAM角色)对接AWS资源,拒绝静态密钥。这和"把密钥塞环境变量"的祖传做法划清了界限。
把"人类在环"变成"规则在环"
Osmia的核心设计是把人工确认替换成可编程护栏。团队定义了一套规则引擎,agent的每个工具调用先过一遍策略检查:能访问哪些目录、能调用哪些API、能执行哪些命令、单次任务最长运行多久。
规则可以按仓库、按项目、按任务类型配置。比如给内部工具库开宽松权限,给生产代码库上紧箍咒。违规操作直接拦截,不需要人类盯着终端。
![]()
这和传统CI/CD的"流水线即策略"思路类似,但agent的不可预测性更高——CI脚本不会突然决定重写半个代码库。Osmia的应对是更细粒度的运行时监控:每个agent Pod的stdout/stderr实时流回控制器,关键操作留审计日志,异常行为触发自动终止。
成本层面,Osmia继承了Karpenter的Spot实例策略。AI编程agent对中断的容忍度比ML推理更高——任务失败了重跑就行,不像实时视频分析那样丢帧即事故。团队把长任务拆成可检查点的子任务,Spot回收时从最近检查点恢复,而不是从头再来。
开源背后的小算盘
Unitary把Osmia开源,不是做慈善。他们的核心产品仍是视频审核,AI编程工具是内部效率工程。但Osmia的代码里埋着对EKS生态的深度绑定:IRSA、Karpenter、Spot实例管理,这些都是AWS的差异化能力。
换句话说,Osmia成了AWS技术栈的"活案例"——比官方白皮书更有说服力的那种。其他在EKS上跑AI agent的团队,复制这套架构的成本远低于从零搭建。
社区反馈也验证了需求。GitHub Issues里最常见的请求不是加功能,而是问"能不能支持GCP/Azure"——这说明Osmia的抽象层做得足够薄,云厂商绑定主要在IAM和节点管理部分,核心逻辑是通用的。
团队目前的路线图包括:多租户隔离(让不同项目共用集群而不互相窥探)、agent间协作(一个任务拆给多个agent并行)、更精细的成本归因(按项目/按人追踪AI编程开销)。
一个有趣的产品细节:Osmia的控制器Pod本身也跑在K8s里,用Lease机制做高可用。这意味着整个系统可以"自举"——用Osmia部署Osmia的更新。团队内部管这叫"dogfooding到meta级别"。
如果你现在用Claude Code或Codex,是选择继续当"终端 babysitter",还是愿意把信任交给一套K8s规则引擎?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.