![]()
7399字。这是过去7天GitHub上增长最快的开源项目之一,也是第一个让「AI代理公司化」从概念变成可运行代码的工具。
它的名字叫Paperclip。开发者给它写的slogan很嚣张:「不是代理框架,我们不教你怎么造员工,我们教你怎么开公司。」
这话听着像吹牛。直到你发现,它真的在用HR、财务、组织架构那一套,管理20个同时运行的AI代理——而每个代理可能来自不同厂商:Claude Code、OpenClaw、Codex、Cursor,甚至你自己写的脚本。
如果你同时开过12个以上的AI编码窗口,你会立刻理解这个痛点。每个代理独立运行,互不知道对方存在,没有共享上下文,没有统一成本追踪,电脑重启一切归零。
你不是在写代码,你是在当客服。
从游戏服务器架构偷来的灵感
Paperclip的创始人显然在游戏行业待过。他把这套系统比作UE5多人游戏的专用服务器(Dedicated Server)编排层。
玩过大型多人在线游戏的都知道:当10到20个服务器实例同时运行时,你需要一个编排层来监控状态、分配负载、故障回滚。编排器从不触碰游戏逻辑本身,它只收集状态、平衡负载、重启死掉的实例。
Paperclip的工作逻辑一模一样。
它不干涉代理内部怎么干活,只负责三件事:追踪谁在做什么、掐断超预算的代理、失败时回滚。用创始人的话:「如果它能接收心跳,就能被雇佣。」
这句话写在README里,概括了整个哲学。能响应定时ping?那就可以挂牌上岗。
LangChain是单个员工的操作手册,CrewAI是团队的任务看板,Paperclip是整个公司的组织架构图加HR加财务。
这个类比精准到有点刻薄。但它确实帮你在30秒内理解三者的关系:LangChain设计单个代理的内部管道,CrewAI把多个代理链成任务流水线,Paperclip坐在两者之上,管的是编制、目标层级、预算、治理、审计追踪。
换句话说,前两者解决「怎么让AI干活」,Paperclip解决「怎么让AI不把你搞破产」。
「公司化」到底意味着什么
打开Paperclip的配置文件,你会看到熟悉的职场术语:职位(Title)、汇报线(Reports To)、OKR(目标与关键结果)、预算上限(Budget Cap)、审计日志(Audit Trail)。
每个代理被分配一个职位,比如「后端开发工程师」或「文档撰写专员」。职位附带目标层级:公司级目标拆解到部门,部门拆解到个人。预算按职位分配,花光就强制停机。
最狠的是治理规则。你可以设置:当代理尝试执行敏感操作(如删除生产环境数据库)时,必须获得上级代理的审批。审批链路可配置,支持多级会签。
这直接把AI代理的「幻觉」风险,转化成了组织流程问题。
单个Claude Code实例可能突然决定重构整个代码库,但在Paperclip里,这个操作需要「技术负责人」代理审批,而技术负责人的预算和权限也被限制。就算它疯了,公司不会跟着疯。
审计日志记录了每个代理的完整操作链:谁、在什么时间、基于什么上下文、做了什么、花了多少token。这对调试和追责至关重要——当你的「员工」是20个黑箱模型时,你需要知道是哪个黑箱搞砸了。
多厂商代理的「混合编制」
Paperclip不挑代理来源。Claude Code、OpenClaw、Codex、Cursor、甚至你自己用Python写的脚本,都可以注册为「员工」。
注册方式极简:提供一个HTTP端点,能响应心跳检查即可。Paperclip通过标准化的「雇佣协议」与代理通信,协议封装了任务分发、状态上报、预算查询等接口。
这意味着你可以把最贵的Claude Opus放在核心架构岗位,把便宜的GPT-3.5级别模型丢去写单元测试,让Cursor专啃前端代码。每个代理的token成本独立核算,部门预算超支时自动触发「裁员」——暂停低优先级代理。
一位早期用户在Discord分享了他的配置:技术负责人是Claude 3.5 Sonnet,前端专员是Cursor,测试工程师是本地运行的Llama 3,DevOps是一个调用AWS API的Python脚本。四者协作完成一个全栈项目,总成本比单用Claude Opus低67%。
这种「混合编制」在传统代理框架里几乎不可能实现。LangChain和CrewAI通常假设你使用统一的模型后端,Paperclip则把模型差异抽象成了「人力成本差异」——这正是公司管理的日常。
状态持久化:重启电脑不丢进度
![]()
用过Claude Code的人都知道一个噩梦:电脑崩溃或重启后,所有对话历史、文件修改状态、中间产物全部消失。你得从头解释需求,代理也得重新理解代码库。
Paperclip把状态管理做成了基础设施。每个代理的运行状态、任务队列、上下文窗口、中间产出,全部持久化到本地数据库。系统重启后,代理自动恢复到最后一个检查点,继续执行未完成的任务。
更进一步,Paperclip支持「组织记忆」。代理之间的通信记录、共享文档、决策依据,都被结构化为可检索的知识库。新入职的代理(新注册的模型实例)可以快速「阅读」历史会议纪要,跟上团队节奏。
这解决了多代理系统的一个核心难题:上下文碎片化。没有共享记忆,20个代理就是20个孤岛;有了组织记忆,它们才成为一个公司。
成本控制的「财务纪律」
AI代理的token成本是个无底洞。一个失控的Claude Code实例,几小时就能烧掉上百美元。20个实例同时失控?你的AWS账单会教你做人。
Paperclip的预算系统分三级:公司级、部门级、个人级。每级设置token上限和告警阈值。超支时,系统可以选择:发送告警、暂停非关键任务、或强制下线代理。
更精细的控制是「任务预算」。你可以为单个任务设置成本上限,比如「重构这个模块最多花5美元」。代理在执行过程中实时查询剩余预算,超支时优雅退出并汇报进度。
一位用户设置了「测试部门」的日预算为20美元。当某个代理的单元测试生成任务消耗了15美元仍未完成时,系统自动将任务降级为「仅生成测试框架,具体用例由人工补充」。财务纪律转化为技术决策。
这种设计把「成本意识」编码进了系统架构。不是事后看账单肉疼,而是事前设好红线,让代理在约束条件下优化方案。
故障隔离与「组织韧性」
20个代理同时运行,必然有人掉链子。Paperclip从游戏服务器编排里借鉴了故障隔离机制。
每个代理运行在独立的沙箱进程中,崩溃不影响其他代理。编排器持续收集心跳,超时未响应的代理被标记为「失联」,其任务自动重新分配或进入待处理队列。
关键设计是「无状态代理、有状态编排」。代理本身不保存重要状态,所有状态通过编排器持久化。这意味着你可以随时杀死并重启一个代理,就像重启一个卡死的员工电脑,而不会丢失工作进度。
「回滚」功能更激进。当某个代理的操作导致系统异常(如测试全部失败、构建中断),Paperclip可以回滚到该代理介入前的状态,并自动提交bug报告。这相当于给AI代理配备了「撤销」按钮——不是撤销单条指令,而是撤销整个「员工」的工作日。
一位开发者描述了他的使用场景:让Claude Code重构数据库层,结果引入了一个微妙的竞态条件。Paperclip在测试阶段捕获异常,自动回滚到重构前,并生成报告指出「员工#7的操作与员工#3的缓存策略冲突」。人类开发者花了10分钟修复策略,重新派遣代理,避免了数小时的调试噩梦。
与现有工具的对比:不是替代,是分层
很多人第一次看Paperclip,会以为它是LangChain或CrewAI的竞品。README里的那句话就是为了打断这种联想。
LangChain的核心是「链」(Chain)——把模型调用、工具使用、记忆管理串成可复用的管道。它解决的是「单个代理如何高效工作」。
CrewAI的核心是「团队」(Crew)——把多个角色代理按流程编排,完成复杂任务。它解决的是「多个代理如何协作完成一个项目」。
Paperclip的核心是「组织」(Organization)——把多个代理视为持续运营的公司实体,管理目标、资源、风险。它解决的是「代理规模扩大后如何不崩盘」。
三者可以叠加使用。你可以用LangChain构建单个代理的能力,用CrewAI设计项目级的工作流,再用Paperclip把多个Crew纳入长期运营的组织架构。
这种分层架构符合软件工程的基本规律:关注点分离。让专业的工具做专业的事,而不是指望一个框架解决所有问题。
开源社区的狂热与质疑
Paperclip在GitHub上线7天,收获3400星标,150个fork,30多位贡献者提交PR。这个增速在开发者工具类别里相当罕见。
兴奋点很明显:它是第一个把「AI公司」从科幻概念变成可运行代码的项目。之前大家都在讨论「AI CEO」「AI员工」,Paperclip直接给了你一套HR系统。
但质疑同样尖锐。Hacker News上的高赞评论指出:「这只是在传统运维工具上套了一层商业隐喻。」另一位开发者说:「我可以用Kubernetes + Prometheus + 一些脚本实现同样的功能,为什么要学一套新抽象?」
创始人回应了这种质疑:「你可以用K8s管游戏服务器,但为什么还有专门的Game Server Orchestrator?因为领域抽象有价值。Paperclip不是通用编排器,它是为AI代理的特定失败模式设计的——幻觉、成本失控、上下文丢失。」
![]()
这个回应有说服力。Kubernetes不懂什么是「token预算」,Prometheus不会告警「代理产生了自相矛盾的输出」。领域特定的抽象,意味着更精准的治理策略。
早期用户的真实反馈
在Discord和GitHub Issues里,能看到一些具体的使用报告。
一位独立开发者用Paperclip管理他的「一人公司」:3个Claude Code实例分别负责产品、工程、运营,1个Cursor实例做设计,1个Python脚本处理客服邮件。他每天花30分钟审阅代理提交的「日报」,调整优先级和预算。产出效率据他估计提升了3倍,但「管理开销从写代码变成了当经理,不确定是不是进步」。
一个5人创业团队尝试了更激进的配置:完全取消人类工程师的编码职责,只保留架构设计和代码审查。3周后他们回退了这个实验——「代理能写能跑,但架构债务累积速度远超预期,没有人类把控方向,系统很快变成一团糟」。
最有趣的反馈来自一位游戏行业的老兵:「这让我想起了20年前MMO的运维噩梦。当时我们手动管理服务器集群,后来有了自动化编排。现在AI代理处于同样的阶段——Paperclip可能是那个转折点。」
技术实现的几个关键细节
Paperclip用Rust编写核心编排引擎,追求低延迟和高可靠性。状态存储默认SQLite,支持PostgreSQL扩展。代理通信采用gRPC,心跳间隔可配置。
配置系统基于YAML,支持环境变量注入和动态重载。这意味着你可以在运行时调整预算、重组汇报线,而不重启整个组织。
一个设计亮点是「政策即代码」(Policy as Code)。治理规则用DSL编写,比如「删除生产数据库需要CTO审批」可以表达为:
policy:
action: delete_database
environment: production
require_approval_from: [cto]
max_budget: 0
这种设计让合规审计变得可自动化。你可以用git管理政策变更,用CI/CD流程审批政策更新——用软件工程的方法治理AI代理。
扩展机制基于WebAssembly。自定义的代理适配器、成本计算逻辑、告警处理器,都可以用Rust或AssemblyScript编写,动态加载到编排引擎。
局限性与 roadmap
创始人坦诚列出了当前局限。最突出的是「代理间通信」——Paperclip提供了消息总线,但如何设计高效的代理协作协议,仍依赖用户自己摸索。
另一个痛点是「视觉代理」的支持。目前的架构主要针对文本代码任务,处理图像、视频、3D模型的代理可以接入,但缺乏专门的优化。
Roadmap上优先级最高的功能是「自动招聘」——根据工作负载动态创建或销毁代理实例,类似K8s的HPA(Horizontal Pod Autoscaler)。这会让「AI公司」真正具备弹性伸缩能力。
长期愿景是「代理市场」——标准化的代理能力描述、信誉评分、成本基准,让用户可以像招聘网站一样「雇佣」第三方代理。
对行业的影响预判
Paperclip的出现,可能标志着AI代理基础设施的分层成熟。
第一层是模型能力(GPT-4、Claude、Gemini),解决「能做什么」。第二层是代理框架(LangChain、CrewAI),解决「怎么做」。第三层是组织编排(Paperclip),解决「怎么规模化」。第四层可能是垂直领域的「代理公司模板」——法律事务所、软件外包公司、咨询公司的AI化运营方案。
这种分层降低了创业门槛。未来可能出现「AI原生公司」:没有人类员工,只有创始人设定的目标和预算,由Paperclip类系统管理数十个代理持续运营。
但风险同样明显。当AI代理的「公司」可以7×24小时运转,人类管理者的监督能力成为瓶颈。Paperclip提供了审计日志,但阅读日志、识别模式、做出判断,仍然需要人类注意力——而这种注意力是稀缺的。
一位评论者说:「Paperclip让我能管20个代理,但我的大脑还是只能同时跟踪3-5个任务。瓶颈从『代理不够』变成了『我作为经理不够』。」
这或许是AI时代的新常态:工具扩展了执行能力,但人类的认知带宽仍是硬约束。Paperclip没有解决这个问题,它只是把问题暴露得更彻底。
项目地址:paperclip.ing。GitHub仓库搜索「paperclip-os」即可找到。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.