![]()
你有没有意识到,我们现在用软件的方式,其实还停留在上个时代?打开一个企业系统,你需要找到正确的菜单,点击正确的按钮,填写正确的表单,然后等待结果。整个过程里,你其实是在配合软件工作,而不是软件在帮你工作。这个问题已经存在几十年了,但大家都默默忍受着。直到 AI agent 出现,这件事才真正开始被挑战。
最近,一家叫 CopilotKit 的公司宣布完成 2700 万美元的 A 轮融资,由 Glilot Capital、NfX 和 SignalFire 联合领投。这不只是一条融资新闻,它背后指向的是一个更大的问题:当 AI agent 已经可以真正嵌入应用、理解用户意图、生成动态界面、自主执行任务,我们今天所熟悉的软件交互方式,还能撑多久?
![]()
CopilotKit 的创始人 Atai Barkai 说了一句话,我觉得非常准确:"所有的 UI 都将变成 AI。"他的意思是,人和技术之间的所有交互,都将越来越多地由 AI agent 来中介。这不是在描述遥远的未来,而是正在发生的现实。目前,CopilotKit 的工具已经被超过一半的世界 500 强企业使用,德意志电信、DocuSign、思科、标普全球都是他们的企业客户。他们主导的 AG-UI 协议,已经被 Google、Microsoft、Amazon、Oracle 以及 LangChain、Mastra 等主流 AI 框架采纳。每周有数百万次的 agent 与用户交互通过他们的基础设施在生产环境中运行。
PS:我的出海新书已经上架了,我特意申请了公众号读者专属的优惠链接,可以享受半价折扣,欢迎感兴趣的朋友购买。
同时我还特地建立了实名制的读者群,我会在群里定期解答一些问题和开展线上线下活动,欢迎购书的朋友实名制入群,大家一块交流,共同出海!
AI agent 和应用之间,缺了一层什么
我一直在思考一个问题:为什么今天大多数产品里的 AI 体验还是那么割裂?你打开一个 app,里面有一个聊天框,你跟 AI 说你想做什么,AI 给你一段文字,然后你再自己去操作界面完成任务。这个流程里,AI 和应用其实是分开的两件事,没有真正融合在一起。
这就是 CopilotKit 想解决的核心问题。他们认为,真正有价值的 AI 体验,不是在 app 旁边放一个聊天机器人,而是让 AI agent 真正住在应用里面,理解用户正在做什么,直接采取行动,并且以合适的界面形式呈现结果,而不是返回一大段文字让用户自己去理解。
![]()
举个具体的例子。假设你在用一个数据分析工具,你问它"帮我看看上个季度各个产品线的收入分布"。一个普通的 AI 聊天机器人会给你一段充满数字的文字回复,你还得自己去阅读和理解。但一个真正嵌入应用的 AI agent,会直接生成一个交互式的饼图,样式是你们公司自己的设计规范,你可以点击、筛选、下钻。这两种体验之间的差距,就是 CopilotKit 想要填补的那层空白。
Atai Barkai 在接受采访时说得很清楚:"agent 可以回复你的,不只是一段文字,而是由你们公司自己定义的交互式 UI。用户问收入按类别的分布,得到的不是一段难以消化的长段文字,而是一张饼图,是你们自己设计的饼图,用户可以直接与之交互。"这句话点出了一个很重要的方向:AI 的输出形式本身,也需要被重新设计。
AG-UI:一个正在成为标准的协议
要理解 CopilotKit 为什么能在短时间内获得如此高的市场认可,必须先说清楚 AG-UI 是什么。
AG-UI,全称 Agent-User Interaction Protocol,是一个开放协议,专门定义 AI agent 如何与用户界面进行通信和交互。你可以把它理解成 AI agent 和前端应用之间的"通用语言"。有了这个协议,agent 可以向前端推送流式消息、调用前端工具、同步状态,以及在需要人类介入时暂停执行、等待用户确认。
![]()
在 AG-UI 出现之前,每个团队想把 AI agent 嵌入自己的应用,都要自己解决这一层的通信问题,每家公司各自为战,重复造轮子,而且互不兼容。AG-UI 的价值在于,它把这个问题标准化了,让开发者不需要从零开始解决 agent 和 UI 之间的连接问题,直接基于一个开放的标准来构建。
这个思路和 MCP(Model Context Protocol)有点像,但解决的是不同层面的问题。MCP 连接的是 agent 和外部工具,AG-UI 连接的是 agent 和用户界面。两者是互补关系,不是竞争关系。还有 A2A(Agent-to-Agent)协议,处理的是 agent 之间如何协作。这三个协议加在一起,大致覆盖了一个完整 AI agent 系统所需要的通信层。
AG-UI 发布不到一年,就已经被 Google、Microsoft、Amazon、Oracle 采纳,同时也被 LangChain、Mastra、PydanticAI、Agno、LlamaIndex 等主流 AI 框架集成支持。这个速度非常罕见。我觉得背后的原因很简单:开放标准天然有生态聚合的势能,只要第一批重量级玩家采纳,其他人就会跟进,因为不跟进意味着不兼容。CopilotKit 用 AG-UI 建立的,不只是一个技术协议,而是一个生态位。
目前 AG-UI 和 CopilotKit 相关的开源库,在 GitHub 上累积了超过 4 万颗星,有超过 150 位外部贡献者参与开发,每周下载量超过 400 万次。这些数字说明一件事:开发者社区已经用脚投票了。
Generative UI:AI agent 生成界面,这意味着什么
CopilotKit 在做的事情里,我认为最有颠覆性的一个方向叫 Generative UI。简单来说,就是让 AI agent 在运行时动态生成和更新 UI 组件,而不是依赖开发者提前写好固定的界面。
这个概念听起来有点抽象,但实际意义非常具体。传统的软件界面是静态的,开发者提前把所有可能的 UI 状态都写好,用户只能在这些预设好的界面里操作。而 Generative UI 的思路是,界面本身可以根据用户的意图和上下文动态生成,由 agent 来决定应该展示什么、以什么形式展示。
![]()
CopilotKit 支持三种不同类型的 Generative UI。一种是受控 UI,通过 AG-UI 协议实现,开发者对界面有精确控制权,可以做到像素级别的一致性。一种是声明式 UI,通过 Google 的 A2UI 实现,开发者提供构建模块,agent 按需组合。还有一种是开放式 UI,通过 Anthropic 的 MCP Apps 实现,给 agent 更大的自由度来生成界面。
这三种模式覆盖了从"完全可控"到"高度自由"的整个光谱,开发者可以根据自己的需求和风险偏好来选择。Atai 在采访中特别提到,CopilotKit 给开发者"对 agent 能够改变 UI 的程度拥有完全控制权",可以选择让界面保持像素级精确,也可以只提供宽泛的构建模块让 AI 自由发挥。这种灵活性,对于企业来说非常重要,因为不同的业务场景对 AI 自主程度的容忍度差异很大。
![]()
我认为 Generative UI 是一个被严重低估的方向。现在大家讨论 AI agent,更多关注的是它能做什么任务,但很少有人关注它如何呈现结果。一个能做很多事但只会用文字回复的 agent,和一个能根据上下文生成恰当交互界面的 agent,用户体验是天壤之别。CopilotKit 押注这个方向,我觉得是抓住了 AI 产品体验进化的下一个关键节点。
Self-improving agents:从用户行为中持续学习
CopilotKit 宣布的下一个重点方向,叫做 Self-improving agents,也就是能从生产环境的真实用户交互中持续自我改进的 agent。这个方向让我觉得非常有意思,也让我想多说几句。
现在绝大多数 AI agent 的改进方式,是通过重新训练模型或者手动调整 prompt。这个过程既慢又昂贵,而且跟真实用户的使用场景往往是脱节的,你在实验室里优化的 prompt,不一定能覆盖生产环境里用户真实的使用方式。
![]()
CopilotKit 想做的,是把每一次用户与 agent 的交互都变成一个信号。用户接受了 agent 的建议,是一个正向信号。用户拒绝了,是一个负向信号。用户修改了 agent 的输出,修改的内容本身就是一个信号,说明 agent 的判断偏差在哪里。用户重新定向了 agent 的行为,说明 agent 误解了用户意图。把这些信号收集起来,反馈给 agent,让它在不需要重新微调模型的情况下,持续从真实使用中学习和改进。
CopilotKit 把这个能力叫做 CLHF(Continuous Learning from Human Feedback),区别于传统的 RLHF(Reinforcement Learning from Human Feedback)。RLHF 是一次性的训练过程,CLHF 是持续进行的生产环境学习。这个想法的核心价值,是解决了 AI agent 在不同企业、不同场景下的适配问题。同样一个 agent,部署在德意志电信和部署在一家小型 SaaS 公司,用户的行为模式、业务逻辑、操作习惯都完全不同。如果 agent 只有一套固定的行为模式,它在某些场景下会表现很好,在另一些场景下会令人沮丧。而持续从用户行为中学习,让 agent 能够逐渐适应每个特定部署环境的特点,这对于企业级应用来说意义非常大。
CopilotKit 还提到了 prompt mutation 和 per-user adaptation,也就是 agent 可以针对不同用户的使用习惯进行个性化调整。这进一步把 agent 从一个"给所有人用同一套逻辑"的系统,变成了能够真正理解和适应个体差异的智能助手。
Human-in-the-loop:为什么人还在循环里很重要
在讨论 AI agent 的时候,有一种倾向是把"完全自主"当作终极目标。agent 越自主越好,越少需要人类干预越好。但我越来越觉得这个方向在短期内是危险的,至少在企业场景里是这样。
CopilotKit 的一个核心设计理念,是 Human-in-the-loop,也就是让 agent 在执行关键步骤前,能够暂停并等待用户的确认或输入。这个设计看起来像是在限制 agent 的自主性,但我认为它实际上是在增强 agent 的可信度。
![]()
一个能随时暂停、随时等待人类判断的 agent,和一个一路跑下去不管不顾的 agent,对用户来说信任成本是完全不同的。前者让用户感到自己在掌控,后者让用户感到不安。在企业环境里,尤其是涉及财务、合规、客户数据等敏感场景,没有人会愿意让一个完全自主的 agent 直接执行操作,不需要任何人工确认。
这让我想起之前读到的关于 Windsurf 团队对 agent 系统的分析:真正在生产环境中创造价值的,是协作式 agent,而不是完全自主的 agent。Windsurf 的 Cascade、Cursor 的 Composer Agent,这些被用户真正接受的工具,都是在人与 agent 之间保持合理协作分工的。CopilotKit 的设计哲学和这个判断是完全一致的。
Human-in-the-loop 还有另一层价值,是数据采集。每次用户对 agent 的行为进行确认、修改或拒绝,都是宝贵的训练信号。这和 CopilotKit 正在推进的 CLHF 方向是完全配套的。agent 在等待人类确认的同时,也在收集反馈,用来改进自己的下一次决策。这是一个良性循环。
CopilotKit Enterprise Intelligence:从 demo 到生产的关键一跳
做过 AI 产品的人都知道,demo 好看是一回事,能跑在生产环境里是另一回事。这两者之间有一道巨大的鸿沟,里面有持久化、可观测性、多设备同步、权限控制、自托管合规要求等等一堆问题。
CopilotKit 这次同步发布的 Enterprise Intelligence 平台,专门针对这道鸿沟。这个平台提供了持久化对话线程、跨设备同步、可观测性监控,以及即将推出的 agent 自我改进能力。它支持在 Kubernetes 上自托管部署,托管云版本也在路上。
这个产品策略我觉得非常成熟。开源的 CopilotKit 和 AG-UI,解决的是开发者入门和生态扩展的问题,让任何人都能免费上手,用最快的速度把 agent 接入自己的应用。Enterprise Intelligence 解决的,是企业把 agent 从 demo 推向生产时必须面对的那些硬需求。两者定位不同,互不冲突,形成了一个从开源吸引用户、用企业产品变现的完整商业闭环。
![]()
Uli Barkai 在采访中说得很直白:"我们的策略是成为生态系统中的默认选择,然后向顶级企业变现。我们非常希望开源版本是最好的,95% 的用户可以直接开始构建,不需要付费给任何人或者与任何人交谈。"这个策略和 HashiCorp、Confluent、MongoDB 这些成功的开源基础设施公司走的路是一样的:先用开源建立标准地位,再用企业产品收割最高价值的客户。
两兄弟和一个意外的转型
CopilotKit 的背后,是一对兄弟:Atai Barkai 和 Uli Barkai。这对兄弟的创业故事有一个有趣的细节,值得一提。
他们最初做的不是 AI agent 工具,而是一个叫 tawkitAI 的 AI 播客平台。后来,他们把内部开发的基础设施开源了,结果意外发现开发者社区反应非常强烈。于是他们做了一个关键决定:把公司转型,专注于做开发者工具,也就是后来的 CopilotKit。这个转型发生在 2023 年,当时他们加入了 Techstars Seattle 孵化器项目。从那之后,公司发展速度非常快。两年多时间内,从一个没人知道的开源项目,做到了被超过一半的世界 500 强企业使用。
Atai 在创办 CopilotKit 之前,在 Meta 负责过大规模媒体基础设施的开发,也在 Doximity 领导过旗舰 iOS 应用的开发。他有物理学的学术背景,在宾夕法尼亚大学拿了本科和硕士学位。Uli 则在哥伦比亚大学学过金融经济学,在特拉维夫大学学过哲学,负责公司的增长、合作和生态建设。
![]()
我觉得这对兄弟的背景组合其实挺有意思的。技术 CEO 加上增长负责人的搭档本来就很常见,但 Atai 做过 Meta 级别的基础设施,对大规模系统有深刻理解,这让 CopilotKit 从一开始就把基础设施层做得比较扎实。而 Uli 的生态运营能力,让 AG-UI 这个协议能在短时间内被这么多重量级玩家采纳。一个好的开放标准,技术只是一半,生态推广是另一半,这两件事他们都做对了。
竞争格局:为什么 CopilotKit 选择做水平层
CopilotKit 并不是这个市场里唯一的玩家。Vercel 的 AI SDK、assistant-ui、OpenAI 的 Apps SDK,都在做类似的事情。但 CopilotKit 的差异化定位非常清晰:他们选择做一个水平的、供应商中立的基础层,而不是一个垂直整合的全栈平台。
Atai 在采访中解释了这个选择背后的逻辑。他说,在和企业的对话中,有两件事几乎每次都会被提到:一是要有选择权,二是要能自托管。很多企业已经在用 Google、Amazon、Oracle、Microsoft 的云,或者已经选定了 LangChain、Mastra 这样的 agent 框架。他们不想再引入一个要求锁定到特定云服务商或特定技术栈的工具。他们想要的是一个能插进自己现有基础设施的方案。
这是 Vercel AI SDK 无法给的。Vercel 的生态是深度整合的,但也意味着更高的锁定风险。对于已经有复杂 IT 基础设施的大型企业来说,这是一个重要的障碍。OpenAI 的 Apps SDK 更不用说,它只能在 ChatGPT 里用,完全不适合想把 agent 嵌入自己产品的公司。
![]()
CopilotKit 的水平定位,意味着它可以和任何 agent 框架、任何云服务商、任何后端系统配合使用。这种"不选边站"的姿态,在企业市场里是很大的优势,因为它极大降低了采纳门槛,减少了采购决策里的政治风险。
我怎么看这件事
看完 CopilotKit 的故事,我的第一个感受是:这家公司做对了一件很多人没做对的事——他们没有试图自己构建一个封闭的 AI 平台,而是选择做一层开放的基础设施,让整个生态都能从中受益。
AG-UI 被 Google、Microsoft、Amazon 采纳,不是因为这几家公司突然变得开放,而是因为 AG-UI 真正解决了一个行业共同面临的问题,而且是以开放的方式解决的。在 AI 协议领域,先发优势和生态网络效应是非常强的。一旦主流框架都采纳了 AG-UI,其他开发者就没有理由不用。这种"成为默认标准"的战略,是最难被竞争对手复制的护城河。
我还注意到一个细节。CopilotKit 在 2023 年从播客工具转型过来,到今天完成 A 轮,总共花了大约两年时间。两年内,从零做到超过一半的世界 500 强企业在用他们的工具,每周数百万次 agent 交互,被谷歌微软亚马逊背书的开放协议。这个速度说明了一件事:他们踩中了一个真实需求,而且进入时机非常准。
我一直觉得,AI agent 这波浪潮里,最持久的机会不在于谁的模型更强,而在于谁能建立起连接模型和真实应用的基础设施层。模型的竞争是烧钱的游戏,基础设施的竞争是生态的游戏。CopilotKit 选择了后者,而且已经在生态层面取得了相当强的先发优势。
当然,挑战也是真实的。开源项目商业化的路从来不轻松,如何在保持 AG-UI 开放中立性的同时,从企业产品里获取足够的收入来支撑研发,这个平衡需要持续维护。竞争对手也不会坐以待毙,Vercel 这样的公司有足够强的分发渠道和品牌影响力,随时可以加大投入。
但我依然觉得,CopilotKit 正在做的事,是这个行业接下来五年里最重要的基础设施工作之一。如果真的像 Atai 说的那样,"所有的 UI 都将变成 AI",那么定义 agent 和 UI 之间通信方式的那层协议,就是整个新软件时代最底层的地基之一。这个位置,值得认真对待。
结尾
也欢迎大家留言讨论,分享你的观点!
觉得内容不错的朋友能够帮忙右下角点个赞,分享一下。您的每次分享,都是在激励我不断产出更好的内容。
欢迎关注深思圈,一起探索更大的世界。
- END -
两个“特别坑”的AI产品创业方向,你知道吗
![]()
速度将成为AI时代唯一的护城河
![]()
a16z重磅预测:Vibe coding赢者通吃?错了,垂直专业化才是未来
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.