Meta花了20亿美元买Manus,Elon Musk给Cursor开了600亿美元的收购选项。这两个数字公布之后,中文互联网上最常见的反应可以归结为两句话:第一,这俩不都是套壳吗?底层用的是别人的模型,有什么了不起。第二,Zuckerberg和Musk这是冲动消费,一个是"Meta已经错过了AI所以高价买进",一个是"Musk就是什么热买什么"。
这种判断的潜台词是:Manus和Cursor本身没什么特别的,和市面上一大堆AI agent工具、AI编程工具没有本质区别,只是营销做得好、时机赶得巧。
这篇文章想说的是,这个判断错了。不是小错,是方向性的错。Manus和Cursor在各自领域里的认知水平,领先了行业至少一个身位,而且这个认知领先有具体的技术路线和竞品对比可以验证。Meta和SpaceX/xAI的出价不是冲动,是对这种认知领先的定价。
Manus:从第一性原理出发
Manus从2025年3月发布起就伴随争议。最常见的批评是套壳:它不训练自己的模型,用的是Claude和Qwen,只是在外面包了一层agent调度框架。MIT博士秦增益的评论代表了一类观点:这是一个很好的产品,但并不是一项技术突破。
要理解Manus做对了什么,最有效的方式是把它和同期的竞品放在一起看。
认知差异一:不搞角色扮演
2023年到2025年初,多数multi-agent系统的设计思路是照搬人类组织架构。MetaGPT是这类思路的典型代表:它把LLM agent分成产品经理、架构师、项目经理、工程师、QA五个角色,每个角色有固定的职责和工作流,按照人类软件公司的流程串行执行。这就是所谓的hat wearing。
这种设计的问题出在起点。人类社会之所以需要专业分工,是因为一个人的能力带宽有限,需要花十几年训练才能成为一个资深的产品经理或资深的工程师。分工是对人类认知局限性的补偿。但LLM不是这样。任何一个LLM off the shelf就是一个generalist,它懂所有领域的知识。在prompt里告诉它"你是一个资深的software engineer",这句话除了限制它的能力以外没有任何意义。
从第一性原理出发想这件事,结论完全不同:不应该让多个agent各自扮演一个人类角色然后串行协作,而应该让每个agent都保持generalist的完整能力,只在任务层面做分割。Manus的wide research机制就是这个思路的产品化。它的主planner agent把用户请求拆成若干独立子任务,然后为每个子任务启动一个独立的、完整能力的Manus实例,每个实例有自己独立的context window,在云端虚拟机沙盒里自主执行。没有"产品经理agent"或"工程师agent"这样的角色标签,每个sub-agent都能规划、执行和验证。
这不是UI层面的差别,也不是产品策略层面的差别,是对LLM本质的理解不同。MetaGPT从人类组织架构出发设计系统,Manus从LLM的能力特征出发设计系统。后者对了,前者错了。这个判断在2025年3月是少数派,到2026年已经成为行业共识:OpenAI的Codex用Plan/Spec Mode(planner分析请求,executor在沙盒里执行),Anthropic的Claude Code用orchestrator-worker(lead agent制定计划,sub-agent并行执行),Cursor用Planner-Worker-Judge。所有头部玩家都收敛到了按功能分工(规划、执行、评估)的架构,没有一家在给agent戴人类职业的帽子。
Manus在产品层面的判断也体现了同样的认知水平。2025年3月,在多数agent产品还在垂直领域里各做各的时候(调研的只能调研,生成的只能生成),Manus是第一个把端到端链路打通的产品,从自主搜索到代码生成到数据可视化一条线走完。这件事今天已经是agent产品的标配,但在当时是少数派判断。我在那一周写过一篇分析,讨论了Agentic AI在工具、数据和智能三个维度上的复利效应,Manus是当时唯一一个把这三层复利都做出来的产品。
认知差异二:User Generated Software的创建和分发
软件行业有一个长期存在的供需错配:专业软件公司生产的产品满足的是头部需求,大量长尾需求没有人管。这和媒体行业在YouTube出现之前的状态类似:电视台满足头部内容需求,长尾的内容创作需求被忽略,直到User Generated Content平台出现。
Manus敏锐地判断了这一点,并且在产品层面做了一个当时看起来不太常规的决定:让用户能把Manus生成的应用直接部署和分发。用户描述一个需求,Manus自动生成前端、后端、数据库,然后一键部署到云端,返回一个可分享的链接。这件事做到这一步已经超过了同期的多数agent产品。但Manus还做了一层:它提供了API,让部署出去的应用能够调用Manus自身的AI能力。换句话说,用户不光能用AI生成软件,生成出来的软件本身还能继续使用AI。
这个判断在当时不是显而易见的。2025年3月,多数AI agent产品把自己定位为"帮你完成一个任务的工具",产出物是报告、代码或幻灯片,用完就结束。Manus的定位是"帮你创建一个可以持续运行和分发的软件产品",而且这个产品自带智能。这是两种完全不同的产品逻辑。前者把AI当作一次性的生产力工具,后者把AI当作User Generated Software的基础设施。
市场反应验证了这个判断。Manus的waitlist在公开演示后突破了200万,那次演示中最让用户兴奋的不只是AI能做调研和写代码,而是它能一键把成品部署出去,变成一个真正可用的在线产品。到2025年底,vibe coding和AI app builder已经成为一个47亿美元的市场,Manus是最早把"创建加部署加智能注入"这条完整链路做出来的产品之一。
这个设计选择背后的认知水平,体现在它对整条价值链的完整性判断上。多数竞品停留在生成这一步,Manus一直想到了分发和持续运行。这和第一个认知差异(不做hat wearing)指向同一个根源:这个团队从第一性原理出发思考问题,而不是沿着现有产品形态做增量优化。
结果和回应
商业回报直接反映了这些认知:8个月做到$100M ARR,处理量147万亿token,创建超过8000万台虚拟计算机。GAIA Level 3基准测试57.7%的成绩,领先OpenAI Deep Research的47.6%。
两个常见的追问需要回应。
第一,"agent产品已经满大街了,Manus是上一代的产品形态,对Meta没有直接用途。"这个说法有一半是对的。Manus代表的是云端沙盒agent形态,而2026年的主流方向已经转向了Claude Code、OpenClaw这类本地终端agent和Amazon Q这类企业级集成agent。从产品代际来看,Manus的形态确实不是最新的。但收购的逻辑从来不是买最新一代的产品。Meta买的是这支团队的认知水平、工程能力、用户基础和基础设施积累。产品形态可以迭代,团队对agent AI的理解和实践经验不会因为新一代产品出现就过期。Meta在2026年2月已经把Manus的agent能力整合进了Ads Manager的工作流,这说明Manus的技术资产在Meta的产品体系里找到了实际的着陆点。
Manus团队在2025年7月发表的context engineering博文是一个更直接的证据。这篇文章的信息密度极高,从中可以直接看到Manus团队对agentic AI的理解领先行业一个身位。它提出的三条核心原则(keep prefix stable、make context append-only、mask tools don't remove them)后来被整个harness engineering领域广泛引用和采纳。更重要的是,这篇文章在开头就回答了一个关键的技术路线问题:是应该基于开源模型训练一个端到端的agentic model,还是应该在frontier model的in-context learning能力之上构建agent?Manus选了后者,并且用产品结果证明了这条路线的可行性。这个判断在2025年中不是共识,到2026年已经成为行业的主流做法。一篇技术博文能做到这种程度的前瞻性和影响力,本身就是团队认知水平的证明。
第二,"Manus从头到尾就是套壳,没有技术含量。"2026年4月发改委动用了《外商投资安全审查办法》五年来的第一次"禁止加撤销"来叫停这笔收购。如果Manus真的只是一个没有核心技术的套壳产品,监管没有理由用最强档位的法律工具来保护它。监管认定这家公司的核心团队、研发能力、训练数据和IP构成需要保护的国家安全资产。这份认定的分量,比任何技术评测或媒体争论都重。
Cursor:唯一自己训练模型的第三方选手
Cursor面对的套壳质疑和Manus类似:底层用的是别人的模型,自己只做了一个编辑器。但Cursor做了一个同赛道的竞品都没有做的判断,并且围绕这个判断建立了完整的技术壁垒。
认知差异一:判断自训模型是产品的必要条件,然后把它做出来了
编程agent的核心循环是高频的工具调用:读文件、写代码、跑命令,每一轮都有延迟,累积起来直接决定产品体验。Cursor团队很早就判断,在这个场景下,依赖外部frontier model的API在速度和成本上都无法做到让开发者满意的交互体验,自训模型是产品层面绕不过去的一步。Cursor官方博客的原话是,他们的目标是训练出一个能支撑交互式使用的最聪明的模型,让开发者保持在编程的flow里。
这里可能会有一个疑问:前面说Manus用外部模型API是正确判断,怎么到Cursor这里自训模型反而成了必要条件?区别在于两个领域的核心约束不同。Manus所在的通用agent领域,核心差异化在agent架构和context engineering这一层,底层模型的能力差异被agent框架吸收了。编程领域不一样,延迟和成本直接决定产品可用性。两者的共同点恰恰是:都从自己领域的实际约束出发做了正确的build vs. buy判断。
认准了这个方向之后,Cursor把它做出来了,而且产品体验验证了这个判断。Composer 1发布之后,我在大量项目中用它替代了Sonnet 4.5。体感上,大概90%的日常编程任务(改bug、写CRUD、重构、加功能),Composer 1和Sonnet 4.5的完成质量没有明显差别。日常编程中真正需要rocket science级别推理的场景占比很小,多数时候是体力活,模型之间的能力差距体现不出来。但速度优势是碾压式的:同一个任务,Sonnet 4.5要等一两分钟,Composer 1几秒到十几秒就回来了。质量差不多,速度快数倍,这在高频使用场景下带来的体验差异是巨大的。这正是Cursor一开始做出的那个判断:编程领域的产品体验瓶颈在模型的速度和成本,不在能力上限。
做法上,Cursor没有从零预训练一个模型,而是拿开源的MoE底座,在模拟Cursor生产环境的agent harness里做大规模RL post-training,训练模型的工具调用决策和响应效率。
这里有一个常见的质疑:这不就是fine-tuning吗?
从Composer 1到2的五个月演进回答了这个问题。Cursor的训练链路经历了三次迭代,每一次都不是简单的调参,而是训练方法论本身的升级。1和1.5阶段的路线是纯RL:拿开源底座做大规模后训练。到Composer 1.5,RL的计算量扩大了20倍,后训练消耗的算力甚至超过了底座预训练本身,同时引入了thinking tokens(自适应推理深度)和self-summarization(长上下文自动压缩)两个新训练行为。但他们发现RL-only路线的边际收益在递减:CursorBench从1到1.5只提升了6.2分,算力却投入了20倍。
到Composer 2,Cursor做了一个关键的方法论转向:在RL之前加入continued pretraining,改变RL探索的起点质量。底座换成了Kimi K2.5(Moonshot官方已确认),先做继续预训练再做RL,结果CursorBench一口气提升了17.1分。Composer 2的技术报告说得很明确:它在推理成本显著低于同级别模型的前提下达到了Pareto最优。换句话说,Cursor的post-training链路做到的不是在底座上加一层fine-tune然后性能打折,而是在压缩成本和延迟的同时保持了可比的编程能力。
这个方法论的自我修正有学术上的支撑。ICML 2025的研究(SFT Memorizes, RL Generalizes)和Moonshot自己的Kimi K2技术报告都指向同一个方向:预训练建立先验,RL在先验上做高效探索,continued pretraining改变的是起点质量。Cursor团队在Composer 2之前就独立发现了这一点并落地到产品里。
回过头来看竞品的选择。AI编程工具领域里创业公司很多:Cline是开源的VS Code插件,接各种第三方模型API;Windsurf(原Codeium)也自训模型,但路线不同,它走的是通用编程能力路线,没有针对高频工具调用场景做专门优化;GitHub Copilot背靠OpenAI,但直到2025年底还在用现成的GPT-4和Claude模型,没有自己的post-training链路。Cursor是唯一一个在第三方AI编程工具里把自训模型做出来并且验证成功的。
认知差异二:Harness Engineering落地到产品
Cursor在harness engineering上的投入是另一个被低估的壁垒。Composer 2的技术报告详细描述了他们的训练方法:用真实的Cursor生产环境作为训练场景,让模型在真实的工具调用循环中学习决策。
这和传统的SFT(supervised fine-tuning)有本质区别。SFT是让模型模仿人类的示范,而RL是让模型在环境中试错并优化奖励函数。Cursor的训练数据不是人工标注的"正确操作序列",而是模型在模拟环境中自主探索产生的轨迹,通过结果反馈(任务是否完成、代码是否正确)来优化策略。
这种方法论的优势在于:模型学到的不是"人类通常会怎么做",而是"在这个具体场景下什么做法最有效"。对于编程这种结果导向的任务,后者明显更优。
Cursor还做了另一件竞品没做的事:把harness engineering的成果反哺到产品体验。Composer 2的"智能上下文感知"功能,能够自动识别代码库中的相关文件和依赖关系,不需要用户手动指定。这个功能背后就是harness训练中学到的代码结构理解能力。
回应套壳论
说Cursor"只是套壳"的人,通常指的是它用的不是自己的底座模型。但如果仔细看它的技术栈,会发现它做了几乎所有能做的东西:自训模型(虽然不是从零预训练)、自研harness、自研RL训练链路、自研上下文管理系统。唯一"外包"的是底座模型的预训练,而这恰恰是build vs. buy判断后的理性选择——预训练一个MoE底座的成本是数十亿美元级别,不是创业公司能承受的。
更重要的是,Cursor证明了这个路线的可行性:通过post-training和harness engineering,可以在开源底座之上构建出体验优于frontier model API的产品。这个判断本身就有极高的认知价值,而且已经被产品结果验证。
共同的模式
Manus和Cursor虽然处于不同领域,但展现了相同的认知模式:
第一,都从第一性原理出发思考问题,而不是沿着现有产品形态做增量优化。Manus重新思考了multi-agent系统的设计范式,Cursor重新思考了编程工具的模型需求。
第二,都做出了和当时主流判断不同的选择,并且用产品结果证明了自己是对的。Manus在2025年3月选择不做hat wearing,Cursor在2024年选择自训模型,当时都不是共识。
第三,都建立了可验证的技术壁垒。Manus的壁垒在agent架构和context engineering,Cursor的壁垒在post-training和harness engineering。这些壁垒不是营销话术,有具体的技术实现和benchmark结果支撑。
第四,都获得了超额的商业回报。Manus 8个月做到$100M ARR,Cursor在AI编程工具领域占据了领先位置。这些回报是对认知领先的定价。
Meta和SpaceX/xAI的收购出价,本质上是对这种认知水平的认可。产品形态可以迭代,团队的理解和实践经验是更难复制的资产。从这个角度看,20亿美元和600亿美元不是冲动消费,而是对稀缺资源的合理定价。
对于那些还在说"套壳"的人,也许需要重新理解什么是真正的技术壁垒。在AI这个快速演进的领域,能够做出正确判断并且把它做出来,本身就是最高的技术能力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.