Manus和Cursor绝非套壳，二者在各自领域的认知水平，领先行业一个身位|编程|原理|深度解析|底层逻辑|cursor

分享至

Meta花了20亿美元买Manus，Elon Musk给Cursor开了600亿美元的收购选项。这两个数字公布之后，中文互联网上最常见的反应可以归结为两句话：第一，这俩不都是套壳吗？底层用的是别人的模型，有什么了不起。第二，Zuckerberg和Musk这是冲动消费，一个是"Meta已经错过了AI所以高价买进"，一个是"Musk就是什么热买什么"。

这种判断的潜台词是：Manus和Cursor本身没什么特别的，和市面上一大堆AI agent工具、AI编程工具没有本质区别，只是营销做得好、时机赶得巧。

这篇文章想说的是，这个判断错了。不是小错，是方向性的错。Manus和Cursor在各自领域里的认知水平，领先了行业至少一个身位，而且这个认知领先有具体的技术路线和竞品对比可以验证。Meta和SpaceX/xAI的出价不是冲动，是对这种认知领先的定价。

Manus：从第一性原理出发

Manus从2025年3月发布起就伴随争议。最常见的批评是套壳：它不训练自己的模型，用的是Claude和Qwen，只是在外面包了一层agent调度框架。MIT博士秦增益的评论代表了一类观点：这是一个很好的产品，但并不是一项技术突破。

要理解Manus做对了什么，最有效的方式是把它和同期的竞品放在一起看。

认知差异一：不搞角色扮演

2023年到2025年初，多数multi-agent系统的设计思路是照搬人类组织架构。MetaGPT是这类思路的典型代表：它把LLM agent分成产品经理、架构师、项目经理、工程师、QA五个角色，每个角色有固定的职责和工作流，按照人类软件公司的流程串行执行。这就是所谓的hat wearing。

这种设计的问题出在起点。人类社会之所以需要专业分工，是因为一个人的能力带宽有限，需要花十几年训练才能成为一个资深的产品经理或资深的工程师。分工是对人类认知局限性的补偿。但LLM不是这样。任何一个LLM off the shelf就是一个generalist，它懂所有领域的知识。在prompt里告诉它"你是一个资深的software engineer"，这句话除了限制它的能力以外没有任何意义。

从第一性原理出发想这件事，结论完全不同：不应该让多个agent各自扮演一个人类角色然后串行协作，而应该让每个agent都保持generalist的完整能力，只在任务层面做分割。Manus的wide research机制就是这个思路的产品化。它的主planner agent把用户请求拆成若干独立子任务，然后为每个子任务启动一个独立的、完整能力的Manus实例，每个实例有自己独立的context window，在云端虚拟机沙盒里自主执行。没有"产品经理agent"或"工程师agent"这样的角色标签，每个sub-agent都能规划、执行和验证。

这不是UI层面的差别，也不是产品策略层面的差别，是对LLM本质的理解不同。MetaGPT从人类组织架构出发设计系统，Manus从LLM的能力特征出发设计系统。后者对了，前者错了。这个判断在2025年3月是少数派，到2026年已经成为行业共识：OpenAI的Codex用Plan/Spec Mode（planner分析请求，executor在沙盒里执行），Anthropic的Claude Code用orchestrator-worker（lead agent制定计划，sub-agent并行执行），Cursor用Planner-Worker-Judge。所有头部玩家都收敛到了按功能分工（规划、执行、评估）的架构，没有一家在给agent戴人类职业的帽子。

Manus在产品层面的判断也体现了同样的认知水平。2025年3月，在多数agent产品还在垂直领域里各做各的时候（调研的只能调研，生成的只能生成），Manus是第一个把端到端链路打通的产品，从自主搜索到代码生成到数据可视化一条线走完。这件事今天已经是agent产品的标配，但在当时是少数派判断。我在那一周写过一篇分析，讨论了Agentic AI在工具、数据和智能三个维度上的复利效应，Manus是当时唯一一个把这三层复利都做出来的产品。

认知差异二：User Generated Software的创建和分发

软件行业有一个长期存在的供需错配：专业软件公司生产的产品满足的是头部需求，大量长尾需求没有人管。这和媒体行业在YouTube出现之前的状态类似：电视台满足头部内容需求，长尾的内容创作需求被忽略，直到User Generated Content平台出现。

Manus敏锐地判断了这一点，并且在产品层面做了一个当时看起来不太常规的决定：让用户能把Manus生成的应用直接部署和分发。用户描述一个需求，Manus自动生成前端、后端、数据库，然后一键部署到云端，返回一个可分享的链接。这件事做到这一步已经超过了同期的多数agent产品。但Manus还做了一层：它提供了API，让部署出去的应用能够调用Manus自身的AI能力。换句话说，用户不光能用AI生成软件，生成出来的软件本身还能继续使用AI。

这个判断在当时不是显而易见的。2025年3月，多数AI agent产品把自己定位为"帮你完成一个任务的工具"，产出物是报告、代码或幻灯片，用完就结束。Manus的定位是"帮你创建一个可以持续运行和分发的软件产品"，而且这个产品自带智能。这是两种完全不同的产品逻辑。前者把AI当作一次性的生产力工具，后者把AI当作User Generated Software的基础设施。

市场反应验证了这个判断。Manus的waitlist在公开演示后突破了200万，那次演示中最让用户兴奋的不只是AI能做调研和写代码，而是它能一键把成品部署出去，变成一个真正可用的在线产品。到2025年底，vibe coding和AI app builder已经成为一个47亿美元的市场，Manus是最早把"创建加部署加智能注入"这条完整链路做出来的产品之一。

这个设计选择背后的认知水平，体现在它对整条价值链的完整性判断上。多数竞品停留在生成这一步，Manus一直想到了分发和持续运行。这和第一个认知差异（不做hat wearing）指向同一个根源：这个团队从第一性原理出发思考问题，而不是沿着现有产品形态做增量优化。

结果和回应

商业回报直接反映了这些认知：8个月做到$100M ARR，处理量147万亿token，创建超过8000万台虚拟计算机。GAIA Level 3基准测试57.7%的成绩，领先OpenAI Deep Research的47.6%。

两个常见的追问需要回应。

第一，"agent产品已经满大街了，Manus是上一代的产品形态，对Meta没有直接用途。"这个说法有一半是对的。Manus代表的是云端沙盒agent形态，而2026年的主流方向已经转向了Claude Code、OpenClaw这类本地终端agent和Amazon Q这类企业级集成agent。从产品代际来看，Manus的形态确实不是最新的。但收购的逻辑从来不是买最新一代的产品。Meta买的是这支团队的认知水平、工程能力、用户基础和基础设施积累。产品形态可以迭代，团队对agent AI的理解和实践经验不会因为新一代产品出现就过期。Meta在2026年2月已经把Manus的agent能力整合进了Ads Manager的工作流，这说明Manus的技术资产在Meta的产品体系里找到了实际的着陆点。

Manus团队在2025年7月发表的context engineering博文是一个更直接的证据。这篇文章的信息密度极高，从中可以直接看到Manus团队对agentic AI的理解领先行业一个身位。它提出的三条核心原则（keep prefix stable、make context append-only、mask tools don't remove them）后来被整个harness engineering领域广泛引用和采纳。更重要的是，这篇文章在开头就回答了一个关键的技术路线问题：是应该基于开源模型训练一个端到端的agentic model，还是应该在frontier model的in-context learning能力之上构建agent？Manus选了后者，并且用产品结果证明了这条路线的可行性。这个判断在2025年中不是共识，到2026年已经成为行业的主流做法。一篇技术博文能做到这种程度的前瞻性和影响力，本身就是团队认知水平的证明。

第二，"Manus从头到尾就是套壳，没有技术含量。"2026年4月发改委动用了《外商投资安全审查办法》五年来的第一次"禁止加撤销"来叫停这笔收购。如果Manus真的只是一个没有核心技术的套壳产品，监管没有理由用最强档位的法律工具来保护它。监管认定这家公司的核心团队、研发能力、训练数据和IP构成需要保护的国家安全资产。这份认定的分量，比任何技术评测或媒体争论都重。

Cursor：唯一自己训练模型的第三方选手

Cursor面对的套壳质疑和Manus类似：底层用的是别人的模型，自己只做了一个编辑器。但Cursor做了一个同赛道的竞品都没有做的判断，并且围绕这个判断建立了完整的技术壁垒。

认知差异一：判断自训模型是产品的必要条件，然后把它做出来了

编程agent的核心循环是高频的工具调用：读文件、写代码、跑命令，每一轮都有延迟，累积起来直接决定产品体验。Cursor团队很早就判断，在这个场景下，依赖外部frontier model的API在速度和成本上都无法做到让开发者满意的交互体验，自训模型是产品层面绕不过去的一步。Cursor官方博客的原话是，他们的目标是训练出一个能支撑交互式使用的最聪明的模型，让开发者保持在编程的flow里。

这里可能会有一个疑问：前面说Manus用外部模型API是正确判断，怎么到Cursor这里自训模型反而成了必要条件？区别在于两个领域的核心约束不同。Manus所在的通用agent领域，核心差异化在agent架构和context engineering这一层，底层模型的能力差异被agent框架吸收了。编程领域不一样，延迟和成本直接决定产品可用性。两者的共同点恰恰是：都从自己领域的实际约束出发做了正确的build vs. buy判断。

认准了这个方向之后，Cursor把它做出来了，而且产品体验验证了这个判断。Composer 1发布之后，我在大量项目中用它替代了Sonnet 4.5。体感上，大概90%的日常编程任务（改bug、写CRUD、重构、加功能），Composer 1和Sonnet 4.5的完成质量没有明显差别。日常编程中真正需要rocket science级别推理的场景占比很小，多数时候是体力活，模型之间的能力差距体现不出来。但速度优势是碾压式的：同一个任务，Sonnet 4.5要等一两分钟，Composer 1几秒到十几秒就回来了。质量差不多，速度快数倍，这在高频使用场景下带来的体验差异是巨大的。这正是Cursor一开始做出的那个判断：编程领域的产品体验瓶颈在模型的速度和成本，不在能力上限。

做法上，Cursor没有从零预训练一个模型，而是拿开源的MoE底座，在模拟Cursor生产环境的agent harness里做大规模RL post-training，训练模型的工具调用决策和响应效率。

这里有一个常见的质疑：这不就是fine-tuning吗？

从Composer 1到2的五个月演进回答了这个问题。Cursor的训练链路经历了三次迭代，每一次都不是简单的调参，而是训练方法论本身的升级。1和1.5阶段的路线是纯RL：拿开源底座做大规模后训练。到Composer 1.5，RL的计算量扩大了20倍，后训练消耗的算力甚至超过了底座预训练本身，同时引入了thinking tokens（自适应推理深度）和self-summarization（长上下文自动压缩）两个新训练行为。但他们发现RL-only路线的边际收益在递减：CursorBench从1到1.5只提升了6.2分，算力却投入了20倍。

到Composer 2，Cursor做了一个关键的方法论转向：在RL之前加入continued pretraining，改变RL探索的起点质量。底座换成了Kimi K2.5（Moonshot官方已确认），先做继续预训练再做RL，结果CursorBench一口气提升了17.1分。Composer 2的技术报告说得很明确：它在推理成本显著低于同级别模型的前提下达到了Pareto最优。换句话说，Cursor的post-training链路做到的不是在底座上加一层fine-tune然后性能打折，而是在压缩成本和延迟的同时保持了可比的编程能力。

这个方法论的自我修正有学术上的支撑。ICML 2025的研究（SFT Memorizes, RL Generalizes）和Moonshot自己的Kimi K2技术报告都指向同一个方向：预训练建立先验，RL在先验上做高效探索，continued pretraining改变的是起点质量。Cursor团队在Composer 2之前就独立发现了这一点并落地到产品里。

回过头来看竞品的选择。AI编程工具领域里创业公司很多：Cline是开源的VS Code插件，接各种第三方模型API；Windsurf（原Codeium）也自训模型，但路线不同，它走的是通用编程能力路线，没有针对高频工具调用场景做专门优化；GitHub Copilot背靠OpenAI，但直到2025年底还在用现成的GPT-4和Claude模型，没有自己的post-training链路。Cursor是唯一一个在第三方AI编程工具里把自训模型做出来并且验证成功的。

认知差异二：Harness Engineering落地到产品

Cursor在harness engineering上的投入是另一个被低估的壁垒。Composer 2的技术报告详细描述了他们的训练方法：用真实的Cursor生产环境作为训练场景，让模型在真实的工具调用循环中学习决策。

这和传统的SFT（supervised fine-tuning）有本质区别。SFT是让模型模仿人类的示范，而RL是让模型在环境中试错并优化奖励函数。Cursor的训练数据不是人工标注的"正确操作序列"，而是模型在模拟环境中自主探索产生的轨迹，通过结果反馈（任务是否完成、代码是否正确）来优化策略。

这种方法论的优势在于：模型学到的不是"人类通常会怎么做"，而是"在这个具体场景下什么做法最有效"。对于编程这种结果导向的任务，后者明显更优。

Cursor还做了另一件竞品没做的事：把harness engineering的成果反哺到产品体验。Composer 2的"智能上下文感知"功能，能够自动识别代码库中的相关文件和依赖关系，不需要用户手动指定。这个功能背后就是harness训练中学到的代码结构理解能力。

回应套壳论

说Cursor"只是套壳"的人，通常指的是它用的不是自己的底座模型。但如果仔细看它的技术栈，会发现它做了几乎所有能做的东西：自训模型（虽然不是从零预训练）、自研harness、自研RL训练链路、自研上下文管理系统。唯一"外包"的是底座模型的预训练，而这恰恰是build vs. buy判断后的理性选择——预训练一个MoE底座的成本是数十亿美元级别，不是创业公司能承受的。

更重要的是，Cursor证明了这个路线的可行性：通过post-training和harness engineering，可以在开源底座之上构建出体验优于frontier model API的产品。这个判断本身就有极高的认知价值，而且已经被产品结果验证。

共同的模式

Manus和Cursor虽然处于不同领域，但展现了相同的认知模式：

第一，都从第一性原理出发思考问题，而不是沿着现有产品形态做增量优化。Manus重新思考了multi-agent系统的设计范式，Cursor重新思考了编程工具的模型需求。

第二，都做出了和当时主流判断不同的选择，并且用产品结果证明了自己是对的。Manus在2025年3月选择不做hat wearing，Cursor在2024年选择自训模型，当时都不是共识。

第三，都建立了可验证的技术壁垒。Manus的壁垒在agent架构和context engineering，Cursor的壁垒在post-training和harness engineering。这些壁垒不是营销话术，有具体的技术实现和benchmark结果支撑。

第四，都获得了超额的商业回报。Manus 8个月做到$100M ARR，Cursor在AI编程工具领域占据了领先位置。这些回报是对认知领先的定价。

Meta和SpaceX/xAI的收购出价，本质上是对这种认知水平的认可。产品形态可以迭代，团队的理解和实践经验是更难复制的资产。从这个角度看，20亿美元和600亿美元不是冲动消费，而是对稀缺资源的合理定价。

对于那些还在说"套壳"的人，也许需要重新理解什么是真正的技术壁垒。在AI这个快速演进的领域，能够做出正确判断并且把它做出来，本身就是最高的技术能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.