【深度分析】建议你在等Manus AI 邀请码时候，不妨看看这篇文章|代码|应用层|预训练

分享至

（关注公众号设为标，获取AI深度洞察）

全文 4,000字 | 阅读约12分钟

刚刚刷社交媒体，发现全网都是关于Manus的讨论，热度高得惊人，俨然一码难求的场面。所有人都在求邀请码，有的花钱要买，还有的直接找创始人要。

Manus是一个真正自主的AI代理，能够解决各类复杂多变的任务。与传统AI不同，它不仅能提供建议或答案，还能直接交付完整的任务成果。官方视频里给出了三个agent的实例：筛选简历、筛选房产、股票分析。

现在各种媒体平台都在测试产品视频和文章，这里我就不测试，至少给大家聊聊Manus意味着什么？

【核心观点：】

模型即产品——AI的未来是将模型打造为最终产品。
有针对性的训练效果超预期——强化学习让模型学会了执行复杂任务。
推理成本正在自由落体式下降——技术进步让AI服务前所未有地便宜。
应用层的困境——随着模型能力提升，应用层可能首先被自动化取代。
普通人意味着什么？——要么自己掌握技术，要么被技术取代。

过去几年，人们对AI发展的下一个周期有很多猜测。是智能Agent？是推理搜索引擎？还是真正的多模态技术？

一、模型即产品：

现在可以明确了：模型本身就是产品。

当前研究和市场发展的所有因素都指向这一方向。

通用模型的扩展正在停滞。这是GPT-4.5发布背后传递的核心信息：能力在线性增长，而计算成本却呈几何曲线上升。即使有过去两年训练和基础设施方面的所有效率提升，OpenAI也无法以一个相对合理的价格部署这个庞大的模型。
有目标性的训练效果远超预期。强化学习和推理的结合意味着模型突然开始学习执行任务。这不是传统的机器学习，也不是基础模型，而是一种神秘的第三种事物。就连小型模型在数学方面都突然变得惊人地优秀。编码模型不再只是生成代码，而是能够自己管理整个代码库。Claude能够在上下文信息非常有限且没有专门训练的情况下玩宝可梦游戏。
推理成本正在急剧下降。DeepSeek的最新优化意味着，所有可用的GPU可以满足全球人口每天从前沿模型获取1万个标记的需求。根本不存在这种规模的需求。对模型提供商来说，销售标记的经济模式不再有效：他们必须在价值链上向更高处移动。

这也是一个让人不舒服的方向。所有投资者都一直在押注应用层。在AI演化的下一阶段，应用层很可能是第一个被自动化和颠覆的领域。

二、未来模型的形态

"过去几周，我们看到了这种新一代"模型即产品"的两个典型例子：OpenAI的DeepResearch和Claude Sonnet 3.7。

我读到了很多关于DeepResearch的误解，这些误解因为大量开源和闭源克隆产品的出现而更加混乱。OpenAI并没有在O3之上构建一个包装器。他们训练了一个全新的模型，能够在内部执行搜索，无需任何外部调用、提示或编排：该模型学习了核心浏览能力（搜索、点击、滚动、解释文件）(...)以及如何通过强化学习在这些浏览任务上训练，来分析大量网站以找到特定信息或撰写全面报告。

DeepResearch不是标准的大语言模型，也不是标准的聊天机器人。它是一种新形式的研究语言模型，专门设计用于执行端到端的搜索任务。对于认真使用它的人来说，差异立即显现：模型生成结构一致的长篇报告，并有底层的源分析过程。相比之下，正如Hanchung Lee强调的，所有其他DeepSearch产品，包括国内的DeepSeek以及Perplexity和Google的变体，只是在普通模型上做了一些小调整：

"Google的Gemini和Perplexity的聊天助手也提供"深度研究"功能，但两者都没有发表任何关于如何为此任务优化模型或系统的文献，也没有任何实质性的量化评估(...)我们假设所做的微调工作并不重要。"

三、愿景越来越清晰

去年12月，Anthropic提出了一个有争议但在我看来非常准确的智能代理模型定义。类似于DeepSearch，真正的智能代理必须能够在内部执行目标任务：它们"能动态地指导自己的处理过程和工具使用，完全掌控如何完成任务"。

目前大多数智能代理创业公司构建的并非真正的智能代理，而是工作流程，即"通过预定义代码路径来编排大语言模型和工具的系统"。工作流程可能仍然带来一些价值，特别是在垂直领域的应用上。然而，对于目前在大型AI实验室工作的人来说，一个显而易见的事实是：自主系统的所有重大进展都将首先通过重新设计模型本身来实现。

Claude 3.7的发布给我们提供了一个非常具体的例证，这个模型主要是针对复杂代码使用场景而训练的。所有像Devin以及当下Manus这样的工作流程适配在软件工程基准测试上都获得了重大提升。

再举一个小得多的例子：在Pleias，我们目前正在研究自动化RAG（检索增强生成）。当前的RAG系统是许多相互连接但脆弱的工作流程的组合：路由、分块、重排序、查询解释、查询扩展、源上下文化、搜索工程。随着训练技术栈的发展，有可能将所有这些过程捆绑到两个独立但相互连接的模型中，一个用于数据准备，另一个用于搜索/检索/报告生成。这需要精心设计的合成流程和全新的强化学习奖励函数。这是真正的训练，真正的研究。

这一切在实践中意味着什么：转移复杂性。训练过程预先考虑了广泛的行动和边缘情况，使得部署变得更加简单。但在这个过程中，大部分价值现在是由模型训练者创造的，最终很可能也会被他们获取。简而言之，Claude的目标是打破并取代当前的工作流程，比如来自llama index的这种基本"智能代理"系统：

或者

需要重申：大型AI实验室并没有隐藏的议程。虽然他们有时可能不够透明，但实际上他们已经公开表明：他们将打包服务，向应用层进军，并试图在那里获取大部分价值。商业后果非常明确。Databricks的生成式AI副总裁Naveen Rao表述得相当到位：

所有封闭的AI模型提供商将在未来2-3年内停止销售API。只有开源模型将通过API提供服务(...) 封闭模型提供商正在尝试构建非商品化的能力，他们需要出色的用户界面来实现这些功能。这不再仅仅是一个模型，而是一个带有特定目的的应用和界面。

所以现在发生的只是大量的否认。模型提供商和包装商之间的蜜月期已经结束。事情可能朝着这些方向发展：

Claude Code和DeepSearch是这个方向上的早期技术和产品实验。你会注意到DeepSearch并不通过API提供，只用于为高级订阅创造价值。Claude Code是一个极简的终端集成。奇怪的是，虽然Claude 3.7在Claude Code中运行完美，但Cursor却在使用它时遇到困难，我已经看到几个高端用户因此取消了订阅。真正的大语言模型智能代理不关心预先存在的工作流程：它们直接替代它。
最知名的包装商现在正在争相转变为混合AI训练公司。他们确实拥有一些训练能力，尽管很少宣传。Cursor的主要资产之一是他们的小型自动补全模型。WindSurf有他们内部的廉价代码模型Codium。Perplexity一直依赖于自家的分类器进行路由，最近还转向训练自己的DeepSeek变体用于搜索目的。
对于较小的包装商来说，如果大型实验室完全放弃这个市场，除了可能会更加依赖通用推理提供商外，不会有太大变化。我也预计会看到更多对用户界面的关注，这一点仍然被严重低估，因为更多的通用模型可能会捆绑常见的部署任务，特别是对于RAG(检索增强生成)。

简而言之，对大多数成功的包装商来说，困境很简单：训练还是被训练。他们现在所做的不仅是为大型实验室提供免费的市场研究，甚至由于所有输出最终都是通过模型提供商生成的，还提供了免费的数据设计和生成。

之后会发生什么，无人能够确定。成功的包装商确实有熟悉自己垂直领域的优势，并积累了大量宝贵的用户反馈。然而，根据我的经验，从模型层向下到应用层要比从头开始建立全新的训练能力容易得多。包装商可能也没有得到投资者的帮助。据我所闻，对训练存在如此负面的偏见，他们几乎不得不隐藏将成为他们最关键价值的东西：目前Cursor的小模型和Codium都没有得到适当的文档记录。

强化学习的价值未被估计

这让我想到了真正痛苦的部分：目前所有的AI投资都是相关联的。基金运营基于以下假设：

真正的价值完全在于独立于模型层的应用层，这个应用层最有能力颠覆现有市场。
模型提供商只会以不断降低的价格销售令牌，从而使包装商变得更加有利可图。
封闭模型的包装将满足所有现有需求，即使在对外部依赖持长期担忧的监管行业也是如此。
构建任何训练能力都是浪费时间。这不仅包括预训练，还包括所有形式的训练。

恐怕这越来越像是一场冒险的赌博，以及市场未能准确评估最新技术发展（特别是强化学习领域）的真实价值。在当前的经济生态系统中，风险基金旨在寻找不相关的投资。他们可能不会击败标普500指数，但这并不是大型机构投资者所寻求的：他们想要捆绑风险，确保在不景气的年份至少有些项目能够成功。模型训练就像是一个教科书般完美的例子：在大多数西方经济体走向衰退的背景下，它具有巨大的颠覆潜力。然而，模型训练者无法筹集资金，或者至少无法以常规方式筹集。Prime Intellect是少数几家有明确潜力成为前沿实验室的西方新AI训练公司之一。在国内，类似的情况也存在，尽管智谱AI等公司已经展示了一些突破性的模型训练能力。然而，尽管他们取得了包括训练首个去中心化大语言模型在内的成就，但他们仍然难以筹集到比普通包装商更多的资金。国内的大模型公司也面临着类似的资本困境，即使在国家政策支持的背景下。

除此之外，撇开大型实验室不谈，当前的训练生态系统非常小。你可以用手指数出所有这些公司：Prime Intellect、Moondream、Arcee、Nous、Pleias、Jina、HuggingFace预训练团队（实际上很小）...还有中国的智源研究院、百度飞桨团队等，加上一些更学术的参与者（Allen AI、Eleuther...），他们构建并支持了当前训练的大部分开放基础设施。在欧洲，我知道至少7-8个大语言模型项目将集成我们在Pleias开发的Common Corpus（公共语料库）和一些预训练工具——其余的将是fineweb，以及可能来自Nous或Arcee的训练后指令集。在国内，类似的开放基础设施正由文心一言、智谱AI等团队推动。

当前的融资环境存在深刻问题。即使是OpenAI现在也感受到了。最近，对当前硅谷创业公司格局中缺乏"垂直强化学习"的不满的情绪十分明显。我相信这个信息直接来自Sam Altman，并可能导致下一批YC项目的一些调整，但也指向了一个更大的转变：很快，大型实验室选择的合作伙伴将不再是API客户，而是参与早期训练阶段的相关承包商。在国内AI赛道上，这种转变的迹象同样开始显现。

如果模型就是产品，你不可能独自构建它？

如果模型就是产品，你不可能独自构建它。搜索和代码是容易摘取的低垂果实：两年来的主要用例，市场几近成熟，你可以在几个月内推出新的Cursor。但未来许多最有利可图的AI用例还没有发展到这么成熟的阶段——典型的例子是，想想那些仍然主导世界经济大部分领域的基于规则的系统...拥有跨领域专业知识和高度专注的小型专业团队可能最有条件解决这些问题——最终在完成初步基础工作后成为潜在的"人才收购"目标。我们可能在UI方面也会看到同样的管道。一些优选合作伙伴获得对封闭专业模型的独家API访问权，前提是他们走上业务收购的道路。

到目前为止，还没有提到DeepSeek。这只是因为DeepSeek已经更进一步：模型不仅是产品，而是通用基础设施层。和OpenAI与Anthropic一样，梁文峰公开表明了他的计划：

"我们相信，当前阶段是技术创新的爆发，而不是应用的爆发(...) 如果形成了完整的上下游产业生态系统，那么我们就不需要自己制作应用。当然，如果需要，我们制作应用也没有障碍，但研究和技术创新将永远是我们的首要任务。"

Manus AI，已经很接近理想中的数字版 AI Agent 的样子了！能够自动执行任务、搜索、找资料、写代码和生成各种格式的文档。一个真正的个人数字助理，就是应该完成你能用电脑完成的所有工作。

但这样的像Manus的Agent 应用，会不会撞到大模型公司下一代产品的枪口上呢！留给大家思考。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

原文链接：https://vintagedata.org/blog/posts/model-is-the-product

来源：官方媒体/网络新闻

排版：Atlas

编辑：深思

主编：图灵

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.