对话阶跃AI：做桌面 Agent，要比 Claude Cowork 往前一步|调用|上下文|阶跃ai|agent|深度思考按钮

分享至

Claude Cowork 火了，基于本地的 AI Agent 产品突然成为大家关注的重点。

但这么尝试的不止 Anthropic，25 年 9 月底阶跃发布的「阶跃 AI 桌面伙伴」也在做同样的事情。

基于桌面端而不是云端的形式，主打本地的任务执行和文件处理，尝试更主动为用户提供服务。可以帮你处理 Excel 数据、社媒信息获取，甚至主动完成一些定时任务。

为什么大家都选择了桌面端 Agent？模型公司做 Agent，又有什么不一样的策略？

在产品发布 3 个月后，我们采访了阶跃 AI 桌面伙伴的产品负责人钟经纬，聊了聊一款来自基模公司的 Agent 产品，背后的思考和尝试。

*注：采访时间为 2025 年 11 月，2026 年 1 月补采部分问题。

阶跃 AI 桌面伙伴目前 Mac、Windows 版均已发布，免费体验中。

官网下载：https://www.stepfun.com/download

2025 年，我们在 AI 产品市集推荐了 170 款产品，我们挑选了一些亮眼的产品，采访产品主创团队，想听听他们在产品上的探索和思考。本篇是第一篇，后续访谈陆续发布中。

欢迎加入我们的飞书「AI 产品市集」社群提交你的产品。

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；
不定期赠送热门新品的邀请码、会员码；
最精准的AI产品曝光渠道

01对比 Claude Cowork，

方向一致、打法各异

Founder Park：怎么看待 Claude 最近发布的 Cowork，你们之间的区别是？算是殊途同归吗？

钟经纬：主要的区别是，我们在终端 Agent 的探索会更往前走了一点。例如，我们推出了「全局记忆」功能，尝试在上下文的可能性上进行更激进的探索，以及通过「悬浮窗」这种交互方式，提升用户体验。

他们在 Agent 本身会打磨的更精细，我们也在努力优化中。

总体上是有点殊途同归的，后面可能都是往着端云协同去，同时有本地和云端的能力，但考虑到成本，当前大家还是会先选一边，每边都有其优劣。从这个角度看，我们想到一块去了，都选择了本地端。

选择本地客户端的优势在于更大的场景拓展空间，和上下文探索的可能性。缺点是关机时无法执行，而且下载安装本地应用的渗透率低于网页应用。

我们当前关注的是多元的用户场景探索。目前，Agent 协作的方式仍处于早期阶段，我们希望与用户一起挖掘更多创新的用法。而本地客户端能够更好地激发这种想象空间，因此我们优先选择了本地方案。

在此之外，大家面临的关键问题都很类似。

第一个问题是 Agent 能力提升。核心是让 Agent 做得更多、更稳、更快、成本更低。

Skill 是其中一个重要探索——它是给模型用的 workflow，包含验证过的路径、标准和脚本，能显著提升稳定性和效果，相当于开卷考了。相比 MCP 刚推出时，现在参与 Skill 产出的人更多，实用价值也有提高。

我们在 Claude 25 年 10 月推出 Skill 之前，也上线了类似的「妙计」功能，支持加入本地文档和脚本，出发点是一致的。不过他们在上下文设计上比我们当时极致，最近我们也在优化这样的设计。

接下来，我们还会探索更多基于上下文的自主学习能力，比如把一次满意的执行一键沉淀为妙计，将文件路径、代码脚本等关键信息保存下来，下次直接复用，就不用再让 Agentic 重新整了。

另一个问题是 Agent 的渗透。基于我们这段时间对用户的观察看，无论海外还是国内，都处于很早期的阶段。海外渗透更高一点，并且有更大规模爆发的趋势。

非技术人员的工作场景中，意识到「有 Agent 可用」的人就很少，能明确知道「自己工作中哪些环节能用 Agent」的更是凤毛麟角。

我印象很深的是，当时我们调研了三位教师用户，他们的使用场景完全不同：有人用来整理教案，有人做学生成绩统计分析，有人处理其他教学事务。当我们分享彼此的用法后，他们都大受启发，发现很多场景自己也能用。

从这点也能看出，如何让大家知道能用，知道哪里能用，是很重要的事。

Founder Park：你们内部最初构思这个产品时，是如何定义它的？

钟经纬：我们认为它是一个「探索型」产品，具备几个特点。

第一，它是我们在 AI+终端战略下的一次创新尝试；

第二，用于验证我们关于用户场景、技术实现等方面的假设；

第三，它会为我们的长期目标积累底层能力。

我们在探索，通过端云协同，让 agent 在不同终端上为大家服务是什么样的。

我个人的一种理解是：在现有的Web、App 和数据库之上，叠加一层「Agent 加工层」。这一层由以用户为中心的 Agent 们组成，它们的目标不是复刻服务商既有的流程，而是围绕用户需求，构建「新结果」和「新状态」。

所谓「新结果」，包括三类：

新信息：比如 Deep Research，是对互联网信息的再加工；
新媒介：比如 NotebookLM 实现的视频自动生成 PPT；
新操作界面：比如有人将爱泼斯坦泄露的 PDF 邮件整理成仿 Gmail 界面，大幅提升「吃瓜」的体验；B 站的个性装扮也是一种个性化界面。这方面新的 AI 形态供给还比较少，但潜力比较大；

而「新状态」，则是指那些改变用户与世界关系的行为，比如自动填表、给人发消息、预约他人会议等。

在上述框架下，体验可以拆解为两种基本形态：

任务执行：像贾维斯一样，用户下达指令或 agent 主动识别需求后完成任务；
浏览操作：类似钢铁侠的智能工作台，界面随需求动态调整，提供沉浸式交互。

从目标来看，这两种体验我们都希望实现。但在当下，阶跃桌面伙伴做了一定取舍，更聚焦在任务执行上，因为我们觉得当前 AI 对浏览体验的提升虽然有，但还不够痛。

Founder Park：你们打算怎么切入「任务执行」这个场景？

钟经纬：首先是倒推的视角。要实现上面说的那些，agent 不仅需要更多的三方执行和数据权限，还需要更多的个人上下文信息。

第一，终端选择。

考虑到是先做独立 APP 的话，当前选择电脑端会更容易满足这些条件——既能深度集成浏览器和本地工具，又能安全获取用户资产。直接做硬件也是一种方式，不过需要更长时间一点。车机相关的也会更快一点，阶跃也已经在布局车机方向了。

一方面，车机系统的数据开放度相对较高，操作系统能获取的信息更丰富，而且与现有 APP 生态的竞争关系没那么激烈。另一方面，车机交互对用户手动操作不友好——比如出行途中想点杯饮品，用语音让 agent 代劳远比手动点击更自然高效。

第二是应用场景的选择。

当前 AI agent 的任务完成率还不够理想，失败率高、耗时长、成本也不低。在生活场景中，这种不稳定性容易劝退用户——比如点外卖十次失败两次，大家宁愿自己动手。但办公场景不一样，任务往往复杂、链路长、手动成本高，即便成功率只有六七成，用户也愿意反复尝试。而且办公也能更好的体现 Agent 的智能。所以我们优先从办公场景切入。

这样一交叉，先在电脑端做办公场景的探索，就比较顺理成章了。不过这是一个中间路径，最终我们也希望取代电脑。之前在大厂的时候印象很深，很多职级很高的同学都不带电脑，有手机就够了，因为他们有很多成熟的 Agent 帮他们交付结果，他们只需要做决策就好了，未来可能人人都能实现这种状态。

在「倒推逻辑」外，还有「正推逻辑」：我们最初的产品形态，也源于真实痛点。

我从 24 年底开始用 Cursor 做数据分析，来帮助我做模型优化的策略。我经常要处理各种数据，它能帮我快速写脚本，非常方便。但很快就发现，大量非技术人员，比如数据分析师、产品经理、运营，甚至传统行业的合同风控人员同样面临大量类似的文件处理需求：数据分析、格式转换、批量整合等。

虽然像 Cursor 或 Claude 具备部分能力，但它们藏在 IDE 或命令行里，学习门槛非常高。很多人光是下载安装就很折腾，更别说使用了。

所以，我判断这里存在一个机会：用更产品化、低门槛的方式去满足这个场景的需求。

第二个机会是信息获取。我们在做 Deep Research 项目时观察到，它能满足用户很多跨领域学习的需求，但在垂直领域内如何更好地获取信息和数据，满足得还不够好——大家要的不是报告，是批量的数据。

一个很典型的 case 是，我们之前做娱乐产品时，运营同学每天都要联系大量创作者，并且在创作者发完笔记后，要人工一个个去看，把笔记数据更新到表格里，非常痛苦。如果有一个能自动使用浏览器工具的 agent，就能帮她完成这件事。

所以，我们产品一上来主要就打这两个场景：一是文件处理，二是批量信息获取。

02「妙计」是对提升渗透的一种尝试

Founder Park：现阶段你们的典型案例演示，主要是为了帮助用户建立认知——「原来这类场景 AI 能快速完成」或「原来这样写指令效果更好」。这是否和「妙计」功能是相配合的？

钟经纬：是的。「妙计」是一个非常关键的探索方向。它具备多个价值：

简化操作：把常用指令或流程保存下来，避免每次从零输入，使用成本更低、效率更高。

降低门槛：一方面解决「不会写复杂指令」的问题，另一方面把行业经验直接封装进去。比如麦肯锡报告格式、公司内部常用模板等，都可以被直接复用。

沉淀脚本资产：比如在处理 Excel 时写过一段脚本，可以把它保存为「妙计」，下次直接调用——相当于把一次性的操作，变成可复用的小工具或小程序。

自主学习的可能性：如果 Agent 能够自己意识到，什么时候应该自动创建「妙计」，并在执行类似任务时参考，某种程度上也就具备了自主学习的能力。

Founder Park：现阶段，用户在使用「妙计」这块，无论是自己写还是用官方推荐的，符合你们最初设计这个功能的预期吗？

钟经纬：一部分符合，一部分不太符合。

符合预期的是，「妙计」本身也扮演着一种playbook（操作指南）的角色。现阶段我们并没有真正意义上实现一个通用 agent，但用户面对一个「桌面伙伴」时，很容易产生过高期待，觉得它什么都能解决。

因此，我们需要通过「妙计」来告诉用户：哪些事情现在能做好，哪些场景值得用。这既能帮助用户建立合理预期，也让我们在对外沟通时有更具体、可感知的价值锚点。有了「妙计」，用户会更清楚「我可以用它来干什么」。

另外，也有不少用户分享了非常高质量的「妙计」，给了我们很多启发。

不符合预期的地方主要在于：当前的创建和使用引导还不够强。

比如，当前悬浮窗形态对「妙计」的展示不够友好。用户可能根本注意不到输入框上方那句「输入 / 即可使用妙计」，甚至不知道「妙计」是什么。

后面我们也会做更多优化，比如加强露出（最新的更新中已经做了加强），增加预设推荐、优化引导路径，并通过运营手段鼓励用户创作和分享，形成正向循环。

03「主动服务」应该是所有 Agent 的能力

Founder Park：你们看具体用户行为时，有什么跟之前想的不一样的事？

钟经纬：比较好的地方在于，有些功能意外地受到了很多人的喜欢。比如「喝水提醒」「久坐提醒」这类功能，发现用户的接受度和使用意愿都很高。

同时，我们也看到了很多意料之外的长尾需求，比如有人会每天定时检测并自动关闭 VPN。

不太符合预期的地方在于，Agent 的整体渗透率并不高。很多用户并不会主动去联想到更多使用场景，往往只解决了一两个明确的问题，就停下来了，并没有意识到它还能做更多事。

在用户访谈中，这一点表现得尤为明显。很多时候我们只要稍微提示一下，用户就会恍然大悟：「原来还能这样用？」而这种「被点醒」的情况，这种情况的比例比我想象中高很多。

也正因为如此，我越来越觉得，「主动」的能力，以及通过「妙计」这种方式去更清晰地传达能力，变得格外重要。如果未来能进一步培养出一种心智——「这个事情，是不是也可以让阶跃试试？」——那我觉得就更好了。

Founder Park：这感觉像是当前模型和 agent 产品普遍面临的共性问题——能力其实已经到了，但用户不知道能这么用，或者有需求却不会表达。就像最近 Nano Banana 的出圈，也是靠一个具体、有趣、可传播的案例才被大众感知到。

钟经纬：对。而且对更广泛的用户来说，大家大多是「懒」的，也讨厌学习。这种「懒」并不是不想解决问题，而是很多时候，宁愿用自己熟悉的方式花 30 分钟，也不愿意花 5 分钟去学一个新方法。

所以我们特别重视对话的自然性，以及「妙计」的易用性，目的就是让用户以最低成本上手。而「主动服务」的探索，也是为了解决用户的认知和使用门槛的问题。

Founder Park：「主动」在你们产品里定义的是什么样的场景？是真正的 AI 主动，还是说你们设定了某个场景，类似 if/else，监测到用户可能有什么行为，就通过预设让 AI 出来跟用户对话？

钟经纬：最终的想象比较科幻：它检测到你有什么事就自动帮你做了。比如，我们俩今天要聊 agent，它可能在昨天就自动帮你把这个产品下载了，说「你今天要聊这个，要不要体验一下？」; 或者你还想看同类产品的数据，它就自动帮你做了一份 Manus、Genspark 这类产品的研究报告给你参考。

但要实现这个状态，还需要一段时间。所以在当前阶段，我们选择分两方面探索。

一方面是先从一些我们拿得准的场景切入，并且这些场景能和我们 agent 当前的核心能力挂钩。比如识别屏幕内容，自动生成待办事项、每日复盘，或推荐任务给「小跃」。

另一方面是，把探索权交给用户，给用户设定「当模型发现 X 时，执行 Y」的开放性功能。例如当前就有人设置「每天晚上 9 点总结 Obsidian 日记」，未来还可能变成「当发现我不专注的时候提醒我」。这些长尾场景空间很大，我们觉得可以更多把能力交给用户，看他们想做什么，我们也能从中发现用户的需求。

同时，「主动」这件事，隐私安全特别重要。当前的本地模型还没有那么成熟，在这个过程中也要把本地模型打磨得更好。

Founder Park：「主动」是不是可以更好地解决所谓的用户教育问题？在用户没有意识到 agent 能解决他任务的时候，主动出来，让他意识到。

钟经纬：是的。它有点像是在「跨越鸿沟」——把早期用户探索出来的好用法，用一种几乎无感的方式，传递给更广泛的用户群体，从而进一步提升 AI 的整体渗透率。

我有个印象很深的事。我经常会去看 Excel 求助帖，底下会有人说「你可以用 AI 啊」，然后就会有人回「居然可以用 AI 么」。说明能力有了，但触达和引导没跟上。「主动」是解决这个问题的方法之一。

Founder Park：现在一个本地安装的 agent 能不能做到主动，一方面是模型能力，另一方面是很多产品还无法获取用户更长的上下文，因为它不确定什么时候介入是合适的。所以要做得更主动，还是要在获取用户屏幕信息或者更多介入用户流程上下功夫。

钟经纬：现在可能是两条线：一条线是怎么让 agent 变得更智能，或者说能完成更复杂、更难的任务；另一条线是怎么让 AI 更懂你。这个「更懂你」不只是对话上更懂你，而是真的知道你什么时候可能需要什么。

这靠 chatbot 很难解决，它一定得跟你当前的现实生活、手机或电脑的系统环境有比较强的结合。

Founder Park：这就需要更多地在终端层面去介入用户的实际工作和生活流程中？

钟经纬：终端肯定是重要的，这也是我们后面一直跟很多终端厂商合作的原因。但也不是只有终端能做。比如，浏览器其实也是一种小 OS，使用频率比较高，我记得海外数据是人均使用时长 5.5 小时。很多人办公全在浏览器里完成。微信、抖音、甚至游戏也都有上下文，同样可以尝试「主动」服务，所以应用层面也有空间。

还有些别的方法，比如豆包最近营销的另一个 case 也很好：开着视频通话，让豆包「看着」孩子学习，一旦注意力不集中就提醒一下，坐姿不对也会提示。这也是一个主动场景。

04用户的主要场景是「文件处理」

Founder Park：最初上线的功能是一开始就计划好的吗？

钟经纬：不完全是。整体要打的核心场景和用户价值，其实从一开始就很清楚，主要集中在文件处理和信息获取这两个点上。

但初期设想的功能规模，比现在实际做出来的要多出三到四倍。随着推进，我们不断砍需求、调优先级，同时也根据真实用户反馈，补充了一些更关键的能力。

从开发到正式上线，整个周期不到一个半月。这期间，视觉和交互也在持续迭代——悬浮窗的样式中途改过一次；后来被大家夸「好看」的 IP 形象、登录页和新手引导 UI，甚至是在上线前两周才最终敲定的。

某种程度上，时间压力倒逼了团队聚焦，也激发了不少创造力。

Founder Park：从目前用户反馈来看，日常最高频的任务是哪些？反馈最好的任务又是什么？

钟经纬：最主要的场景有三块，基本是 4:3:3 的比例。文件处理占 40% 左右，信息获取大概 30%，剩下 30% 是一些更长尾的，比如快问快答和一些零散需求。

文件处理这一块，其实出现了很多很有意思的用法。比如在数据处理上，有 HR 用户用它自动汇总多张出勤 Excel 表，基本省掉了原来大量的手动统计工作。

在文件管理上，我们有不少算法同学每天要看大量论文，就让 agent 自动下载论文，并根据文件内容自动重命名。因为很多论文从 arXiv 下下来，文件名通常只是一串编号，根本看不出来内容是什么。现在 agent 可以直接读取文件内容，理解主题后自动改名，发票整理之类的场景也是类似的逻辑。

还有一个和文件相关、我觉得特别有意思的案例，是一位家长分享的，他在给孩子用这个产品。

他给孩子整理了一个错题本，里面是各种单词，然后设置了一个定时任务：每天早上 9 点，让 AI 从文件里随机抽几个单词提问。当孩子连续回答正确几次后，系统就会自动把这些单词从错题本里删掉，相当于一个「会自己更新的学习文件」。

05模型现阶段依然非常重要

Founder Park：你怎么看「模型即产品」的说法？

钟经纬：我觉得可以从两个层面来看。

首先，模型本身依然非常重要。目前国内 agentic 模型整体上仍然弱于海外，并且模型能力的突破还在持续发生。比如像 Gemini 3 仍在不断解锁新的应用场景。同时，强模型天然自带「流量」。在 AI 圈子里，一旦出现一个更聪明的模型，大家会主动去测试、讨论和传播，很快就会形成「这是一个很强模型」的心智，这本身就是一种势能。

但从真正落地的角度看，模型之外的因素也在变得越来越重要。比如个人数据接入、场景教育。还有经验沉淀：像 Agent 执行过一次文件检索了，是不是可以有个地方把目录记录下来，下次就可以直接找到了。此外，工具的细节设计和反馈也越来越重要，它决定了模型在这些场景上能不能发挥得更好。

所以我的总体看法是：模型依然重要，但模型之外的东西的重要性也在提升，两者需要一起进化。

Founder Park：也就是说，模型本身的 agent 能力是一个长线持续提升的东西。但现阶段把 agent 产品的上下游补足，也能做出表现不错的产品？

钟经纬：对。2023–2025 年，大家其实都在做「功能点」——模型本身也像是一种「功能」。但随着基础能力趋同，整合能力会越来越重要：哪些功能保留、如何串联、怎样嵌入用户工作流，这些很关键。

Founder Park：这两个月（202511-202601），产品主要更新了哪些新功能？

钟经纬：这两个月，我们的重点仍然放在 Agent 核心能力的持续优化上，同时也相对激进地探索了一些新的方向，比如全局记忆。基于全局记忆，我们在内部还尝试构建了主动推荐小跃 Query 等功能 Demo，可以看作是在「主动」方向上的一次探索。

我们最近还打算将我们与用户以及公司内，共同打磨的 Agent 使用方式和具体案例，分享给大家，帮助大家理解，如何真正将 Agent 融入到自己的工作流里。用了后，真的会很爽。

Founder Park：这款产品会反哺阶跃本身的模型研发吗？

钟经纬：会有的，这是主要目的之一。产品还是在帮助牵引方向。比如「妙计」就是一个很好的 benchmark。一个很火的「妙计」，有一千多人点赞，一万多人因为这个「妙计」下载了产品，那就说明这个任务是大家需要的，就值得我们去考核模型能不能在这道题上做得越来越好。所以它是一个很好牵引模型方向的事。

此外，也能帮模型积累数据。现在 agent 任务的数据不那么好造，因为它中间有很多步骤，纯人写的 pattern 有时跟模型本身的 pattern 还有差异，反而可能干扰数据。通过产品，我们能沉淀出不错的合成数据，也是一种比较好的方式。以及 agent 依赖于环境的反馈信号，能让用户参与进来反馈很重要。

06用对话的形式解决任务，

对用户来说成本最低

Founder Park：从 Manus 到现在，你印象里有哪些觉得有意思的通用或垂直 agent？

钟经纬：最近有好几个（25 年 11 月底）。

第一个是 Hero AI（Hero Assistant）。他们最近发布了一个 SDK，我已经申请了，但还没拿到邀请码。这个产品在输入框层面的交互上做了一个很有意思的创新。

Hero AI 的创新点在于：不先问问题，而是在你输入的过程中自动判断维度。比如你在描述生图需求时，输入到一半，输入框就会主动浮出「人物」「环境」「动作」等可选块；再比如你输入「买一杯咖啡」，系统会自动识别出「品牌」这个维度，并给出「星巴克」「瑞幸」等候选。

它还有一个挺有意思的商业化想象：当系统判断你「并不知道该买什么咖啡」时，会在浮层里给你一些轻量的推荐，甚至是广告。

还有一个是 OpenAI 收购的Sky.app*，我很喜欢他们在悬浮窗形态上的探索。

注：一款专为 Mac 打造的 AI 助手，Workflow 和 Shortcuts 的原开发者 Ari Weinstein 和 Conrad Kramer 领衔开发。

再比如 MineContext（字节出品的上下文感知工具）我也很喜欢，他们的很多理念跟我们很像，也在全局记忆、围绕特定人群（比如 ADHD 用户）做场景探索。整体来看，他们同样是在围绕上下文理解和人–AI 交互体验做持续优化，这个方向本身还有非常大的探索空间。

Founder Park：像今年出现的 Macaron、MuleRun 这种偏向 agent 工具或商店的产品，你怎么看？

钟经纬：关键还是要回到帮用户解决的问题是什么。工具的价值在于能被沉淀下来、反复调用，帮助提升效率和可靠性，以及有些场景下 GUI 更直观和便捷。但这和面向大众做 coding 产品，有些区别。难点是，有很多用户连需求是什么都不知道，更别说描述工具是什么了。

我们的体感是：在自然对话中调用，成本最低。你只需说出任务目标，agent 自动生成或匹配「妙计」，这比去应用商店找工具、下载、再学习使用要顺畅得多。

我之前看过一些 Vibe Coding 的例子，发现确实有很多长尾需求。比如有老师用它做课表签到，帮助很大。但在手机上，这些场景有没有已经被小程序满足得比较好？以及为了一堆很低频的工具需求，用户愿不愿意下载一个 APP，并且之后还能想起来用它？如果有高频的，是不是已经有别人做了？小程序在微信里能成立，一个很重要原因是微信本身是大流量入口。

所以，我觉得从用户价值上是有的，但从实际落地形态上要再看看。在电脑端，我们后面围绕「妙计」也会有类似的设计。不过更符合我想象的是，从 Agent 这样的形态切入，传达用户的是完成某个任务的心智，Coding 在里面更多是手段。

Founder Park：确实，如果某个痛点是真的痛，可能已经有其他产品在解决了。

钟经纬：对。它很像浏览器插件，到底是个供给问题还是个分发问题，大家可能要想一想。

Founder Park：但可能还有另一个逻辑，如果用户想要的功能能即时生成，可能比他花时间寻找现有方案成本更低，毕竟现在「发现成本」本身就很高的。

钟经纬：对，对于用户来说，只需要说任务是什么，是最简单的。

转载原创文章请添加微信：founderparker

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.