Claude Cowork 火了,基于本地的 AI Agent 产品突然成为大家关注的重点。
但这么尝试的不止 Anthropic,25 年 9 月底阶跃发布的「阶跃 AI 桌面伙伴」也在做同样的事情。
基于桌面端而不是云端的形式,主打本地的任务执行和文件处理,尝试更主动为用户提供服务。可以帮你处理 Excel 数据、社媒信息获取,甚至主动完成一些定时任务。
为什么大家都选择了桌面端 Agent?模型公司做 Agent,又有什么不一样的策略?
在产品发布 3 个月后,我们采访了阶跃 AI 桌面伙伴的产品负责人钟经纬,聊了聊一款来自基模公司的 Agent 产品,背后的思考和尝试。
*注:采访时间为 2025 年 11 月,2026 年 1 月补采部分问题。
阶跃 AI 桌面伙伴目前 Mac、Windows 版均已发布,免费体验中。
官网下载:https://www.stepfun.com/download
2025 年,我们在 AI 产品市集推荐了 170 款产品,我们挑选了一些亮眼的产品,采访产品主创团队,想听听他们在产品上的探索和思考。本篇是第一篇,后续访谈陆续发布中。
欢迎加入我们的飞书「AI 产品市集」社群提交你的产品。
进群后,你有机会得到:
最新、最值得关注的 AI 新品资讯;
不定期赠送热门新品的邀请码、会员码;
最精准的AI产品曝光渠道
01对比 Claude Cowork,
方向一致、打法各异
Founder Park:怎么看待 Claude 最近发布的 Cowork,你们之间的区别是?算是殊途同归吗?
钟经纬:主要的区别是,我们在终端 Agent 的探索会更往前走了一点。例如,我们推出了「全局记忆」功能,尝试在上下文的可能性上进行更激进的探索,以及通过「悬浮窗」这种交互方式,提升用户体验。
他们在 Agent 本身会打磨的更精细,我们也在努力优化中。
总体上是有点殊途同归的,后面可能都是往着端云协同去,同时有本地和云端的能力,但考虑到成本,当前大家还是会先选一边,每边都有其优劣。从这个角度看,我们想到一块去了,都选择了本地端。
选择本地客户端的优势在于更大的场景拓展空间,和上下文探索的可能性。缺点是关机时无法执行,而且下载安装本地应用的渗透率低于网页应用。
我们当前关注的是多元的用户场景探索。目前,Agent 协作的方式仍处于早期阶段,我们希望与用户一起挖掘更多创新的用法。而本地客户端能够更好地激发这种想象空间,因此我们优先选择了本地方案。
在此之外,大家面临的关键问题都很类似。
第一个问题是 Agent 能力提升。核心是让 Agent 做得更多、更稳、更快、成本更低。
Skill 是其中一个重要探索——它是给模型用的 workflow,包含验证过的路径、标准和脚本,能显著提升稳定性和效果,相当于开卷考了。相比 MCP 刚推出时,现在参与 Skill 产出的人更多,实用价值也有提高。
我们在 Claude 25 年 10 月推出 Skill 之前,也上线了类似的「妙计」功能,支持加入本地文档和脚本,出发点是一致的。不过他们在上下文设计上比我们当时极致,最近我们也在优化这样的设计。
接下来,我们还会探索更多基于上下文的自主学习能力,比如把一次满意的执行一键沉淀为妙计,将文件路径、代码脚本等关键信息保存下来,下次直接复用,就不用再让 Agentic 重新整了。
另一个问题是 Agent 的渗透。基于我们这段时间对用户的观察看,无论海外还是国内,都处于很早期的阶段。海外渗透更高一点,并且有更大规模爆发的趋势。
非技术人员的工作场景中,意识到「有 Agent 可用」的人就很少,能明确知道「自己工作中哪些环节能用 Agent」的更是凤毛麟角。
我印象很深的是,当时我们调研了三位教师用户,他们的使用场景完全不同:有人用来整理教案,有人做学生成绩统计分析,有人处理其他教学事务。当我们分享彼此的用法后,他们都大受启发,发现很多场景自己也能用。
从这点也能看出,如何让大家知道能用,知道哪里能用,是很重要的事。
Founder Park:你们内部最初构思这个产品时,是如何定义它的?
钟经纬:我们认为它是一个「探索型」产品,具备几个特点。
第一,它是我们在 AI+终端战略下的一次创新尝试;
第二,用于验证我们关于用户场景、技术实现等方面的假设;
第三,它会为我们的长期目标积累底层能力。
我们在探索,通过端云协同,让 agent 在不同终端上为大家服务是什么样的。
我个人的一种理解是:在现有的Web、App 和数据库之上,叠加一层「Agent 加工层」。这一层由以用户为中心的 Agent 们组成,它们的目标不是复刻服务商既有的流程,而是围绕用户需求,构建「新结果」和「新状态」。
所谓「新结果」,包括三类:
新信息:比如 Deep Research,是对互联网信息的再加工;
新媒介:比如 NotebookLM 实现的视频自动生成 PPT;
新操作界面:比如有人将爱泼斯坦泄露的 PDF 邮件整理成仿 Gmail 界面,大幅提升「吃瓜」的体验;B 站的个性装扮也是一种个性化界面。这方面新的 AI 形态供给还比较少,但潜力比较大;
而「新状态」,则是指那些改变用户与世界关系的行为,比如自动填表、给人发消息、预约他人会议等。
在上述框架下,体验可以拆解为两种基本形态:
任务执行:像贾维斯一样,用户下达指令或 agent 主动识别需求后完成任务;
浏览操作:类似钢铁侠的智能工作台,界面随需求动态调整,提供沉浸式交互。
从目标来看,这两种体验我们都希望实现。但在当下,阶跃桌面伙伴做了一定取舍,更聚焦在任务执行上,因为我们觉得当前 AI 对浏览体验的提升虽然有,但还不够痛。
Founder Park:你们打算怎么切入「任务执行」这个场景?
钟经纬:首先是倒推的视角。要实现上面说的那些,agent 不仅需要更多的三方执行和数据权限,还需要更多的个人上下文信息。
第一,终端选择。
考虑到是先做独立 APP 的话,当前选择电脑端会更容易满足这些条件——既能深度集成浏览器和本地工具,又能安全获取用户资产。直接做硬件也是一种方式,不过需要更长时间一点。车机相关的也会更快一点,阶跃也已经在布局车机方向了。
一方面,车机系统的数据开放度相对较高,操作系统能获取的信息更丰富,而且与现有 APP 生态的竞争关系没那么激烈。另一方面,车机交互对用户手动操作不友好——比如出行途中想点杯饮品,用语音让 agent 代劳远比手动点击更自然高效。
第二是应用场景的选择。
当前 AI agent 的任务完成率还不够理想,失败率高、耗时长、成本也不低。在生活场景中,这种不稳定性容易劝退用户——比如点外卖十次失败两次,大家宁愿自己动手。但办公场景不一样,任务往往复杂、链路长、手动成本高,即便成功率只有六七成,用户也愿意反复尝试。而且办公也能更好的体现 Agent 的智能。所以我们优先从办公场景切入。
这样一交叉,先在电脑端做办公场景的探索,就比较顺理成章了。不过这是一个中间路径,最终我们也希望取代电脑。之前在大厂的时候印象很深,很多职级很高的同学都不带电脑,有手机就够了,因为他们有很多成熟的 Agent 帮他们交付结果,他们只需要做决策就好了,未来可能人人都能实现这种状态。
在「倒推逻辑」外,还有「正推逻辑」:我们最初的产品形态,也源于真实痛点。
我从 24 年底开始用 Cursor 做数据分析,来帮助我做模型优化的策略。我经常要处理各种数据,它能帮我快速写脚本,非常方便。但很快就发现,大量非技术人员,比如数据分析师、产品经理、运营,甚至传统行业的合同风控人员同样面临大量类似的文件处理需求:数据分析、格式转换、批量整合等。
虽然像 Cursor 或 Claude 具备部分能力,但它们藏在 IDE 或命令行里,学习门槛非常高。很多人光是下载安装就很折腾,更别说使用了。
所以,我判断这里存在一个机会:用更产品化、低门槛的方式去满足这个场景的需求。
第二个机会是信息获取。我们在做 Deep Research 项目时观察到,它能满足用户很多跨领域学习的需求,但在垂直领域内如何更好地获取信息和数据,满足得还不够好——大家要的不是报告,是批量的数据。
一个很典型的 case 是,我们之前做娱乐产品时,运营同学每天都要联系大量创作者,并且在创作者发完笔记后,要人工一个个去看,把笔记数据更新到表格里,非常痛苦。如果有一个能自动使用浏览器工具的 agent,就能帮她完成这件事。
所以,我们产品一上来主要就打这两个场景:一是文件处理,二是批量信息获取。
02「妙计」是对提升渗透的一种尝试
Founder Park:现阶段你们的典型案例演示,主要是为了帮助用户建立认知——「原来这类场景 AI 能快速完成」或「原来这样写指令效果更好」。这是否和「妙计」功能是相配合的?
钟经纬:是的。「妙计」是一个非常关键的探索方向。它具备多个价值:
简化操作:把常用指令或流程保存下来,避免每次从零输入,使用成本更低、效率更高。
降低门槛:一方面解决「不会写复杂指令」的问题,另一方面把行业经验直接封装进去。比如麦肯锡报告格式、公司内部常用模板等,都可以被直接复用。
沉淀脚本资产:比如在处理 Excel 时写过一段脚本,可以把它保存为「妙计」,下次直接调用——相当于把一次性的操作,变成可复用的小工具或小程序。
自主学习的可能性:如果 Agent 能够自己意识到,什么时候应该自动创建「妙计」,并在执行类似任务时参考,某种程度上也就具备了自主学习的能力。
Founder Park:现阶段,用户在使用「妙计」这块,无论是自己写还是用官方推荐的,符合你们最初设计这个功能的预期吗?
钟经纬:一部分符合,一部分不太符合。
符合预期的是,「妙计」本身也扮演着一种playbook(操作指南)的角色。现阶段我们并没有真正意义上实现一个通用 agent,但用户面对一个「桌面伙伴」时,很容易产生过高期待,觉得它什么都能解决。
因此,我们需要通过「妙计」来告诉用户:哪些事情现在能做好,哪些场景值得用。这既能帮助用户建立合理预期,也让我们在对外沟通时有更具体、可感知的价值锚点。有了「妙计」,用户会更清楚「我可以用它来干什么」。
![]()
另外,也有不少用户分享了非常高质量的「妙计」,给了我们很多启发。
不符合预期的地方主要在于:当前的创建和使用引导还不够强。
比如,当前悬浮窗形态对「妙计」的展示不够友好。用户可能根本注意不到输入框上方那句「输入 / 即可使用妙计」,甚至不知道「妙计」是什么。
后面我们也会做更多优化,比如加强露出(最新的更新中已经做了加强),增加预设推荐、优化引导路径,并通过运营手段鼓励用户创作和分享,形成正向循环。
03「主动服务」应该是所有 Agent 的能力
Founder Park:你们看具体用户行为时,有什么跟之前想的不一样的事?
钟经纬:比较好的地方在于,有些功能意外地受到了很多人的喜欢。比如「喝水提醒」「久坐提醒」这类功能,发现用户的接受度和使用意愿都很高。
同时,我们也看到了很多意料之外的长尾需求,比如有人会每天定时检测并自动关闭 VPN。
不太符合预期的地方在于,Agent 的整体渗透率并不高。很多用户并不会主动去联想到更多使用场景,往往只解决了一两个明确的问题,就停下来了,并没有意识到它还能做更多事。
在用户访谈中,这一点表现得尤为明显。很多时候我们只要稍微提示一下,用户就会恍然大悟:「原来还能这样用?」而这种「被点醒」的情况,这种情况的比例比我想象中高很多。
也正因为如此,我越来越觉得,「主动」的能力,以及通过「妙计」这种方式去更清晰地传达能力,变得格外重要。如果未来能进一步培养出一种心智——「这个事情,是不是也可以让阶跃试试?」——那我觉得就更好了。
Founder Park:这感觉像是当前模型和 agent 产品普遍面临的共性问题——能力其实已经到了,但用户不知道能这么用,或者有需求却不会表达。就像最近 Nano Banana 的出圈,也是靠一个具体、有趣、可传播的案例才被大众感知到。
钟经纬:对。而且对更广泛的用户来说,大家大多是「懒」的,也讨厌学习。这种「懒」并不是不想解决问题,而是很多时候,宁愿用自己熟悉的方式花 30 分钟,也不愿意花 5 分钟去学一个新方法。
所以我们特别重视对话的自然性,以及「妙计」的易用性,目的就是让用户以最低成本上手。而「主动服务」的探索,也是为了解决用户的认知和使用门槛的问题。
Founder Park:「主动」在你们产品里定义的是什么样的场景?是真正的 AI 主动,还是说你们设定了某个场景,类似 if/else,监测到用户可能有什么行为,就通过预设让 AI 出来跟用户对话?
钟经纬:最终的想象比较科幻:它检测到你有什么事就自动帮你做了。比如,我们俩今天要聊 agent,它可能在昨天就自动帮你把这个产品下载了,说「你今天要聊这个,要不要体验一下?」; 或者你还想看同类产品的数据,它就自动帮你做了一份 Manus、Genspark 这类产品的研究报告给你参考。
但要实现这个状态,还需要一段时间。所以在当前阶段,我们选择分两方面探索。
一方面是先从一些我们拿得准的场景切入,并且这些场景能和我们 agent 当前的核心能力挂钩。比如识别屏幕内容,自动生成待办事项、每日复盘,或推荐任务给「小跃」。
另一方面是,把探索权交给用户,给用户设定「当模型发现 X 时,执行 Y」的开放性功能。例如当前就有人设置「每天晚上 9 点总结 Obsidian 日记」,未来还可能变成「当发现我不专注的时候提醒我」。这些长尾场景空间很大,我们觉得可以更多把能力交给用户,看他们想做什么,我们也能从中发现用户的需求。
同时,「主动」这件事,隐私安全特别重要。当前的本地模型还没有那么成熟,在这个过程中也要把本地模型打磨得更好。
Founder Park:「主动」是不是可以更好地解决所谓的用户教育问题?在用户没有意识到 agent 能解决他任务的时候,主动出来,让他意识到。
钟经纬:是的。它有点像是在「跨越鸿沟」——把早期用户探索出来的好用法,用一种几乎无感的方式,传递给更广泛的用户群体,从而进一步提升 AI 的整体渗透率。
我有个印象很深的事。我经常会去看 Excel 求助帖,底下会有人说「你可以用 AI 啊」,然后就会有人回「居然可以用 AI 么」。说明能力有了,但触达和引导没跟上。「主动」是解决这个问题的方法之一。
Founder Park:现在一个本地安装的 agent 能不能做到主动,一方面是模型能力,另一方面是很多产品还无法获取用户更长的上下文,因为它不确定什么时候介入是合适的。所以要做得更主动,还是要在获取用户屏幕信息或者更多介入用户流程上下功夫。
钟经纬:现在可能是两条线:一条线是怎么让 agent 变得更智能,或者说能完成更复杂、更难的任务;另一条线是怎么让 AI 更懂你。这个「更懂你」不只是对话上更懂你,而是真的知道你什么时候可能需要什么。
这靠 chatbot 很难解决,它一定得跟你当前的现实生活、手机或电脑的系统环境有比较强的结合。
Founder Park:这就需要更多地在终端层面去介入用户的实际工作和生活流程中?
钟经纬:终端肯定是重要的,这也是我们后面一直跟很多终端厂商合作的原因。但也不是只有终端能做。比如,浏览器其实也是一种小 OS,使用频率比较高,我记得海外数据是人均使用时长 5.5 小时。很多人办公全在浏览器里完成。微信、抖音、甚至游戏也都有上下文,同样可以尝试「主动」服务,所以应用层面也有空间。
还有些别的方法,比如豆包最近营销的另一个 case 也很好:开着视频通话,让豆包「看着」孩子学习,一旦注意力不集中就提醒一下,坐姿不对也会提示。这也是一个主动场景。
04用户的主要场景是「文件处理」
Founder Park:最初上线的功能是一开始就计划好的吗?
钟经纬:不完全是。整体要打的核心场景和用户价值,其实从一开始就很清楚,主要集中在文件处理和信息获取这两个点上。
但初期设想的功能规模,比现在实际做出来的要多出三到四倍。随着推进,我们不断砍需求、调优先级,同时也根据真实用户反馈,补充了一些更关键的能力。
从开发到正式上线,整个周期不到一个半月。这期间,视觉和交互也在持续迭代——悬浮窗的样式中途改过一次;后来被大家夸「好看」的 IP 形象、登录页和新手引导 UI,甚至是在上线前两周才最终敲定的。
某种程度上,时间压力倒逼了团队聚焦,也激发了不少创造力。
Founder Park:从目前用户反馈来看,日常最高频的任务是哪些?反馈最好的任务又是什么?
钟经纬:最主要的场景有三块,基本是 4:3:3 的比例。文件处理占 40% 左右,信息获取大概 30%,剩下 30% 是一些更长尾的,比如快问快答和一些零散需求。
文件处理这一块,其实出现了很多很有意思的用法。比如在数据处理上,有 HR 用户用它自动汇总多张出勤 Excel 表,基本省掉了原来大量的手动统计工作。
在文件管理上,我们有不少算法同学每天要看大量论文,就让 agent 自动下载论文,并根据文件内容自动重命名。因为很多论文从 arXiv 下下来,文件名通常只是一串编号,根本看不出来内容是什么。现在 agent 可以直接读取文件内容,理解主题后自动改名,发票整理之类的场景也是类似的逻辑。
还有一个和文件相关、我觉得特别有意思的案例,是一位家长分享的,他在给孩子用这个产品。
他给孩子整理了一个错题本,里面是各种单词,然后设置了一个定时任务:每天早上 9 点,让 AI 从文件里随机抽几个单词提问。当孩子连续回答正确几次后,系统就会自动把这些单词从错题本里删掉,相当于一个「会自己更新的学习文件」。
05模型现阶段依然非常重要
Founder Park:你怎么看「模型即产品」的说法?
钟经纬:我觉得可以从两个层面来看。
首先,模型本身依然非常重要。目前国内 agentic 模型整体上仍然弱于海外,并且模型能力的突破还在持续发生。比如像 Gemini 3 仍在不断解锁新的应用场景。同时,强模型天然自带「流量」。在 AI 圈子里,一旦出现一个更聪明的模型,大家会主动去测试、讨论和传播,很快就会形成「这是一个很强模型」的心智,这本身就是一种势能。
但从真正落地的角度看,模型之外的因素也在变得越来越重要。比如个人数据接入、场景教育。还有经验沉淀:像 Agent 执行过一次文件检索了,是不是可以有个地方把目录记录下来,下次就可以直接找到了。此外,工具的细节设计和反馈也越来越重要,它决定了模型在这些场景上能不能发挥得更好。
所以我的总体看法是:模型依然重要,但模型之外的东西的重要性也在提升,两者需要一起进化。
Founder Park:也就是说,模型本身的 agent 能力是一个长线持续提升的东西。但现阶段把 agent 产品的上下游补足,也能做出表现不错的产品?
钟经纬:对。2023–2025 年,大家其实都在做「功能点」——模型本身也像是一种「功能」。但随着基础能力趋同,整合能力会越来越重要:哪些功能保留、如何串联、怎样嵌入用户工作流,这些很关键。
Founder Park:这两个月(202511-202601),产品主要更新了哪些新功能?
钟经纬:这两个月,我们的重点仍然放在 Agent 核心能力的持续优化上,同时也相对激进地探索了一些新的方向,比如全局记忆。基于全局记忆,我们在内部还尝试构建了主动推荐小跃 Query 等功能 Demo,可以看作是在「主动」方向上的一次探索。
我们最近还打算将我们与用户以及公司内,共同打磨的 Agent 使用方式和具体案例,分享给大家,帮助大家理解,如何真正将 Agent 融入到自己的工作流里。用了后,真的会很爽。
Founder Park:这款产品会反哺阶跃本身的模型研发吗?
钟经纬:会有的,这是主要目的之一。产品还是在帮助牵引方向。比如「妙计」就是一个很好的 benchmark。一个很火的「妙计」,有一千多人点赞,一万多人因为这个「妙计」下载了产品,那就说明这个任务是大家需要的,就值得我们去考核模型能不能在这道题上做得越来越好。所以它是一个很好牵引模型方向的事。
此外,也能帮模型积累数据。现在 agent 任务的数据不那么好造,因为它中间有很多步骤,纯人写的 pattern 有时跟模型本身的 pattern 还有差异,反而可能干扰数据。通过产品,我们能沉淀出不错的合成数据,也是一种比较好的方式。以及 agent 依赖于环境的反馈信号,能让用户参与进来反馈很重要。
06用对话的形式解决任务,
对用户来说成本最低
Founder Park:从 Manus 到现在,你印象里有哪些觉得有意思的通用或垂直 agent?
钟经纬:最近有好几个(25 年 11 月底)。
第一个是 Hero AI(Hero Assistant)。他们最近发布了一个 SDK,我已经申请了,但还没拿到邀请码。这个产品在输入框层面的交互上做了一个很有意思的创新。
Hero AI 的创新点在于:不先问问题,而是在你输入的过程中自动判断维度。比如你在描述生图需求时,输入到一半,输入框就会主动浮出「人物」「环境」「动作」等可选块;再比如你输入「买一杯咖啡」,系统会自动识别出「品牌」这个维度,并给出「星巴克」「瑞幸」等候选。
它还有一个挺有意思的商业化想象:当系统判断你「并不知道该买什么咖啡」时,会在浮层里给你一些轻量的推荐,甚至是广告。
还有一个是 OpenAI 收购的Sky.app*,我很喜欢他们在悬浮窗形态上的探索。
注:一款专为 Mac 打造的 AI 助手,Workflow 和 Shortcuts 的原开发者 Ari Weinstein 和 Conrad Kramer 领衔开发。
再比如 MineContext(字节出品的上下文感知工具)我也很喜欢,他们的很多理念跟我们很像,也在全局记忆、围绕特定人群(比如 ADHD 用户)做场景探索。整体来看,他们同样是在围绕上下文理解和人–AI 交互体验做持续优化,这个方向本身还有非常大的探索空间。
Founder Park:像今年出现的 Macaron、MuleRun 这种偏向 agent 工具或商店的产品,你怎么看?
钟经纬:关键还是要回到帮用户解决的问题是什么。工具的价值在于能被沉淀下来、反复调用,帮助提升效率和可靠性,以及有些场景下 GUI 更直观和便捷。但这和面向大众做 coding 产品,有些区别。难点是,有很多用户连需求是什么都不知道,更别说描述工具是什么了。
我们的体感是:在自然对话中调用,成本最低。你只需说出任务目标,agent 自动生成或匹配「妙计」,这比去应用商店找工具、下载、再学习使用要顺畅得多。
我之前看过一些 Vibe Coding 的例子,发现确实有很多长尾需求。比如有老师用它做课表签到,帮助很大。但在手机上,这些场景有没有已经被小程序满足得比较好?以及为了一堆很低频的工具需求,用户愿不愿意下载一个 APP,并且之后还能想起来用它?如果有高频的,是不是已经有别人做了?小程序在微信里能成立,一个很重要原因是微信本身是大流量入口。
所以,我觉得从用户价值上是有的,但从实际落地形态上要再看看。在电脑端,我们后面围绕「妙计」也会有类似的设计。不过更符合我想象的是,从 Agent 这样的形态切入,传达用户的是完成某个任务的心智,Coding 在里面更多是手段。
Founder Park:确实,如果某个痛点是真的痛,可能已经有其他产品在解决了。
钟经纬:对。它很像浏览器插件,到底是个供给问题还是个分发问题,大家可能要想一想。
Founder Park:但可能还有另一个逻辑,如果用户想要的功能能即时生成,可能比他花时间寻找现有方案成本更低,毕竟现在「发现成本」本身就很高的。
钟经纬:对,对于用户来说,只需要说任务是什么,是最简单的。
转载原创文章请添加微信:founderparker
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.