
今天你「养虾」了吗?
开源Agent工具OpenClaw,上线4个月迅速斩获26.2万星标,超越Linux登顶GitHub星标榜首。「养虾」浪潮更是热到破圈,连上门代装这种段子都来了:
![]()
这波OpenClaw的破圈,其实正在悄悄改变大家对LLM的使用方式:过去两年,大多数人对AI产品的认知都停留在一个形态上:对话框。用户问问题,模型回答问题。
而OpenClaw的出现,把这个模式往前推了一步。它让AI不再只是“聊天”,而是变成了一个可以调用工具、跨应用执行任务的Agent。但也因此,OpenClaw完成任务的性能表现,会受到“后端”基座模型,和Skill技能文件的极大影响。
所以,如何「科学喂虾」?
赛博养虾指南
在OpenClaw的生态里,Agent的能力主要由两部分决定:Skill(技能)和基座模型。因此这波泼天的流量,首先砸在了OpenClaw的核心Skill平台ClawHub上。超过5000个社区贡献的Agent Skills汇集于此,从自动写代码、网页操作,到数据抓取、系统管理,应有尽有,瞬间成为全球AI开发者的「技能批发市场」。
![]()
国内也有一个类似的平台「水产市场」崭露头角。安装甚至更为简易:不需要你掌握命令行操作,只要复制prompt,让已部署的OpenClaw实例自己执行即可。
![]()
AI时代,「水产市场」又何尝不是一种App Store呢?
![]()
谁是最受欢迎的「虾脑」?
如果说Skill是OpenClaw的「触手」,那作为后端基座的模型,就是它的「大脑」。
由于Agent任务往往拥有超长的上下文和执行时间,这类任务对模型性能的考验,也就尤为重度而特殊。并且用过的人都知道,它对token量的消耗,也是相当巨大的。
Agent 和普通聊天模型最大的不同,是任务通常具备几个特点:
- 上下文很长
- 执行时间很长
- 需要频繁tool call
- token消耗巨大
![]()
作为全球最大的模型聚合平台,OpenRouter汇集了大量真实API调用数据,某种程度上反映了开发者在真实任务中的模型选择。而其中的OpenClaw作为最受欢迎的Agent,其调用排行榜更是全球龙虾用户在真实世界任务里,真刀真枪投票出来的「靠谱度排行」。在这个榜单里,一个来自中国的大模型团队——阶跃星辰,用新发布的Step 3.5 Flash,稳稳接住了这一波又一波的「逮虾户」。
OpenRouter平台数据显示,3月4日-3月5日 ,Step 3.5 Flash持续登顶全球 OpenClaw用户调用日榜,霸榜 “小龙虾”全球第一!
![]()
阶跃星辰 CTO朱亦博在Reddit上交了个底:这个结果并不是官方合作推动的,更没出现在OpenClaw默认预装的推荐模型list里——换句话说,这个成绩,完全是一个个用户手动配置,一个个token「喂」出来的结果,是无投流动作下用户的自然选择。
![]()
虾农老哥,在线PK
这场发生在reddit的对话,其实是阶跃CEO、CTO、首席科学家等11人核心团队,在r/LocalLLaMA板块做的一次技术社区实时AMA(有问必答)。如果用国内互联网语境类比,大概相当于:公司核心团队直接下场,和开源社区直播连麦。没有PR稿,没有准备好的问题。开发者想问什么,就问什么。
![]()
因此,这场沟通的尺度相当之大:有不少用户进来上演「大型真香现场」:128G内存Mac可做本地部署,速度、性能都令人满意。
![]()
但也有不少“尖锐的问题”。面对用户在tool call方面遇到的问题,CTO朱亦博直接回复:是我们的内部测试用例覆盖不足,推理框架支持方面的经验也不够,态度相当诚恳。
![]()
在「如何让模型保持世界知识」这种涉及到模型细节的问题上,团队也毫无保留地分享了他们面临的难题和假设:对于类似规模的中尺寸推理模型而言,是预训练阶段形成的,相对封闭、缺乏知识的亚空间,在对齐阶段引发了世界知识受损。
![]()
阶跃研发团队开诚布公的态度,在此前Step 3.5 Flash详尽的技术报告中就可以窥见,高达65页,涵盖模型架构、训练过程中的诊断和修复机制等诸多细节,甚至是模型目前仍然有待优化的主要性能指标,和未来的技术演进方向。
这种不回避问题、将技术细节和演进方向“掰开揉碎”的沟通方式,有助于在硬核开发者群体中建立长期的技术信任,这也是构建稳固开源生态的关键一环。
![]()
开发者模式,启动!
更重磅的是,你不仅可以本地部署,甚至还能利用官方工具,在自己的数据上继续训练Step 3.5 Flash,甚至,更改它的训练管线和模型结构。
他们在3月4日的一次官方开源动作中,几乎向全世界开发者,开放了Step 3.5 Flash的「开发者模式」:与此前行业内普遍仅公开推理权重的做法不同,阶跃星辰此次开放了预训练/中训练权重,以及完整的Steptron训练框架,让开发者可以真正上手打造属于自己的Agent。
![]()
放眼整个大模型社区,此次开源力度可以说相当到位。在过去的大模型开源浪潮中,绝大多数开源内容往往只是:
•后训练成品模型权重
•推理示例代码
•推理集成说明
而真正将预训练权重(Base)+ 中训练权重(mid-train)+ Steptron 全套训练框架(含训练配置、pipeline) 全面开放的案例,十分稀有。
回顾过去两年的大模型开源浪潮,绝大多数开源项目主要提供的是后训练成品模型权重,几乎无法二次微调(SFT),对于希望深入模型底层进行架构创新或预训练研究的开发者而言,依然面临着巨大的“黑盒”壁垒。
同时,由于近几年大模型尺寸和训练成本的急剧膨胀,就算开放这些更深层的模型细节,真正有能力和意愿去复现的,可能也只是竞争对手。因此在开源社区中,开放训练阶段的权重和全套框架,是个十分少见的选择。
从预训练权重到训练框架的全栈开源,无疑体现了开放协作的开源精神,社区反响热烈,甚至有一些用户直呼「源神」。阶跃技术团队此举,有望吸引更多开发者加入阶跃的技术生态,这也恰好呼应了此前阶跃星辰「邀请开发者共建Step 4」的承诺。
![]()
能玩能打,战绩可查
Step 3.5 Flash的产品定位,也与当前的行业趋势高度吻合。作为一个在设计之初就侧重于 Agent 应用的基座模型,它在极高并发(峰值可达350 TPS)和复杂任务解析上做了针对性优化。这一特性,使它恰好切中了近期爆发的OpenClaw等现象级开源Agent框架的实际需求。
模型智力层面,Step 3.5 Flash同样「战绩可查」,在多项测试中均取得了不俗成绩。
benchmark
测试内容
成绩
SWE-bench Verified
修复真实 GitHub bug
74.4
Terminal-Bench 2.0
操作终端完成任务
51.0
τ²-Bench
agent推理
88.2
对于 Agent 开发者来说,选择基座模型的核心诉求,便是“低延迟、高指令遵从度和工具调用的准确率”。Step 3.5 Flash 既强且快、便于本地部署的特性,在开源社区迅速与OpenClaw 等框架结合,爆发出了一波强劲的热潮。这也证明了在真实世界任务里,模型能力与生态工具的互补,比跑分刷榜,要更有含金量。
![]()
谁能成为「源神」?
需求是用出来的。大模型领域的竞争态势,已从规模、跑分,转移到「谁更能帮助用户完成真实任务」这一技能和生态之争。
随着硬件算力不可阻挡的持续进步,个人用户的端侧AI,正在爆发出日益增长的想象空间。业内也早有人提出“训推一体”,让模型能力不断适应用户数据,或是未来大模型演进的方向之一。
![]()
阶跃星辰 Step 3.5 Flash 此次的开放策略,或许能推动「深度开源」,成为未来开源大模型新宠——学术界可以基于其训练框架研究 Scaling Law 的边界,工业界可以基于其中训练权重开发垂直领域模型,爱好者则可以探索更有趣的微调玩法。
这种“基础设施化”的开源,相比单纯的模型开源,或许更具长远价值。
更重要的是,在整个AI和开源社区,「信誉」和「真诚」,可能是和「技术力」同等重要的硬通货。
以OpenClaw为例,开源世界的诸多案例反复证明:真正长期繁荣的生态,很少仅仅建立在性能优势之上。
![]()
开发者愿不愿意参与、社区能否持续积累、项目是否能够不断被接力推进,往往取决于另一件更朴素的事情——项目发起者是否足够坦诚,是否愿意把核心能力真正交到社区手中。
当权重、训练细节乃至技术路线都被摆上台面,Step 3.5 Flash的「开发者模式」,也被真正交到了全球开源AI社区的开发者手中。开源,不再只是“发布代码”的姿态,而是一份与全球开发者「共同进化」的契约。而这份契约的基础,正是信任。
在这个意义上,“源神”或许并不只是参数规模更大、跑分更高的模型,而是那个敢于把底层能力完全打开、也愿意接受社区持续检验的项目。技术可以追赶,玩法可以复制,但真诚,很难伪装。
而真正的“源神”,往往诞生在这种真诚之中。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.