阶跃Step 3.7 Flash实测：国产开源模型，能不能顶上Claude Code|达尔文|工作流|新论文|step|flash|agent

阶跃Step 3.7 Flash实测：国产开源模型，能不能顶上Claude Code

2026-05-30 12:16:34　来源: AI进化论花生

北京举报

分享至

前天凌晨Anthropic发了Opus 4.8。模型能力其实没见多大长进，但有两个跟分数无关的动作值得留意：一是把自家Fast模式的价格砍到原来的三分之一，二是新增了能一口气调起几十上百个subagent的Dynamic Workflows。

连最前沿的玩家都把劲儿使在「怎么把一大堆agent又快又稳地跑起来」上，而不是单纯堆智能。这其实是个信号：到了生产级的环境里，「快速、高效地执行」正在变成新的胜负手。

巧的是，同一天阶跃星辰也开源了Step 3.7 Flash，主打的正好是这件事：agent效率，在真实工作流里更快更稳地把整条链路跑完，开源，还明说能接进Claude Code等各种主流agent。我看到的第一反应就是：那就拿它来测一测，一个国产开源模型，到底能不能站上这个位置。

我试模型，一般直接上女娲和达尔文

每次有新模型出来，大家都先看跑分。我倒是养成了另一个习惯。

我手里有两个自己写的skill，一个叫女娲，一个叫达尔文。女娲在GitHub上攒了两万多star，干的事是输入一个人名，自动深度调研、提炼思维框架，最后生成一个能跑的人物skill。达尔文更新，前几天刚发布2.0，专门给别的skill打分、提改进、改完再打分。

为什么拿这俩当试题？不光是因为它们「重」。真正的原因是，它们里头都设了检查点——该停下来问我的地方。

这件事benchmark测不了。跑分测的是「答得对不对」，测不了「该闭嘴的时候它闭不闭嘴」。而能力不够的模型最容易翻车的，恰恰就是这个：跑着跑着自己加戏、十几次工具调用里掉一次链子、本该停下来问我的时候一头扎过去，把整条链路带沟里。一个模型聪不聪明，看跑分能看出个大概；但它在长任务里靠不靠谱，只有真的跑一遍才知道。

所以拿女娲和达尔文试，比看十张benchmark表都直接。这次轮到Step 3.7 Flash。

先说这是个什么模型

Step 3.7 Flash是阶跃5月底发布并开源的新一代Flash模型，Apache 2.0协议，权重在GitHub、HuggingFace、ModelScope都能下载，也支持本地部署。

它最有意思的设计，是那个稀疏MoE架构。你可以把它想成一个博士天团那么大的知识库，但每次回答只叫醒最相关的一小队专家上场，用不着把所有人都吵醒。所以它体量不小，跑起来又快又轻。最高生成速度能到每秒400个token，上下文256K。更细的参数感兴趣可以去官网翻，正文就不堆了。

阶跃给它的定位很克制，不说自己最聪明，主打的是「agent效率」，在真实任务里又快又稳地把活从头跑到尾、中间不掉链子。官方放了一组benchmark，我截在这儿，你可以自己看。

它不是样样第一，这本来也不是它的目标。在SWE-Bench、ClawEval这些agent类基准上，它拿到的是同体量里相当能打的成绩。真正的卖点不是分数最高，是用小得多的激活参数、更快的速度，把这个水平稳定地交付出来。

对我来说最关键的是另一件事。阶跃官方文档里明明白白列了一排它能直接接入的工具：Claude Code、OpenClaw、Hermes Agent、Cline、Roo Code、Kilo Code、Open Code。 这就好办了，我平时这套女娲、达尔文的工作流底座就是Claude Code，既然官方说能接，我不用专门改造什么，直接把底模换成Step 3.7 Flash就行。成本这块我也顺手记了下，按官方控制台每百万token输入1.35元、输出8.1元，是Flash该有的水平，不过这次我更关心的是另一件事——它把活一步不落干完的样子。

我是怎么试的

先把环境摆清楚，免得说不清。

底模是step-3.7-flash，通过CCR路由进Claude Code，我配了个stepfun命令，敲下去启动的就是Step 3.7 Flash驱动的Claude Code，不动我平时的默认配置。

联网搜索这块有个小插曲。换了底模之后，Claude Code原生的搜索用不了了（那是另一套服务端机制，跟模型本身无关），我改接了Tavily的MCP，让模型用普通的工具调用去搜，实测能搜到真东西。整个过程模型自己跑，我只在它停下来问我的检查点上点头或摇头，没替它改过答案。

主菜：女娲造一个AI投资视角

我给女娲的任务是，蒸馏一个AI领域的投资视角，帮我做投资判断和技术理解。

它先跟我确认了人选，然后干了件挺重的事，一口气开了6个子agent并行调研。每个agent盯一个维度：有的扒著作和系统研究，有的找长访谈，有的研究表达风格，还有的去搜外部批评、决策记录、最新动态。

这是第一个考验。6个agent同时在后台跑，有的5分钟就回来，有的足足跑了22分钟。Step 3.7 Flash得一边等、一边把这些并行任务的状态都管住，不能把谁的结果跟谁的搞混，也不能因为某个慢就崩掉。它稳稳扛住了。说句实话，中间有2个调研agent是重试了一次才成的，但这种程度的retry在长任务里很正常，它自己处理掉了，没让我操心。

等6个agent全回来，它没有急着往下冲。而是停下来，把调研质量整理成一张摘要，问我：质量OK，要不要进入下一步提炼框架？

这一下就让我对它好感倍增。前面说过，这正是能力不够的模型最容易翻车的地方：该问的不问，自作主张冲过去。它没有，它老老实实停下来等我回了句「可以」才继续。

我确认之后，它读完6份调研，提炼出6个核心思维模型、8条决策启发式，加一整套表达风格，一次性生成了一个能跑的人物skill。生成完它还自己启动了独立的评审agent来挑毛病。这点特别对我胃口，因为我自己定的铁律就是写东西的AI不能审自己，它照做了，然后按评审意见补了触发词、事实核查这些细节。

调研、提炼、生成、自评、改进，一整套Agent loop从头到尾跑通了。

这就是「agent效率」想说的事

跑完女娲，我对「agent效率」这个词有了具体的体会。

我试过的模型常有两种毛病。一种偷懒：任务一复杂，它就懒得一步步走，直接蹦个结果给你，中间该做的调研、该调的工具全跳过，看着快，其实是糊弄。另一种正相反，太勤劳，像个害羞的做题家，一头扎进去埋头苦干，却不懂在该停的地方停下来跟我汇报、跟我确认，等你回过神，它已经按自己的理解跑出老远。一个偷工减料，一个过犹不及，两种都挺影响实际好不好用。

Step 3.7 Flash两头都没沾：该走的全程一步没省，该停下来问我的地方又老老实实停住。它要的不是某项分数最高，是既不偷懒、也不擅自做主。 这跟「智商」关系不大，跟「靠谱」关系很大。而靠谱，才是agent能不能真正干活的分水岭。

彩蛋：拿刚发布的达尔文2.0再压一道

女娲跑完我有点意犹未尽，顺手又上了达尔文。

得交代下背景。达尔文2.0是我前阵子刚发布的大升级，吸收了微软研究院同期挂出的两篇skill优化论文。整套机制比1.0重了不少：每一轮要启动两个互相独立的评委agent打分、改完必须验证分数真涨了才接受、不涨就自动回滚、关键节点还设了强制暂停等我确认的卡口。这套机制对模型和工具的编排能力，要求比女娲还高。

正因为要求高，拿它当压力测试最合适。我让Step 3.7 Flash用达尔文去优化我另一个写脱口秀的skill。

它跑得有模有样：先建了git分支，设计测试用例，跑一轮基线评分，定位出最弱的一维是「检查点设计」。然后开始一轮一轮地改，每轮都老老实实重新启动两个全新的独立评委来盲评，改完就commit一次。改到后面涨幅收窄，早停机制触发，它自己停了手。

诚实说，这次也不是完美无瑕。中间有一两处编辑操作报错，那更多是我本地工具环境的毛病，不是模型的锅，它退回去换个方式重试就过了。一个测试要是顺到一点磕碰都没有，我反而不信。

重点是，一个我自己设计的、要求很高的复杂流程，被一个开源的Flash从头到尾、规规矩矩地跑完了。能把这套多评委、回滚、检查点的机制完整执行下来，并且执行效果基本和我用订阅的claude code类似，还挺超出预期的。

我的判断

其实，Step 3.7 Flash的能力比我上面表达的更丰富一些，这次试的只是文本类的agent工作流，它原生的多模态、视觉搜索那些能力我还没碰。感兴趣的可以去看看官方的案例，我觉得对于需要投喂图片去表达自己观点和需求的场景，视觉理解能力还挺关键的。

就我这两套最吃链路稳定性的重活来说，它交出的答卷让我有点意外。我本来的预期是，换个更小更快的Flash多少得忍受点跑偏和折损，结果它该并行并行、该停下停下、该回滚回滚，把整套流程稳稳走完了。我觉得已经是个挺稳健可用的agent基座了。

说回开头。Anthropic用降价和Dynamic Workflows押的注，阶跃用一个开源Flash押的注，其实是同一件事：在生产环境里把复杂agent流程又快又稳地跑完，正在变成比「谁家分数更高」更要紧的能力。如果你也想用上Claude Code、codex这类工具，又卡在成本或别的原因上，一个能接进Claude Code、开源、又能把整条链路稳稳跑完的国产模型，确实值得一试。能把复杂Agent工作流可靠跑完的能力，正在从最顶尖的那几个闭源模型，扩散到开源模型上。 对想把工具攥在自己手里的人来说，这个趋势比任何一次跑分刷新都值得高兴。

具体怎么接，你也不用怕折腾。阶跃官网把每个harness（Claude Code、Cline这些）的接入方式都写了详细说明，照着配就行。实在懒得自己弄，还有个更省事的法子：把那几篇接入文档直接丢给任何一个你能用上的国产电脑端agent，让它帮你配，基本都能搞定。 让agent帮你接上一个能干活的模型，这事本身就挺有意思的。

下次再有人问我新模型行不行，我大概还是那句话：别光看分，塞进女娲和达尔文里跑一圈，就知道了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.