前天凌晨Anthropic发了Opus 4.8。模型能力其实没见多大长进,但有两个跟分数无关的动作值得留意:一是把自家Fast模式的价格砍到原来的三分之一,二是新增了能一口气调起几十上百个subagent的Dynamic Workflows。
连最前沿的玩家都把劲儿使在「怎么把一大堆agent又快又稳地跑起来」上,而不是单纯堆智能。这其实是个信号:到了生产级的环境里,「快速、高效地执行」正在变成新的胜负手。
巧的是,同一天阶跃星辰也开源了Step 3.7 Flash,主打的正好是这件事:agent效率,在真实工作流里更快更稳地把整条链路跑完,开源,还明说能接进Claude Code等各种主流agent。我看到的第一反应就是:那就拿它来测一测,一个国产开源模型,到底能不能站上这个位置。
我试模型,一般直接上女娲和达尔文
每次有新模型出来,大家都先看跑分。我倒是养成了另一个习惯。
我手里有两个自己写的skill,一个叫女娲,一个叫达尔文。女娲在GitHub上攒了两万多star,干的事是输入一个人名,自动深度调研、提炼思维框架,最后生成一个能跑的人物skill。达尔文更新,前几天刚发布2.0,专门给别的skill打分、提改进、改完再打分。
为什么拿这俩当试题?不光是因为它们「重」。真正的原因是,它们里头都设了检查点——该停下来问我的地方。
这件事benchmark测不了。跑分测的是「答得对不对」,测不了「该闭嘴的时候它闭不闭嘴」。而能力不够的模型最容易翻车的,恰恰就是这个:跑着跑着自己加戏、十几次工具调用里掉一次链子、本该停下来问我的时候一头扎过去,把整条链路带沟里。一个模型聪不聪明,看跑分能看出个大概;但它在长任务里靠不靠谱,只有真的跑一遍才知道。
所以拿女娲和达尔文试,比看十张benchmark表都直接。这次轮到Step 3.7 Flash。
先说这是个什么模型
Step 3.7 Flash是阶跃5月底发布并开源的新一代Flash模型,Apache 2.0协议,权重在GitHub、HuggingFace、ModelScope都能下载,也支持本地部署。
它最有意思的设计,是那个稀疏MoE架构。你可以把它想成一个博士天团那么大的知识库,但每次回答只叫醒最相关的一小队专家上场,用不着把所有人都吵醒。所以它体量不小,跑起来又快又轻。最高生成速度能到每秒400个token,上下文256K。更细的参数感兴趣可以去官网翻,正文就不堆了。
阶跃给它的定位很克制,不说自己最聪明,主打的是「agent效率」,在真实任务里又快又稳地把活从头跑到尾、中间不掉链子。官方放了一组benchmark,我截在这儿,你可以自己看。
![]()
它不是样样第一,这本来也不是它的目标。在SWE-Bench、ClawEval这些agent类基准上,它拿到的是同体量里相当能打的成绩。真正的卖点不是分数最高,是用小得多的激活参数、更快的速度,把这个水平稳定地交付出来。
对我来说最关键的是另一件事。阶跃官方文档里明明白白列了一排它能直接接入的工具:Claude Code、OpenClaw、Hermes Agent、Cline、Roo Code、Kilo Code、Open Code。 这就好办了,我平时这套女娲、达尔文的工作流底座就是Claude Code,既然官方说能接,我不用专门改造什么,直接把底模换成Step 3.7 Flash就行。成本这块我也顺手记了下,按官方控制台每百万token输入1.35元、输出8.1元,是Flash该有的水平,不过这次我更关心的是另一件事——它把活一步不落干完的样子。
![]()
我是怎么试的
先把环境摆清楚,免得说不清。
底模是step-3.7-flash,通过CCR路由进Claude Code,我配了个stepfun命令,敲下去启动的就是Step 3.7 Flash驱动的Claude Code,不动我平时的默认配置。
![]()
联网搜索这块有个小插曲。换了底模之后,Claude Code原生的搜索用不了了(那是另一套服务端机制,跟模型本身无关),我改接了Tavily的MCP,让模型用普通的工具调用去搜,实测能搜到真东西。整个过程模型自己跑,我只在它停下来问我的检查点上点头或摇头,没替它改过答案。
主菜:女娲造一个AI投资视角
我给女娲的任务是,蒸馏一个AI领域的投资视角,帮我做投资判断和技术理解。
它先跟我确认了人选,然后干了件挺重的事,一口气开了6个子agent并行调研。每个agent盯一个维度:有的扒著作和系统研究,有的找长访谈,有的研究表达风格,还有的去搜外部批评、决策记录、最新动态。
这是第一个考验。6个agent同时在后台跑,有的5分钟就回来,有的足足跑了22分钟。Step 3.7 Flash得一边等、一边把这些并行任务的状态都管住,不能把谁的结果跟谁的搞混,也不能因为某个慢就崩掉。它稳稳扛住了。说句实话,中间有2个调研agent是重试了一次才成的,但这种程度的retry在长任务里很正常,它自己处理掉了,没让我操心。
![]()
等6个agent全回来,它没有急着往下冲。而是停下来,把调研质量整理成一张摘要,问我:质量OK,要不要进入下一步提炼框架?
这一下就让我对它好感倍增。前面说过,这正是能力不够的模型最容易翻车的地方:该问的不问,自作主张冲过去。它没有,它老老实实停下来等我回了句「可以」才继续。
我确认之后,它读完6份调研,提炼出6个核心思维模型、8条决策启发式,加一整套表达风格,一次性生成了一个能跑的人物skill。生成完它还自己启动了独立的评审agent来挑毛病。这点特别对我胃口,因为我自己定的铁律就是写东西的AI不能审自己,它照做了,然后按评审意见补了触发词、事实核查这些细节。
调研、提炼、生成、自评、改进,一整套Agent loop从头到尾跑通了。
这就是「agent效率」想说的事
跑完女娲,我对「agent效率」这个词有了具体的体会。
我试过的模型常有两种毛病。一种偷懒:任务一复杂,它就懒得一步步走,直接蹦个结果给你,中间该做的调研、该调的工具全跳过,看着快,其实是糊弄。另一种正相反,太勤劳,像个害羞的做题家,一头扎进去埋头苦干,却不懂在该停的地方停下来跟我汇报、跟我确认,等你回过神,它已经按自己的理解跑出老远。一个偷工减料,一个过犹不及,两种都挺影响实际好不好用。
Step 3.7 Flash两头都没沾:该走的全程一步没省,该停下来问我的地方又老老实实停住。它要的不是某项分数最高,是既不偷懒、也不擅自做主。 这跟「智商」关系不大,跟「靠谱」关系很大。而靠谱,才是agent能不能真正干活的分水岭。
彩蛋:拿刚发布的达尔文2.0再压一道
女娲跑完我有点意犹未尽,顺手又上了达尔文。
得交代下背景。达尔文2.0是我前阵子刚发布的大升级,吸收了微软研究院同期挂出的两篇skill优化论文。整套机制比1.0重了不少:每一轮要启动两个互相独立的评委agent打分、改完必须验证分数真涨了才接受、不涨就自动回滚、关键节点还设了强制暂停等我确认的卡口。这套机制对模型和工具的编排能力,要求比女娲还高。
正因为要求高,拿它当压力测试最合适。我让Step 3.7 Flash用达尔文去优化我另一个写脱口秀的skill。
它跑得有模有样:先建了git分支,设计测试用例,跑一轮基线评分,定位出最弱的一维是「检查点设计」。然后开始一轮一轮地改,每轮都老老实实重新启动两个全新的独立评委来盲评,改完就commit一次。改到后面涨幅收窄,早停机制触发,它自己停了手。
![]()
诚实说,这次也不是完美无瑕。中间有一两处编辑操作报错,那更多是我本地工具环境的毛病,不是模型的锅,它退回去换个方式重试就过了。一个测试要是顺到一点磕碰都没有,我反而不信。
重点是,一个我自己设计的、要求很高的复杂流程,被一个开源的Flash从头到尾、规规矩矩地跑完了。能把这套多评委、回滚、检查点的机制完整执行下来,并且执行效果基本和我用订阅的claude code类似,还挺超出预期的。
我的判断
其实,Step 3.7 Flash的能力比我上面表达的更丰富一些,这次试的只是文本类的agent工作流,它原生的多模态、视觉搜索那些能力我还没碰。感兴趣的可以去看看官方的案例,我觉得对于需要投喂图片去表达自己观点和需求的场景,视觉理解能力还挺关键的。
就我这两套最吃链路稳定性的重活来说,它交出的答卷让我有点意外。我本来的预期是,换个更小更快的Flash多少得忍受点跑偏和折损,结果它该并行并行、该停下停下、该回滚回滚,把整套流程稳稳走完了。我觉得已经是个挺稳健可用的agent基座了。
说回开头。Anthropic用降价和Dynamic Workflows押的注,阶跃用一个开源Flash押的注,其实是同一件事:在生产环境里把复杂agent流程又快又稳地跑完,正在变成比「谁家分数更高」更要紧的能力。如果你也想用上Claude Code、codex这类工具,又卡在成本或别的原因上,一个能接进Claude Code、开源、又能把整条链路稳稳跑完的国产模型,确实值得一试。能把复杂Agent工作流可靠跑完的能力,正在从最顶尖的那几个闭源模型,扩散到开源模型上。 对想把工具攥在自己手里的人来说,这个趋势比任何一次跑分刷新都值得高兴。
具体怎么接,你也不用怕折腾。阶跃官网把每个harness(Claude Code、Cline这些)的接入方式都写了详细说明,照着配就行。实在懒得自己弄,还有个更省事的法子:把那几篇接入文档直接丢给任何一个你能用上的国产电脑端agent,让它帮你配,基本都能搞定。 让agent帮你接上一个能干活的模型,这事本身就挺有意思的。
下次再有人问我新模型行不行,我大概还是那句话:别光看分,塞进女娲和达尔文里跑一圈,就知道了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.