网易首页 > 网易号 > 正文 申请入驻

阶跃Step 3.7 Flash实测:国产开源模型,能不能顶上Claude Code

0
分享至

前天凌晨Anthropic发了Opus 4.8。模型能力其实没见多大长进,但有两个跟分数无关的动作值得留意:一是把自家Fast模式的价格砍到原来的三分之一,二是新增了能一口气调起几十上百个subagent的Dynamic Workflows。

连最前沿的玩家都把劲儿使在「怎么把一大堆agent又快又稳地跑起来」上,而不是单纯堆智能。这其实是个信号:到了生产级的环境里,「快速、高效地执行」正在变成新的胜负手。

巧的是,同一天阶跃星辰也开源了Step 3.7 Flash,主打的正好是这件事:agent效率,在真实工作流里更快更稳地把整条链路跑完,开源,还明说能接进Claude Code等各种主流agent。我看到的第一反应就是:那就拿它来测一测,一个国产开源模型,到底能不能站上这个位置。

我试模型,一般直接上女娲和达尔文

每次有新模型出来,大家都先看跑分。我倒是养成了另一个习惯。

我手里有两个自己写的skill,一个叫女娲,一个叫达尔文。女娲在GitHub上攒了两万多star,干的事是输入一个人名,自动深度调研、提炼思维框架,最后生成一个能跑的人物skill。达尔文更新,前几天刚发布2.0,专门给别的skill打分、提改进、改完再打分。

为什么拿这俩当试题?不光是因为它们「重」。真正的原因是,它们里头都设了检查点——该停下来问我的地方。

这件事benchmark测不了。跑分测的是「答得对不对」,测不了「该闭嘴的时候它闭不闭嘴」。而能力不够的模型最容易翻车的,恰恰就是这个:跑着跑着自己加戏、十几次工具调用里掉一次链子、本该停下来问我的时候一头扎过去,把整条链路带沟里。一个模型聪不聪明,看跑分能看出个大概;但它在长任务里靠不靠谱,只有真的跑一遍才知道

所以拿女娲和达尔文试,比看十张benchmark表都直接。这次轮到Step 3.7 Flash。

先说这是个什么模型

Step 3.7 Flash是阶跃5月底发布并开源的新一代Flash模型,Apache 2.0协议,权重在GitHub、HuggingFace、ModelScope都能下载,也支持本地部署。

它最有意思的设计,是那个稀疏MoE架构。你可以把它想成一个博士天团那么大的知识库,但每次回答只叫醒最相关的一小队专家上场,用不着把所有人都吵醒。所以它体量不小,跑起来又快又轻。最高生成速度能到每秒400个token,上下文256K。更细的参数感兴趣可以去官网翻,正文就不堆了。

阶跃给它的定位很克制,不说自己最聪明,主打的是「agent效率」,在真实任务里又快又稳地把活从头跑到尾、中间不掉链子。官方放了一组benchmark,我截在这儿,你可以自己看。


它不是样样第一,这本来也不是它的目标。在SWE-Bench、ClawEval这些agent类基准上,它拿到的是同体量里相当能打的成绩。真正的卖点不是分数最高,是用小得多的激活参数、更快的速度,把这个水平稳定地交付出来。

对我来说最关键的是另一件事。阶跃官方文档里明明白白列了一排它能直接接入的工具:Claude Code、OpenClaw、Hermes Agent、Cline、Roo Code、Kilo Code、Open Code。 这就好办了,我平时这套女娲、达尔文的工作流底座就是Claude Code,既然官方说能接,我不用专门改造什么,直接把底模换成Step 3.7 Flash就行。成本这块我也顺手记了下,按官方控制台每百万token输入1.35元、输出8.1元,是Flash该有的水平,不过这次我更关心的是另一件事——它把活一步不落干完的样子。


我是怎么试的

先把环境摆清楚,免得说不清。

底模是step-3.7-flash,通过CCR路由进Claude Code,我配了个stepfun命令,敲下去启动的就是Step 3.7 Flash驱动的Claude Code,不动我平时的默认配置。


联网搜索这块有个小插曲。换了底模之后,Claude Code原生的搜索用不了了(那是另一套服务端机制,跟模型本身无关),我改接了Tavily的MCP,让模型用普通的工具调用去搜,实测能搜到真东西。整个过程模型自己跑,我只在它停下来问我的检查点上点头或摇头,没替它改过答案。

主菜:女娲造一个AI投资视角

我给女娲的任务是,蒸馏一个AI领域的投资视角,帮我做投资判断和技术理解。

它先跟我确认了人选,然后干了件挺重的事,一口气开了6个子agent并行调研。每个agent盯一个维度:有的扒著作和系统研究,有的找长访谈,有的研究表达风格,还有的去搜外部批评、决策记录、最新动态。

这是第一个考验。6个agent同时在后台跑,有的5分钟就回来,有的足足跑了22分钟。Step 3.7 Flash得一边等、一边把这些并行任务的状态都管住,不能把谁的结果跟谁的搞混,也不能因为某个慢就崩掉。它稳稳扛住了。说句实话,中间有2个调研agent是重试了一次才成的,但这种程度的retry在长任务里很正常,它自己处理掉了,没让我操心。


等6个agent全回来,它没有急着往下冲。而是停下来,把调研质量整理成一张摘要,问我:质量OK,要不要进入下一步提炼框架?

这一下就让我对它好感倍增。前面说过,这正是能力不够的模型最容易翻车的地方:该问的不问,自作主张冲过去。它没有,它老老实实停下来等我回了句「可以」才继续。

我确认之后,它读完6份调研,提炼出6个核心思维模型、8条决策启发式,加一整套表达风格,一次性生成了一个能跑的人物skill。生成完它还自己启动了独立的评审agent来挑毛病。这点特别对我胃口,因为我自己定的铁律就是写东西的AI不能审自己,它照做了,然后按评审意见补了触发词、事实核查这些细节。

调研、提炼、生成、自评、改进,一整套Agent loop从头到尾跑通了。

这就是「agent效率」想说的事

跑完女娲,我对「agent效率」这个词有了具体的体会。

我试过的模型常有两种毛病。一种偷懒:任务一复杂,它就懒得一步步走,直接蹦个结果给你,中间该做的调研、该调的工具全跳过,看着快,其实是糊弄。另一种正相反,太勤劳,像个害羞的做题家,一头扎进去埋头苦干,却不懂在该停的地方停下来跟我汇报、跟我确认,等你回过神,它已经按自己的理解跑出老远。一个偷工减料,一个过犹不及,两种都挺影响实际好不好用。

Step 3.7 Flash两头都没沾:该走的全程一步没省,该停下来问我的地方又老老实实停住。它要的不是某项分数最高,是既不偷懒、也不擅自做主。 这跟「智商」关系不大,跟「靠谱」关系很大。而靠谱,才是agent能不能真正干活的分水岭。

彩蛋:拿刚发布的达尔文2.0再压一道

女娲跑完我有点意犹未尽,顺手又上了达尔文。

得交代下背景。达尔文2.0是我前阵子刚发布的大升级,吸收了微软研究院同期挂出的两篇skill优化论文。整套机制比1.0重了不少:每一轮要启动两个互相独立的评委agent打分、改完必须验证分数真涨了才接受、不涨就自动回滚、关键节点还设了强制暂停等我确认的卡口。这套机制对模型和工具的编排能力,要求比女娲还高。

正因为要求高,拿它当压力测试最合适。我让Step 3.7 Flash用达尔文去优化我另一个写脱口秀的skill。

它跑得有模有样:先建了git分支,设计测试用例,跑一轮基线评分,定位出最弱的一维是「检查点设计」。然后开始一轮一轮地改,每轮都老老实实重新启动两个全新的独立评委来盲评,改完就commit一次。改到后面涨幅收窄,早停机制触发,它自己停了手。


诚实说,这次也不是完美无瑕。中间有一两处编辑操作报错,那更多是我本地工具环境的毛病,不是模型的锅,它退回去换个方式重试就过了。一个测试要是顺到一点磕碰都没有,我反而不信。

重点是,一个我自己设计的、要求很高的复杂流程,被一个开源的Flash从头到尾、规规矩矩地跑完了。能把这套多评委、回滚、检查点的机制完整执行下来,并且执行效果基本和我用订阅的claude code类似,还挺超出预期的。

我的判断

其实,Step 3.7 Flash的能力比我上面表达的更丰富一些,这次试的只是文本类的agent工作流,它原生的多模态、视觉搜索那些能力我还没碰。感兴趣的可以去看看官方的案例,我觉得对于需要投喂图片去表达自己观点和需求的场景,视觉理解能力还挺关键的。

就我这两套最吃链路稳定性的重活来说,它交出的答卷让我有点意外。我本来的预期是,换个更小更快的Flash多少得忍受点跑偏和折损,结果它该并行并行、该停下停下、该回滚回滚,把整套流程稳稳走完了。我觉得已经是个挺稳健可用的agent基座了。

说回开头。Anthropic用降价和Dynamic Workflows押的注,阶跃用一个开源Flash押的注,其实是同一件事:在生产环境里把复杂agent流程又快又稳地跑完,正在变成比「谁家分数更高」更要紧的能力。如果你也想用上Claude Code、codex这类工具,又卡在成本或别的原因上,一个能接进Claude Code、开源、又能把整条链路稳稳跑完的国产模型,确实值得一试。能把复杂Agent工作流可靠跑完的能力,正在从最顶尖的那几个闭源模型,扩散到开源模型上。 对想把工具攥在自己手里的人来说,这个趋势比任何一次跑分刷新都值得高兴。

具体怎么接,你也不用怕折腾。阶跃官网把每个harness(Claude Code、Cline这些)的接入方式都写了详细说明,照着配就行。实在懒得自己弄,还有个更省事的法子:把那几篇接入文档直接丢给任何一个你能用上的国产电脑端agent,让它帮你配,基本都能搞定。 让agent帮你接上一个能干活的模型,这事本身就挺有意思的。

下次再有人问我新模型行不行,我大概还是那句话:别光看分,塞进女娲和达尔文里跑一圈,就知道了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哈兰德:我对加布里埃尔充满尊重,但巴西整支球队都非常优秀

哈兰德:我对加布里埃尔充满尊重,但巴西整支球队都非常优秀

懂球帝
2026-07-05 23:22:03
绝了!弹劾前夕突发逮捕令,马科斯被指连环计绞杀杜特尔特

绝了!弹劾前夕突发逮捕令,马科斯被指连环计绞杀杜特尔特

小陆搞笑日常
2026-07-05 20:42:56
中超:成都1-1海牛!3轮不败+14分领跑,杨明洋、杨聪破门

中超:成都1-1海牛!3轮不败+14分领跑,杨明洋、杨聪破门

乒烧泳球
2026-07-05 21:03:17
蒋劲夫,你怎么变成这样了???

蒋劲夫,你怎么变成这样了???

可乐谈情感
2026-07-05 10:52:55
苹果iPhone 17 Pro Max被封入美国建国250周年纪念时间胶囊

苹果iPhone 17 Pro Max被封入美国建国250周年纪念时间胶囊

IT之家
2026-07-05 15:12:11
名媛不帮郭富城夫妻P图被骂!方媛又肿又僵,郭富城是花甲老爷爷

名媛不帮郭富城夫妻P图被骂!方媛又肿又僵,郭富城是花甲老爷爷

草莓解说体育
2026-07-03 15:28:20
德媒:拜仁愿妥协与凯恩续约至2029年,此前只愿续约至2028

德媒:拜仁愿妥协与凯恩续约至2029年,此前只愿续约至2028

懂球帝
2026-07-05 11:48:07
梅德韦杰夫葬礼上连出三招,招招致命,给中国挖坑,伊朗接招必死

梅德韦杰夫葬礼上连出三招,招招致命,给中国挖坑,伊朗接招必死

烟雨洛神生
2026-07-06 03:01:20
孙颖莎也没想到,国乒男单全军覆没没多久,樊振东传来特大喜讯

孙颖莎也没想到,国乒男单全军覆没没多久,樊振东传来特大喜讯

墨印斋
2026-07-06 05:57:15
姆巴佩梅西各进7球,世界杯历史第三次有两人同届赛事进球7+

姆巴佩梅西各进7球,世界杯历史第三次有两人同届赛事进球7+

懂球帝
2026-07-05 07:00:06
女儿高考自己估分400,我正打算让她读专科,成绩出来那天我傻眼

女儿高考自己估分400,我正打算让她读专科,成绩出来那天我傻眼

白云故事
2025-07-06 07:45:08
降雨持续!山东过去两个小时共有14市、80县(市、区)、847乡镇出现降水

降雨持续!山东过去两个小时共有14市、80县(市、区)、847乡镇出现降水

闪电新闻
2026-07-05 23:14:06
霍启刚意外:大婚风波后霍启山被港府点名,两人是同类人

霍启刚意外:大婚风波后霍启山被港府点名,两人是同类人

赵钇是个热血青年
2026-07-04 20:29:06
主持人问张晋:你老婆陪了刘銮雄6年,张晋的回答像教科书般标准

主持人问张晋:你老婆陪了刘銮雄6年,张晋的回答像教科书般标准

史行途
2026-07-01 22:55:35
复旦毕业、投行出身,她靠一瓶卸妆油年入10亿

复旦毕业、投行出身,她靠一瓶卸妆油年入10亿

中国企业家杂志
2026-07-04 18:30:44
1951年戴笠儿子被枪决,蒋介石知晓后下令:不惜代价接回戴笠孙子

1951年戴笠儿子被枪决,蒋介石知晓后下令:不惜代价接回戴笠孙子

磊子讲史
2026-06-24 16:26:17
18岁探花秀首秀惊艳 15+4+4让雷霆众将折服

18岁探花秀首秀惊艳 15+4+4让雷霆众将折服

元气满分吖
2026-07-06 01:23:04
想拦都拦不住!冯德莱恩没想到,刚准备贸易战,中国空调爆单了

想拦都拦不住!冯德莱恩没想到,刚准备贸易战,中国空调爆单了

军机Nova
2026-07-05 00:32:17
高层逮捕元老、私建亲卫军!塔利班内部彻底撕裂

高层逮捕元老、私建亲卫军!塔利班内部彻底撕裂

莫地方
2026-07-06 00:03:21
给泰山安装刀片刺网,在古代要被砍头

给泰山安装刀片刺网,在古代要被砍头

黔有虎
2026-07-03 16:49:25
2026-07-06 06:40:49
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
239文章数 122关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

世界杯-挪威2-1巴西首进八强 哈兰德梅开二度

头条要闻

世界杯-挪威2-1巴西首进八强 哈兰德梅开二度

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
艺术
健康
数码
公开课

家居要闻

传奇筑 日常诗

艺术要闻

伊朗超高层方案惊艳世界,曾获国际大奖!

听说少吃点能抗衰老?专家讲解!

数码要闻

Intel Xe3P核显越来越近!Linux曝光新进展

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版