网易首页 > 网易号 > 正文 申请入驻

揭开Step 3.5 Flash 2603的真相:六小虎中的实力之争

0
分享至

当大家都在讨论 Agent 如何改变工作流时,阶跃星辰发布的 Step 3.5 Flash 2603 无疑提供了一个极具说服力的样本。它不追求虚浮的通用知识堆砌,而是以“实用主义”为核心,通过极高的推理速度(350 token/s)和对复杂工具链(如 OpenClaw Skills、飞书 API)的精准调度,证明了模型可以成为真正可靠的“数字员工”。本文将深入测评其在真实开发、数据可视化及多步骤业务调度中的表现,探讨一款“聪明且高效”的模型如何重塑我们的生产力边界。

最近模型圈确实又热闹起来了。

新模型一波接一波。

GLM-5、MiniMax2.7、小米的MIMO 这次给大家看看“大模型六小虎”中的阶跃星辰,阶跃星辰刚更新的 Step 3.5 Flash 2603。

阶跃星辰是一家做通用大模型的 AI 公司,行业里称为“大模型六小虎”,其中的三“小虎”大家肯定熟悉,智谱,MiniMax和Kimi

之前的Step 3.5 Flash就在openrouter上得到了不错的分数。



查看了一下大模型热度榜单,Step 3.5 Flash稳居前三。


所以,今天我想重点测评一下Step 3.5 Flash 2603 在真实场景中的表现。本文会相继用到Claude Code、OpenClaw、飞书等不同平台来测试,并会在每个Case前做说明。

测试主要分为4个场景,重点评估模型的执行过程和最终结果。


任务一:搜索、整理数据,再做成可视化页面

第一个任务,我放在 ClaudeCode 里测试。

模型我已经切到了 step-3.5-flash 2603,然后直接给了一个连续任务:打开 Boss 直聘、拉勾和智联招聘,搜索最近热门的 AI 相关岗位,结合薪资范围、岗位要求、城市分布和招聘热度,综合筛选 10 个代表性岗位,整理成 Excel 表格,并根据 Excel 表格的信息设计一个可视化 HTML。

这个任务看起来不算特别复杂,但它其实是一个很典型的多步骤执行题。

因为它不是只回答一个问题,而是要一口气完成:

联网检索 → 总结内容 → 生成表格 → 编写代码

这里面既考验模型的信息整理能力,也考验它调用工具、维持上下文和连续执行的能力。

而 Step 3.5 Flash 2603 这次给我的感觉是,做这种任务节奏挺快,没有那种想很久、说很多、但迟迟不落地的拖沓感。它基本是一边执行一边推进,最后一次性交付了 Excel 表格和信息图 HTML。

在 ClaudeCode 里还能直接看到它的执行过程,整个流程跑起来非常利落。


除了少数有反扒的网站之外,大多数步骤几秒钟就能推进一轮。


下面看下最终结果。可视化 HTML




表格结果


表格

这份表格的观感还是不错的,信息整理得比较规整,阅读压力不大。HTML 信息图也能看出来,它不是单纯把内容堆上去,而是有在尝试做层级划分和视觉呈现。

当然,如果提示词继续细化,比如补充版式偏好、图表样式、字段要求,模型自然会生成得更好些 所以对于这种链路稍微长一点的工作流任务,Step 3.5 Flash 2603在保持效率的同时,还可以正常完成任务。

从这个 case 来看,阶跃星辰这版 Step 3.5 Flash 2603,做这类高频、多步骤、结果明确的任务,确实是顺手的。


任务二:把数据库表快速转换成 Java 实体类

第二个任务,AI Coding 里一个很常见的高频场景:数据库结构转换。

如果你平时做后端开发,应该很熟悉这种情况。项目刚开始,或者接一个已有业务时,第一步常常就是对数据库做处理。表一多,光是把数据表一张张转换成 Java 实体类,就很花时间。

所以我这次直接把数据库 SQL 丢给模型,让它批量转换。


这是一个 RAG 客服生产业务里的库表。

结果也比较直接:一分钟左右,11 张表就全部转成了 Java 实体类。


在这个场景下,Step 3.5 Flash 2603 的体验还是挺舒服的。该补的字段基本都能补上,结构转换也比较规整,没有那种写着写着风格飘掉、命名乱掉的问题。

既然表都写好了,那我就顺手继续往下写一步,让它把一部分增删改查也一起补出来。


这类任务做下来,我的直观感受是:

对于初始化结构、批量转换、基础 CRUD 这种高频工作,Step 3.5 Flash 2603 是可以直接进生产前置流程的。

很多时候,项目里最消耗人的,并不是“特别难”的那部分,而是这些重复度高、细碎、但又必须做的基础活。以前是人手一点点搭,现在交给模型先铺一版,效率确实高很多。

当然,复杂任务我也试了。

比如我后面又让它去处理一个更深的需求,需要打通两个业务线中的某个功能。这个需求麻烦的地方就在于,它必须先理解业务全景,再下手写代码,不然很容易只写对局部、却接不上整体流程。

这种任务,Step 3.5 Flash 2603 目前还做不到完全独立搞定,还是得先靠人工把业务梳理清楚,再结合模型一起推进。

所以如果要我一句话总结这个 case:

简单、高频、结构清晰的开发任务,没什么问题;复杂度高、业务链深、依赖全局理解的任务,现阶段还是更适合“人来定方向,模型来提效”。

这属于模型的边界了。


任务三:测试 skills 调用,以及前端生成能力

前两个 case,更多测的是代码和结构化执行。

第三个任务,我想进一步看看它对 Agent 能力的适配程度,尤其是放进 OpenClaw 这类体系里之后,调用 skills 的表现怎么样。

这次我测试的是:

利用 Knowledge Site Creator Skills 创建一个知识学习网站。

文章内容来源于这篇公众号文章:

https://mp.weixin.qq.com/s/VjBNgfDhJSMMlGw5n6RQMA


查看模型能不能理解任务目标,然后借助 skills 把一个成型的网站雏形做出来。

实际跑下来,它的页面产出是在线的,至少不是那种“技术上能打开,但审美和结构都很敷衍”的状态,这种蓝紫色配色,也是大多数AI的惯例。

接着我又顺手测了一下它单纯的前端代码能力,做了一个个人博客页面。


个人博客

这个页面给我的感觉是,流畅度和交互意识都还不错。

它不是那种只会机械堆 div 的写法,而是能把页面层级、视觉节奏和交互细节一起带出来。放在日常开发里,这种能力很实用,因为很多时候我们要的不是一份“完美作品”,而是一个可运行、可继续改、可快速迭代的前端基础版本。任务四:放进飞书里,测试 Agent 调度能力

单请求代码类任务上,Step 3.5 Flash的最高推理速度可达每秒350个token,确保了复杂Agent任务的低延迟响应。

具体来说,就是把飞书接入 OpenClaw,然后直接在飞书里给它发指令,看它能不能把一个任务完整调度起来。

因为只要进到 OpenClaw 这种原生 Agent 场景,事情就不只是“写一段回答”那么简单了。

一个任务背后,往往要经历很多环节:加载技能、调用 tools、来回推理、做中间判断、决定下一步动作……任务链一长,对模型的调度能力、稳定性和响应速度,要求就会明显提高。 查看Step 3.5 Flash 2603 放进这种多模块环境里,是否还可以保持高效执行。


来看下制作效果:





整体效果我觉得是可以的。

它能完成多任务调度,也能在比较长的链路里把任务往前推,不会动不动就卡在某个环节反复空转。更关键的是,整个使用过程里,没有那种“为了想清楚简单任务,反而把链路拉得特别长”的感觉。

这一点其实很重要。

因为很多 Agent 场景中,最麻烦的就是模型弯弯绕绕的,半天出不来一个结果,也不知道在思考什么。如果一个任务本来几步就能走完,结果模型每一步都要铺很长的思考链,那最后的结果可能质量更高一点,但实际使用成本也会明显上去。

从这次体验来看,阶跃星辰这版 Step 3.5 Flash 2603 在这方面控制得还不错。放在日常 Agent 使用里,可以做到稳定推进任务的“执行型选手”,不会轻易把简单事情复杂化。


初步体验

这轮测下来,如果让我给阶跃星辰的 Step 3.5 Flash 2603 做一个比较直接的判断,我会觉得它是一款很适合进入真实开发工作流的模型。

在日常使用中会遇到的问题:高频编程结构转换小步快跑式修改简单到中等复杂度的前端生成Agent 工作流里的执行型任务多步骤但目标明确的连续操作

Step 3.5 Flash 2603基本上都能高效完成。

特别说明一下, Step 3.5 Flash 2603可能会首先在StepPlan里上线,所以在ClaudeCode等Agent中进行配置的时候可能需要把 baseURL替换为:

https://api.stepfun.com/step_plan/v1写在最后

最近大家都在聊 Agent,也都在聊模型到底能不能真正走进工作流。

我自己的感受是,方向其实已经越来越清楚了:“聪明且高效”。

这次实测下来,阶跃星辰 Step 3.5 Flash 2603 给我的印象,就是一款明显更偏向实用主义的模型。

在开发、Agent、多步骤执行这些场景里,确实能给出比较顺手的体验。对于经常要写代码、改代码、搭流程、跑自动化任务的人来说,这种“反复用起来都不别扭”的感觉,其实比一次两次的惊艳更重要。

如果你本身就在折腾 AI Coding,或者已经把模型接进了日常工作流,那这版 Step 3.5 Flash 2603,还是值得自己上手跑几轮真实任务试试。

题图来自Unsplash,基于 CC0 协议。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外交部回应郑丽文率团访问大陆:台湾问题是中国内政

外交部回应郑丽文率团访问大陆:台湾问题是中国内政

澎湃新闻
2026-04-07 15:42:27
广东一家制衣厂仅有一位男员工,百余名女同事围着轮流投喂呵护

广东一家制衣厂仅有一位男员工,百余名女同事围着轮流投喂呵护

捣蛋窝
2026-04-07 13:22:20
伊朗警方逮捕85名美以情报机构雇佣人员

伊朗警方逮捕85名美以情报机构雇佣人员

界面新闻
2026-04-07 16:55:44
中国留学生泰国公寓坠亡,房间墙上留遗言,警方在浴室发现其女友遗体

中国留学生泰国公寓坠亡,房间墙上留遗言,警方在浴室发现其女友遗体

红星新闻
2026-04-07 12:52:19
以军警告伊朗民众不要乘坐火车或靠近铁路

以军警告伊朗民众不要乘坐火车或靠近铁路

界面新闻
2026-04-07 13:36:28
瑞幸咖啡紧急撤下罗永浩代言广告,网友:数据影响下的现实切割!

瑞幸咖啡紧急撤下罗永浩代言广告,网友:数据影响下的现实切割!

玖宇维
2026-04-07 15:12:41
迟重瑞妻子陈丽华去世,温馨全家福曝光,4个儿女都很优秀

迟重瑞妻子陈丽华去世,温馨全家福曝光,4个儿女都很优秀

180视角
2026-04-07 14:19:49
广东知名歌手离世一年后才被发现,一生未结婚令人唏嘘

广东知名歌手离世一年后才被发现,一生未结婚令人唏嘘

梦醉为红颜一笑
2026-04-06 21:10:32
特朗普“首次承认被黑吃黑”,被点名的库尔德火速否认三连

特朗普“首次承认被黑吃黑”,被点名的库尔德火速否认三连

观察者网
2026-04-07 14:42:00
两包机抵台!郑丽文赶在来沪前,用英语通告全世界,到底暴露了啥

两包机抵台!郑丽文赶在来沪前,用英语通告全世界,到底暴露了啥

眼界看视野
2026-04-07 13:12:02
福建长汀一车辆坠河致5死,疑似新手女司机油门当刹车,开得不快

福建长汀一车辆坠河致5死,疑似新手女司机油门当刹车,开得不快

九方鱼论
2026-04-07 12:56:14
73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

一娱三分地
2026-02-19 17:04:30
郑丽文率团抵达上海开启大陆参访行程

郑丽文率团抵达上海开启大陆参访行程

环球网资讯
2026-04-07 13:18:07
“中国紫檀女王”陈丽华逝世,曾是中国女首富,47岁时倒追“唐僧”迟重瑞,晚年每天生活费10元

“中国紫檀女王”陈丽华逝世,曾是中国女首富,47岁时倒追“唐僧”迟重瑞,晚年每天生活费10元

极目新闻
2026-04-07 12:39:33
美军“拯救飞行员”,差一点就失败了

美军“拯救飞行员”,差一点就失败了

中国新闻周刊
2026-04-07 16:42:40
娃哈哈遗产之争惊天和解?宗馥莉邀请弟妹为宗庆后扫墓并联合收股

娃哈哈遗产之争惊天和解?宗馥莉邀请弟妹为宗庆后扫墓并联合收股

柴狗夫斯基
2026-04-07 11:52:32
吃了20年才知道,它竟是“天然叶酸”,现在正当季,常吃身体棒

吃了20年才知道,它竟是“天然叶酸”,现在正当季,常吃身体棒

阿龙美食记
2026-04-07 10:42:05
杨兰兰案最新!陷入僵局:警方迟迟不递交证据,案件更加扑朔迷离

杨兰兰案最新!陷入僵局:警方迟迟不递交证据,案件更加扑朔迷离

澳洲红领巾
2026-04-07 11:50:58
晚点独家丨Kimi 计划提前 1 年授予 27 届顶尖人才期权

晚点独家丨Kimi 计划提前 1 年授予 27 届顶尖人才期权

晚点LatePost
2026-04-03 11:58:07
为什么民国时期已经有电了,后来又点了40年煤油灯?

为什么民国时期已经有电了,后来又点了40年煤油灯?

小豫讲故事
2026-04-07 06:00:04
2026-04-07 17:47:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
538文章数 8105关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

开车致女友胸部以下高位截瘫后失联 男子首发声

头条要闻

开车致女友胸部以下高位截瘫后失联 男子首发声

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

时尚
教育
手机
旅游
房产

杨超越之后,全网头像锦鲤的C位被她抢走了

教育要闻

每个学霸背后,都有一对“不管不顾”的父母……

手机要闻

小米REDMI K90 Max同月竞品曝光:天玑9500芯片,165Hz超高刷直屏

旅游要闻

对话德州丨庆云文博园负责人熊海燕:从简陋厂房到文旅新地标

房产要闻

猛料!又有世界500强级巨头,低调买入海棠湾!

无障碍浏览 进入关怀版