阶跃发布Step 3.7 Flash：一款为「烧钱时代」准备的Agent模型|调用|模态|工作流|新论文|agent|flash

阶跃发布Step 3.7 Flash：一款为「烧钱时代」准备的Agent模型

2026-05-29 16:42:38　来源: 机器之心Pro

河北举报

分享至

编辑｜杨文、冷猫

今年 3 月份，奥特曼公开表示：

「我们看到这样一个未来：智能将成为一种公用事业，就像电力或自来水一样，人们会按表从我们这里购买它。」

https://x.com/Vivek4real_/status/2059058179955380493?s=20

这个未来来得比预想更快，也比预想更贵。

米哈游员工为了冲项目，搭了几十个 Agent，一晚上烧掉 200 万元 token。

https://x.com/wayen_ai/status/2058786389009854868?s=20

Uber 四个月烧光了 2026 年全年 AI 预算，微软财大气粗也扛不住 token 消耗，直接把 Claude Code 权限砍了。

就连英伟达副总裁都直言：「我们团队用 AI 的花费比请真人还贵。现在 AI 的成本已经超过人类员工了。」

https://x.com/Vivek4real_/status/2058607634182537496?s=20

这背后有其结构性原因。

真实的 Agent 工作流和普通对话式任务不同，模型进入生产环境后，一个 Agent 任务动辄触发数十次模型调用，搜索、工具调用、代码执行、结果验证…… 每一轮都在累积延迟，token 消耗呈指数级增长。

开发者的实践已经验证，在选择 Agent 核心模型时，任务场景、响应速度和成本，与工具调用能力同等重要。盲目追求大参数量，在工程上并不可取

于是今年以来，Flash 模型集中爆发。

Gemini 3.5 Flash、GPT-5.4 mini、Claude Haiku 4.5、Qwen3.6-Flash、DeepSeek-V4-Flash…… 头部厂商几乎同步押注轻量高效路线。

但在这场轻量模型竞赛中，很多厂商的思路是削减参数、压缩成本、牺牲部分能力。阶跃星辰则不同，它不把 Flash 模型当旗舰平替，而是专门为 Agent 工作流重新设计一款模型。

继 Step 3.5 Flash 后，阶跃星辰最近又推出新一代高效率 Flash 开源模型 ——Step 3.7 Flash

该模型最大特点就是（模）、（速）、（用）、（钱）。总参数 196B，采用稀疏 MoE 架构，推理激活参数仅 11B，配备 1.88B ViT 视觉编码器，推理速度最高 400 TPS，支持 256K 上下文。

作为一款面向真实 Agent 工作流设计的高效率模型，它具备原生多模态理解能力，并打通了搜索、工具调用、GUI 感知、代码生成等完整 Agent Loop 执行能力。

从 benchmark 来看，Step 3.7 Flash 没有明显短板。在通用 Agent 能力上，ClawEval-1.1 以 67.1% 拿下参测模型第二，Toolathlon、GPDval、HLE w. Tool 三项也均处于领先梯队；Agentic Coding 方向，SWE-PRO 达到 56.3、Terminal-Bench v2.1 达到 59.5；多模态方向则是 SimpleVQA（search）以 79.2 位居榜首，V*（python）以 95.3 排在第三。

柱状图中左一为 Step 3.7 Flash、左二为 Step 3.5 Flash（Multimodal 除外）

接下来，我们就将 Step 3.7 Flash 放进真实的工作场景测评下。

原生多模态：它能「看懂」任务现场吗？

先来试试原生多模态能力。

为了压缩成本削减参数，有些轻量模型最先被牺牲的往往是多模态能力。

而在真实任务里，大量输入根本不是干净的结构化文本，还包括 GUI 截图、扫描文档、网页内容，Agent 要进入这些场景，视觉理解是绕不开的前提。

Step 3.7 Flash 新增多模图像理解、识别、推理、感知，可处理复杂视觉信息，并在跨模态上下文中进行联合推理。

比如让它分析 Pinterest 界面帖子的设计特点，它不仅能识别 UI 元素，还能理解应用界面的内容结构、设计逻辑与信息组织方式。

再比如框选驾驶舱界面，让它生成起飞操作说明。

模型需要同时识别大量专业仪表、按钮与状态信息，并理解「如何起飞」背后的操作逻辑，什么时候推油门、何时收起起落架等。

相比传统多模态模型的描述画面， Step 3.7 Flash 完成的是「环境感知 → 状态理解 → 任务推理 → 操作指导」的完整闭环。

在处理视觉任务时，常规做法是把大量视觉常识和感知能力硬塞进模型权重，但对 11B 激活量级的 Flash 模型来说，这条路天然受限。阶跃选择在权重里只留最核心的推理引擎，把感知边界推到推理阶段动态解决。

具体而言，模型可在推理中途自主对图像进行裁切、缩放和重读，告别「一眼定生死」的单步感知局限，当任务超出自身视觉常识边界时，还能主动发起检索、交叉验证。「重新看」和「去查证」在同一个推理循环内自主闭环，能力上限不再受任何单点工具约束。

Deep Research：快速检索，结构化交付

在 Deep Research 测评中，我们让 Step 3.7 Flash 围绕「2026 年第一季度中国新能源汽车市场」这一主题，检索 3-5 个高可信度来源，对比比亚迪、特斯拉、理想、小鹏四个品牌的市场表现，生成一份结构化调研简报。

模型快速完成检索和信息整合，从销量数据、价格区间、主要优缺点以及购车建议等方面进行结构化输出。

在 Step 3.7 Flash 的工作方式里，搜索真正进入了推理循环本身，不再是外挂的辅助工具。

它能在推理中途主动判断「当前信息是否足够」，不足则自主发起新一轮检索，检索回来再判断是否可信，再决定下一步怎么做。这种「搜 - 理解 - 再搜 - 验证 - 再推理」的循环，让模型在任务执行过程中能持续锚定真实世界的信息。

多 Agent 并行：400 TPS 能承载多少并发？

下面这个场景则是多个 Agent 并行推理测试。

40 个不同身份的虚拟角色扮演产品评测团，对一个产品问题进行并行判断，然后实时汇总它们对 5 个 MVP 方向的偏好。

这群虚拟专家可以同时分析，分工执行，最终给出更稳健、更可解释的结果。

对于需要大量并发推理的 Agent 场景，模型推理速度直接决定整个工作流能跑多快、能承载多少并行任务。

此外，模型还能依托精准推理能力和丰富知识储备，快速构建结构清晰、关联明确的知识图谱。

GUI 操控：从「理解界面」到「操作设备」

Step 3.7 Flash 在 GUI 理解能力不仅限于多模态识别和规划，作为一个基座模型，已经具备实时操作设备的能力。

我们找来一台安卓测试机，不做任何额外的模型微调或本地推理配置，直接以 Step 3.7 Flash 作为决策大脑，看它在真实手机上能做到什么程度。

注：本次测试采用小米手机，使用小米互联服务「妙享桌面」同步至电脑录屏，敏感信息马赛克处理。

第一关：信息汇总。模型顺利完成，基本流畅：

「帮我看看微博文娱热搜上有哪些内容，总结一下给我」。

视频开启倍速

第二关：出行规划。任务涉及多个条件判断和跨 App 操作：

我明天早上 9 点要到「北京国贸大厦」开会。帮我查一下明天早上的天气，如果下雨就帮我叫一个网约车（不用真的下单，截图到确认页面即可），如果不下雨就查一下地铁路线。打车和查线路均使用百度地图。最后，把天气情况、出行方案和预计出发时间整理成文字输入到笔记中。

视频开启倍速

Step 3.7 Flash 在复杂逻辑的 GUI 操作中表现游刃有余，甚至能理解地图导航中查看地铁线路的细节，最终成功从多个 App 采集信息，整理进备忘录。

第三关：社媒 + 电商跨平台任务

我想了解一下最近新出的降噪耳机。帮我在小红书上搜「2026 降噪耳机推荐」，找 3 篇点赞超过 300 的笔记，提取每篇推荐的型号、价格区间和博主提到的优缺点，找到最合适的一款帮我在京东购买。

视频开启倍速

社交媒体内容多样、电商平台 UI 结构复杂、逻辑判断难度高，但最终结果超出预期，全程只有电商平台的安全验证环节需要真人配合操作，其余一切流畅执行。

Agent 时代，Flash 模型不是旗舰版平替

过去，Flash 模型常被视为旗舰模型的「轻量替代品」，用在不那么重要的场景，或作为成本兜底选项。

这个认知正在被打破。

随着推理、规划、工具调用、长上下文和环境反馈能力持续增强，模型越来越多地承担起任务拆解、工具选择、执行反馈和结果修正等 Agent 核心环节。

Flash 模型由此成了专为高频、多步骤、低延迟的 Agent 工作流优化的独立品类。

当然，这里有一个关键前提，Flash 模型必须足够「能干」，否则省下来的成本会以任务失败率的代价偿还回去。如何在压缩推理成本的同时，不丢掉完成复杂任务的能力，才是 Flash 模型赛道真正的技术分水岭。

阶跃星辰正是沿着这条路线突破的。今年 2 月，Step 3.5 Flash 上线，主打在 Agent 场景实现「更快、更强、更稳」的执行效果，上线两天登顶 OpenRouter Trending 榜，一个月后拿下 OpenClaw 调用量月榜全球第一。

在此基础上，Step 3.7 Flash 进一步迭代，兼顾更多能力的协同效率，并在成本、稳定性与部署形态上进一步满足长期运行的要求。

这正是 Agent 工作流的本质要求。拿着有限预算跑完整条任务链，谁能在每一步调用中少犯错、少超时、少超支，谁才是生产环境的真正赢家。在这个维度上，最好的模型未必是单次推理能力最强的，但一定是能被持续调用、稳定运行、成本可控的

正如阶跃星辰联合创始人、CTO 朱亦博所言：「我们相信未来的大模型应用方式，不是一个超大尺寸的模型解决所有问题。人类社会有不同的任务，我们追求的是许多不同模型的矩阵，Agent 是解决任务的方式。」

而 Step 3.7 Flash 证明，Flash 模型不是旗舰的廉价替代品，它可以有自己的完整能力矩阵，「多快好省」地成为 Agent 时代的主力。

文中视频链接：https://mp.weixin.qq.com/s/fM5f8RdOcffedNLq4QSgnA

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.