网易首页 > 网易号 > 正文 申请入驻

阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型

0
分享至



编辑|杨文、冷猫

今年 3 月份,奥特曼公开表示:

「我们看到这样一个未来:智能将成为一种公用事业,就像电力或自来水一样,人们会按表从我们这里购买它。」



https://x.com/Vivek4real_/status/2059058179955380493?s=20

这个未来来得比预想更快,也比预想更贵。

米哈游员工为了冲项目,搭了几十个 Agent,一晚上烧掉 200 万元 token。



https://x.com/wayen_ai/status/2058786389009854868?s=20

Uber 四个月烧光了 2026 年全年 AI 预算,微软财大气粗也扛不住 token 消耗,直接把 Claude Code 权限砍了。

就连英伟达副总裁都直言:「我们团队用 AI 的花费比请真人还贵。现在 AI 的成本已经超过人类员工了。」



https://x.com/Vivek4real_/status/2058607634182537496?s=20

这背后有其结构性原因。

真实的 Agent 工作流和普通对话式任务不同,模型进入生产环境后,一个 Agent 任务动辄触发数十次模型调用,搜索、工具调用、代码执行、结果验证…… 每一轮都在累积延迟,token 消耗呈指数级增长。

开发者的实践已经验证,在选择 Agent 核心模型时,任务场景、响应速度和成本,与工具调用能力同等重要。盲目追求大参数量,在工程上并不可取

于是今年以来,Flash 模型集中爆发。

Gemini 3.5 Flash、GPT-5.4 mini、Claude Haiku 4.5、Qwen3.6-Flash、DeepSeek-V4-Flash…… 头部厂商几乎同步押注轻量高效路线。

但在这场轻量模型竞赛中,很多厂商的思路是削减参数、压缩成本、牺牲部分能力。阶跃星辰则不同,它不把 Flash 模型当旗舰平替,而是专门为 Agent 工作流重新设计一款模型。

继 Step 3.5 Flash 后,阶跃星辰最近又推出新一代高效率 Flash 开源模型 ——Step 3.7 Flash

该模型最大特点就是(模)、(速)、(用)、(钱)。总参数 196B,采用稀疏 MoE 架构,推理激活参数仅 11B,配备 1.88B ViT 视觉编码器,推理速度最高 400 TPS,支持 256K 上下文。

作为一款面向真实 Agent 工作流设计的高效率模型,它具备原生多模态理解能力,并打通了搜索、工具调用、GUI 感知、代码生成等完整 Agent Loop 执行能力。

从 benchmark 来看,Step 3.7 Flash 没有明显短板。在通用 Agent 能力上,ClawEval-1.1 以 67.1% 拿下参测模型第二,Toolathlon、GPDval、HLE w. Tool 三项也均处于领先梯队;Agentic Coding 方向,SWE-PRO 达到 56.3、Terminal-Bench v2.1 达到 59.5;多模态方向则是 SimpleVQA(search)以 79.2 位居榜首,V*(python)以 95.3 排在第三。



柱状图中左一为 Step 3.7 Flash、左二为 Step 3.5 Flash(Multimodal 除外)

接下来,我们就将 Step 3.7 Flash 放进真实的工作场景测评下。

原生多模态:它能「看懂」任务现场吗?

先来试试原生多模态能力。

为了压缩成本削减参数,有些轻量模型最先被牺牲的往往是多模态能力。

而在真实任务里,大量输入根本不是干净的结构化文本,还包括 GUI 截图、扫描文档、网页内容,Agent 要进入这些场景,视觉理解是绕不开的前提。

Step 3.7 Flash 新增多模图像理解、识别、推理、感知,可处理复杂视觉信息,并在跨模态上下文中进行联合推理。

比如让它分析 Pinterest 界面帖子的设计特点,它不仅能识别 UI 元素,还能理解应用界面的内容结构、设计逻辑与信息组织方式。



再比如框选驾驶舱界面,让它生成起飞操作说明。

模型需要同时识别大量专业仪表、按钮与状态信息,并理解「如何起飞」背后的操作逻辑,什么时候推油门、何时收起起落架等。

相比传统多模态模型的描述画面, Step 3.7 Flash 完成的是「环境感知 → 状态理解 → 任务推理 → 操作指导」的完整闭环。



在处理视觉任务时,常规做法是把大量视觉常识和感知能力硬塞进模型权重,但对 11B 激活量级的 Flash 模型来说,这条路天然受限。阶跃选择在权重里只留最核心的推理引擎,把感知边界推到推理阶段动态解决。

具体而言,模型可在推理中途自主对图像进行裁切、缩放和重读,告别「一眼定生死」的单步感知局限,当任务超出自身视觉常识边界时,还能主动发起检索、交叉验证。「重新看」和「去查证」在同一个推理循环内自主闭环,能力上限不再受任何单点工具约束。

Deep Research:快速检索,结构化交付

在 Deep Research 测评中,我们让 Step 3.7 Flash 围绕「2026 年第一季度中国新能源汽车市场」这一主题,检索 3-5 个高可信度来源,对比比亚迪、特斯拉、理想、小鹏四个品牌的市场表现,生成一份结构化调研简报。

模型快速完成检索和信息整合,从销量数据、价格区间、主要优缺点以及购车建议等方面进行结构化输出。



在 Step 3.7 Flash 的工作方式里,搜索真正进入了推理循环本身,不再是外挂的辅助工具。

它能在推理中途主动判断「当前信息是否足够」,不足则自主发起新一轮检索,检索回来再判断是否可信,再决定下一步怎么做。这种「搜 - 理解 - 再搜 - 验证 - 再推理」的循环,让模型在任务执行过程中能持续锚定真实世界的信息。

多 Agent 并行:400 TPS 能承载多少并发?

下面这个场景则是多个 Agent 并行推理测试。

40 个不同身份的虚拟角色扮演产品评测团,对一个产品问题进行并行判断,然后实时汇总它们对 5 个 MVP 方向的偏好。

这群虚拟专家可以同时分析,分工执行,最终给出更稳健、更可解释的结果。



对于需要大量并发推理的 Agent 场景,模型推理速度直接决定整个工作流能跑多快、能承载多少并行任务。

此外,模型还能依托精准推理能力和丰富知识储备,快速构建结构清晰、关联明确的知识图谱。



GUI 操控:从「理解界面」到「操作设备」

Step 3.7 Flash 在 GUI 理解能力不仅限于多模态识别和规划,作为一个基座模型,已经具备实时操作设备的能力。

我们找来一台安卓测试机,不做任何额外的模型微调或本地推理配置,直接以 Step 3.7 Flash 作为决策大脑,看它在真实手机上能做到什么程度。

注:本次测试采用小米手机,使用小米互联服务「妙享桌面」同步至电脑录屏,敏感信息马赛克处理。

第一关:信息汇总。模型顺利完成,基本流畅:

「帮我看看微博文娱热搜上有哪些内容,总结一下给我」。



视频开启倍速

第二关:出行规划。任务涉及多个条件判断和跨 App 操作:

我明天早上 9 点要到「北京国贸大厦」开会。帮我查一下明天早上的天气, 如果下雨就帮我叫一个网约车(不用真的下单,截图到确认页面即可),如果不下雨就查一下地铁路线。打车和查线路均使用百度地图。最后,把天气情况、出行方案和预计出发时间整理成文字输入到笔记中。



视频开启倍速

Step 3.7 Flash 在复杂逻辑的 GUI 操作中表现游刃有余,甚至能理解地图导航中查看地铁线路的细节,最终成功从多个 App 采集信息,整理进备忘录。

第三关:社媒 + 电商跨平台任务

我想了解一下最近新出的降噪耳机。帮我在小红书上搜「2026 降噪耳机推荐」,找 3 篇点赞超过 300 的笔记,提取每篇推荐的型号、价格区间和博主提到的优缺点,找到最合适的一款帮我在京东购买。



视频开启倍速

社交媒体内容多样、电商平台 UI 结构复杂、逻辑判断难度高,但最终结果超出预期,全程只有电商平台的安全验证环节需要真人配合操作,其余一切流畅执行。

Agent 时代,Flash 模型不是旗舰版平替

过去,Flash 模型常被视为旗舰模型的「轻量替代品」,用在不那么重要的场景,或作为成本兜底选项。

这个认知正在被打破。

随着推理、规划、工具调用、长上下文和环境反馈能力持续增强,模型越来越多地承担起任务拆解、工具选择、执行反馈和结果修正等 Agent 核心环节。

Flash 模型由此成了专为高频、多步骤、低延迟的 Agent 工作流优化的独立品类。

当然,这里有一个关键前提,Flash 模型必须足够「能干」,否则省下来的成本会以任务失败率的代价偿还回去。如何在压缩推理成本的同时,不丢掉完成复杂任务的能力,才是 Flash 模型赛道真正的技术分水岭。

阶跃星辰正是沿着这条路线突破的。今年 2 月,Step 3.5 Flash 上线,主打在 Agent 场景实现「更快、更强、更稳」的执行效果,上线两天登顶 OpenRouter Trending 榜,一个月后拿下 OpenClaw 调用量月榜全球第一。

在此基础上,Step 3.7 Flash 进一步迭代,兼顾更多能力的协同效率,并在成本、稳定性与部署形态上进一步满足长期运行的要求。

这正是 Agent 工作流的本质要求。拿着有限预算跑完整条任务链,谁能在每一步调用中少犯错、少超时、少超支,谁才是生产环境的真正赢家。在这个维度上,最好的模型未必是单次推理能力最强的,但一定是能被持续调用、稳定运行、成本可控的

正如阶跃星辰联合创始人、CTO 朱亦博所言:「我们相信未来的大模型应用方式,不是一个超大尺寸的模型解决所有问题。人类社会有不同的任务,我们追求的是许多不同模型的矩阵,Agent 是解决任务的方式。」

而 Step 3.7 Flash 证明,Flash 模型不是旗舰的廉价替代品,它可以有自己的完整能力矩阵,「多快好省」地成为 Agent 时代的主力。

文中视频链接:https://mp.weixin.qq.com/s/fM5f8RdOcffedNLq4QSgnA

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1076万买走张雪35%股份,两年估值暴涨100倍,凯越亏的从来不是钱

1076万买走张雪35%股份,两年估值暴涨100倍,凯越亏的从来不是钱

烈史
2026-05-12 17:55:13
35℃的伦敦、40℃的西班牙...!欧洲热到失控:当地人吐槽不知什么是空调 吹冷风伤身

35℃的伦敦、40℃的西班牙...!欧洲热到失控:当地人吐槽不知什么是空调 吹冷风伤身

快科技
2026-05-29 16:01:30
为了赖掉周星驰8000万,他们亲手葬送了900亿的影视帝国。

为了赖掉周星驰8000万,他们亲手葬送了900亿的影视帝国。

流苏晚晴
2026-05-27 18:41:20
四年一到必须走人,这才是中国最“狠”的铁饭碗

四年一到必须走人,这才是中国最“狠”的铁饭碗

复转这些年
2026-05-26 19:09:41
74年李先念对李德生说:我职位比你低,同意你辞职是毛主席的意见

74年李先念对李德生说:我职位比你低,同意你辞职是毛主席的意见

浩渺青史
2026-05-30 04:25:50
古装剧都是骗人的:真实的古代百姓餐桌,现代人看一眼就想吐

古装剧都是骗人的:真实的古代百姓餐桌,现代人看一眼就想吐

富贵说
2026-04-19 14:52:13
央视怒批,目不识丁,洋相百出,绝望文盲再翻车,冯远征又说对了

央视怒批,目不识丁,洋相百出,绝望文盲再翻车,冯远征又说对了

墨印斋
2026-05-29 13:20:21
我如今已68了,以亲身血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这两件事

我如今已68了,以亲身血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这两件事

心理观察局
2026-05-23 07:00:06
神舟22号成功着陆东风场,中国首次实现航天员“换船返回”

神舟22号成功着陆东风场,中国首次实现航天员“换船返回”

大厂编外实习生
2026-05-29 22:42:53
速去速归,蒙扎降级一个赛季后通过附加赛升回意甲

速去速归,蒙扎降级一个赛季后通过附加赛升回意甲

懂球帝
2026-05-30 04:43:17
马竞怒了!“官宣”签下亚马尔等3巨星回击巴萨:想挖小蜘蛛掏5亿

马竞怒了!“官宣”签下亚马尔等3巨星回击巴萨:想挖小蜘蛛掏5亿

我爱英超
2026-05-30 06:18:44
女演员长相有多重要?给阿嬷的情书南枝一出场,才知啥叫灵气逼人

女演员长相有多重要?给阿嬷的情书南枝一出场,才知啥叫灵气逼人

阿纂看事
2026-05-15 13:17:58
他转行成为空少了!

他转行成为空少了!

奋斗在韩国
2026-05-29 09:49:37
抱团股跌起来才叫真狠:从397到55,多少人死在“末跌期”?

抱团股跌起来才叫真狠:从397到55,多少人死在“末跌期”?

说股鲸
2026-05-29 21:30:03
女裁判不适合执法这种比赛!球员发表歧视言论,法网官方严厉处罚

女裁判不适合执法这种比赛!球员发表歧视言论,法网官方严厉处罚

全景体育V
2026-05-30 05:54:06
正式官宣!巴萨闪电战拿下25岁边锋,亚马尔拉菲尼亚有了新的伙伴

正式官宣!巴萨闪电战拿下25岁边锋,亚马尔拉菲尼亚有了新的伙伴

里芃芃体育
2026-05-30 07:17:27
决赛日大动作!阿森纳放弃 1 亿罗杰斯 4000 万抄底世界顶级边锋

决赛日大动作!阿森纳放弃 1 亿罗杰斯 4000 万抄底世界顶级边锋

澜归序
2026-05-30 05:42:53
比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

阿讯说天下
2026-05-26 13:40:22
小麦“割四赔五”续:博主直播翻车,事情传到外网,牵连整个襄阳

小麦“割四赔五”续:博主直播翻车,事情传到外网,牵连整个襄阳

小鋭有话说
2026-05-27 14:17:45
电车的“免费午餐”结束了:养路费改革的必然与公平

电车的“免费午餐”结束了:养路费改革的必然与公平

民间胡扯老哥
2026-05-30 06:39:32
2026-05-30 08:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13115文章数 142655关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

"莫氏鸡煲"店主老莫:靠流量还清欠债 计划3年后退休

头条要闻

"莫氏鸡煲"店主老莫:靠流量还清欠债 计划3年后退休

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

教育
家居
手机
游戏
公开课

教育要闻

四年级,看似复杂,其实理解了很简单

家居要闻

云栖 舒展如流云

手机要闻

iPhone 18 Pro 或因可变光圈镜头成本大增而再涨价

Sky&Infi领衔参赛!2026 GG全能王赛重磅开启,7月线下决战

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版