阶跃Step 3.5 Flash ：春节 AI 混战杀出的黑马，正在 Agent 时代弯道超车|智能体|新论文|agent|flash

分享至

今年的 AI 圈，有点像 2008 年的智能手机市场，所有人都知道触摸屏是未来，但厂商们都在做「带触摸屏的诺基亚」。

Agent 时代已经来了，这是共识。而怎么做一个好用的 Agent 模型？按照惯性思维，或许还是一样，更多的参数，更深更广的网络结构，还有更大的数据集。

300B 不够就 1T，1T 不够就 10T。仿佛只要把模型做得足够大，Agent 能力就会自然涌现，就像只要把诺基亚的屏幕做得足够大，iPhone 就会自己出现一样。

大参数模型确实带来了更博学的知识面和更稳健的底座，但这种一味在上一代模型上「优化」的方法，显然不能让我们手里的 Agent 更好用， Agent 时代需要 Agentic 的模型 。

那有没有一条更高效的、真正颠覆性思维的路线，不靠堆参数，靠架构优化；不需要云端服务器独占，本地也能跑；既是全能选手的同时，又有定向优化。

模型参数规模与智能对比图，Step 3.5 Flash 总参数在图中最少，但智能得分排名第二

2 月 2 日，阶跃星辰发布并开源了最新基座模型 Step 3.5 Flash，这是一个让 Agent 更高效的底层支撑模型，采用稀疏 MoE 架构，总计 1960 亿参数，但每个 token 仅激活约 110 亿个参数。

这是大模型行业里一个十分反常识的数据，在一众卷向万亿参数的竞争对手面前。似乎显得有些「掉队」。然而就是这个看似「掉队」的选择，可能藏着 Agent 时代最大的秘密。

L3 时代的模型，不能再沿着 L1 的梯子爬

如果这放在半年前，阶跃星辰可能还在做着另一件事。

阶跃星辰联合创始人兼 CTO 朱亦博在最新的博客中提到，Step 2 模型时代，他们也曾是 Scaling Law（规模定律）的忠实信徒。和当时所有的模型厂商一样，他们认真地爬着那座名为参数的梯子，设计了比 DeepSeek V3 还要大的参数量，甚至比对方早训练了好几个月。

结果是，虽然跑分一度辉煌，但在 DeepSeek R1 的推理范式面前，传统的堆料逻辑还是遭遇了 降维打击 。

原因很简单，DeepSeek R1 是一个时代的跨越，从 L1 的 Chatbot 到 L2 的 Reasoner，继续用 Chatbot 的思维去做推理模型，不一定会失败，但注定要碰壁。

这不仅是阶跃星辰的复盘，更是整个行业的缩影。痛定思痛后，他们发现了一个被忽略的真相： L1 时代的 Chatbot（聊天机器人）和 L3 时代的 Agent（智能体），需要的是两种不同的模型 。

OpenAI 的五级框架，从第一级的聊天机器人，到推理、智能体、创新者和第五级的组织体

按照 OpenAI 的五级架构，我们正在经历从 L2 Reasoner（推理）迈入 L3 Agent（智能体）的跨越。

L1 Chatbot 时代 ：核心需求是对话流畅度，模型只要能快速响应、自然表达就够了。我们需要的可能是一个会背百科全书的「文科生」，它足够博学，能随口复刻鲁迅风。此时，每秒 20-30 个 token 的输出速度，刚好适配人类的阅读习惯。

L2 Reasoner 时代 ：长思维链出现，我们需要模型展现完整的深度思考。看着长长的思考过程，我们觉得它聪明，甚至愿意为了更准确的结果等待数十秒。

L3 Agent 时代 ：特征彻底变了。工作场景的上下文常驻 32K-128K 区间，我们不再逐字阅读输出，只盯着「什么时候能交付结果」。

在这种场景下，继续沿用 L2 时代的重型参数模型，打个比方可以说是，带着鳌太线的装备去爬佘山「沪太线」，虽然储备充足，但效率变低，且算力代价极其昂贵。

Agent 在某种程度上，甚至可以说不再是给用户看的，而是给任务用的。它需要长上下文的高效运行，能轻松处理几十万 token 的代码库；以及速度的提升，这能直接决定用户体验；而核心还是规划和工具调用。

如果继续用 L1 时代的重型模型去跑 L3 的任务，就像开着法拉利去送外卖——不仅贵，而且在拥堵的「长上下文」路况里，根本跑不起来。

这也解释了为什么阶跃敢于反其道而行，掏出 Step 3.5 Flash这个「新物种」，专注于「快」与「强逻辑」。这种取舍乍看之下与行业格格不入，却有了更多的可能性。

天下武功，唯快不破：Agent 时代的「暴力美学」

Agent 时代，「快」不再是一种锦上添花，直接是模型生死线。

朱亦博指出了一个极易被忽视的细节，在 Chatbot 时代，模型输出只要快过人类阅读速度（20-30 tokens/s）就够了，再快我们也读不过来。 但在 Agent 时代，这个标准完全失效 。

为什么？因为用户根本不想看过程。当 AI 帮我们写代码、查资料、订机票时，我们不会盯着屏幕看它一个字一个字往外蹦，我们只想要结果。

在这个阶段，速度不再是体验，而是生产力本身，直接决定了任务交付的效率。

为了实现这种极致的「快」，阶跃星辰在技术路线上做了一次豪赌。

Step 3.5 Flash 整体架构，Step 3.5 Flash 是一款采用稀疏混合专家（MoE）架构的大语言模型，其架构由模型-系统协同设计定义，并且将 推理成本和速度作为核心架构 约束。

在同行都在盲目跟风 Linear Attention（线性注意力机制）时，Step 3.5 Flash 坚持选择了 SWA（滑动窗口注意力） 架构。这种混合注意力布局，一方面能更快的处理 Token 计算，另一方面也解决了长上下文处理的二次瓶颈。

简单来说，它不是死记硬背 256K 的全文，而是像人类一样，有重点、有节奏地分配注意力。这让它在处理海量数据时，不仅不降智，还能大幅降低算力开销。

看起来是一种「逆行」， 其实正是 Agent 时代「以巧见大」的精算 。因为在当前的硬件条件下，SWA 对投机采样（Speculative Sampling）最为友好。这种技术上的取舍，直接将单请求代码类任务的推理速度干到了最高 350 tokens/s 。

快如闪电的「瞬杀」，是直接将 AI 从「玩具」变成生产力工具的 决定性瞬间 。 在 Step 3.5 Flash 发布首日，就登上 OpenRouter Fastest Models 榜单 。

根据 OpenRouter 最新发布的 Fastest Models 排名显示， Step 3.5 Flash 的生成速率达到 167 Tokens/s，位列全球最快模型之列。

拒绝「背题家」，高智商才是第一生产力

跑得快不能以「降智」为代价，衡量一个模型适不适合做 Agent，「 高智商 」也是必不可少。

无论是我们用户还是大多数模型厂，普遍的共识都是：参数越大，能力越强。但 Step 3.5 Flash 在数学领域的屠榜表现，用 合适尺寸 + 极致后训练 ，也得到了不输大参数模型的效果。

在 AIME 2025（美国数学邀请赛）中，它拿下了 97.3 分；

在 IMOAnswerBench（国际数学奥林匹克题基准）中斩获 85.4 分；

在 HMMT 2025（哈佛 - 麻省理工数学竞赛）中更是飙到了 96.2 分。

这是什么概念？这些分数均为国内顶级开源模型第一。

如果开启并行协同推理（PaCoRe）模式，它的得分甚至逼近满分。这种「智商溢出」的现象背后，藏着一个极其隐晦但精准的行业真相： 过去的模型像是个「背题家」，靠死记硬背海量数据来蒙混过关；而 Step 3.5 Flash 是个真正的「解题家」。

PaCoRe（Parallel Coordinated Reasoning）的推理流程。每一轮启动广泛的并行探索，将生成的轨迹压缩成紧凑的信息，并将这些信息与问题一起传递，以协调下一轮。重复此过程 ˆ 次，可在遵守固定上下文限制的同时，实现数百万标记的有效 TTC（测试时计算），最终压缩的信息作为系统的答案。

在 Agent 的工作流中，这种能力是致命的。因为真实世界的任务充满了未知，我们要的不是一个只会复读知识点的鹦鹉，而是一个能看懂复杂指令、能拆解任务逻辑、能自我纠错的「超级大脑」。

推理能力证明了智商在线，但 Agent 还需要干活靠谱。Step 3.5 Flash 在多个关键场景拿到了国内开源第一。

代码能力：全球第一梯队

SWE-bench Verified: 74.4 分（真实开源项目的 bug 修复）

Terminal-Bench 2.0: 51 分（国内开源第一，终端任务自动化）

LiveCodeBench-V6: 86.4/88.9 分（国内开源第一，实时编码调试）

Agent 核心能力：多项国内开源第一

τ²-Bench: 88.2 分（国内开源第一，多步任务规划）

xbench-DeepSearch: 54 分（国内开源第一，深度搜索与信息整合）

BrowseComp: 69 分（第一梯队，网页浏览与上下文管理）

数据再漂亮，也得经得起真实场景的检验 。在下面这几个典型场景中，Step 3.5 Flash 也验证了「以巧见大，快如闪电」不是口号。

普遍常识里，用 Deep Research 写分析报告，可能会觉得需要模型有引经据典的文采，但实际上还是依赖强大的逻辑推理和工具调用能力。

给它一个模糊的课题，比如「0-3 岁婴幼儿科学教育」，它不会直接胡编乱造，而是像一个真正的人类研究员一样，拆解任务、规划路径、联网搜索、反思修正，然后交给我们一份内容翔实、新手父母都能看懂的万字报告。

在 Scale AI 的 Research Rubrics 评测中，它的得分甚至压过了 OpenAI 和 Gemini 的同类系统。这也进一步说明，它已经具备了独立干活的「逻辑闭环」。

Step 3.5 Flash 同样能接入 Claude Code 环境，当要模型担任一名专业数据分析师，面对复杂的数据分析任务时，它不仅能自己写代码清洗数据、协助日常数据流程、对齐数据格式，还能直接产出工作流报告。

无论是做 Deep Research 还是 Vibe Coding 项目，这些要么在阶跃的官网完成，要么就是调用 API 的方式，但 Step 3.5 Flash 的野心远不止于从云端服务器拉取 AI 能力。

朱亦博透露，为了跑模型，他甚至自掏腰包买了一台设备。现在，Step 3.5 Flash 是目前能用 4-bit 量化，在 128GB 内存的 MacBook 上流畅运行 256K 超长上下文的最强模型， 没有之一 。

这句没有之一，确实凸显了技术人的倔强。或许，这也暗示了阶跃星辰「AI + 终端」的终极图谋： 最强的大脑，不应该只活在昂贵的 H100 集群里，它应该活在你的电脑里，甚至未来的手机里 。

当其他厂商还在卷融资、卷估值时，阶跃星辰已经默默地把高性能 Agent 的成本门槛，再一次降低。这正印证了那句战略预判：大模型竞争的「表演赛」已经结束，行业正式步入决定生死的「淘汰赛」。

春节 AI 大战里，又一匹搅动大模型格局的黑马

在最近喧嚣的 AI 发布混战中，Step 3.5 Flash 这匹黑马肯定其实有些被过于低估了，它不只是一个「高性价比」的模型，反而有点像一年前 DeepSeek 的突然出现，给 AI 行业趟出了一条新路：

在算力并不是无限的现实世界里，谁能用更精巧的架构、更少的资源解决更复杂的问题，谁才是真正的赢家。

那个靠堆参数就能骗到融资、靠刷榜单就能获得掌声的「草莽时代」已经一去不复返。 接下来的战争，属于那些不仅「脑子好使」，而且「手脚麻利」的物种。

这种对「小型化、高效率」的坚持，本质上源于阶跃星辰对 AGI 使命的执着。朱亦博曾感慨，坚持训练基模的意义，除了商业优势，就是为了那份「一直以来的 AGI 梦想」。

对阶跃星辰来说，通往 AGI 的路径不是靠赌一把大的，而是靠前瞻性的方法论，和对时代需求的精准判断。正如阶跃星辰新任董事长印奇在采访中所谈到的，「做好基模、探索整个智能的上限是阶跃的使命。」

从 Step 1 到 Step 3.5，从多模态到语音，从云端到终端，AI 与物理空间的结合、与终端硬件的深度布局，都是阶跃星辰走向最终 AGI 的必经之路。

当 AI 能力真正「飞入寻常百姓家」，技术竞赛的终点也不再是算力军备竞赛，AI 开始更好地服务我们，每个人，中小企业、个人开发者、学生都能低成本，用得起顶级 Agent 能力，AGI 才不只是巨头的游戏。

以巧见大，快如闪电 。这是 Step 3.5 Flash 给出的答案，也是阶跃星辰对 AGI 使命的又一次靠近。

那些坚持梦想的人，终会走出自己的路。而这条路，已经越来越清晰。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.