网易首页 > 网易号 > 正文 申请入驻

阶跃Step 3.5 Flash :春节 AI 混战杀出的黑马,正在 Agent 时代弯道超车

0
分享至

今年的 AI 圈,有点像 2008 年的智能手机市场,所有人都知道触摸屏是未来,但厂商们都在做「带触摸屏的诺基亚」。

Agent 时代已经来了,这是共识。而怎么做一个好用的 Agent 模型?按照惯性思维,或许还是一样,更多的参数,更深更广的网络结构,还有更大的数据集。


300B 不够就 1T,1T 不够就 10T。仿佛只要把模型做得足够大,Agent 能力就会自然涌现,就像只要把诺基亚的屏幕做得足够大,iPhone 就会自己出现一样。

大参数模型确实带来了更博学的知识面和更稳健的底座,但这种一味在上一代模型上「优化 」的方法,显然不能让我们手里的 Agent 更好用, Agent 时代需要 Agentic 的模型

那有没有一条更高效的、真正颠覆性思维的路线,不靠堆参数,靠架构优化;不需要云端服务器独占,本地也能跑;既是全能选手的同时,又有定向优化。


模型参数规模与智能对比图,Step 3.5 Flash 总参数在图中最少,但智能得分排名第二

2 月 2 日,阶跃星辰发布并开源了最新基座模型 Step 3.5 Flash,这是一个让 Agent 更高效的底层支撑模型,采用稀疏 MoE 架构,总计 1960 亿参数,但每个 token 仅激活约 110 亿个参数。

这是大模型行业里一个十分反常识的数据,在一众卷向万亿参数的竞争对手面前。似乎显得有些「掉队」。然而就是这个看似「掉队」的选择,可能藏着 Agent 时代最大的秘密。

L3 时代的模型,不能再沿着 L1 的梯子爬

如果这放在半年前,阶跃星辰可能还在做着另一件事。

阶跃星辰联合创始人兼 CTO 朱亦博在最新的博客中提到,Step 2 模型时代,他们也曾是 Scaling Law(规模定律)的忠实信徒。和当时所有的模型厂商一样,他们认真地爬着那座名为参数的梯子,设计了比 DeepSeek V3 还要大的参数量,甚至比对方早训练了好几个月。

结果是,虽然跑分一度辉煌,但在 DeepSeek R1 的推理范式面前,传统的堆料逻辑还是遭遇了 降维打击

原因很简单,DeepSeek R1 是一个时代的跨越,从 L1 的 Chatbot 到 L2 的 Reasoner,继续用 Chatbot 的思维去做推理模型,不一定会失败,但注定要碰壁。

这不仅是阶跃星辰的复盘,更是整个行业的缩影。痛定思痛后,他们发现了一个被忽略的真相: L1 时代的 Chatbot(聊天机器人)和 L3 时代的 Agent(智能体),需要的是两种不同的模型


OpenAI 的五级框架,从第一级的聊天机器人,到推理、智能体、创新者和第五级的组织体

按照 OpenAI 的五级架构,我们正在经历从 L2 Reasoner(推理) 迈入 L3 Agent(智能体) 的跨越。

L1 Chatbot 时代 :核心需求是对话流畅度,模型只要能快速响应、自然表达就够了。我们需要的可能是一个会背百科全书的「文科生」,它足够博学,能随口复刻鲁迅风。此时,每秒 20-30 个 token 的输出速度,刚好适配人类的阅读习惯 。

L2 Reasoner 时代 :长思维链出现,我们需要模型展现完整的深度思考。看着长长的思考过程,我们觉得它聪明,甚至愿意为了更准确的结果等待数十秒 。


L3 Agent 时代 :特征彻底变了。工作场景的上下文常驻 32K-128K 区间,我们不再逐字阅读输出,只盯着「什么时候能交付结果」。

在这种场景下,继续沿用 L2 时代的重型参数模型,打个比方可以说是,带着鳌太线的装备去爬佘山「沪太线」,虽然储备充足,但效率变低,且算力代价极其昂贵 。

Agent 在某种程度上,甚至可以说不再是给用户看的,而是给任务用的。它需要长上下文的高效运行,能轻松处理几十万 token 的代码库;以及速度的提升,这能直接决定用户体验;而核心还是规划和工具调用。

如果继续用 L1 时代的重型模型去跑 L3 的任务,就像开着法拉利去送外卖——不仅贵,而且在拥堵的「长上下文」路况里,根本跑不起来。

这也解释了为什么阶跃敢于反其道而行,掏出 Step 3.5 Flash这个「新物种」,专注于「快」与「强逻辑」。这种取舍乍看之下与行业格格不入,却有了更多的可能性。

天下武功,唯快不破:Agent 时代的「暴力美学」

Agent 时代,「快」不再是一种锦上添花,直接是模型生死线。

朱亦博指出了一个极易被忽视的细节,在 Chatbot 时代,模型输出只要快过人类阅读速度(20-30 tokens/s)就够了,再快我们也读不过来。 但在 Agent 时代,这个标准完全失效

为什么?因为用户根本不想看过程。当 AI 帮我们写代码、查资料、订机票时,我们不会盯着屏幕看它一个字一个字往外蹦,我们只想要结果。

在这个阶段,速度不再是体验,而是生产力本身,直接决定了任务交付的效率。

为了实现这种极致的「快」,阶跃星辰在技术路线上做了一次豪赌。


Step 3.5 Flash 整体架构,Step 3.5 Flash 是一款采用稀疏混合专家(MoE)架构的大语言模型,其架构由模型-系统协同设计定义,并且将 推理成本和速度作为核心架构 约束。

在同行都在盲目跟风 Linear Attention(线性注意力机制)时,Step 3.5 Flash 坚持选择了 SWA(滑动窗口注意力) 架构。这种混合注意力布局,一方面能更快的处理 Token 计算,另一方面也解决了长上下文处理的二次瓶颈。

简单来说,它不是死记硬背 256K 的全文,而是像人类一样,有重点、有节奏地分配注意力。这让它在处理海量数据时,不仅不降智,还能大幅降低算力开销。

看起来是一种「逆行」, 其实正是 Agent 时代「以巧见大」的精算 。因为在当前的硬件条件下,SWA 对投机采样(Speculative Sampling)最为友好。这种技术上的取舍,直接将单请求代码类任务的推理速度干到了最高 350 tokens/s

快如闪电的「瞬杀」,是直接将 AI 从「玩具」变成生产力工具的 决定性瞬间在 Step 3.5 Flash 发布首日,就登上 OpenRouter Fastest Models 榜单


根据 OpenRouter 最新发布的 Fastest Models 排名显示, Step 3.5 Flash 的生成速率达到 167 Tokens/s,位列全球最快模型之列。

拒绝「背题家」,高智商才是第一生产力

跑得快不能以「降智」为代价,衡量一个模型适不适合做 Agent,「 高智商 」也是必不可少。

无论是我们用户还是大多数模型厂,普遍的共识都是:参数越大,能力越强。但 Step 3.5 Flash 在数学领域的屠榜表现,用 合适尺寸 + 极致后训练 ,也得到了不输大参数模型的效果。


在 AIME 2025(美国数学邀请赛)中,它拿下了 97.3 分;

在 IMOAnswerBench(国际数学奥林匹克题基准)中斩获 85.4 分;

在 HMMT 2025(哈佛 - 麻省理工数学竞赛)中更是飙到了 96.2 分。

这是什么概念?这些分数均为国内顶级开源模型第一。

如果开启并行协同推理(PaCoRe)模式,它的得分甚至逼近满分。这种「智商溢出」的现象背后,藏着一个极其隐晦但精准的行业真相: 过去的模型像是个「背题家」,靠死记硬背海量数据来蒙混过关;而 Step 3.5 Flash 是个真正的「解题家」。


PaCoRe(Parallel Coordinated Reasoning)的推理流程。每一轮启动广泛的并行探索,将生成的轨迹压缩成紧凑的信息,并将这些信息与问题一起传递,以协调下一轮。重复此过程 ˆ 次,可在遵守固定上下文限制的同时,实现数百万标记的有效 TTC(测试时计算),最终压缩的信息作为系统的答案。

在 Agent 的工作流中,这种能力是致命的。因为真实世界的任务充满了未知,我们要的不是一个只会复读知识点的鹦鹉,而是一个能看懂复杂指令、能拆解任务逻辑、能自我纠错的「超级大脑」。

推理能力证明了智商在线,但 Agent 还需要干活靠谱。Step 3.5 Flash 在多个关键场景拿到了国内开源第一。

代码能力:全球第一梯队


SWE-bench Verified: 74.4 分(真实开源项目的 bug 修复)

Terminal-Bench 2.0: 51 分(国内开源第一,终端任务自动化)

LiveCodeBench-V6: 86.4/88.9 分(国内开源第一,实时编码调试)

Agent 核心能力:多项国内开源第一


τ²-Bench: 88.2 分(国内开源第一,多步任务规划)

xbench-DeepSearch: 54 分(国内开源第一,深度搜索与信息整合)

BrowseComp: 69 分(第一梯队,网页浏览与上下文管理)

数据再漂亮,也得经得起真实场景的检验 。在下面这几个典型场景中,Step 3.5 Flash 也验证了「以巧见大,快如闪电」不是口号。

普遍常识里,用 Deep Research 写分析报告,可能会觉得需要模型有引经据典的文采,但实际上还是依赖强大的逻辑推理和工具调用能力。

给它一个模糊的课题,比如「0-3 岁婴幼儿科学教育」,它不会直接胡编乱造,而是像一个真正的人类研究员一样,拆解任务、规划路径、联网搜索、反思修正,然后交给我们一份内容翔实、新手父母都能看懂的万字报告。


在 Scale AI 的 Research Rubrics 评测中,它的得分甚至压过了 OpenAI 和 Gemini 的同类系统。这也进一步说明,它已经具备了独立干活的「逻辑闭环」。


Step 3.5 Flash 同样能接入 Claude Code 环境,当要模型担任一名专业数据分析师,面对复杂的数据分析任务时,它不仅能自己写代码清洗数据、协助日常数据流程、对齐数据格式,还能直接产出工作流报告。

无论是做 Deep Research 还是 Vibe Coding 项目,这些要么在阶跃的官网完成,要么就是调用 API 的方式,但 Step 3.5 Flash 的野心远不止于从云端服务器拉取 AI 能力。

朱亦博透露,为了跑模型,他甚至自掏腰包买了一台设备。现在,Step 3.5 Flash 是目前能用 4-bit 量化,在 128GB 内存的 MacBook 上流畅运行 256K 超长上下文的最强模型, 没有之一

这句没有之一,确实凸显了技术人的倔强。或许,这也暗示了阶跃星辰「AI + 终端」的终极图谋: 最强的大脑,不应该只活在昂贵的 H100 集群里,它应该活在你的电脑里,甚至未来的手机里

当其他厂商还在卷融资、卷估值时,阶跃星辰已经默默地把高性能 Agent 的成本门槛,再一次降低。这正印证了那句战略预判:大模型竞争的「表演赛」已经结束,行业正式步入决定生死的「淘汰赛」。

春节 AI 大战里,又一匹搅动大模型格局的黑马

在最近喧嚣的 AI 发布混战中,Step 3.5 Flash 这匹黑马肯定其实有些被过于低估了,它不只是一个「高性价比」的模型,反而有点像一年前 DeepSeek 的突然出现,给 AI 行业趟出了一条新路:

在算力并不是无限的现实世界里,谁能用更精巧的架构、更少的资源解决更复杂的问题,谁才是真正的赢家。

那个靠堆参数就能骗到融资、靠刷榜单就能获得掌声的「草莽时代」已经一去不复返。 接下来的战争,属于那些不仅「脑子好使」,而且「手脚麻利」的物种。

这种对「小型化、高效率」的坚持,本质上源于阶跃星辰对 AGI 使命的执着。朱亦博曾感慨,坚持训练基模的意义,除了商业优势,就是为了那份 「一直以来的 AGI 梦想」。

对阶跃星辰来说,通往 AGI 的路径不是靠赌一把大的,而是靠前瞻性的方法论,和对时代需求的精准判断。正如阶跃星辰新任董事长印奇在采访中所谈到的,「做好基模、探索整个智能的上限是阶跃的使命。」

从 Step 1 到 Step 3.5,从多模态到语音,从云端到终端,AI 与物理空间的结合、与终端硬件的深度布局,都是阶跃星辰走向最终 AGI 的必经之路。


当 AI 能力真正「飞入寻常百姓家」,技术竞赛的终点也不再是算力军备竞赛,AI 开始更好地服务我们,每个人,中小企业、个人开发者、学生都能低成本,用得起顶级 Agent 能力,AGI 才不只是巨头的游戏。

以巧见大,快如闪电 。 这是 Step 3.5 Flash 给出的答案,也是阶跃星辰对 AGI 使命的又一次靠近。

那些坚持梦想的人,终会走出自己的路。而这条路,已经越来越清晰。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
铜价一夜崩塌,你还安全吗?

铜价一夜崩塌,你还安全吗?

流苏晚晴
2026-02-07 17:04:05
瓜迪奥拉:我现在觉得联赛追不上并非毫无原因,这或许能预料

瓜迪奥拉:我现在觉得联赛追不上并非毫无原因,这或许能预料

懂球帝
2026-02-08 08:01:07
004航母全力冲刺,4艘航母摆开,西太收入囊中,瘫痪美军最后优势

004航母全力冲刺,4艘航母摆开,西太收入囊中,瘫痪美军最后优势

东方点兵
2026-02-06 18:45:02
英国上将揭露,当年“香港”回归真相:谁敢抗衡中国解放军?

英国上将揭露,当年“香港”回归真相:谁敢抗衡中国解放军?

终于在眼泪中明白
2026-02-07 08:36:49
恶心到家!美日选春节搞军演,算盘打得响,可惜打错了

恶心到家!美日选春节搞军演,算盘打得响,可惜打错了

赵昉是个热血青年
2026-02-08 11:44:00
金灿荣:美国用巴拿马给中国上了残酷一课,它在逼我们下狠手

金灿荣:美国用巴拿马给中国上了残酷一课,它在逼我们下狠手

许穋很机智
2026-02-08 00:40:30
演员立威廉:身心几近崩溃,已重新安排遗嘱!去年被诊断出甲状腺癌二期

演员立威廉:身心几近崩溃,已重新安排遗嘱!去年被诊断出甲状腺癌二期

都市快报橙柿互动
2026-02-07 00:32:47
林诗栋为何被日本球员淘汰?刘国正点评一针见血,王皓这次被冤枉

林诗栋为何被日本球员淘汰?刘国正点评一针见血,王皓这次被冤枉

体育大学僧
2026-02-08 11:33:51
“00后”陈某某被押赴刑场 执行死刑

“00后”陈某某被押赴刑场 执行死刑

闪电新闻
2026-02-07 16:53:35
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
农民收入上涨,人均24456元言论翻车,专家喊话种芹菜赚200万!

农民收入上涨,人均24456元言论翻车,专家喊话种芹菜赚200万!

你食不食油饼
2026-02-04 21:39:44
放进冰箱变毒药,这7种食物千万不能放在冰箱里!尤其是第六种!

放进冰箱变毒药,这7种食物千万不能放在冰箱里!尤其是第六种!

路医生健康科普
2026-02-06 16:16:28
两个圈内公认高情商好人缘的人,唯独和合作过的对方老死不相往来

两个圈内公认高情商好人缘的人,唯独和合作过的对方老死不相往来

一盅情怀
2026-02-07 15:43:16
官方:因对球员未及时上场致开球延迟,皇马&本菲卡被罚4万欧

官方:因对球员未及时上场致开球延迟,皇马&本菲卡被罚4万欧

懂球帝
2026-02-07 11:49:26
韩媒:中国男足最近已3次击败乌兹别克,中国足球正蓬勃发展!

韩媒:中国男足最近已3次击败乌兹别克,中国足球正蓬勃发展!

邱泽云
2026-02-07 16:15:24
江苏永不倒闭的5大央国企,铁饭碗中的金饭碗

江苏永不倒闭的5大央国企,铁饭碗中的金饭碗

前沿天地
2026-02-07 20:31:52
王晶曝李兆基离婚内幕,信息量大,句句不提李连杰,却字字提醒他

王晶曝李兆基离婚内幕,信息量大,句句不提李连杰,却字字提醒他

社会日日鲜
2026-02-06 06:15:13
林徽因为什么不能黑?抛开她建筑家身份,再看看他弟弟是谁!

林徽因为什么不能黑?抛开她建筑家身份,再看看他弟弟是谁!

混沌录
2026-02-06 22:39:02
火箭逆转雷霆,新星闪耀,数据证明非杜兰特立大功

火箭逆转雷霆,新星闪耀,数据证明非杜兰特立大功

小犙拍客在北漂
2026-02-08 07:25:51
完胜!老詹20+10新援爆发,格林9+6库里兴奋庆祝,里夫斯16分7罚

完胜!老詹20+10新援爆发,格林9+6库里兴奋庆祝,里夫斯16分7罚

鱼崖大话篮球
2026-02-08 12:10:13
2026-02-08 13:04:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6084文章数 26765关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

男子办婚礼41天后车祸离世留数百万 女方:没领证被赶走

头条要闻

男子办婚礼41天后车祸离世留数百万 女方:没领证被赶走

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

曝带女星回老家小区,罗云熙紧急回应

财经要闻

金银震荡144小时 大爷大妈排队「抄底」

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

家居
时尚
亲子
数码
手机

家居要闻

现代轻奢 温馨治愈系

真爱大牌|| 过年5分钟搞定好气色,用了一整年才来分享

亲子要闻

外婆为了让宝宝穿罩衣拿舅舅现场示范

数码要闻

2026年苹果新款mac消息汇总:有“革命性”产品 年底问世

手机要闻

荣耀MagicPad 3 Pro极客中心要来了:性能自由调节 榨干第五代骁龙8至尊版

无障碍浏览 进入关怀版