网易首页 > 网易号 > 正文 申请入驻

Agent原生模型时代开启!阶跃Step 3.5 Flash上线,2天登顶OpenRouter全球趋势榜

0
分享至


从 chatbot 到 Agent,大模型以「缸中之脑」为起点,正在悄然进化出属于自己的四肢百骸。

但在 Agent 应用狂飙突进的同时,各种安全事故也层出不穷。初具雏形的 Agent 应用,正在急切呼唤一个更聪明、更可靠的「原生大脑」。

爆改基模结构,开启 AI 模型

「Agent 原生」时代

Agent 时代,由于外部工具和任务重试需求等因素的介入,令上下文长度相比 coding、chatbot 等应用场景,迎来了一轮暴涨。同时,用户对即时性也有了更高的要求。相比 chatbot 时代,吐字比阅读速度快的基本诉求,等待 Agent 工具交付结果的时间,必须被进一步压缩。

所以,上一个时代的 Reasoning 模型,已经不能再适应本世代的需求。一个好的 Agent 原生模型,在推理成本、速度和智能水平三个层面,都必须再次迎来进化。

基于此,阶跃星辰新上线的 Step 3.5 Flash,可谓「多快好省」:

为了满足 Agent 时代的诉求,Step 3.5 Flash 从基础模型层面,就采用了十分独特的结构设计。作为一款旗舰级语言推理模型,它并未盲目追逐模型尺寸,而是选择了稀疏混合专家(MoE)架构。总参数量为 1960 亿,每次推理仅激活约 110 亿参数。

同时,Step 3.5 Flash,将传统的 Linear Attention(线性注意力机制),打散为滑动窗口注意力(SWA)+ 全局注意力(Full Attention)3:1 的混合架构。如果要找个比喻的话,这种结构,十分接近推理小说的阅读体验:大部分注意力依旧集中在当前段落附近的文本,但当一个伏笔回收时,几章之前埋下的剧情钩子,仍然能快速的浮现出来。

最后,在模型技术层面,Step 3.5 Flash 还使用了 MTP-3「多 token 并行预测」机制。

如果说传统大模型,是一个词接一个词的“文字接龙”,那么 MTP-3,就像是先打草稿,再深入润色。在 Transformer 主干之后,MTP-3 会附加一个专用的预测网络层,让模型根据当前上下文同时推断多个未来 token 的概率分布。这样的设计,在保证因果一致性的前提下,实现了多 token 的并行推理。

架构精巧,推理速度

可达每秒 350 个 token

多方加持下,Step 3.5 Flash 拥有了高达 256K 的超长上下文,和十分夸张的推理速度。在单请求代码类任务上,Step 3.5 Flash 最高推理速度可达每秒 350 个 token,确保了复杂 Agent 任务的低延迟响应。

和它的名字一样,「快」,是 Step 3.5 Flash 最显著的特点。但速度不能以牺牲智力为代价。在推理速度狂飙突进的同时,它的逻辑能力,同样不容小觑。

在例行刷榜环节当中,Step 3.5 Flash 拿下了 AIME 2025(美国数学邀请赛)97.3 分; IMOAnswerBench(国际奥林匹克数学基准测试)85.4 分;HMMT 2025(哈佛 - 麻省理工数学竞赛) 96.2 分的好成绩。

与国内顶级开源模型相比,上述项目得分,Step 3.5 Flash 均为第一。

缩放定律似乎暗示我们,模型的能力,直接和尺寸挂钩。但 Step 3.5 Flash 用事实证明,合适尺寸 + 充分的后训练,完全可以兼顾速度与效率,得到一个精致、且有强逻辑内核的大模型。

抛弃「规模迷信」的背后,是阶跃星辰对大模型的独特理解:模型应该凝缩「逻辑」,而非用超大规模,简单地对文本模式死记硬背。

「高智商」,才是硬道理

这种认知的回报,在真实世界的任务当中体现的尤为明显:coding 榜单当中,Step 3.5 Flash 拿下了 Terminal-Bench 2.0(终端任务自动化),和 LiveCodeBench-V6(实时编码调试)国内开源第一的好成绩,整体测试水平属于全球第一梯队。

Agent 相关的测试项目更是手到擒来:τ²-Bench(多步任务规划)88.2 分 ;xbench-DeepSearch(深度搜索与信息整合)54 分,均为国内开源模型第一。BrowseComp(网页浏览与上下文管理) 69 分,实现了对海外御三家模型的成功反超。

更大的认可,来自 AI 社群:在真实世界任务中,Step 3.5 Flash 以高达 167 Tokens/s 的推理速度,发布首日,即进入全球知名 AI 模型聚合平台 OpenRouter “Fastest Models”速度榜前列。


发布 2 天,登顶 OpenRouter 全球趋势榜(Trending)榜单。


作为汇聚了 OpenAI、Anthropic、Google 等主流模型的 API 平台,OpenRouter 的全球趋势榜单,实时反映着开发者在实际应用中的模型偏好与付费选择。此次登顶,意味着 Step 3.5 Flash 在真实任务当中的表现,已收获了全球 AI 开发者的积极认可。

Reddit、X 等平台上也有不少用户,对 Step 3.5 Flash 的表现给出了很高的评价:多语言混用时切换自然,很少出现同尺寸模型身上常见的「夹杂」情况;行事稳定可靠,幻觉率极低,且对自身的能力边界有着清晰的认知,不会为了强行接话而编造答案。




而这一切,都发生在一台 128G 内存、M3 Max 芯片的 mac 电脑上。

本地 Agent,从此平权

据社区反馈,借助 llama.cpp,Step 3.5 Flash 在 mac 平台上的推理速度极佳。平均速度 35 tokens/ 秒,约为该平台理论最大效率的 70%。

某种程度上,这是阶跃星辰 CTO 朱亦博「私心」的结果:他希望这个模型,能支持 4-bit 量化后,运行在 128GB 内存的 MacBook 上。

但 Step 3.5 Flash 最终发布时的支持范围远不止于此:云服务层面,包括华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥等在内的多家芯片厂商,均已率先完成了对 Step 3.5 Flash 的适配工作。同时,经过 4-bit 量化以后,Step 3.5 Flash 也支持在 NVIDIA DGX Spark、Apple M3/M4 Max 以及 AMD AI Max+ 395 等主流个人 AI 终端上,进行本地部署——同时依然保持着 256K context 的超长上下文能力。

朱亦博在博客文章里不无自豪地表示,这是你在 128GB 内存的 Macbook 和 DGX Spark 上,用 4-bit 畅快跑 256K context 的最强模型,没有之一。

AI 模型的又一个「中国时刻」?

在过去的一年中,来自中国的开源模型,用更低的获取门槛、推理成本和打平的性能,一举击碎了“超大规模 + 闭源 = 先进”的行业迷信,无数 AI 应用因此涌现,也将大模型竞争,重新拉回了效率与架构创新的主航道。

现在,国内几家 AI 公司动作频频、传闻不断,今年大模型领域的「春节档」,注定热闹非常。而最近发布的 Step 3.5 Flash,或许正悄然复刻又一个 AI 领域的「中国时刻」——高性能、低门槛、新范式。只是这一次,范式转移的焦点,从“推理模型”转向了更具颠覆性的“Agent 原生(开源)基座模型”。

当行业还在用稠密模型硬扛 Agent 场景时,它用 1960 亿总参数、仅 110 亿激活参数的精巧架构,同时解决了 Agent 时代的三大死结——超长上下文下的低延迟响应、复杂任务中的高幻觉风险、以及终端设备上的本地化部署。

当海外巨头将 Agent 能力锁死在云端 API 时,Step 3.5 Flash,让 256K 上下文的 Agent 大脑,跑在 128GB 内存的 MacBook 上——这是对 AI 权力结构的重构:Agent 的智能不应被云厂商垄断,开发者理应拥有在终端侧构建私有化 Agent 工作流的自由。

这种“终端平权”逻辑,恰是此前中国 AI 大模型引领的范式转移,在新环境下进一步的延续与深化:从模型获取的平权,进阶到 Agent 能力的平权。

历史从不重复,但常常押韵。如果说之前的国产大模型,打破的是“对规模和闭源的迷信”,那么 Step 3.5 Flash 正在击碎的,就是“速度与智能不可兼得”的新迷信。当行业还在用“参数量”“榜单分数”这类旧范式衡量模型价值时,Step 3.5 Flash 已用 OpenRouter 趋势榜登顶、Reddit 开发者自发安利、多芯片厂商 Day 0 适配的事实证明:真正的范式转移,永远始于真实世界中,解决真实诉求的能力。

我们或许正站在 Agent 时代的分水岭上:过去一年,市场狂热追逐 Agent 应用层的“四肢百骸”,却忽略了为其注入灵魂的“原生大脑”。而 Step 3.5 Flash 的此时此刻,又恰似 2025 年春节的彼时彼刻——尽管暂时被 Agent 应用的喧嚣浪潮所掩盖,但历史终将被证明,在 Agent 时代,是阶跃星辰,完成了一次基础设施层,最关键的范式跃迁。

会议推荐

InfoQ 2026 全年会议规划已上线!从 AI Infra 到 Agentic AI,从 AI 工程化到产业落地,从技术前沿到行业应用,全面覆盖 AI 与软件开发核心赛道!集结全球技术先锋,拆解真实生产案例、深挖技术与产业落地痛点,探索前沿领域、聚焦产业赋能,获取实战落地方案与前瞻产业洞察,高效实现技术价值转化。把握行业变革关键节点,抢占 2026 智能升级发展先机!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
减肥后反而掉粉?空姐蒋胖胖的流量密码,为何瘦了就不灵了?

减肥后反而掉粉?空姐蒋胖胖的流量密码,为何瘦了就不灵了?

锋哥与八卦哥
2026-02-05 17:22:41
香港最伟大的Ⅲ级片,因票房惨败被埋没,33年后终于高清修复

香港最伟大的Ⅲ级片,因票房惨败被埋没,33年后终于高清修复

迷影映画
2025-11-21 12:53:01
弗拉格:一台正在调试的赢球机器,以及一个已经兑现的巨星胚子

弗拉格:一台正在调试的赢球机器,以及一个已经兑现的巨星胚子

体育闲话说
2026-02-01 13:27:20
俄罗斯一中将在莫斯科遭枪击

俄罗斯一中将在莫斯科遭枪击

新华社
2026-02-06 15:42:53
4000万中年失业大军,他们将何去何从?

4000万中年失业大军,他们将何去何从?

经济学教授V
2025-09-02 18:42:04
国投白银期货(LOF)A单日下跌13.63%

国投白银期货(LOF)A单日下跌13.63%

界面新闻
2026-02-07 00:04:10
青瓦檐下旧梦残&&云缈裴晏舟:云缈被裴晏舟的穿越者悲歌

青瓦檐下旧梦残&&云缈裴晏舟:云缈被裴晏舟的穿越者悲歌

电独白
2026-02-07 00:15:19
中国选手包揽四强!周跃龙:这场比赛创造中国斯诺克的最好历史

中国选手包揽四强!周跃龙:这场比赛创造中国斯诺克的最好历史

砚底沉香
2026-02-07 00:23:12
为什么大家都不维护关系了?

为什么大家都不维护关系了?

请辩
2026-02-04 14:37:31
希拉里预言成真:若特朗普当选总统,美国民主和乌克兰将“终结”

希拉里预言成真:若特朗普当选总统,美国民主和乌克兰将“终结”

顾史
2026-01-15 20:32:53
2月6日一早! 中纪委连打四虎

2月6日一早! 中纪委连打四虎

看看新闻Knews
2026-02-06 12:19:13
1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

帝哥说史
2026-01-17 06:40:03
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
黄磊女儿黄多多有意进圈,脸是真的小,身材也是真的好,应该会爆

黄磊女儿黄多多有意进圈,脸是真的小,身材也是真的好,应该会爆

民间平哥
2026-01-18 21:36:22
潘粤明评价获证实!董洁22年后与蓝颜知己再牵手

潘粤明评价获证实!董洁22年后与蓝颜知己再牵手

独舞独舞
2026-01-18 06:37:17
央视主持人大洗牌:3人晋升2人调岗1人离职,海霞龙洋在列

央视主持人大洗牌:3人晋升2人调岗1人离职,海霞龙洋在列

月下守候
2026-02-04 02:30:57
湖人队通过交易得到卢克·肯纳德后,雷迪克给他一条简单的信息

湖人队通过交易得到卢克·肯纳德后,雷迪克给他一条简单的信息

好火子
2026-02-06 23:41:36
特朗普自曝长途飞行从不睡觉,身边人:和他出行像被俘虏

特朗普自曝长途飞行从不睡觉,身边人:和他出行像被俘虏

红星新闻
2026-02-06 16:53:33
麻将是谁发明的?一副麻将为何是136张?赢了时为何叫胡了呢?

麻将是谁发明的?一副麻将为何是136张?赢了时为何叫胡了呢?

千秋文化
2026-02-03 19:59:25
“战利品”超500斤!7名中东游客在上海买满40多个行李箱

“战利品”超500斤!7名中东游客在上海买满40多个行李箱

上观新闻
2026-02-05 07:19:06
2026-02-07 03:15:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1297文章数 114关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

家居
教育
房产
数码
公开课

家居要闻

现代轻奢 温馨治愈系

教育要闻

为什么留学机构没有好的老师?

房产要闻

新春三亚置业,看过这个热盘再说!

数码要闻

零刻SER10 Max迷你主机上市:AI 9 HX 470,0+0款4499元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版