网易首页 > 网易号 > 正文 申请入驻

上线两天登顶全球榜单,阶跃星辰怎么让 AI 又「聪明」又「快」?

0
分享至

就在昨天,阶跃星辰登顶了全球模型榜单——他们最新开源的Agent基座模型Step 3.5 Flash,发布首日便登上全球模型平台OpenRouter的“最快模型榜”,而发布后仅用短短两天,就获得了OpenRouter“热度趋势榜”排名第一的好成绩,其数据是基于全球开发者与用户的实际模型调用量。也就是说,Step 3.5 Flash以硬实力赢得了用户的“用脚投票”。


(图为Step 3.5 Flash 登顶 OpenRouter 的Trending 榜单)

对阶跃来说,拿下榜单第一并不新鲜,而这个成绩有意思的地方在于,它点破了当前AI应用深化的一个普遍瓶颈:模型越来越“聪明”,能处理的任务越来越复杂,但用户和开发者在真实使用时,最直接的感官体验却是——“慢”。

这里的“慢”,不是指回答一句“你好”的速度,而是当用户任务变得复杂,任务链和工作流明显变长(比如分析整篇财报、编写复杂函数、或同时完成图文音视频多模态输出等等)时,AI的处理速度必然下降,用户的等待时间可能会被拖得很长。

漫长的等待——本身就严重限制了AI在实际工作流中的可用性;而如果等了半天,AI拿出的结果还不能令人满意,用户的流失就已成定局。

而过去外界的一贯认知中,“快”=小参数模型的敏捷调用、输出;“慢”=更大参数量级的模型和细致的思考。此前,模型要的是“快”和“好”的平衡,而今天,阶跃的Step 3.5 Flash却敢于对世界说:“我全都要!”

稀疏MoE架构:不要“大而全”,我要“以巧见大”

论速度,Step 3.5 Flash有多快?

在复杂推理场景下,保证稳定性的同时,Step 3.5 Flash在NVDIA Hopper GPU的最高推理速度可以达到每秒350个Token,实现“点击即输出”的秒速体验。

榜单上,Step 3.5 Flash以每秒167个Token的速度排名第九,但排在它前面的,多是在为专有硬件环境定制的模型和8b-120b规模不等的小型模型。


(图为Step 3.5 Flash在OpenRouter的Fastest榜位居前列)

而Step 3.5 Flash的参数量是1960亿,足以作为基座模型为Agent提供强劲的动力。


(Reddit平台用户评价:终于有东西能在我那只有120GB显存的破电脑上运行了)

跑分测试上,Step 3.5 Flash一马当先,并且尤其擅长Agent场景和数学任务。在τ²-Bench、BrowseComp等测试,以及LiveCodeBench V6代码挑战和AIME 2025数学竞赛中,Step 3.5 Flash都拿出了不错的成绩。


图注:Step 3.5 Flash仅凭11B激活参数(总规模196B MoE)便达到了顶尖级别的智能水平,足以媲美领先的闭源及开源模型(数据来源:阶跃星辰官方Tech Report)

实践上,Step 3.5 Flash还在多步推理的结构化输出、复杂逻辑求解、后端自动化和长时间运行任务中,已经具备了企业级应用落地的能力。而针对高频工具调用和对行为可预测性有强要求的系统环境,Step 3.5 Flash也能轻松驾驭。

“快”很容易,“强”也很容易。要理解Step 3.5 Flash为何能做到又快又强,首先要了解的,是它采用的“稀疏混合专家(MoE)架构”——这是一个在追求“超大模型”时代里,回归工程理性的设计。

传统的千亿参数大模型像一个“全能巨人”,处理任何问题,无论难易,都要动用全部脑力(激活所有参数)。

每一次都“全力出击”,这固然能保证能力,但计算成本极高的同时,也让推理缓慢、能耗巨大,算力的浪费也同样不可避免。

Step 3.5 Flash的思路则不同。

作为一个总参数量1960亿的Agent原生基座模型,它被精巧地组织成了许多个“专家小组”。当一个问题输入时,一个智能的路由机制会迅速判断:“这个问题主要由哪几个专家小组来处理最合适?”然后,只激活这些相关的“专家”——大约110亿参数——来工作。


(海外用户评价:它仅使用11b的活跃参数,所以运行速度极快。老实说,我对它毫无延迟的运行表现着迷。)

你可以把它想象成一个高度专业化的超级顾问团。接到一个金融分析任务,系统不会唤醒团里的医学专家或文学教授,而是精准地调度金融、数据分析、逻辑推理这几个小组来协同工作。

这种设计,既能让每次推理实际消耗的计算资源大幅减少,提升了计算速度,成本也随之下降;又能背靠“顾问团”1960亿参数的“总知识库”,在需要处理复杂、跨界问题时,依然有能力调动不同领域的“专家”进行深度协作,让输出保质保量。

凭借着更聪明的调用,Step 3.5 Flash采用的稀疏MoE架构,打破了“大模型”必须“力大砖飞”的固有印象,让AI的能力和速度,成为了可以兼得的“鱼与熊掌”。

不只是“跑得快”,更是“想得流畅”

光是有了更高效的架构还不够,Step 3.5 Flash在具体工程实现上也做了不少优化,确保在真实场景中“跑”得流畅。

首先是处理长文本的“巧劲”。

人要学会快速浏览文本,就必须学会“一目十行”——AI也一样,面对一个超长文本还要快速输出内容,就不能在生成新词时,每次都全文逐字阅读理解。这被称为“全注意力”机制,虽然输出效果更好,但AI的计算量会随着文本长度呈平方级增长,是导致处理长文本时速度剧降、延迟飙升的主要原因。

要一目十行,模型就必须采取滑动窗口注意力(Sliding-Window Attention, SWA)的机制。

所谓滑动窗口,是基于一个符合直觉的观察:在理解一个长句子或段落时,当前词的含义最受其“邻近”词汇的影响,而距离很远的词影响相对较小。在这种机制下,模型能更专注于一个窗口中临近词汇的内容,读的内容变少了,处理速度当然更快,成本也自然更低。

而Step 3.5 Flash则是博采众长,采用了3:1的滑动窗口与全局注意力混合架构(SWA + Full Attention),对256K上下文有着高效的处理能力。

不光“看”得快,Step 3.5 Flash还“写”得快。

传统的模式,AI生成Token,要一个一个地“往外蹦”,在追求AI快交互的今天,这样的速度明显不够。

而Step 3.5 Flash采用了多Token预测(Multi-Token Prediction, MTP-3)的技术,一次可以完成多个Token的预测,这相当于让Token的输出从“单车道”变成了“多车道”,直接让文本生成的吞吐效率翻了倍。

有了稀疏MoE架构,再整合了更先进的技术模式,给市场带来的震撼是直接的:AI在处理复杂、多步任务时的“迟滞感”正在被抹平。无论是代码生成、长文档分析还是需要多轮思考的规划任务,响应都变得更加即时和连贯。

Step 3.5 Flash的出现,对于那些希望将AI深度集成到自动化工作流中的开发者而言,标志着一个实用的拐点——一个既聪明又敏捷的“AI大脑”已经触手可及。

结语

模型能力的升级,在今天似乎已经不是新鲜事——而Step 3.5 Flash的强势登场,却打破了过往的技术预设。

Step 3.5 Flash所代表的,不仅仅是一个模型版本的迭代,更是一种技术路径的明确:通往更强大的人工智能的道路,不一定只靠无限制地堆叠参数,通过架构创新和工程优化,在效能与能力之间取得精妙平衡,同样是关键且务实的一步。

Step 3.5 Flash登榜的胜利,不止是模型技术的胜利,更是模型工程的胜利,是阶跃星辰在追寻AGI的路上,迈出的坚实一步。

今天,Step 3.5 Flash已在OpenRouter、GitHub、阶跃AI APP和网页端等多端同步上线,面向开发者提供免费试用与快速部署支持。而同时,阶跃星辰也已启动了下一代Step 4的研发,并邀请全球开发者“深度参与共创”,让模型从工程中来,到工程中去,用最“落地”的方式做最“高级”的事情。

从Step 3.5 Flash开始,市场便能够看到一条通往AGI更清晰的路径——通过构建更快、更稳、更易获取的智能基座,降低每一个创新者构建高级AI应用的门槛。

当无数开发者可以基于这样的基座,在面对千行百业的具体问题时,都能创造出属于自己的智能体,并且以更便宜、更便捷的方式满足自己的实际需求,那时的我们距离AGI,或许可以又近了一点点。

雷峰网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
打起来了!美航母中东开了第一枪,伊朗果然好猛,各大势力选边站

打起来了!美航母中东开了第一枪,伊朗果然好猛,各大势力选边站

历史有些冷
2026-02-04 20:20:03
勇士送上大礼!湖人1日内5喜临门,詹姆斯的第五冠真的有戏了

勇士送上大礼!湖人1日内5喜临门,詹姆斯的第五冠真的有戏了

小路看球
2026-02-06 18:49:35
反制生效?巴总统提出新方案,或归还长和经营权,但有一个条件

反制生效?巴总统提出新方案,或归还长和经营权,但有一个条件

墨兰史书
2026-02-06 19:17:29
反转!曝梅西香港行原计划出场,未登场原因曝光:球王本人不知情

反转!曝梅西香港行原计划出场,未登场原因曝光:球王本人不知情

二疯说球
2026-02-06 10:21:42
世间最平和的国家分裂,一国拆分为两个国家,如今两国的关系却格外亲密

世间最平和的国家分裂,一国拆分为两个国家,如今两国的关系却格外亲密

文史明鉴
2026-02-05 18:26:10
克林顿夫妇要求直播并公开听证会,特朗普回应真可惜

克林顿夫妇要求直播并公开听证会,特朗普回应真可惜

山河路口
2026-02-06 13:49:32
一位中国交易员重仓做空白银,账面浮盈超20亿!

一位中国交易员重仓做空白银,账面浮盈超20亿!

汇商Forexpress
2026-02-06 15:57:52
虽远必诛!不到24小时,中国三项反击砸向巴拿马,美国高兴太早了

虽远必诛!不到24小时,中国三项反击砸向巴拿马,美国高兴太早了

奇葩游戏酱
2026-02-07 00:36:47
英超活化石,英超历史上49%的球员都曾与米尔纳同场竞技过

英超活化石,英超历史上49%的球员都曾与米尔纳同场竞技过

懂球帝
2026-02-06 10:01:09
名记曝光莫兰特被交易真因:灰熊确实想送走他,但报价极低

名记曝光莫兰特被交易真因:灰熊确实想送走他,但报价极低

林子说事
2026-02-06 07:52:02
我国每年近千万人做肠镜!医生直言:做一次肠镜,或管十年无碍

我国每年近千万人做肠镜!医生直言:做一次肠镜,或管十年无碍

白宸侃片
2026-02-01 19:13:01
脊背发凉,萝莉岛与被叫停的跨国领养

脊背发凉,萝莉岛与被叫停的跨国领养

枫冷慕诗
2026-02-05 13:52:16
SU7 Ultra团队内幕曝光,捅了雷军一刀

SU7 Ultra团队内幕曝光,捅了雷军一刀

品牌头版
2026-02-05 18:38:16
中方反击次日,巴拿马提解决方案,或归还长和经营权,但有个前提

中方反击次日,巴拿马提解决方案,或归还长和经营权,但有个前提

起喜电影
2026-02-06 18:55:44
霍金也被爱泼斯坦档案害惨了,都瘫痪成这样,真的还能玩女人吗?

霍金也被爱泼斯坦档案害惨了,都瘫痪成这样,真的还能玩女人吗?

我心纵横天地间
2026-02-05 19:14:54
大家坐稳扶好了,下周一周二周三三天,牛市或将再次加速主升浪!

大家坐稳扶好了,下周一周二周三三天,牛市或将再次加速主升浪!

另子维爱读史
2026-02-06 17:43:18
杜兰特31分火箭不敌黄蜂2连败,申京仅7分鲍尔20分6篮板

杜兰特31分火箭不敌黄蜂2连败,申京仅7分鲍尔20分6篮板

湖人崛起
2026-02-06 11:18:47
后场大将复出后第二场立刻爆砍高分,湖人的战绩有望出现回暖?

后场大将复出后第二场立刻爆砍高分,湖人的战绩有望出现回暖?

稻谷与小麦
2026-02-07 01:24:54
武汉:中心城区放开摩托车上牌

武汉:中心城区放开摩托车上牌

故乡江城之声
2026-02-06 19:55:47
黄金、白银飙升!大消息,伊朗在伊美谈判中表示绝不接受“零浓缩”

黄金、白银飙升!大消息,伊朗在伊美谈判中表示绝不接受“零浓缩”

证券时报e公司
2026-02-06 21:53:38
2026-02-07 01:55:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68500文章数 656067关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

女生被51岁推拿技师猥亵:没等到道歉 还遭网暴

头条要闻

女生被51岁推拿技师猥亵:没等到道歉 还遭网暴

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

手机
旅游
本地
游戏
公开课

手机要闻

荣耀600被曝光:6.57英寸+9000mAh±电池,友商拿什么打!

旅游要闻

琅琊古城·“文旅迎春 马跃新程”2026河东文旅新春联欢晚会举行

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

T2总裁回应GTA6争议:给他爱新DLC力证老作热度不减

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版