网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

比肩Claude Opus：阶跃星辰最强模型Step 3.5 Flash发布

2026-03-07 04:33:21　来源: 呼呼历史论

辽宁举报

0

分享至

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

阶跃星辰刚刚发布了他们目前最强模型 Step 3.5 Flash。

模型拥有1960亿总参数，110亿激活参数，在复杂智能体任务上，性能与前沿顶级大模型 Gemini 3.0 Pro，Claude Opus 4.5，GPT-5.2 xHigh 并驾齐驱。

这款稀疏混合专家模型，专注于构建智能体时最核心的锐利推理与可靠执行能力。

设计团队将混合注意力机制与多 Token 预测技术深度融合，大幅度降低长上下文交互延迟。

辅以创新的强化学习框架与分布式训练基建，模型在数学逻辑分析与代码编写领域展现出极高水准。

模型架构平衡算力与智力

开源大语言模型正在快速拉近与闭源前沿系统的性能差距。

伴随智能体系统的兴起，复杂推理能力与长上下文处理效率成为新的技术高地。

研发团队在设计 Step 3.5 Flash 时，将效率与容量作为核心考量指标。

在注意力机制层面，模型采用滑动窗口注意力 SWA 与全注意力按照三比一的比例交错排列。

处理海量上下文时，模型不需要每次都从头到尾仔细通读，而是把精力集中在当前阅读的段落附近。

为了进一步提升生成速度，架构中引入了多 Token 预测 MTP 技术。

模型在输出当前 Token 时，会顺带预测后续的三个 Token 。如同熟练的演讲者在说出当前句子的同时，脑海中已经构思好接下来的几句话，沟通效率自然成倍提升。

图2详细展示了这种独特的架构设计。

研发人员在滑动窗口注意力层将查询头的数量从64个增加到96个。

配合逐头门控注意力机制，模型能够像聪明的秘书一样，自动过滤掉窗口中毫无用处的信息垃圾。这种参数高效的设计让模型在推理时游刃有余。

针对分布式部署中容易出现的计算掉队者问题，团队引入了专家并行负载均衡策略。

系统会强制要求各个显卡组之间的工作量保持均匀。没有一台机器会被过度闲置，也没有一台机器会被彻底压垮。

表1呈现了不同注意力布局下的性能对比数据。增加查询头的混合布局在成本微幅上升的情况下，全面追平甚至超越了全注意力基线模型的表现。

表2的数据进一步验证了逐头门控机制的优越性，其在各项基准测试中均稳定超越传统的固定接收 Token 方案。

基础设施保障训练稳定性

支撑如此庞大模型运转的是由4096张NVIDIA H800显卡组成的超级计算集群。

团队内部研发了轻量级高性能的Steptron训练框架。通过解耦并行化方案，注意力和专家模块可以采用完全不同的切分策略。

训练期间，成千上万张显卡需要时刻保持数据同步。团队巧妙优化了数据传输路径，让显卡内部的高速通道与跨机房的网络线路交替工作。底层通信效率的提升直接节约了宝贵的训练时间。

为了捕捉模型训练时的微小异常，系统内置了一个高吞吐量的轻量级监控服务器。数千张显卡每走一步都会产生近600万条状态指标。

服务器通过异步传输技术将这些指标抽离出主训练循环，就像在高速行驶的赛车上安装了不影响动力的精密仪表盘。

在这样的严密监控下，长达17.2万亿 Token 的训练过程极为平顺。图3清晰地记录了整个训练周期的损失值变化，全过程仅出现过一次孤立的波动。

稀疏专家模型的训练如同走钢丝，随时可能面临专家死亡或者内部数值爆炸的风险。监控雷达发现，随着训练深入，深层网络中极个别专家的激活数值会如脱缰野马般飙升。

这种局部爆炸在整体训练曲线上根本看不出痕迹，但却随时可能引发系统崩溃。

图4展示了研发团队应对这一难题的过程。通过在专家网络内部实施严格的激活值裁剪，最高数值被牢牢限制在安全范围内。

预训练阶段从广泛的开放领域数据起步，建立基础认知。随后，训练重心逐渐向代码、代码提交记录等软件开发语料倾斜。窗口长度也从初步的 4000 Token 平滑扩展到3.2万 Token。

中期训练专门负责打通12.8万 Token 的超长上下文能力。模型开始大量接触需要长线思考的合成逻辑题以及真实的超长文档。

充足的知识给养让模型具备了在庞杂信息中抽丝剥茧的能力。

强化学习激发智能体潜能

模型在完成监督微调 SFT 后，将进入关键的强化学习 RL 阶段。

针对极其复杂的逻辑推演，传统的强化学习算法往往会因为探索路径过长而陷入剧烈的震荡。微小概率的偏差会在连续几千步的生成中被无限放大。

团队针对性提出了大都会独立采样过滤策略优化 MIS-PO。这项技术不再给每一种反馈分配连续的权重，而是采用干脆利落的二元过滤。那些偏离基准太远的劣质轨迹会被直接丢弃，留下的高质量样本则被当作精准的靶心进行优化。

打个形象的比方，老师在批改作业时不再去仔细揣摩那些完全离谱的解题思路，而是集中精力强化那些方向正确但细节有瑕疵的答卷。

图5直观展现了这种策略在稳定性和效率上的巨大优势。

长文本训练还面临着长度截断带来的误判问题。模型有时思路是对的，只是因为字数限制没写完。

系统通过截断感知价值自举技术，给这些未完成的精彩答卷估算一个合理的分数，保护了模型进行深度思考的积极性。

强化学习的奖励机制被拆分为两个独立运作的系统。带有可验证奖励的强化学习 RLVR 负责处理数学公式和代码这种有明确对错的任务。基于人类反馈的强化学习 RLHF 则由一个裁判模型对文本的表达质量进行胜率评估。

图6展示了强化学习带来的跨领域能力飞跃，各项基准测试得分随着训练步数的增加稳步上扬。

构建高质量的训练语料库是唤醒智能的关键。团队综合开源数据与用户真实交互，通过严苛的清洗与合成规则，打造了一个包含87.1万样本、总计72.3亿 Token 的高密度推理数据集。

表3详细记录了各个领域的语料占比。

代码智能体的训练环境不再依赖枯燥的静态问答，而是让模型直接在真实的沙盒环境中动手排查故障。这种带有真实执行反馈的闭环训练，极大增强了模型调用工具的稳健性。

为了让模型在调用工具时更加丝滑，系统抛弃了容易出错的JSON格式，转而采用语法更加扁平直接的XML结构。

减少了繁琐的转义符号和标点困扰，模型的执行成功率得到了显著攀升。

评测数据验证前沿战斗力

各项严格的基准测试给出了最客观的能力画像。

表4记录了模型在预训练阶段的表现。凭借仅仅110亿的激活参数，它在多项核心指标上硬生生逼平甚至反超了体量庞大数倍的竞争对手。

在经过强化学习洗礼的后训练评测中，研发团队引入了并行协调推理 PaCoRe 机制。

模型可以利用极低的推理延迟，针对同一个难题同时展开多条推演路线，最后汇总得出一个最完美的答案。如同让一组侦探分头搜查线索，最后再聚集在一起拼凑出完整的案情真相。

表5展示了令人振奋的最终成绩单。在AIME 2025数学竞赛、IMO-AnswerBench等顶级逻辑挑战中，模型拿下了骄人的高分。同时在SWE-Bench Verified等真实程序员视角的测试中也游刃有余。

当前模型在生成效率与极致专业领域的探索上仍有提升空间。

研究团队下一步计划通过算法裁剪压缩思考路径，持续优化模型在面对高度专业化或超长对话时的结构稳定性。

精雕细琢的底层架构加上突破性的强化学习算法，让以极低算力成本实现前沿智能成为现实。

参考资料：

https://arxiv.org/pdf/2602.10604

https://modelscope.cn/models/stepfun-ai/Step-3.5-Flash

https://huggingface.co/stepfun-ai/Step-3.5-Flash

https://static.stepfun.com/blog/step-3.5-flash/

https://github.com/stepfun-ai/Step-3.5-Flash

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

海外华人团队打造，统一理解与生成的图像模型，超越Nano banana

机器之心Pro 2026-03-06 14:31:14
0 跟贴 0
ChatGPT-5.4发布：和OpenClaw兼容，AI第一次比人类更会操作电脑

DeepTech深科技 2026-03-06 10:47:43
35 跟贴 35

MMLU已死？「人类最后考试」登Nature：全球AI模型集体不及格！

新智元 2026-03-07 09:06:10
0 跟贴 0

黑马图像模型被Nano Banana技术负责人点赞！

量子位 2026-03-06 22:34:17
0 跟贴 0
OpenClaw绝配！GPT-5.4问世，AI能力开始大一统，就是太贵

机器之心Pro 2026-03-06 12:00:27
2 跟贴 2

谁在消耗5万亿模型算力？

经济观察报 2026-03-07 10:32:05
0 跟贴 0

豆包电脑来了？GPT-5.4发布，这个能力亮了

雷科技 2026-03-06 16:44:48
2 跟贴 2
300万AI悄悄「建国」？Nature长文：第一代AI社会正在成形

新智元 2026-03-06 19:15:39
0 跟贴 0

小鹏加速冲向L4终局：对VLA架构「动刀」成关键一环

机器之心Pro 2026-03-06 21:05:29
0 跟贴 0
MiniMax来承包你的桌面了-4

机器之心Pro 2026-01-20 20:19:42
0 跟贴 0
1B模型当多镜头导演？大连理工&快手可灵开源力作MultiShotMaster

机器之心Pro 2026-03-06 16:24:06
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
FlashAttention-4正式发布：算法流水线大改，矩阵乘法级速度

机器之心Pro 2026-03-06 14:48:35
0 跟贴 0
伊朗局势汇总！周教授逻辑清晰，是我听过最客观的分析！

搞笑桔子 2026-03-07 00:12:22
0 跟贴 0
象棋大师三步弃马飞刀进攻策略

隐龙天下o 2026-03-05 15:12:30
0 跟贴 0
星爷这贪污水平没谁了，1380万秒变38万，真是逻辑鬼才

悦悦看剧 2026-03-05 10:33:40
1 跟贴 1
汽车行驶途中突然"断电" 车辆瞬间失去动力一家人吓傻

大风新闻 2026-03-06 13:45:07
7040 跟贴 7040
刚下飞机行李就没了！杭州姑娘花10多万去南极旅游却崩溃：衣物全靠借

环球网资讯 2026-03-03 08:53:57
6007 跟贴 6007
这些公式放在数学界也是相当炸裂的

挑灯剪辑 2026-03-06 16:08:56
1 跟贴 1
剑指世界模型！商汤发多模态理解生成一体化架构，无需编码器“玩转”图像

智东西 2026-03-06 20:12:11
0 跟贴 0
开箱地表最强奥迪A6L，华为智能体+V6，这可太行了

汽车舆论 2026-03-05 11:05:12
0 跟贴 0
央行行长：中国股票市场在全球主要股市中表现较好

财联社 2026-03-06 17:08:03
7074 跟贴 7074
机构：霍尔木兹海峡航运几乎完全停滞

财联社 2026-03-06 14:04:07
6302 跟贴 6302
小米版OpenClaw来了！手机就能养龙虾，罗福莉成果落地

智东西 2026-03-06 14:33:13
60 跟贴 60
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
发动机模型

制造科技 2026-03-04 18:55:15
0 跟贴 0
两会现场，回应大家关心的AI问题：AI智能体不是对手，而是最强助手

周鸿祎 2026-03-06 21:46:21
0 跟贴 0
4个常见测量血糖的数值分别要怎么看？

陈薇医生 2026-03-03 12:51:27
0 跟贴 0
首发免陪照护智能体迭代升级，广东护理迈上智能化新阶段

南方都市报 2026-03-06 21:40:08
0 跟贴 0
PackingStar双智能体博弈，攻克14维难题

量子位 2026-02-16 13:12:43
0 跟贴 0
智能体基础设施是AI时代操作系统，真正的智能体要能思考、能分析，能行动

量子位 2025-12-11 03:38:22
0 跟贴 0
爆火！把智能体当游戏角色来玩，一个人就是一个公司

机器之心Pro 2026-02-12 18:04:44
0 跟贴 0
千问这点儿羊毛，就非薅不可吗？

浅黑科技官方 2026-03-07 08:03:37
0 跟贴 0
老人说过的话，谁也逃不掉，看完瞬间涨知识了!

海星旅行 2026-03-07 09:03:01
0 跟贴 0
刘国梁谈樊振东签约德甲

北京头条 2026-03-06 12:56:55
2597 跟贴 2597
女性展现完美曲线，这般身材让人眼馋，谁看了能不心动

小心心看看 2026-03-03 16:21:15
2 跟贴 2
租用无人机运棺材上山土葬，无人机运输从业者：价格一万出头，一般运送的棺材约七八百斤，云贵川需求多

观威海 2026-03-06 14:23:13
238 跟贴 238
蒙牛全资控股公司销售"阴阳包装"产品客服称无法监管

大风新闻 2026-03-06 18:30:13
1513 跟贴 1513
中国女足3-0战胜乌兹别克斯坦女足提前小组出线

央视新闻客户端 2026-03-06 18:26:54
706 跟贴 706

西方战略专家感叹：中国是全世界，唯一强得悄无声息的超级大国！

西方战略专家感叹：中国是全世界，唯一强得悄无声息的超级大国！

勇士军武闲谈

2026-03-05 11:20:31

继飞机铁路公交后，小众迷们爱上了电梯和减速带

继飞机铁路公交后，小众迷们爱上了电梯和减速带

酷玩实验室

2026-03-06 13:24:01

常务副皇帝怡亲王胤祥后人今何在：九世孙退休前是北京副处级干部

常务副皇帝怡亲王胤祥后人今何在：九世孙退休前是北京副处级干部

铭记历史呀

2025-12-17 17:42:20

全球独苗陨落！美军精准摧毁伊朗KC-747加油机

全球独苗陨落！美军精准摧毁伊朗KC-747加油机

老马拉车莫少装

2026-03-07 09:47:17

炸裂! 46岁中国教授穿校服装高中生, 飞澳洲混入名校偷拍男生, 当场被捕! 澳媒头条刷屏报道

炸裂! 46岁中国教授穿校服装高中生, 飞澳洲混入名校偷拍男生, 当场被捕! 澳媒头条刷屏报道

澳洲红领巾

2026-03-06 12:58:48

谷维素加维生素B12，可改善老年人4大常见问题，建议收藏！

谷维素加维生素B12，可改善老年人4大常见问题，建议收藏！

李药师谈健康

2026-03-06 13:25:58

同样搞核武，美国为啥不敢动朝鲜，却把伊朗往死里打？

同样搞核武，美国为啥不敢动朝鲜，却把伊朗往死里打？

三目观史

2026-03-06 07:31:12

难道伊朗背后真有高人指导？纽约时报：他专挑美国弱点下死手！

难道伊朗背后真有高人指导？纽约时报：他专挑美国弱点下死手！

青青子衿

2026-03-06 00:13:50

央视主持沙桐：离婚后妻子嘲讽二人多年没性生活，前妻直言别扯淡

央视主持沙桐：离婚后妻子嘲讽二人多年没性生活，前妻直言别扯淡

冷紫葉

2026-02-25 15:28:41

“戏混子”没走，比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走，比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月

2026-01-26 10:58:30

小龙虾最受欢迎的 10 个插件，装上之后才明白它有多强大！

小龙虾最受欢迎的 10 个插件，装上之后才明白它有多强大！

AI范儿

2026-03-06 07:32:29

足坛疯狂一夜！皇马惊险绝杀，巴黎玩脱轮换大法，利物浦当场复仇

足坛疯狂一夜！皇马惊险绝杀，巴黎玩脱轮换大法，利物浦当场复仇

篮球圈里的那些事

2026-03-07 11:40:13

直接承认抄袭！长城汽车董事长道歉，魏建军低头认错没甩锅

直接承认抄袭！长城汽车董事长道歉，魏建军低头认错没甩锅

商悟社

2026-03-06 22:02:03

此人是中共叛徒，失去价值后被判枪决，临终前喊：中国共产党万岁

此人是中共叛徒，失去价值后被判枪决，临终前喊：中国共产党万岁

简史档案馆

2026-03-06 11:05:03

AI将胜任80%岗位！亿万富翁：如今5岁儿童成年后将无需再为生存而工作

AI将胜任80%岗位！亿万富翁：如今5岁儿童成年后将无需再为生存而工作

快科技

2026-03-06 14:54:07

不敢喝了！4大头部椰子水全造假，100%纯椰水全是水+糖 +科技狠活

不敢喝了！4大头部椰子水全造假，100%纯椰水全是水+糖 +科技狠活

川渝视觉

2026-03-04 20:09:52

亚洲杯乱套！赢4-0只排第2名，中国女足形势骤变，遭3大强队包围

亚洲杯乱套！赢4-0只排第2名，中国女足形势骤变，遭3大强队包围

何老师呀

2026-03-06 14:49:35

巴基斯坦也没有想到，跟着中国混来混去，结果自己也混了一个霸主

巴基斯坦也没有想到，跟着中国混来混去，结果自己也混了一个霸主

老范谈史

2025-12-09 20:00:56

特朗普，派“蒋介石”上前线？

中国新闻周刊

2026-03-06 15:27:37

笑死！李雨桐直接爆薛之谦手机号！男方隐私社交账号随之曝光

笑死！李雨桐直接爆薛之谦手机号！男方隐私社交账号随之曝光

魔都囡

2026-03-05 10:20:00

呼呼历史论

分享有趣的历史

431文章数 16545关注度

往期回顾全部

科技要闻

OpenClaw爆火，六位"养虾人"自述与AI共生

头条要闻

中东局势动荡欧盟"女外长"污蔑：中国趁机拿捏欧洲

头条要闻

中东局势动荡欧盟"女外长"污蔑：中国趁机拿捏欧洲

体育要闻

塔图姆归来：凯尔特人的春之绿

娱乐要闻

周杰伦田馥甄20年地下情被扒得底朝天

财经要闻

针对"不敢休、不让休"怪圈国家出手了

汽车要闻

逃离ICU，上汽通用“止血”企稳

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

游戏

数码

时尚

公开课

本地新闻

食味印象｜一口入魂！康乐烤肉串起千年丝路香

0护甲蝎子是干净的？TES假赛内幕曝光：AD跟打野爆了

数码要闻

英特尔酷睿Ultra 5 250K Plus处理器PassMark跑分曝光

这些才是适合普通人的穿搭！搭配腰带、多穿牛仔裤，简单舒适

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版