专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
阶跃星辰刚刚发布了他们目前最强模型 Step 3.5 Flash。
![]()
模型拥有1960亿总参数,110亿激活参数,在复杂智能体任务上,性能与前沿顶级大模型 Gemini 3.0 Pro,Claude Opus 4.5,GPT-5.2 xHigh 并驾齐驱。
![]()
这款稀疏混合专家模型,专注于构建智能体时最核心的锐利推理与可靠执行能力。
设计团队将混合注意力机制与多 Token 预测技术深度融合,大幅度降低长上下文交互延迟。
辅以创新的强化学习框架与分布式训练基建,模型在数学逻辑分析与代码编写领域展现出极高水准。
模型架构平衡算力与智力
开源大语言模型正在快速拉近与闭源前沿系统的性能差距。
伴随智能体系统的兴起,复杂推理能力与长上下文处理效率成为新的技术高地。
研发团队在设计 Step 3.5 Flash 时,将效率与容量作为核心考量指标。
在注意力机制层面,模型采用滑动窗口注意力 SWA 与全注意力按照三比一的比例交错排列。
处理海量上下文时,模型不需要每次都从头到尾仔细通读,而是把精力集中在当前阅读的段落附近。
为了进一步提升生成速度,架构中引入了多 Token 预测 MTP 技术。
模型在输出当前 Token 时,会顺带预测后续的三个 Token 。如同熟练的演讲者在说出当前句子的同时,脑海中已经构思好接下来的几句话,沟通效率自然成倍提升。
图2详细展示了这种独特的架构设计。
![]()
研发人员在滑动窗口注意力层将查询头的数量从64个增加到96个。
配合逐头门控注意力机制,模型能够像聪明的秘书一样,自动过滤掉窗口中毫无用处的信息垃圾。这种参数高效的设计让模型在推理时游刃有余。
针对分布式部署中容易出现的计算掉队者问题,团队引入了专家并行负载均衡策略。
系统会强制要求各个显卡组之间的工作量保持均匀。没有一台机器会被过度闲置,也没有一台机器会被彻底压垮。
表1呈现了不同注意力布局下的性能对比数据。增加查询头的混合布局在成本微幅上升的情况下,全面追平甚至超越了全注意力基线模型的表现。
![]()
表2的数据进一步验证了逐头门控机制的优越性,其在各项基准测试中均稳定超越传统的固定接收 Token 方案。
![]()
基础设施保障训练稳定性
支撑如此庞大模型运转的是由4096张NVIDIA H800显卡组成的超级计算集群。
团队内部研发了轻量级高性能的Steptron训练框架。通过解耦并行化方案,注意力和专家模块可以采用完全不同的切分策略。
训练期间,成千上万张显卡需要时刻保持数据同步。团队巧妙优化了数据传输路径,让显卡内部的高速通道与跨机房的网络线路交替工作。底层通信效率的提升直接节约了宝贵的训练时间。
为了捕捉模型训练时的微小异常,系统内置了一个高吞吐量的轻量级监控服务器。数千张显卡每走一步都会产生近600万条状态指标。
服务器通过异步传输技术将这些指标抽离出主训练循环,就像在高速行驶的赛车上安装了不影响动力的精密仪表盘。
在这样的严密监控下,长达17.2万亿 Token 的训练过程极为平顺。图3清晰地记录了整个训练周期的损失值变化,全过程仅出现过一次孤立的波动。
![]()
稀疏专家模型的训练如同走钢丝,随时可能面临专家死亡或者内部数值爆炸的风险。监控雷达发现,随着训练深入,深层网络中极个别专家的激活数值会如脱缰野马般飙升。
这种局部爆炸在整体训练曲线上根本看不出痕迹,但却随时可能引发系统崩溃。
图4展示了研发团队应对这一难题的过程。通过在专家网络内部实施严格的激活值裁剪,最高数值被牢牢限制在安全范围内。
![]()
预训练阶段从广泛的开放领域数据起步,建立基础认知。随后,训练重心逐渐向代码、代码提交记录等软件开发语料倾斜。窗口长度也从初步的 4000 Token 平滑扩展到3.2万 Token。
中期训练专门负责打通12.8万 Token 的超长上下文能力。模型开始大量接触需要长线思考的合成逻辑题以及真实的超长文档。
充足的知识给养让模型具备了在庞杂信息中抽丝剥茧的能力。
强化学习激发智能体潜能
模型在完成监督微调 SFT 后,将进入关键的强化学习 RL 阶段。
针对极其复杂的逻辑推演,传统的强化学习算法往往会因为探索路径过长而陷入剧烈的震荡。微小概率的偏差会在连续几千步的生成中被无限放大。
团队针对性提出了大都会独立采样过滤策略优化 MIS-PO。这项技术不再给每一种反馈分配连续的权重,而是采用干脆利落的二元过滤。那些偏离基准太远的劣质轨迹会被直接丢弃,留下的高质量样本则被当作精准的靶心进行优化。
打个形象的比方,老师在批改作业时不再去仔细揣摩那些完全离谱的解题思路,而是集中精力强化那些方向正确但细节有瑕疵的答卷。
图5直观展现了这种策略在稳定性和效率上的巨大优势。
![]()
长文本训练还面临着长度截断带来的误判问题。模型有时思路是对的,只是因为字数限制没写完。
系统通过截断感知价值自举技术,给这些未完成的精彩答卷估算一个合理的分数,保护了模型进行深度思考的积极性。
强化学习的奖励机制被拆分为两个独立运作的系统。带有可验证奖励的强化学习 RLVR 负责处理数学公式和代码这种有明确对错的任务。基于人类反馈的强化学习 RLHF 则由一个裁判模型对文本的表达质量进行胜率评估。
图6展示了强化学习带来的跨领域能力飞跃,各项基准测试得分随着训练步数的增加稳步上扬。
![]()
构建高质量的训练语料库是唤醒智能的关键。团队综合开源数据与用户真实交互,通过严苛的清洗与合成规则,打造了一个包含87.1万样本、总计72.3亿 Token 的高密度推理数据集。
表3详细记录了各个领域的语料占比。
![]()
代码智能体的训练环境不再依赖枯燥的静态问答,而是让模型直接在真实的沙盒环境中动手排查故障。这种带有真实执行反馈的闭环训练,极大增强了模型调用工具的稳健性。
为了让模型在调用工具时更加丝滑,系统抛弃了容易出错的JSON格式,转而采用语法更加扁平直接的XML结构。
减少了繁琐的转义符号和标点困扰,模型的执行成功率得到了显著攀升。
评测数据验证前沿战斗力
各项严格的基准测试给出了最客观的能力画像。
表4记录了模型在预训练阶段的表现。凭借仅仅110亿的激活参数,它在多项核心指标上硬生生逼平甚至反超了体量庞大数倍的竞争对手。
![]()
在经过强化学习洗礼的后训练评测中,研发团队引入了并行协调推理 PaCoRe 机制。
模型可以利用极低的推理延迟,针对同一个难题同时展开多条推演路线,最后汇总得出一个最完美的答案。如同让一组侦探分头搜查线索,最后再聚集在一起拼凑出完整的案情真相。
表5展示了令人振奋的最终成绩单。在AIME 2025数学竞赛、IMO-AnswerBench等顶级逻辑挑战中,模型拿下了骄人的高分。同时在SWE-Bench Verified等真实程序员视角的测试中也游刃有余。
![]()
当前模型在生成效率与极致专业领域的探索上仍有提升空间。
研究团队下一步计划通过算法裁剪压缩思考路径,持续优化模型在面对高度专业化或超长对话时的结构稳定性。
精雕细琢的底层架构加上突破性的强化学习算法,让以极低算力成本实现前沿智能成为现实。
参考资料:
https://arxiv.org/pdf/2602.10604
https://modelscope.cn/models/stepfun-ai/Step-3.5-Flash
https://huggingface.co/stepfun-ai/Step-3.5-Flash
https://static.stepfun.com/blog/step-3.5-flash/
https://github.com/stepfun-ai/Step-3.5-Flash
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.