StepFun团队Step 3.5 Flash：11B参数实现前沿智能水平|编程|智能体|大模型|flash

分享至

这项由StepFun团队开发的研究成果于2026年2月11日发表，论文编号为arXiv:2602.10604v1，标志着人工智能领域的一次重大突破。有兴趣深入了解的读者可以通过该编号查询完整论文。

想象一下，如果有一个超级聪明的助手，它不仅能像最顶尖的专家一样思考和推理，还能以闪电般的速度完成任务，同时消耗的"大脑能量"只有传统专家的一小部分。这听起来像科幻小说，但StepFun团队刚刚让这个梦想成为了现实。他们开发的Step 3.5 Flash模型就是这样一个神奇的存在，它用仅仅110亿个活跃参数就达到了与那些使用数千亿参数的顶级模型相媲美的智能水平。

在传统的人工智能发展中，研究者们面临着一个经典的三难困境：智能程度、运行成本和响应速度。就像汽车设计中的速度、油耗和舒适度一样，想要在一个方面获得突破，往往需要在其他方面做出牺牲。然而，随着智能代理系统时代的到来，这种平衡被彻底打破了。现代的AI助手不仅需要足够聪明，还必须能够快速响应，因为在实际应用中，每一秒的延迟都可能导致用户体验的大幅下降。

StepFun团队深刻理解了这一挑战，并决定从根本上重新设计整个系统架构。他们的方法就像设计一台高性能跑车一样巧妙：通过精心的工程设计和创新技术，既要确保强大的动力输出，又要保证燃油经济性，还要实现卓越的驾驶体验。这种设计理念贯穿了Step 3.5 Flash的每一个技术细节。

一、革命性的稀疏架构设计

Step 3.5 Flash采用了一种被称为"稀疏专家混合"的架构，这种设计可以比作一个拥有众多专业技能的超级团队。想象一个大型咨询公司，里面有数百名不同领域的专家，但对于每个具体问题，只需要其中最相关的几位专家参与讨论，而其他专家则处于待命状态。这样既保证了知识的广度和深度，又避免了资源的浪费。

具体来说，Step 3.5 Flash总共拥有1960亿个参数，但对于处理任何单个信息片段时，只会激活其中的110亿个参数。这种设计理念的巧妙之处在于，它保持了大型模型的强大能力，同时大幅降低了实际运行时的计算需求。这就像拥有一座巨大的图书馆，但每次只需要翻开最相关的几本书就能找到答案。

在注意力机制的设计上，研究团队采用了一种混合策略，将滑动窗口注意力和全注意力按照3比1的比例进行搭配。这种设计可以理解为在观察复杂场景时的视觉策略：大部分时间我们专注于眼前的重要细节（滑动窗口），但定期会扫视整个全景（全注意力），以保持对整体情况的把握。这种平衡既保证了处理效率，又维持了对长距离关系的感知能力。

更有趣的是，研究团队还为滑动窗口注意力层增加了更多的查询头，从64个增加到96个。这就像给一个观察者配备更多双眼睛，让他们能够同时关注更多的细节。结合头部门控注意力机制，模型能够动态调节每个注意力头的贡献度，就像人眼在不同光线条件下会自动调节瞳孔大小一样。

二、多令牌预测的创新应用

Step 3.5 Flash的另一个突破性创新是多令牌预测技术。传统的语言模型就像一个只能一个字一个字写作的作家，而Step 3.5 Flash则可以同时预测接下来的多个词汇，大大提升了生成速度。这种技术特别适合与推测解码配合使用，可以显著减少在长对话和复杂任务中的等待时间。

这种设计的精巧之处在于，多令牌预测头使用了相对轻量的架构，每个预测头只增加了大约0.41%的参数量。就像在汽车上安装一个小型的导航系统，虽然会稍微增加重量，但带来的便利性远大于成本。研究团队还采用了一种聪明的训练策略：在主要训练阶段只激活一个预测头，等到模型主体训练完成后，再将其他预测头从第一个复制过来，进行联合微调。这种分阶段的训练方法既保证了效率，又确保了所有预测头的协调工作。

三、训练稳定性的关键突破

在大规模稀疏模型的训练过程中，稳定性是一个至关重要的挑战。就像驾驶一辆高性能赛车，任何微小的不稳定都可能导致严重后果。StepFun团队建立了一套全面的监控和诊断系统，能够实时监测训练过程中的各种异常情况。

研究团队发现了三种主要的不稳定性模式。首先是Muon优化器在低精度计算下的数值敏感性问题。Muon优化器就像一个非常精密的仪器，能够提供更准确的更新方向，但在某些数值条件下可能出现异常。通过将关键的迭代计算从bfloat16提升到float16精度，团队成功解决了这一问题。

第二种问题是专家崩溃现象，即使路由统计看起来正常，某些专家仍可能失去活性。这就像一个团队中某些成员虽然分配到了任务，但实际上没有发挥作用。研究团队通过改进负载平衡策略和引入专家级别的监控指标，有效解决了这个问题。

最具挑战性的是第三种问题：局部激活爆炸。在训练后期，深层网络中的少数专家会出现激活值急剧增长的现象，就像一个音响系统中某个喇叭突然音量暴增，可能导致整个系统不稳定。团队通过激活裁剪技术成功控制了这种现象，确保了训练的平稳进行。

得益于这些稳定性改进，Step 3.5 Flash在整个17.2万亿词元的训练过程中只出现了一次瞬时损失尖峰，这在大规模模型训练中是一个卓越的成就。

四、智能化的数据配比和训练策略

Step 3.5 Flash的训练过程就像培养一个全能型人才，需要在不同阶段接受不同类型的教育。整个训练分为预训练和中期训练两个主要阶段，总计消耗了约17.6万亿个训练词元用于预训练，7500亿个词元用于中期训练。

预训练阶段分为两个子阶段。第一阶段是广泛的开放域训练，就像让学生接受通识教育，涵盖各种基础知识。第二阶段则是退火和长上下文初始化，重点转向代码和软件工程相关的内容，同时将上下文长度从4千个词元扩展到32万个词元。这种渐进式的扩展就像逐步增加阅读材料的复杂度和长度，让模型能够处理更复杂的长文本任务。

中期训练同样分为两个阶段。第一阶段专注于32K上下文的专业化，强调软件工程和工具使用相关的能力。第二阶段将上下文长度进一步扩展到128K，并引入大量的长篇推理和自然长文档，为后续的智能代理任务做准备。

在数据构成方面，研究团队精心设计了多样化的数据源。除了标准的网页爬取数据外，他们还开发了StepCrawl系统，能够获取更高质量的网页内容和文档资料。代码数据方面，团队使用了改进的OpenCoder过滤管道，在保证质量的同时适当放宽了过滤标准，允许0-6个启发式违规，以平衡质量和多样性。

特别值得注意的是PR、Issue和Commit数据的处理。为了更好地模拟真实的软件工程工作流程，研究团队从GitHub上收集了大量的拉取请求、问题报告和代码提交记录，并使用类似Agentless风格的模板进行处理，用于文件定位和代码修复训练。

五、突破性的后训练框架

后训练阶段是Step 3.5 Flash实现前沿级智能的关键。研究团队设计了一个统一的后训练配方，将监督微调和大规模强化学习有机结合。这个过程就像培训一个顶级厨师，既需要扎实的基础技能训练，也需要在实际烹饪中不断改进和完善。

监督微调分为两个阶段。第一阶段执行大规模的多领域微调，涵盖数学、代码、科学、逻辑、通用问答、代码智能体、工具使用、搜索智能体和长上下文理解等多个领域。第二阶段通过注入分布外信号来最大化推理密度，包括约3万个专家级化学轨迹和合成算术任务。这种针对性的训练在短短三个周期内就能显著提升模型的推理能力。

在强化学习方面，团队面临着一个核心挑战：如何在保持训练稳定性的同时，处理长序列推理任务中的高方差梯度问题。他们的解决方案是MIS-PO（Metropolis独立采样过滤策略优化），这是一种受Metropolis独立采样启发的新方法。

MIS-PO的核心思想是将推理策略视为提议分布，将训练策略视为目标分布，只对那些与目标分布足够接近的样本进行更新。这就像质量控制中的严格筛选过程，只有符合标准的产品才会进入下一道工序，而不是试图修正所有不合格的产品。这种方法通过二进制掩码过滤显著降低了梯度方差，使得强化学习能够可靠地扩展到长时间序列推理任务。

研究团队还引入了截断感知值自举技术来解决上下文长度截断带来的奖励偏差问题。传统方法会将截断的轨迹视为失败，但这种做法混淆了任务完成度和实际表现。新方法用价值估计来替代零奖励，将截断视为时间限制而非终端失败，这样能更准确地评估模型的实际能力。

六、数据合成与策划的艺术

Step 3.5 Flash的数据处理可以比作精密的食材准备过程。研究团队构建了一个多样化且难度平衡的训练数据集，总计87万个样本，包含72.3亿个词元。这个数据集就像一份营养均衡的大餐，每种"营养成分"都经过精心挑选和配比。

在通用推理数据方面，团队聚合了来自社区的提示、专家回应和多样化开源的合成数据，涵盖数学、编程、科学和开放式问答等领域。为了最大化推理密度，他们采用了统一的管道处理方法，结合严格的全局过滤和领域特定的精化处理。在数学领域，他们通过专家指导的拒绝采样确保数值稳定性。在编程领域，他们优先考虑离线可执行性，严格清除与检索增强相关的幻觉内容。

工具学习数据的生成采用了执行驱动的框架。不同于随机探索或基于模型的仿真，这种方法将工具使用行为分解为原子意图，使用有限状态机建模，明确分离抽象的工具调用逻辑和参数化的执行约束。所有候选轨迹都在真实环境中执行并通过确定性反馈验证，确保保真度并消除幻觉行为。

在代码智能体数据方面，团队发现代码智能体可以通过可验证的环境构建和解决方案生成之间的闭环干预来自我改进。他们将环境构建视为与错误修复和功能实现同等重要的一级能力，在可验证的奖励信号下进行合成。这种方法实现了40%的环境构建成功率，为模型的自我进化形成了正反馈循环。

搜索和研究智能体的数据生成集成了基于图的多文档合成，通过在知识图谱上执行拓扑扩展和模拟跨网站浏览轨迹来生成反映真实世界研究复杂性的数据。为了确保外部检索的必要性，团队使用DeepSeek-R1验证生成的查询，系统性地排除了该强推理模型无需工具交互即可解决的实例。

七、卓越的性能表现

Step 3.5 Flash在各种基准测试中展现出了令人印象深刻的性能。在推理能力方面，它在IMO-AnswerBench上达到了85.4%的准确率，在LiveCodeBench-v6上达到了86.4%，在τ?-Bench上达到了88.2%。这些成绩与GPT-5.2 xHigh和Gemini 3.0 Pro等前沿模型不相上下。

更令人瞩目的是，Step 3.5 Flash在智能体能力方面的表现同样出色。在BrowseComp（带上下文管理）上获得了69.0%的成绩，在Terminal-Bench 2.0上达到了51.0%。这些结果表明，该模型不仅在传统的推理任务上表现优秀，在需要长期规划和工具使用的复杂智能体任务中也展现出了强大的能力。

在与其他先进模型的对比中，Step 3.5 Flash在预训练阶段就表现出了强大的竞争力。尽管只激活110亿参数，但在BBH基准上达到88.2分，在MMLU上达到85.8分，在SimpleQA上更是以31.6分的成绩超越了使用三倍参数量的DeepSeek-V3.2-Exp Base模型。这种参数效率的优势在实际部署中具有重要意义。

八、高效的基础设施和工程优化

Step 3.5 Flash的成功不仅源于算法创新，还得益于精心设计的基础设施和工程优化。研究团队在4096块NVIDIA H800 GPU组成的大规模集群上完成了训练，采用了混合并行化策略，包括8路流水线并行、8路专家并行和ZeRO-1数据并行。

为了解决通信瓶颈问题，团队实施了多项优化技术。分离式并行化允许注意力和MoE模块使用不同的并行化策略。通信优化包括感知网络结构的通信调度和基于通信感知的rank放置，这些优化技术联合将迭代时间减少了多达5%。

在Muon优化器的适配上，团队解决了ZeRO-1分片与Muon完整梯度需求之间的冲突。他们设计了一种混合策略，将完整参数分配给数据并行rank，并将梯度缓冲区重新打包为rank主要缓冲区，使得单个reduce-scatter操作就能将每个参数的完整梯度传递给其所有者。这种优化将端到端迭代时间减少了约5%。

九、实际部署的考虑

Step 3.5 Flash在设计时就充分考虑了实际部署的需求。模型在标准8-GPU服务器节点上的配置采用了8个KV头的分组查询注意力，这种设计与8路张量并行完美对齐，改善了内存访问模式。虽然这种配置使注意力更加受内存带宽限制，但也创造了计算余量，可以吸收推测起草和验证的开销。

在专家级负载平衡方面，团队采用了无损负载平衡来鼓励专家间的全局词元平衡，同时引入了EP级别的平衡损失，明确促进统一的rank级别利用。这种设计确保了在分布式部署中不会出现由于路由不平衡导致的性能瓶颈。

十、训练监控的创新方案

大规模训练的一个重大挑战是如何在不影响训练效率的前提下收集和分析大量的监控数据。4096个GPU的工作负载每次迭代会产生近600万条消息，如果采用传统的同步全局归约方法，会增加数秒的开销，几乎使迭代时间翻倍。

StepFun团队开发了轻量级指标服务器来解决这个问题。每个rank使用StepRPC异步通信框架将本地指标异步传输到远程服务器，将遥测开销减少到每次迭代约100毫秒。指标服务器缓存传入的指标，只有在收到所有参与rank的迭代结束信号后才触发归约和数据库持久化，完全消除了主循环中的同步开销。

这个服务器采用高并发多进程系统实现，包含两个解耦模块：专门用于高吞吐量摄取的消息接收器，以及负责聚合和持久化的归约处理器。通过利用这些模块内部和之间的多核心并行性，服务器能够跟上遥测流的速度，确保指标管理永远不会滞后于训练进程。

十一、前沿的强化学习创新

在强化学习阶段，Step 3.5 Flash面临着传统重要性采样方法在长序列推理任务中的固有不稳定性问题。团队提出的MIS-PO方法就像为质量控制设置严格的筛选标准，而不是试图修正所有问题产品。

MIS-PO定义了一个二进制指示器函数，在两个不同的粒度级别应用筛选。在词元级别，函数过滤概率比值以抑制训练和推理策略之间的局部不匹配。在轨迹级别，对几何平均比值应用相同的指示器，有效丢弃那些显著偏离目标分布的整个轨迹。

这种方法的优势在实验中得到了充分验证。在约5000个训练步骤的消融研究中，MIS-PO在actor梯度范数方面表现出显著更低的噪声，表明其具有更好的可扩展性。该方法还能有效约束训练-推理不匹配在稳定范围内，这对大规模MoE模型的强化学习训练至关重要。

十二、多模态智能体能力的培养

Step 3.5 Flash的智能体能力培养采用了多种创新技术。在推理与工具使用模板设计方面，团队评估了三种管理策略来有效整合推理和智能体能力。他们发现，在每轮丢弃推理历史虽然鼓励独立生成，但会导致长序列任务失败。保留完整推理历史会产生令人望而却步的上下文消耗。最终采用的选择性保留策略只为最近用户指令触发的工具使用轨迹保留推理痕迹，在推理连贯性和上下文效率之间实现了最佳平衡。

在工具使用模板方面，团队比较了流行的JSON和XML格式。JSON的严格语法经常在小型训练不足的模型中引起解析错误，而XML格式允许扁平字符串输出，语法开销显著降低。因此选择XML格式确保了复杂真实世界智能体编程场景中的鲁棒性。

可扩展的代码智能体基础设施专注于可扩展的会话管理和跨框架泛化。核心是专有的Session-Router，通过Kubernetes协调容器生命周期，并通过Tmux确保交互一致性。这种架构支持数千个并发环境，具有无缝状态持久性，消除了对手动特定脚手架Docker配置的需求。

十三、评估结果的全面分析

Step 3.5 Flash在各类基准测试中的表现充分证明了其设计理念的成功。在数学推理方面，模型在AIME 2025上达到97.3%，HMMT 2025 Feb达到98.4%，HMMT 2025 Nov达到94.0%，IMO-AnswerBench达到85.4%，这些成绩都处于行业领先水平。

在编程能力方面，LiveCodeBench-v6上的86.4%成绩和自定义CF-Div2-Stepfun基准上的86.1%表现，展现了模型在竞技编程方面的强大实力。特别值得注意的是，该模型在多种编程语言上都表现出色，C++、Python、Java的通过率分别达到86.1%、81.5%和77.1%。

智能体任务的评估结果同样令人印象深刻。在SWE-Bench Verified上达到74.4%，SWE-Bench Multilingual上达到67.4%，这些成绩证明了模型在软件工程任务中的实用性。Terminal-Bench 2.0上的51.0%成绩虽然看似不高，但考虑到这是一个极具挑战性的基准，这个结果实际上相当优秀。

在浏览和搜索任务中，BrowseComp上的51.6%基线成绩在启用上下文管理后提升到69.0%，显示了模型在复杂信息检索和处理任务中的潜力。GAIA基准上的84.5%成绩进一步证实了模型在通用智能体任务中的能力。

十四、技术创新的深层意义

Step 3.5 Flash的技术创新具有深远的意义。在架构设计层面，混合注意力机制的成功应用为长上下文处理提供了新的解决方案。通过精心设计的3:1混合比例和增强的查询头配置，模型在保持计算效率的同时获得了强大的建模能力。

头部门控注意力机制的引入解决了传统滑动窗口注意力的一个关键限制。这种机制可以看作引入了数据依赖的汇聚标记，当输入窗口中没有有用信息时，能够有效吸收未使用的注意力权重。这种自适应调节能力使得模型能够更好地处理信息密度不均匀的输入。

在专家混合架构方面，EP组平衡MoE路由策略有效解决了端到端延迟被路由不平衡引起的掉队者主导的问题。通过引入EP级别的平衡损失，显式促进统一的rank级别利用，确保了在分布式部署中的稳定性能。

十五、实际应用的广阔前景

Step 3.5 Flash的设计目标是为在真实世界工业环境中部署复杂智能体提供高密度基础。模型的极致效率使其能够在资源受限的环境中运行，同时保持前沿级的智能水平。在OpenRouter平台的第一周部署中，模型在Hopper GPU上维持了约170 tokens/s的处理速度，证明了其在实际生产环境中的可行性。

模型在工具集成推理和并行推理方面的能力开辟了新的应用可能性。通过与Python解释器的集成，Step 3.5 Flash能够进行工具辅助推理，在数学、STEM和谜题基准测试中显著提升性能。并行协调推理（PaCoRe）范式的应用进一步展示了模型在测试时间扩展方面的潜力。

在边缘-云协作场景中，Step 3.5 Flash作为云端推理协调器，与本地Step-GUI智能体配合，在AndroidDaily Hard基准上实现了57.0%的成功率，大幅超越了仅使用边缘设备的40.0%基线。这种分层架构充分利用了云规模推理和边缘效率的互补优势。

说到底，Step 3.5 Flash代表了人工智能领域的一次范式转变。它不仅在技术指标上取得了突破，更重要的是重新定义了效率与能力的平衡点。通过110亿活跃参数实现前沿级智能，这种设计为AI系统的实用化部署开辟了新的道路。无论是在学术研究、工业应用还是日常生活中，这种高效的智能系统都将产生深远的影响。对于那些希望了解人工智能技术最新发展的读者，Step 3.5 Flash无疑提供了一个绝佳的观察窗口，让我们看到了智能系统未来发展的方向和可能性。

Q&A

Q1：Step 3.5 Flash只用110亿参数怎么能达到前沿模型的性能？

A：Step 3.5 Flash采用稀疏专家混合架构，总共有1960亿参数，但每次处理时只激活110亿个最相关的参数。这就像一个大型咨询公司有数百名专家，但每个问题只需要最合适的几位专家参与，既保证了知识的广度和深度，又避免了资源浪费，从而用更少的活跃计算获得更强的智能表现。

Q2：MIS-PO强化学习方法相比传统方法有什么优势？

A：MIS-PO方法像质量控制中的严格筛选，只对符合标准的样本进行训练更新，而不是试图修正所有问题样本。这种二进制掩码过滤方式显著降低了梯度方差，使强化学习在长序列推理任务中更加稳定。实验显示MIS-PO的actor梯度噪声比传统PPO方法低很多，训练过程更稳定高效。

Q3：Step 3.5 Flash在实际应用中的部署优势是什么？

A：Step 3.5 Flash在OpenRouter平台上实现了约170 tokens/s的处理速度，同时保持前沿级智能水平。它的混合注意力机制和多令牌预测技术特别适合长上下文智能体任务，能在标准8-GPU服务器上高效运行。模型总参数控制在200B以下，可在128GB内存的高端工作站内实现高性能推理，大大降低了部署门槛。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.