来源:市场资讯
(来源:量子位)
春节档果然热闹!
印奇上任后,阶跃星辰也气势一新了。
正式发布新一代开源Agent基座模型Step 3.5 Flash,总参数196B,激活参数11B,支持256K上下文窗口。
![]()
生态层面,依旧走软硬结合的技术路线,优化模型本身的同时,兼容适配主流算力硬件。
目前,Step 3.5 Flash已经和昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥多家芯片厂商完成适配,覆盖了当前主流的国产AI加速芯片平台。
官方数据称新模型的推理峰值达350TPS,在Agent场景和数学任务上媲美闭源模型,能胜任复杂、长链条任务。
![]()
先来看波成绩单。
官方公布了Step 3.5 Flash在推理、编码、智能体三大核心场景的基准测试对比图(阴影条表示使用并行思考增强的Step 3.5 Flash的性能)。
新模型在推理类测试排名均在前列,其中AIME 2025基准测试中得分97.3;
编码任务的SWE-bench Verified测试中达到74.4%,与国外闭源模型相比仍有小幅距离;
智能体任务的τ²-Bench测试中取得88.2的分数。
![]()
接下来实测走起!
好家伙,推理速度是“肉眼几乎不可见”的快,秒回的答案也准确。
![]()
看图计算也来试一试:
![]()
![]()
虽然答案没错,但尝试了国内外多个模型之后发现,只有Step 3.5 Flash没把答案合并同类项到最终形式……
![]()
接下来看编程场景,让Step 3.5 Flash开发一个模拟医疗资源监控系统。
![]()
系统完成初始化加载后,左上角会实时展示当前运行状态,清晰标注系统的在线情况、最新数据更新时间和连接状态(模拟)。
右上角则还原了医院各类医疗设备的在线率、负载状态与运行情况,设备总揽面板非常直观。
界面核心区域作为主可视化大屏,集中呈现全院各科室的实时忙碌程度、医护资源利用趋势与业务流量变化。
同时对床位占用、关键设备运行状态进行全天候实时监控,一旦出现资源紧张或超负荷情况,会自动触发繁忙预警与高亮提示。

点击左侧导航栏中的不同科室选项,可以展开对应科室的详细运营数据与业务指标,界面会自动切换至专属科室视图。
当光标悬浮在科室床位分布的饼状图上时,还会实时弹出浮动提示框,清晰展示床位占用、空闲、预留等细分数据。
如果仔细观察背景的院区布局图层就会发现,每点击一个科室选项,场景都会自动平滑滑动,将镜头定位到对应科室的物理位置上。

再来一个飞行员气象仪表盘:

可视化交互的效果不错,但有个问题是这个模型不能直接预览或者给出预览网址,生成代码后还得手动粘贴保存文件才能查看。
![]()
除了推理和编程场景,端云协同也是Step 3.5 Flash重点打造的实用能力,核心思路是云端负责烧脑的规划与推理,端侧负责安全的数据读取与本地执行
在官方的电商比价演示中,面对用户“对比 Mac Mini M4 各平台价格”的需求,Step 3.5 Flash化身云端大脑,直接将复杂的比价任务,拆解为分别查询淘宝、京东、拼多多的独立小任务。
云端提前做好任务规划后,本地的Step-GUI就无需复杂思考,只需要专注完成数据抓取工作。
最后由云端统一汇总所有价格信息,快速比对后为用户生成清晰的购买参考。

△已加速
主打一个数据不出本地、隐私不上云。
架构层面,Step 3.5 Flash采用的是MoE稀疏混合专家架构。
总参数量达到196B,但在实际推理过程中,每个Token仅激活约11B参数。在保证模型能力的同时,通过稀疏激活有效控制了计算与部署成本。
针对长上下文优化,模型使用3:1滑动窗口注意力与全注意力交错的方案,缓解了传统长文本模型的失忆问题。
此外,研发团队将SWA层的查询头数从64增加到96,在不扩大KV缓存占用的情况下增强了模型的表征能力。
为了确保数值稳定性,模型还集成了头向门控注意力,通过动态调节信息流向来维持推理过程的稳定性。
![]()
在推理效率上,Step 3.5 Flash采用了3路多Token 预测(MTP-3)技术,允许模型在主输出的同时并行预测未来的多个token,并通过并行验证机制在单次处理中校验多个token假设。
这种方式使其在NVIDIA Hopper GPU上的单流编程任务中,推理峰值达到350TPS。
为了强化模型推理与智能体执行能力,Step 3.5 Flash还搭载了自研的MIS‑PO强化学习框架。
用更严格的样本过滤机制替代了传统的重要性加权计算,有效减少了数据噪声与梯度方差,让模型在长序列任务上的优化更稳定;即便在大规模离线训练的环境中,依然能保持可靠的输出。
此外,据官方透露,Step 4也正在训练中。
![]()
参考链接:https://static.stepfun.com/blog/step-3.5-flash/
— 完 —
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.