什么是真正好用的推理模型？阶跃Step 3给出了答案|模态|数学|深度思考模型|阶跃step3

分享至

衡宇发自凹非寺
量子位 | 公众号 QbitAI

推理模型和具身智能，绝对是今年WAIC上最抢眼的存在。

一个抢占了现阶段AI发展的话语权，一个是外界给予重望的“下一件有形之物”——尤其是推理模型这条线，逛展刚第二天，我的脑子已经有点“轰炸过载”了。

当迷失在各家的最新推理模型性能指标之中时，一个念头突然冒了出来。我把这个念头写在这里，同时也是想问问各位朋友们：

什么样的推理模型，能称得上真正好用？

在我这里，答案或许是：

多模态，推理强，用得起，最好还是开源的。

几句话说起来简单，但真能兼顾这几点的模型，在市场上几乎处于空缺状态。

直到我发现了阶跃星辰在WAIC期间发布的新一代基础大模型Step 3——市场上的这个空缺，终于被填上了。

Step 3是一个总参数321B的MoE模型，具备多模态推理能力，将于下周四（7月31日）正式开源。

在MMMU等多个多模态榜单上，它一现身就取得了开源多模态推理模型新SOTA的成绩。

更重要的是，Step 3不是单纯追求效果的“学术卷”，阶跃称这款模型兼顾智能与效率。

实测显示，Step 3的推理解码成本仅为DeepSeek的1/3，且效率更高；在国产芯片上的跑分更是一骑绝尘，推理效率最高可达DeepSeek-R1的300%。

多模态卷王的新SOTA“四字诀”

过去一年，行业在变。

生成式AI步入推理时代后，多模态模型全面涌现，推理能力成为新焦点，开源成为厂商和用户的首选考量。

与此同时，各个榜单里更替速度极快的高排名，不再是衡量一个模型性能的唯一定论。效率、成本、部署友好性，都成为综合考察点的一部分。

阶跃看到了这些现象和趋势，并直接在Step 3身上体现了自己对这些需求的回应。

阶跃将其概括为四字诀：多、开、好、省。

这也是阶跃对“什么是真正好用的推理模型”简短有力的回应。

多

多，指多模态。

是的，Step 3依旧是熟悉的阶跃味道——它是个多模态模型。

Step 3是一个321B参数的视觉语言模型（VLM），激活参数38B。其架构包含独立的视觉编码器（5B参数）和语言模型（316B参数）。

多模态卷王之所以还在多模态这条路上卷，是因为阶跃观察到，多模态对用户来说才是刚需。

“数学和代码是各大榜单最喜欢测试模型能力的方向。”阶跃星辰创始人、CEO姜大昕表示，就连测试Step 3的时候，都免不了会选择相关测试集，“但实际应用场景中，用户并不需要这个模型是个数学奥赛金牌选手，我们往往需要的是一个能说会看的模型。”

作为阶跃首个全尺寸原生多模态推理模型，Step 3拥有强大的视觉感知和复杂推理能力，可准确完成日常生活中的各类视觉分析问题。

比如，只报上身高体重，然后丢给它商场中某品牌裤子的标签，问自己能不能穿。

它成功识别出了品牌，还因为提问中没有清晰表示提问的“我”是男是女，于是分情况进行了分析和回答：

日常生活外，跨领域的复杂知识理解、数学与视觉信息的交叉分析也不在Step 3的话下。

现在，阶跃AI App和网页（stepfun.com）上，所有普通用户都已经能体验到Step 3的多模态推理能力。

尤记得今年2月，也是在上海，阶跃承诺将在多模态推理领域持续深耕，如今放出Step 3，也算是对这个承诺的阶段性兑现。

开

25日，Step 3公开发布，并承诺于7月31日正式开源。

这一举打破了市场上“强模型不开源，开源模型不强”的尴尬局面。

瞥了一眼，GitHub上的项目仓已经建好了～

虽然“will be released soon”，但已经107颗星星在手，nice。

好

这个“好”字，姜大昕作出如下解释：

模型不仅要知识丰富，善解人意，还要有这个严谨的逻辑推理能力。

如他所述，尤其是从今年上半年开始，强推理能力已经成为新一代模型的标配。

给它一张没有任何文字信息的WAIC现场实拍图，它一眼就看出吃瓜群众围得里三层外三层，是为了看右下角两个戴着头盔的机器人在拳击。

再追问，Step 3甚至能根据场馆布置特色和风格，推测出这是发生在WAIC上的一幕：

省

“该省省，该花花”这套生活哲学，终于也被活学活用到大模型身上了。

“省”字对应的其实是所有用户——无论是企业还是开发者——最朴实无华的需求：在模型能力足够好的前提下，成本要尽可能地降低。

Step 3给出的解决方案是系统协同设计（Model-system Co-design），即重点通过模型系统架构的创新来提升解码效率并降低推理成本。

这里关键介绍两点创新：

一个是系统层的AFD分布式推理系统。

传统情况下，模型关于Attention和FNN的推理计算任务，会交给同一组GPU同时处理，常常导致资源浪费。

AFD全称为Attention-FFN Disaggregation，它的做法是将Attention和FNN拆开，使两者在独立子系统中运行，实现分布式推理和流水线优化。

这样一来，Attention和FNN可以分别部署到不同GPU集群，避免专家负载不均和网络拥堵问题，显著提升解码效率。

实验结果表明，AFD分布式推理系统优于与DeepSeek-V3采用的专家并行方案DeepSeek EP。

另一个创新是模型层的MFA注意力机制。

MFA全称Multi-Matrix Factorization Attention。其实早在去年年底，阶跃就在Step-2的基础上首次公开发布了MFA机制。

它是一种硬件感知的低秩注意力设计，通过矩阵分解优化KV缓存和计算效率，同时保持高注意力表达力。

技术报告显示，Step 3的KV缓存大小小于DeepSeek-V3，更适用于长上下文场景。

值得注意的是，MFA的算术强度控制在128，这是一个权衡结果——高于H20的74，避免内存墙；又低于H800的591，避免算力浪费。

这个设计直接带来三个结果：跨硬件兼容性、成本优势扩大、长上下文弹性。

同时，Step 3支持FP8全量化，将内存访问减半并兼容“低比特存储-高比特计算”方案，进一步降低延迟。

系统层和模型层两处创新，二者协同，让Step 3仅使用32张Hopper GPU，吞吐量就达到4039 tokens/GPU/s；而DeepSeek官方数据显示，使用128张Hopper GPU的DeepSeek-V3，官方吞吐量为2324 tokens/GPU/s。

一套操作下来，最终达到的效果是这样的——

在A800上，Step 3的成本低于所有同类模型；在H20上，Step 3的成本仅有DeepSeek-V3的30%。

整体看下来，在SOTA已经不是惊艳四座新鲜事的现在，Step 3给推理时代的大模型SOTA提供了一个新的定义：

既是最强，又是最值。

Step 3可称作“开源”“多模态”“推理”“SOTA”四角俱全的代表——被行业里叫做多模态卷王，不是没道理。

推理落地难，软、硬、Infra一起卷

Step 3无愧于阶跃多模态推理模型新旗舰，但是——

如果没有配套的算力环境，即便Step 3再好，也可能只是高处不胜寒。

真正让它落地有声的，是产业链的联合进化。

过去模型落地常卡在两个点，一个是API价格太高，一个是国产卡推不动。

但谁都知道，API价格战固然能带来一时普及，唯有在模型与系统架构上实现本质性突破，才能支撑AI长久可持续地走进日常与产业。

为了打破推理大模型普及最大瓶颈——成本，阶跃不靠API价格战，而是朝硬件下手，推动模型和算力层协同发展。

在设计之初，Step 3就考虑了国产芯片适配。

Step 3的友好，是对所有芯片友好。

目前，华为昇腾已首先实现Step 3的搭载和运行；沐曦、天数智芯和燧原等也已初步实现运行Step 3。

敲黑板，这里提到的适配的不是阉割版，而是在完整多模态能力下实现高性价比推理。

更棋高一着的事情是，为了进一步打通上下游，阶跃联合近10家芯片及基础设施厂商发起“模芯生态创新联盟”。

据了解，该联盟是一个打通了芯片、模型、Infra完整技术链路的创新生态体系。

Step 3发布当天，该联盟公开的首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等。

姜大昕表示，阶跃会从底层和各个芯片、Infra伙伴进行联合创新，提升模型适配性和算力应用效率。

芯片厂提供可落地的推理算力，模型厂做硬件友好的模型架构，Infra平台做高效调度、服务部署与推理加速，最终实现推理能用、成本可控、国产芯片跑得起来。

终端智能Agent落地成果丰硕，2025全年预计收入冲刺10亿

如果说模型能力是基础盘，那么应用落地就是成败的分水岭。

在这方面，阶跃的表现可以说是：多模态推理模型能跑的地方，它都跑过了。

尤其是在终端智能Agent方向，阶跃已经形成清晰的落地节奏，且来自汽车、手机、具身智能、IoT等领域的客户都很买单。

在这两天的WAIC上，展示场景落地能力的阶跃展台，也是被人从众争相围观体验的热门展位。

看到上图左下角这个蛋舱没？

这就是搭载了阶跃多模态模型能力的下一代智能座舱，能感知用户状态，记住车主偏好，开启人机共驾时代。

而在离我们当下现实生活更近的汽车端，可以看看旁边的吉利银河M9。

它首发搭载阶跃星辰端到端语音大模型——这是行业内端到端语音大模型首次实现量产上车。

手机是阶跃Agent终端落地的另一个重点场景。

它使用人群最广泛、占据我们日常最大使用时长，因此也是一个更普惠所有用户的场景。

阶跃官方表示，目前，国内Top10手机厂商过半都已接入阶跃的多模态能力，OPPO、荣耀、中兴的旗舰机型都已搭载适配。

一方面通过高效推理降低了端侧的功耗压力，另一方面真正做到了在本地实现AI伴聊“AI视频通话搭子”、记录手机碎片化信息的“AI记忆收纳师”等功能。

说适配搭载阶跃能力的手机是每个人的随身Agent，并不夸张。

大模型很热，但很多时候热在人们的交谈里，热在媒体的报道里，或者只是热在你争我夺的各种榜单上。

而阶跃，已经让多模态大模型可用、可跑、可部署、可落地。

这就让它成为当前基础模型赛道中，少数几个具备清晰商业化路径和收入规模的玩家之一。

据阶跃方面透露，2025年全年预计收入近10亿人民币。

此次发布的Step 3，是阶跃在推理模型当道的现在，给出的一套系统性打法。

它其实不是天降神兵般突然出现的一个兼顾智能与效率的多模态推理模型，而是阶跃一路卷来，钻研技术与工程，又洞悉市场需求的一份答卷。

而且它靠着“多开好省”四字秘诀，一脚踹开了推理模型商用落地的那扇门。

没错哦，当别人还只在卷参数卷指标，阶跃已经开始算收入了；别人还在拼一张张榜单，Step 3已经装进了车里、手机里、机器人里。

最强模型的牌面总在刷新，最强的皇冠王座可以轮换，但市场不会撒谎。

那些真正好用、能落地、能适配的模型才是开发者和企业长久追着找的刚需款。

在一轮轮淘汰赛之后，谁是AI产业的长期务实性选项，已经越来越清楚了。

Step 3的“多开好省”听着像是口号，实则可能是一道选择题：

你想做SOTA的路过者，还是能跑进终端、留在产业线里的长跑者？

阶跃已经选了它的答案。

你呢？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

什么是真正好用的推理模型？阶跃Step 3给出了答案

多模态卷王的新SOTA“四字诀”

多

开

好

省

推理落地难，软、硬、Infra一起卷

终端智能Agent落地成果丰硕，2025全年预计收入冲刺10亿

元宝发10亿红包，阿里千问：我跟30亿

美伊局势脆弱且微妙 两国谈判"最大症结"披露

美伊局势脆弱且微妙 两国谈判"最大症结"披露

澳网男单决赛，属于阿尔卡拉斯的加冕仪式

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

国六货车被迫"换头" 每次收费超200元

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

云游中国｜拨开云雾，巫山每帧都是航拍大片

省教育厅：中学教师培养，逐步实现研究生层次为主

华为开门红，一月排名出炉，苹果排名第二

马斯克花5万买的折叠屋，是预制住宅的未来吗？

美伊局势脆弱且微妙两国谈判"最大症结"披露

美伊局势脆弱且微妙两国谈判"最大症结"披露

周杰伦带王俊凯陈奕迅聚餐畅聊音乐