10B超越Gemini-2.5-Pro！阶跃星辰端侧多模态天花板开源|算法|编码器|新论文

10B超越Gemini-2.5-Pro！阶跃星辰端侧多模态天花板开源

2026-01-21 00:27:00　来源: 时尚的弄潮

辽宁举报

分享至

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

阶跃星辰多模态智能团队刚刚开源了STEP3-VL-10B多模态模型。

它仅有100亿参数，却在数学推理、视觉感知及复杂指令遵循等前沿能力上，不仅超越了同量级模型，更在多项基准测试中比肩甚至击败了参数量大其10至20倍的庞然大物，如GLM-4.6V-106B与Qwen3-VL-235B，以及Gemini-2.5-Pro等闭源旗舰模型。

STEP3-VL-10B在多模态推理与感知任务上展现出超越千亿参数模型的惊人性能，源于极致的数据质量与并行协同推理机制。

十亿级参数的智能效率边界

只要设计得当，轻量级模型完全能够承载前沿水平的多模态智能，为高效部署与端侧应用打开了全新的想象空间。

STEP3-VL-10B的成功，源于对模型架构与训练策略的精准重构。

该模型的核心架构由一个经过语言对齐优化的18亿参数感知编码器与Qwen3-8B解码器组成，两者通过一个执行16倍空间下采样的投影器紧密连接。

这种设计巧妙地利用了感知编码器对语言特征的预先适应性，避免了传统视觉骨干网络在多模态训练初期因模态鸿沟导致的收敛缓慢问题。

投影器通过两层步长为2的卷积层将视觉Token进行压缩，既保留了关键的语义信息，又极大地降低了计算负担。

为了捕捉图像中的细微末节，模型采用了一种多裁剪策略，将输入图像分解为全局视图与多个局部裁剪视图，利用批处理维度的并行性规避了变长序列打包带来的复杂性，并通过添加换行符Token来编码空间结构，使得模型能够像阅读文章一样阅读图像。

数据是塑造模型智能的基石，STEP3-VL-10B在预训练阶段便引入了1.2万亿的高质量多模态Token，构建了一个覆盖广泛且密度极高的知识图谱。

研发团队并未简单地从网络上抓取数据，而是实施了极高标准的清洗与筛选策略。

针对交错图文数据，团队利用内部爬虫StepCrawl专注于抓取高质量的国内互联网内容，并剔除下载失败率高、含有二维码或长宽比极端的噪声数据。

在图文对数据的构建上，通过CLIP聚类进行概念平衡重采样，有效缓解了长尾概念的数据稀缺问题。

更具匠心的是，团队针对教育、OCR（光学字符识别）、GUI（图形用户界面）等关键领域构建了专门的数据集。

例如，在教育领域，收集了涵盖K-12至成人教育的1500万条样本，包括数理化公式、几何图形及试卷真题；在OCR领域，构建了包含真实场景与合成数据的庞大语料库，甚至涵盖了Markdown、LaTeX代码与图表转换任务。

这种对特定领域数据的精细化雕琢，为模型在后续处理复杂文档、图表理解及屏幕代理任务时奠定了坚实的认知基础。

全参数解冻训练

传统的视觉语言模型训练往往倾向于冻结视觉编码器以节省资源，但STEP3-VL-10B选择了一条更为艰难但收益更高的道路，即实施单阶段、全参数解冻的预训练策略。

在37万步的迭代中，感知编码器与语言解码器始终保持同步更新，这种深度耦合使得视觉特征与语言表征在底层逻辑上实现了真正的融合。

为了平衡训练规模与数据质量，团队采用了一种两阶段学习率调度策略。

在前9000亿Token的训练中，学习率缓慢衰减以强调广泛的表征学习；而在剩余的3000亿Token阶段，通过引入更高质量的数据混合并将学习率进一步退火，模型进入了冷却期，专门用于巩固OCR、Grounding（定位）等细粒度感知能力与推理能力。

这种训练范式使得STEP3-VL-10B建立了一种内在的视觉-语言协同机制，使其不仅仅是在看图说话，而是在真正地理解视觉信息背后的逻辑与结构。

预训练构建了模型的能力底座，而监督微调（SFT）与强化学习（RL）则进一步磨砺了其解决复杂问题的锋芒。

在SFT阶段，团队采取了两阶段策略，首先以9:1的文本主导比例夯实逻辑基础，随后调整为1:1的多模态平衡比例，逐步将强大的文本推理能力迁移至视觉领域。

这种循序渐进的对齐过程，确保了模型在处理多模态任务时不会丢失语言模型的逻辑严密性。

真正让STEP3-VL-10B脱颖而出的，是其在后训练阶段实施的大规模强化学习管线。

团队采用了PPO（近端策略优化）算法结合GAE（广义优势估计），在超过1000次的迭代中对模型进行精细打磨。

为了支撑跨模态与多任务的扩展性训练，团队设计了一套二元奖励系统：针对有明确真值的任务（如数学题、OCR），采用严格的感知奖励与模型辅助验证（利用GPT-OSS-120B作为裁判）；针对开放式任务，则依赖生成式奖励模型（GenRM）与行为正则化约束，确保模型输出不仅正确，而且符合人类偏好与安全标准。

值得关注的是，在强化学习过程中，模型展现出了截然不同的两种学习动力学特征。

对于数学、逻辑谜题等推理任务，模型的思维链长度随着性能提升而自然延长，表现出经典的测试时计算扩展特性，即花更多时间思考能带来更好的结果。

然而，在OCR、物体定位等确定性感知任务中，随着强化学习的进行，模型的输出长度不增反降。

这并非模型能力退化，而是一种熵减现象。

RL优化促使模型修剪了冗余的探索性Token，将概率质量集中在确定性的正确答案上，将高温度下的随机探索转化为鲁棒的确定性输出。

这种发现挑战了思维链越长越好的粗暴认知，揭示了感知任务与推理任务在认知机制上的本质差异：感知需要的是精准的聚焦与确认，而推理需要的是发散的探索与演绎。

强化学习与并行推理

为了克服小模型在复杂视觉推理任务上的局限性，STEP3-VL-10B引入了并行协同推理（PaCoRe）机制，这是一种在推理阶段扩展计算资源的创新范式。

传统的思维链（Chain-of-Thought）主要依赖顺序推理，容易陷入单点错误的死胡同，而PaCoRe采用了先提案，后综合的策略，类似于计算机视觉中的区域提案网络。

在推理时，模型首先并行生成多个视觉假设（Proposals），这些假设可能关注图像的不同区域或采用不同的解题视角。

随后，模型将这些分散的线索汇聚到一个统一的上下文中，进行交叉验证与逻辑综合，最终得出一个经过深思熟虑的结论。

这种机制实际上是在模拟人类的系统2思维过程，即通过在测试时投入更多的计算资源来换取更高的准确性，从而弥补了10B模型在参数记忆容量上的不足。

PaCoRe的实施细节体现了极高的工程智慧。

在训练数据的构建上，团队利用早期的RLVR（带验证奖励的强化学习）阶段筛选出的部分接受样本（即那些既非显而易见也非完全不可解的难题）作为种子，通过模拟并行推理过程生成16至24条消息，并将这些消息反馈给模型作为综合上下文以重新生成答案。

这种方法强制模型学习如何从纷繁复杂的信息中提取有效证据，并进行多视角的自我验证。

实验结果显示，在PaCoRe模式下，STEP3-VL-10B在MathVision（+5.14%）、DynaMath（+5.09%）等高难度推理基准，以及CountQA（+4.6%）等需要穷尽式感知的任务上，性能均实现了显著跃升。

这证明了通过外部化的并行搜索与验证，小模型完全可以展现出类似人类的高级校验行为，例如在解决坐标定位问题时，模型会主动检查多个参考点的坐标，发现共同规律，从而推导出正确结论。

并行协同推理的感知案例：

模型首先聚合参考答案，然后交叉验证其有效性，最终确定最终答案的潜在模式。

为了进一步提升推理效率，团队在强化学习阶段还引入了缺失轨迹假说。

该假说认为，人类视觉认知依赖于迭代式的粗看-细看或试错过程，但这些内在的心理状态很少在训练语料中显式表达，导致模型难以自发学会这种序列化的感知推理。

PaCoRe正是通过显式化这一过程，填补了训练数据的空白。

在未来的规划中，团队计划通过自蒸馏技术，将这些在推理时生成的并行思维轨迹内化为模型的直觉参数，从而把昂贵的慢思考转化为高效的快直觉，在不增加推理成本的前提下永久性地提升模型的感知智商。

这一思路不仅为小模型的进化指明了方向，也为解决AI领域的莫拉维克悖论提供了新的解题视角。

小模型具备前沿大智慧

在超过60个基准测试的严苛考验下，STEP3-VL-10B交出了一份令人惊叹的答卷，全方位验证了其作为最强开源10B级模型的实力。

在STEM与多模态推理领域，该模型在MMMU（80.11%）与MathVision（75.95%）上表现卓越。

在视觉识别与通用VQA（视觉问答）任务中，STEP3-VL-10B在MMBench（CN/EN）上分别达到了91.96%和92.38%，这不仅是10B量级的第一名，甚至足以让许多千亿参数模型汗颜。

这种跨越量级的性能表现，主要归功于其庞大的1.8B感知编码器以及全参数解冻的预训练策略，使得模型对图像细节的捕捉能力达到了前所未有的高度。

在文本中心能力的评估中，STEP3-VL-10B同样打破了多模态模型往往牺牲纯文本性能的魔咒。

它在AIME 2025数学竞赛基准上取得了94.43%的惊人成绩，在HMMT25上也有92.14%的斩获，这表明其逻辑推理能力已经达到了专业竞赛水平。

这种文武双全的特质，得益于SFT阶段精心设计的文本与多模态数据混合比例，确保了视觉能力的增强不以牺牲语言智能为代价。

此外，在GUI操作与屏幕代理任务上，模型在ScreenSpot-V2上取得了92.61%的高分，在OSWorld-G上也达到了59.02%，这主要得益于其独特的轨迹建模训练，使得模型能够精准地将视觉元素映射为可执行的动作，展现了其在自动化代理与具身智能领域的巨大潜力。

参考资料：

https://stepfun-ai.github.io/Step3-VL-10B/

https://arxiv.org/pdf/2601.09668

https://huggingface.co/collections/stepfun-ai/step3-vl-10b

https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

10B超越Gemini-2.5-Pro！阶跃星辰端侧多模态天花板开源

儿童手表「社交绑架」终结，小天才们的好日子到头了？

32岁程序员周末晕倒后猝死 抢救期间还被拉入工作群

32岁程序员周末晕倒后猝死 抢救期间还被拉入工作群

只会防守反击？不好意思，我们要踢决赛了

田亮一家新年全家福！森碟变清纯少女

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

给机器人做仿真训练 这家创企年营收破亿

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

云游辽宁｜漫步千年小城晨昏，“康”复好心情

打工人年终总结！健康通关=赢麻了

告别93岁时尚传奇Valentino：他留下了全世界最美的“红”

特朗普：对美国的真正威胁是联合国和北约

32岁程序员周末晕倒后猝死抢救期间还被拉入工作群

32岁程序员周末晕倒后猝死抢救期间还被拉入工作群

丹麦打响第一枪欧洲用资本保卫格陵兰岛

给机器人做仿真训练这家创企年营收破亿

2026款上汽大众朗逸正式上市售价12.09万起