网易首页 > 网易号 > 正文 申请入驻

阶跃星辰开源10B多模态模型Step3-VL-10B,性能媲美千亿级大模型

0
分享至

IT之家 1 月 20 日消息,今日,阶跃星辰宣布多模态模型 Step3-VL-10B 开源。据介绍,仅用 10B 参数量,Step3-VL-10B 在视觉感知、逻辑推理、数学竞赛以及通用对话等一系列基准测试中均达到同规模 SOTA 水平。

IT之家附官方介绍原文如下:

性能超越 20 倍大模型,阶跃星辰多模态“小核弹” Step3-VL-10B 开源!


仅用 10B 参数量,Step3-VL-10B 在视觉感知、逻辑推理、数学竞赛以及通用对话等一系列基准测试中均达到同规模 SOTA 水平,并且解决了参数量小和智能水平高难以兼优的行业难题。

我们在多项关键评测中观察到,Step3-VL-10B 媲美甚至超越规模大 10-20 倍开源模型(如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B)以及顶级闭源旗舰模型(如 Gemini 2.5 Pro、Seed-1.5-VL)。

基于这样一个小而强底座,原本只能在云端运行的复杂多模态推理(如 GUI 操作、复杂文档解析、高精度计数)能够下沉到手机、电脑甚至工业嵌入式设备中。

Base 和 Thinking 模型同时开源,欢迎下载体验!

  • 项目主页:https://stepfun-ai.github.io/Step3-VL-10B/
  • 论文链接:https://arxiv.org/abs/2601.09668
  • HuggingFace:https://huggingface.co/collections/stepfun-ai/step3-vl-10b
  • ModelScope:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B
10B 参数,200B 性能

Step3-VL-10B 具备三大核心亮点:

  • 极致视觉感知标杆:在同参数量级中展现出顶尖的识别与感知精度。通过引入 PaCoRe(并行协调推理) 机制,模型在复杂计数、高精度 OCR 及空间拓扑理解等高难度任务上的可靠性实现了质的飞跃。
  • 深层逻辑推演与长程推理:得益于规模化强化学习(RL)的持续迭代,Step3-VL-10B 在 10B 规模上实现了跨任务推理能力的阶跃。无论是竞赛级数学难题、真实编程环境还是视觉逻辑谜题,模型均能通过严密的多步思维链推导出最终答案。
  • 强大端侧 Agent 交互:基于海量 GUI(图形用户界面)专用预训练数据,模型能够精准识别并操作复杂界面,成为端侧 Agent 的核心引擎。

Step3-VL-10B 提供 SeRe(顺序推理)和 PaCoRe(并行协调推理)两种范式,在 STEM 推理、识别、OCR & 文档、GUI Grounding、空间理解、代码等核心维度,都取得了千亿级别模型的优秀分数,PaCoRe 范式表现更优。

1、STEM /多模态推理

STEM(科学、技术、工程、数学)与多模态推理(Multimodal Reasoning)是衡量模型“深度智能”的核心维度。

Step3-VL-10B 在 MMMU、MathVision 中超越 GLM-4.6V、Qwen3-VL 等模型。


2、竞赛数学

在数学维度上,Step3-VL-10B 表现尤其突出。在 AIME 25/24 等数学竞赛测试题上以几乎满分的成绩达到世界第一梯队水平。

这意味着 Step3-VL-10B 已具备了顶尖人类数学竞赛选手的思维能力,在逻辑严密性上甚至优于许多千亿级模型。


3、2D/3D 空间推理

Step3-VL-10B 在多个空间推理基准中都表现出优异水平,尤其是在需要精细感知与复杂逻辑结合的 BLINK、CVBench、OmniSpatial 及 ViewSpatial 等测试中,其性能显著超越了同规模模型。


4、代码

在真实、动态编程环境下,Step3-VL-10B 超越诸多世界一流多模态模型。


真实案例

在真实使用场景中,Step3-VL-10B 的多模推理能力覆盖 GUI 感知、视觉识别和推理等。

  • 案例一:莫尔斯推理


  • 案例二:GUI 感知


  • 案例三:图推理


为什么能做到?三项关键设计

能够达到以上性能,得益于 Step3-VL-10B 在三方面独特设计:

1.全参数端到端多模态联合预训练:摒弃了传统分阶段冻结模块的训练范式,直接在 1.2T 高质量多模态数据集上进行全参数联合训练。这种方式实现了视觉特征与语言逻辑在底层语义空间的深度对齐,为模型构建了极致的感知能力与复杂的跨模态推理基石。

2.大规模多模态强化学习(RL)演进:率先将大规模强化学习引入多模态领域,历经超过 1,400 次迭代优化。模型在视觉识别、数理逻辑推理及通用对话等维度的能力均实现质的飞跃,且实验数据表明,模型性能仍处于上升通道,尚未触及饱和边界。

3.并行协调推理机制(PaCoRe):创新性地引入 PaCoRe 机制,支持推理阶段的动态算力扩展。通过并行探索多个感知假设并进行多维证据聚合,该机制显著提升了模型在竞赛级数学、复杂 OCR 识别、精准物体计数及空间拓扑推理中的准确度。

得益于“三位一体”架构,Step3-VL-10B 证明智能水平并不完全取决于参数规模。

依托更高质量、更有针对性的数据构建,以及系统化的后训练与强化学习策略,10B 级模型同样有能力在多项基准测试中与 10–20 倍体量的模型正面竞争,甚至实现反超

这也意味着:世界一流的多模态能力有望以更低成本、更少算力获得;与此同时,过去主要集中在云端超级智能将逐步向端侧下沉,推动终端走向“主动理解与可执行交互”,从而重塑人机交互体验。

目前,我们已开源 Step3-VL-10B(包括 Base 模型和 Thinking 模型),欢迎大家与我们讨论交流,也欢迎开源社区来微调我们的模型,共同推动小模型实现智能跃迁!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第四代住宅卖不动了?住进去才知道的“七宗罪”

第四代住宅卖不动了?住进去才知道的“七宗罪”

室内设计师有料儿
2026-01-20 11:23:56
毛玉萍周正毅互掐升级!女方称其为“三无”男人,连名字都懒得喊

毛玉萍周正毅互掐升级!女方称其为“三无”男人,连名字都懒得喊

裕丰娱间说
2026-01-20 20:37:15
中国足协:支持各地持续办好城市足球联赛

中国足协:支持各地持续办好城市足球联赛

新华社
2026-01-20 17:22:03
伊朗,现代人类文明的伤疤

伊朗,现代人类文明的伤疤

科海识贝sci
2026-01-15 16:44:32
6.4万的特斯拉FSD将成为历史!

6.4万的特斯拉FSD将成为历史!

新车评网
2026-01-19 12:02:07
聂卫平3层别墅内外曝光,一家人在阳台放烟花,给妻子庆生好有爱

聂卫平3层别墅内外曝光,一家人在阳台放烟花,给妻子庆生好有爱

古希腊掌管松饼的神
2026-01-20 17:47:30
被愤怒的将军罢免,副总理杨胜虎是谁?

被愤怒的将军罢免,副总理杨胜虎是谁?

吃瓜体
2026-01-20 14:27:07
明查|格陵兰岛原住民是元朝远征军后裔?查无依据

明查|格陵兰岛原住民是元朝远征军后裔?查无依据

澎湃新闻
2026-01-20 07:32:27
《GTA6》脱衣舞俱乐部画面太刺激 玩家顶不住了

《GTA6》脱衣舞俱乐部画面太刺激 玩家顶不住了

游民星空
2026-01-20 17:06:11
如果连他们都打不了全明星赛,这个NBA也没必要再继续看下去了!

如果连他们都打不了全明星赛,这个NBA也没必要再继续看下去了!

田先生篮球
2026-01-20 12:54:44
奔驰:新一代S级不是常规中期改款,从内到外都是史上最大革新

奔驰:新一代S级不是常规中期改款,从内到外都是史上最大革新

IT之家
2026-01-21 08:03:17
梁洛施罕见谈离开李泽楷原因:他很富有,是一生挚爱,也不后悔

梁洛施罕见谈离开李泽楷原因:他很富有,是一生挚爱,也不后悔

素素娱乐
2026-01-21 09:55:35
向余望:射出去那一脚就知道进了;主教练非常信任我

向余望:射出去那一脚就知道进了;主教练非常信任我

懂球帝
2026-01-21 03:05:09
“陈真”梁小龙去世,77岁的“霍元甲”黄元申如今咋样了?

“陈真”梁小龙去世,77岁的“霍元甲”黄元申如今咋样了?

叨唠
2026-01-20 20:49:59
中国U23大胜越南挺进决赛,金相植总结失利原因坦言仍有竞争力

中国U23大胜越南挺进决赛,金相植总结失利原因坦言仍有竞争力

诗远文案馆
2026-01-21 11:45:05
英国葛兰素史克(GSK)股价上涨63.7%

英国葛兰素史克(GSK)股价上涨63.7%

每日经济新闻
2026-01-20 22:41:16
现役球员最新射手榜排名!照此下去 梅西超C罗的可能性越来越小?

现役球员最新射手榜排名!照此下去 梅西超C罗的可能性越来越小?

体坛八点半的那些事儿
2026-01-21 11:28:18
1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

帝哥说史
2026-01-17 06:40:03
南怀瑾临终谜题:厉声警告世人,千万别学佛学易,且一连强调8次

南怀瑾临终谜题:厉声警告世人,千万别学佛学易,且一连强调8次

阿器谈史
2026-01-20 22:42:29
2026油电新政实锤!电车缴里程税+油车减税,公平时代真的来了?

2026油电新政实锤!电车缴里程税+油车减税,公平时代真的来了?

沙雕小琳琳
2026-01-21 08:08:12
2026-01-21 12:39:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
325639文章数 606900关注度
往期回顾 全部

科技要闻

中芯国际等巨头集体提价,8英寸芯片最高涨20%

头条要闻

夫妻吵架丈夫放话"不想活了"后离家出走 警察找了一宿

头条要闻

夫妻吵架丈夫放话"不想活了"后离家出走 警察找了一宿

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

拆解涉税黑中介虚开套路

汽车要闻

新一代理想L9电池加码体型加大 重夺高端话语权

态度原创

教育
家居
本地
公开课
军事航空

教育要闻

最长学期要结束了!南京多校期末考试后安排发布:准备接收神兽!

家居要闻

褪去浮华 触达松弛与欣喜

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

德军13人前脚刚走 荷兰2名军人也撤离格陵兰岛

无障碍浏览 进入关怀版