网易首页 > 网易号 > 正文 申请入驻

开源新王炸!10B多模态小模型屠榜,性能媲美20倍巨无霸

0
分享至


智东西
作者 程茜
编辑 李水青

智东西1月20日报道,今日下午,阶跃星辰开源多模态模型Step3-VL-10B。该模型参数量为10B,在视觉感知、逻辑推理、数学竞赛以及通用对话等一系列基准测试中均达到同规模SOTA水平

阶跃星辰的多项测评显示,Step3-VL-10B的性能可以媲美甚至超越规模大10-20倍的开源模型,如GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B以及闭源旗舰模型,如Gemini 2.5 Pro、Seed-1.5-VL。


这一轻量级模型的性能表现,也意味着手机、电脑、工业嵌入式设备也可以运行GUI操作、复杂文档解析、高精度计数等复杂多模态推理任务。

从技术层面看,Step3-VL-10B的性能突破得益于三个关键设计,分别是高质量多模态语料库上进行统一预训练、缩放多模态强化学习、并行协调推理机制。

目前,阶跃星辰已开源Step3-VL-10B系列的Base模型和Thinking模型。

Hugging Face开源地址:https://huggingface.co/collections/stepfun-ai/step3-vl-10b

ModelScope开源地址:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

体验地址:https://huggingface.co/spaces/stepfun-ai/Step3-VL-10B

技术报告链接:https://arxiv.org/pdf/2601.09668

一、从GUI感知到视觉识别和推理,Step3-VL-10B思路清晰

阶跃星辰在官方公众号里放出了Step3-VL-10B在多模推理能力方面的真实案例。

首先是关于摩尔斯编码的推理,可以看到模型的思考过程思路清晰,先拆解字母再逐个查表,最后拼接,流程正确,并且对大部分字母如S、T、E、F、U、N的定位和编码描述准确。


其次是GUI感知能力,模型需要识别标签页中以章节开头.tex结尾的文件标签,可以看到其思考过程采用了识别标签、排除非目标、统计数量的步骤进行了准确分析,并有效规避了干扰选项。


第三个是关于图推理的案例,模型需要在连线非常复杂的图片中准确识别中长度最短的图有几条,从思考过程可以看到,其先确认了最小权重的边长度是1,然后再统计所有权重为1的边。


二、拿下开源SOTA,数学竞赛测试题超94分

Step3-VL-10B具备三大核心亮点:

视觉感知精度更高:在同参数量级中展现出顶尖的识别与感知精度,研究人员为其引入PaCoRe(并行协调推理)机制,模型在复杂计数、高精度OCR及空间拓扑理解等高难度任务上的可靠性提升。

深层逻辑推演与长程推理:得益于规模化强化学习(RL)的持续迭代,Step3-VL-10B在10B规模上能应对竞赛级数学难题、真实编程环境、视觉逻辑谜题。

端侧Agent交互:基于海量GUI(图形用户界面)专用预训练数据,模型能够精准识别并操作复杂界面。

阶跃星辰公开的多模态基准测试结果显示,Step3-VL-10B是10B参数类别中最强大的开源模型。


具体来看,在多模态推理能力上,Step3-VL-10B在部分测试集上超越了GLM-4.6V、Qwen3-VL等模型,其性能优于10倍至20倍大的模型。


数学能力方面,该模型在AIME 25/24等数学竞赛测试题上得分超过94分,这意味着其在逻辑严密性上甚至优于许多千亿级模型。


2D、3D空间推理能力上,模型在BLINK上表现出66.79%的涌现式空间意识,在All-Angles-Bench上达到57.21%,意味着该模型在具身智能应用方面具有强大的潜力。


最后是编程能力,在真实、动态编程环境下,Step3-VL-10B超越GLM-4.6V、Qwen3-VL等模型。


此外,该模型的开源主页显示,研究人员在Qwen3VL-8B相关的基准测试中出现了不准确数据,例如AIME、HMMT、LCB,目前正在修复。这些错误是由于其在大规模评估过程中max_tokens设置错误造成,他们将重新运行测试,并在下一版技术报告中提供修正后的数据。

三、从感知到推理双提升,三大关键设计加持

该模型的论文提到,Step3-VL-10B的性能突破得益于三个关键设计:

一是在高质量多模态语料库上进行统一预训练:研究人员采用单阶段、完全解冻的训练策略,在1.2T token的多模态语料库上进行训练,重点关注两大基础能力:推理和感知,例如通用知识和教育中心任务等推理能力,定位、计数、OCR和GUI交互等感知能力。

通过联合优化感知编码器和Qwen3-8B解码器,STEP3-VL-10B建立了内在的视觉-语言协同效应。

二是缩放多模态强化学习:通过一个严格的后训练流程解锁了前沿能力,该流程包括两阶段监督微调(SFT)以及超过1400次的强化学习迭代,结合可验证奖励(RLVR)和人类反馈(RLHF)。

三是并行协调推理机制:研究人员采用并行协调推理(PaCoRe),支持推理阶段的动态算力扩展。通过并行探索多个感知假设并进行多维证据聚合,该机制显著提升了模型在竞赛级数学、复杂OCR识别、精准物体计数及空间拓扑推理中的准确度。

阶跃星辰的官方公众号提到,得益于“三位一体”架构,Step3-VL-10B证明智能水平并不完全取决于参数规模。这也意味着:世界一流的多模态能力有望以更低成本、更少算力获得;与此同时,过去主要集中在云端超级智能将逐步向端侧下沉,推动终端走向“主动理解与可执行交互”。

结语:Step3-VL-10B或成端侧AI新选择

从Step3-VL-10B的实测可以看出,该模型凭借10B轻量化参数体量,通过高质量多模态语料统一预训练、千余次强化学习迭代及并行协调推理机制,实现了对超大规模模型的跨级性能追赶。

并且具体到GUI交互、精准计数、竞赛级数学推理等任务,该模型也展现出较大应用潜力,未来有望降低在工业质检、本地文档分析、基层医疗辅助等场景的部署门槛。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吉米·巴特勒受伤,詹姆斯从湖人交易至勇士的传闻甚嚣尘上

吉米·巴特勒受伤,詹姆斯从湖人交易至勇士的传闻甚嚣尘上

好火子
2026-01-21 03:47:35
全明星首发5大遗珠:爱德华兹场均29+5+3、伦纳德场均28+6+2.2断

全明星首发5大遗珠:爱德华兹场均29+5+3、伦纳德场均28+6+2.2断

你的篮球频道
2026-01-20 11:39:49
丹麦司令:中国才是格陵兰的大患,我们就应该主动开门请美国进来

丹麦司令:中国才是格陵兰的大患,我们就应该主动开门请美国进来

通鉴史智
2026-01-18 19:15:22
凌晨4点皇马欧冠复仇战:姆巴佩反戈 冲击10球纪录 7人伤停

凌晨4点皇马欧冠复仇战:姆巴佩反戈 冲击10球纪录 7人伤停

叶青足球世界
2026-01-20 09:24:13
终结3连败!新疆大胜双杀江苏 阿不都16+5庞峥麟11中2

终结3连败!新疆大胜双杀江苏 阿不都16+5庞峥麟11中2

醉卧浮生
2026-01-20 21:41:00
传闻:默多克赠送四合院暗藏心机,邓文迪隐忍15年终于出手

传闻:默多克赠送四合院暗藏心机,邓文迪隐忍15年终于出手

卡西莫多的故事
2026-01-18 08:15:07
U23国足vs越南全场数据:控球率50.4%,射门16-7&射正7-4占优

U23国足vs越南全场数据:控球率50.4%,射门16-7&射正7-4占优

懂球帝
2026-01-21 01:58:03
就在刚刚!20号深夜,广东宏远传来杜锋、徐杰和麦考尔的最新消息

就在刚刚!20号深夜,广东宏远传来杜锋、徐杰和麦考尔的最新消息

多特体育说
2026-01-21 01:19:18
中央批准跨省履新后,副部级有新职!省级政府领导班子密集调整

中央批准跨省履新后,副部级有新职!省级政府领导班子密集调整

上海法治声音
2026-01-20 17:02:04
HWG!罗马诺:阿森纳小将恩瓦内里租借加盟马赛,租借费+薪水约400万欧

HWG!罗马诺:阿森纳小将恩瓦内里租借加盟马赛,租借费+薪水约400万欧

懂球帝
2026-01-20 21:42:13
多位嫣然天使基金受益者发声:手术费用全免,只自费了千元的食宿费和路费,理应站出来回馈他们

多位嫣然天使基金受益者发声:手术费用全免,只自费了千元的食宿费和路费,理应站出来回馈他们

极目新闻
2026-01-20 15:33:34
演员郝蕾年轻时旧照曝光,无美颜无滤镜,绝对的纯天然大美妞

演员郝蕾年轻时旧照曝光,无美颜无滤镜,绝对的纯天然大美妞

草莓解说体育
2026-01-20 11:57:09
几乎全是假货,利润高达2400%,为何消费者还前赴后继争相购买?

几乎全是假货,利润高达2400%,为何消费者还前赴后继争相购买?

法老不说教
2025-12-04 23:07:31
中国动“真格”中方霸气警告:90天不给358亿赔偿,18艘军舰不给

中国动“真格”中方霸气警告:90天不给358亿赔偿,18艘军舰不给

瞳哥视界
2025-12-29 20:55:09
许利民坚持用老弱病残,不敢还是不愿尝试姜文张之垚替方硕范子铭

许利民坚持用老弱病残,不敢还是不愿尝试姜文张之垚替方硕范子铭

林子说事
2026-01-21 00:13:41
如果殷秀梅是那英,会不会向那英翻白眼呢

如果殷秀梅是那英,会不会向那英翻白眼呢

动物奇奇怪怪
2026-01-21 00:10:17
0-4又输,中超季军成都蓉城不敌俄超争冠热门,遭遇新年的3连败

0-4又输,中超季军成都蓉城不敌俄超争冠热门,遭遇新年的3连败

侧身凌空斩
2026-01-20 22:49:04
如果在家突发心梗,黄金6分钟自救法,快了解,关键时刻可自救

如果在家突发心梗,黄金6分钟自救法,快了解,关键时刻可自救

健康科普365
2026-01-20 16:05:03
俄柬菲免签了,明星们却扎堆北海道

俄柬菲免签了,明星们却扎堆北海道

生活时尚导刊
2026-01-19 22:00:12
暴跌28.7%!九号、台铃销量腰斩,小电驴为什么突然没人买了?

暴跌28.7%!九号、台铃销量腰斩,小电驴为什么突然没人买了?

现代小青青慕慕
2026-01-19 16:14:43
2026-01-21 04:48:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11095文章数 116943关注度
往期回顾 全部

科技要闻

收藏|这可能是CES2026最清醒一份复盘

头条要闻

丹麦首相:主权不谈判 准备贸易战

头条要闻

丹麦首相:主权不谈判 准备贸易战

体育要闻

勇士遭暴击!巴特勒重伤赛季报销

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

李迅雷:2026买房不如租房

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

数码
时尚
旅游
本地
军事航空

数码要闻

行业唯一!红魔电竞平板3 Pro GOLDEN SAGA发布:镀金VC、24GB+1TB存储

冬季不臃肿穿搭指南来了,奔五奔六照着穿,拿捏温暖与高级感

旅游要闻

零下 3 度!重庆深山梯田现奇观,银白与绿意交织,这才是冬日绝色

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

军事要闻

德军13人前脚刚走 荷兰2名军人也撤离格陵兰岛

无障碍浏览 进入关怀版