网易首页 > 网易号 > 正文 申请入驻

开源新王炸!10B多模态小模型屠榜,性能媲美20倍巨无霸

0
分享至


智东西
作者 程茜
编辑 李水青

智东西1月20日报道,今日下午,阶跃星辰开源多模态模型Step3-VL-10B。该模型参数量为10B,在视觉感知、逻辑推理、数学竞赛以及通用对话等一系列基准测试中均达到同规模SOTA水平

阶跃星辰的多项测评显示,Step3-VL-10B的性能可以媲美甚至超越规模大10-20倍的开源模型,如GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B以及闭源旗舰模型,如Gemini 2.5 Pro、Seed-1.5-VL。


这一轻量级模型的性能表现,也意味着手机、电脑、工业嵌入式设备也可以运行GUI操作、复杂文档解析、高精度计数等复杂多模态推理任务。

从技术层面看,Step3-VL-10B的性能突破得益于三个关键设计,分别是高质量多模态语料库上进行统一预训练、缩放多模态强化学习、并行协调推理机制。

目前,阶跃星辰已开源Step3-VL-10B系列的Base模型和Thinking模型。

Hugging Face开源地址:https://huggingface.co/collections/stepfun-ai/step3-vl-10b

ModelScope开源地址:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

体验地址:https://huggingface.co/spaces/stepfun-ai/Step3-VL-10B

技术报告链接:https://arxiv.org/pdf/2601.09668

一、从GUI感知到视觉识别和推理,Step3-VL-10B思路清晰

阶跃星辰在官方公众号里放出了Step3-VL-10B在多模推理能力方面的真实案例。

首先是关于摩尔斯编码的推理,可以看到模型的思考过程思路清晰,先拆解字母再逐个查表,最后拼接,流程正确,并且对大部分字母如S、T、E、F、U、N的定位和编码描述准确。


其次是GUI感知能力,模型需要识别标签页中以章节开头.tex结尾的文件标签,可以看到其思考过程采用了识别标签、排除非目标、统计数量的步骤进行了准确分析,并有效规避了干扰选项。


第三个是关于图推理的案例,模型需要在连线非常复杂的图片中准确识别中长度最短的图有几条,从思考过程可以看到,其先确认了最小权重的边长度是1,然后再统计所有权重为1的边。


二、拿下开源SOTA,数学竞赛测试题超94分

Step3-VL-10B具备三大核心亮点:

视觉感知精度更高:在同参数量级中展现出顶尖的识别与感知精度,研究人员为其引入PaCoRe(并行协调推理)机制,模型在复杂计数、高精度OCR及空间拓扑理解等高难度任务上的可靠性提升。

深层逻辑推演与长程推理:得益于规模化强化学习(RL)的持续迭代,Step3-VL-10B在10B规模上能应对竞赛级数学难题、真实编程环境、视觉逻辑谜题。

端侧Agent交互:基于海量GUI(图形用户界面)专用预训练数据,模型能够精准识别并操作复杂界面。

阶跃星辰公开的多模态基准测试结果显示,Step3-VL-10B是10B参数类别中最强大的开源模型。


具体来看,在多模态推理能力上,Step3-VL-10B在部分测试集上超越了GLM-4.6V、Qwen3-VL等模型,其性能优于10倍至20倍大的模型。


数学能力方面,该模型在AIME 25/24等数学竞赛测试题上得分超过94分,这意味着其在逻辑严密性上甚至优于许多千亿级模型。


2D、3D空间推理能力上,模型在BLINK上表现出66.79%的涌现式空间意识,在All-Angles-Bench上达到57.21%,意味着该模型在具身智能应用方面具有强大的潜力。


最后是编程能力,在真实、动态编程环境下,Step3-VL-10B超越GLM-4.6V、Qwen3-VL等模型。


此外,该模型的开源主页显示,研究人员在Qwen3VL-8B相关的基准测试中出现了不准确数据,例如AIME、HMMT、LCB,目前正在修复。这些错误是由于其在大规模评估过程中max_tokens设置错误造成,他们将重新运行测试,并在下一版技术报告中提供修正后的数据。

三、从感知到推理双提升,三大关键设计加持

该模型的论文提到,Step3-VL-10B的性能突破得益于三个关键设计:

一是在高质量多模态语料库上进行统一预训练:研究人员采用单阶段、完全解冻的训练策略,在1.2T token的多模态语料库上进行训练,重点关注两大基础能力:推理和感知,例如通用知识和教育中心任务等推理能力,定位、计数、OCR和GUI交互等感知能力。

通过联合优化感知编码器和Qwen3-8B解码器,STEP3-VL-10B建立了内在的视觉-语言协同效应。

二是缩放多模态强化学习:通过一个严格的后训练流程解锁了前沿能力,该流程包括两阶段监督微调(SFT)以及超过1400次的强化学习迭代,结合可验证奖励(RLVR)和人类反馈(RLHF)。

三是并行协调推理机制:研究人员采用并行协调推理(PaCoRe),支持推理阶段的动态算力扩展。通过并行探索多个感知假设并进行多维证据聚合,该机制显著提升了模型在竞赛级数学、复杂OCR识别、精准物体计数及空间拓扑推理中的准确度。

阶跃星辰的官方公众号提到,得益于“三位一体”架构,Step3-VL-10B证明智能水平并不完全取决于参数规模。这也意味着:世界一流的多模态能力有望以更低成本、更少算力获得;与此同时,过去主要集中在云端超级智能将逐步向端侧下沉,推动终端走向“主动理解与可执行交互”。

结语:Step3-VL-10B或成端侧AI新选择

从Step3-VL-10B的实测可以看出,该模型凭借10B轻量化参数体量,通过高质量多模态语料统一预训练、千余次强化学习迭代及并行协调推理机制,实现了对超大规模模型的跨级性能追赶。

并且具体到GUI交互、精准计数、竞赛级数学推理等任务,该模型也展现出较大应用潜力,未来有望降低在工业质检、本地文档分析、基层医疗辅助等场景的部署门槛。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普访华仅一天,欧洲乱成一团,不到一天,白宫计划也浮出水面

特朗普访华仅一天,欧洲乱成一团,不到一天,白宫计划也浮出水面

陈意小可爱
2026-05-14 12:08:04
晴天霹雳!穆里尼奥还没上任就遭当头一棒,头号目标拒绝皇马

晴天霹雳!穆里尼奥还没上任就遭当头一棒,头号目标拒绝皇马

澜归序
2026-05-14 02:17:31
地主恶霸刘文彩:子孙众多,后代回来祭拜,光饭菜就准备了200席

地主恶霸刘文彩:子孙众多,后代回来祭拜,光饭菜就准备了200席

阿器谈史
2026-05-11 15:43:13
可惜了,不会演硬演,《主角》唯一败笔,换掉她这部剧近乎完美

可惜了,不会演硬演,《主角》唯一败笔,换掉她这部剧近乎完美

芬霏剧时光
2026-05-12 11:13:09
雅思宣布:中国大陆地区,9月1日起取消纸笔考试

雅思宣布:中国大陆地区,9月1日起取消纸笔考试

南方都市报
2026-05-10 23:34:08
收手吧!“资本家的丑孩子”,没颜值没本事,宁静一个字都没说错

收手吧!“资本家的丑孩子”,没颜值没本事,宁静一个字都没说错

观察者海风
2026-04-06 20:18:23
曼联与卡里克达成执教意向,转正谈判开启,卡里克提出首要要求

曼联与卡里克达成执教意向,转正谈判开启,卡里克提出首要要求

夜白侃球
2026-05-14 09:26:56
阿特金森点名夸斯特鲁斯!20+6三分造四纪录 巴克利:又帅又能打

阿特金森点名夸斯特鲁斯!20+6三分造四纪录 巴克利:又帅又能打

颜小白的篮球梦
2026-05-14 12:11:16
实锤了!俄媒公布俄军真实伤亡数字,比利时向乌克兰提供53架F16

实锤了!俄媒公布俄军真实伤亡数字,比利时向乌克兰提供53架F16

史政先锋
2026-05-10 21:05:57
12年交车不足20辆!贾跃亭宣布FF转型:不造车了,改做具身智能机器人

12年交车不足20辆!贾跃亭宣布FF转型:不造车了,改做具身智能机器人

TechWeb
2026-05-13 10:07:03
俄军火丑闻:中国零件不合格致3500万损失,5人被追责

俄军火丑闻:中国零件不合格致3500万损失,5人被追责

你的雷达站
2026-05-13 10:12:30
参议员卢比奥遭中国制裁,但国务卿鲁比奥顺利到访北京

参议员卢比奥遭中国制裁,但国务卿鲁比奥顺利到访北京

a入画浅相思
2026-05-13 13:58:48
世乒赛结束2天,新华社盛赞梁靖崑,日本主帅:他的强大超出想象

世乒赛结束2天,新华社盛赞梁靖崑,日本主帅:他的强大超出想象

何嗀爱捕渔
2026-05-13 15:59:05
CBA最豪华阵容之争!上海男篮半决赛对阵北京队

CBA最豪华阵容之争!上海男篮半决赛对阵北京队

上观新闻
2026-05-13 12:58:08
凉透了!南审偷拍裙底研究生迎来三大噩耗,聊天记录求放过被曝光

凉透了!南审偷拍裙底研究生迎来三大噩耗,聊天记录求放过被曝光

天天热点见闻
2026-05-14 05:51:48
沉默1日,大陆宣布统一后安排,岛内学者:台军理当消灭“台独”

沉默1日,大陆宣布统一后安排,岛内学者:台军理当消灭“台独”

爱史纪
2026-05-14 10:21:36
郑强翻车,翻在讲实话上?

郑强翻车,翻在讲实话上?

巧哥有话说
2026-05-13 16:29:27
炸了!巴拉圭总统在台湾当场“翻脸”!

炸了!巴拉圭总统在台湾当场“翻脸”!

果妈聊娱乐
2026-05-14 07:18:21
火过 iPhone?美国「小天才电话」爆红,「什么都不行」是最大卖点

火过 iPhone?美国「小天才电话」爆红,「什么都不行」是最大卖点

爱范儿
2026-05-13 16:24:01
统一台湾后,第一任省长由谁担任最合适?五人上榜,一人脱颖而出

统一台湾后,第一任省长由谁担任最合适?五人上榜,一人脱颖而出

知鉴明史
2026-04-24 20:05:03
2026-05-14 13:04:52
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11823文章数 117077关注度
往期回顾 全部

科技要闻

马斯克:只有我和黄仁勋坐上了"空军一号"

头条要闻

兄妹救4名落水者后遭拉黑 被告知获救者身份不便公开

头条要闻

兄妹救4名落水者后遭拉黑 被告知获救者身份不便公开

体育要闻

登海报!哈登30+8+6创多项纪录 第8次赢天王山

娱乐要闻

肖战提名金海燕奖,这一步走得太稳

财经要闻

片仔癀依旧困在“片仔癀”

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

房产
健康
游戏
旅游
亲子

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

干细胞能让人“返老还童”吗

卡牌生存射击游戏《掏枪干吧》公开

旅游要闻

大理花事 | 又是一年苍山杜鹃红

亲子要闻

姐姐家三岁的儿子,上床前的一个动作,让老师夸赞许久!

无障碍浏览 进入关怀版