网易首页 > 网易号 > 正文 申请入驻

拿下38项第一!字节发布Seed1.5-VL多模态推理模型

0
分享至

在60个主流基准测试中拿下38项第一!

字节发布轻量级多模态推理模型Seed1.5-VL,仅用532M视觉编码器+200亿活跃参数就能与一众规模更大的顶尖模型掰手腕,还是能带图深度思考的那种。

相关技术报告也第一时间公开了。

整体而言,虽然是“以小博大”,但新模型在复杂谜题推理、OCR、图表理解、3D空间理解等方面表现出色。

比如猜下图中有几只猫,人眼很容易误将地上的黑猫当成影子:

还能用来玩“看图找茬”,速度和准确率双双胜于人类:

同时也能用来解答复杂推理谜题,考公党有福了(bushi~

当然,以上也基于其强大的OCR识别能力。即便是长度惊人、中英混杂的消费小票,也能分分钟转换成表格。

除此之外,新模型还擅长处理Agent任务。它在GUI界面操作和游戏场景中,显著优于OpenAI的CUA和Claude 3.7等模型。

那么它是如何做到的呢?

532M视觉编码器 + 20B混合专家语言模型

通过深扒技术报告,背后关键主要在于模型架构训练细节

据介绍,Seed1.5-VL由以下三个核心组件组成:

  • SeedViT:用于对图像和视频进行编码;
  • MLP适配器:将视觉特征投射为多模态token;
  • 大语言模型:用于处理多模态输入并执行推理。

模型支持多种分辨率的图像输入,并通过原生分辨率变换(native-resolution transform)确保最大限度保留图像细节。

在视频处理方面,团队提出了一种动态帧分辨率采样策略(dynamic frame-resolution sampling strategy),能够根据需要动态调整采样帧率和分辨率。

此外,为了增强模型的时间信息感知能力,在每帧图像之前引入了时间戳标记(timestamp token)

这些设计让模型能够高效处理各种多模态数据,包括文本、图像和视频等。

而基于上述架构,团队接着开始了模型训练。

首先,团队使用了3万亿个多样化且高质量的多模态标注,这些数据是根据模型需要发展的特定能力来组织和分类的。

其预训练过程分为三个阶段:

  • 阶段0:仅训练MLP适配器,以对齐视觉编码器和语言模型;
  • 阶段1:训练所有模型参数,重点是掌握视觉定位和OCR能力;
  • 阶段2:增加数据多样性,扩展序列长度,以适应视频理解和复杂推理任务。

值得一提的是,团队在预训练阶段观察到了——

大多数子类别的数据训练损失与训练标记数量之间遵循幂律关系,即训练损失随着训练标记数量的增加而减少。

此外,某一子类别的训练损失与该类别对应的下游任务评估指标之间呈现对数线性关系(例如:评估指标 ∼ log(训练损失))的趋势,尤其在局部区域内尤为显著。

后者意味着,可以通过训练损失来一定程度上预测模型在下游任务上的表现。

接下来团队又进行了后训练,使用了监督微调和强化学习等技术。

其一,使用高质量的指令数据对模型进行微调,包括一般指令和长链推理(Long CoT)数据;

其二,结合人类反馈和可验证奖励信号,通过PPO算法进行训练,以提高模型的对齐能力和推理能力。

需要注意的是,团队在后训练采用了结合拒绝采样(rejection sampling)和在线强化学习(online reinforcement learning)的迭代更新方法。

他们构建了一条完整的数据pipeline,用于收集和筛选复杂提示,以增强后训练阶段的数据质量。

并且在强化学习过程中,监督信号通过奖励模型和规则验证器(rule verifiers)仅作用于模型生成的最终输出结果。

也就是说,团队特意避免对模型的详细链式思维推理(chain-of-thought reasoning)过程进行监督。

最后,为了支持大规模预训练和后训练,团队还开发了一系列优化技术

  • 混合并行化:针对视觉编码器和语言模型的不同特点,采用不同的并行策略;
  • 工作负载平衡:通过贪心算法重新分配视觉数据,平衡GPU工作负载;
  • 并行感知数据加载:减少多模态数据的I/O开销;
  • 容错机制:使用MegaScale框架实现容错,确保训练的稳定性。

这些技术显著提高了训练吞吐量,并降低了硬件成本。

60项测试中拿下38项SOTA

那么其实际表现如何呢?

实验结果显示,新模型在60项公开基准测试中取得了38项新SOTA,其中包括19项视频基准测试中的14项,以及7项GUI智能体任务中的3项。

部分测试结果如下:

单拎出多模态智能体任务来看,它在多个GUI任务上,优于OpenAI的CUA和Claude 3.7等现有模型。

在多个游戏中,它也展现出强大的推理和决策能力。

与此同时,在内部测试中,新模型尤其在视觉推理、文档理解、3D空间理解等方面表现出色。

光看测试结果可能还不够,我们最后也来简单实测一下。

比如玩最近很火的“看图找地理位置”,随意一张游客照也能正确推理识别。

鉴于图中有灯塔这种可能容易暴露地标的元素,我们再换张难度更高的。

在无明显标识的情况下,o3曾因猜出的位置距离正确答案(加州埃尔格拉纳达附近的一家露天酒吧里)仅相差200-300公里而出圈。

而Seed1.5-VL最后的答案是加州沿海地区(比如蒙特雷县、圣巴巴拉周边的小镇)

这两个地点距离正确位置分别为160公里和440公里,和o3的表现已经相当接近。

不过最后需要提醒,团队表示新模型仍存在一些局限性,尤其是在细粒度视觉感知、三维空间推理以及复杂组合搜索任务方面。

目前新模型可在Hugging Face在线体验,欢迎大家评论区分享讨论~

在线体验:
https://huggingface.co/spaces/ByteDance-Seed/Seed1.5-VL
论文:
https://arxiv.org/abs/2505.07062
GitHub:
https://github.com/ByteDance-Seed/Seed1.5-VL

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
万斯宣称伊朗常规军力“被打废”:美国下一步是谈判还是继续轰炸

万斯宣称伊朗常规军力“被打废”:美国下一步是谈判还是继续轰炸

桂系007
2026-03-26 23:48:40
以军称袭击伊朗数十处军工设施

以军称袭击伊朗数十处军工设施

财联社
2026-03-27 02:04:06
登顶Top.1,HBO韩剧又爆了

登顶Top.1,HBO韩剧又爆了

来看美剧
2026-03-26 18:22:47
隔天吃一次,排出黑臭便!它是肠道“推粪机”,中老年人要常吃!

隔天吃一次,排出黑臭便!它是肠道“推粪机”,中老年人要常吃!

江江食研社
2026-03-23 18:30:10
营收144亿!激光巨头净利增长20.48%

营收144亿!激光巨头净利增长20.48%

新浪财经
2026-03-26 22:28:02
2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

李喜林篮球绝杀
2026-03-26 17:04:26
单义任山东省委秘书长

单义任山东省委秘书长

极目新闻
2026-03-26 20:46:17
16GB+1TB!新机官宣:3月25日,正式发售!

16GB+1TB!新机官宣:3月25日,正式发售!

科技堡垒
2026-03-25 09:20:07
80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

抽象派大师
2026-03-25 12:04:28
张柏芝现身机场接儿子回家,母子见面拥抱好温暖!谢振轩又长高了

张柏芝现身机场接儿子回家,母子见面拥抱好温暖!谢振轩又长高了

娱乐团长
2026-03-26 15:45:18
男子开800公里高速回老家,高速费扣2400,报警查监控:这可不是我

男子开800公里高速回老家,高速费扣2400,报警查监控:这可不是我

如烟若梦
2025-08-22 19:00:06
“00后”陈某某被押赴刑场 执行死刑

“00后”陈某某被押赴刑场 执行死刑

闪电新闻
2026-02-07 16:53:35
第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

健身狂人
2026-03-26 10:14:34
诺基亚6600内置无人机,这设计必须封神

诺基亚6600内置无人机,这设计必须封神

3C毒物
2026-02-27 15:25:40
向辉带队到大连市洽谈推进重点合作项目

向辉带队到大连市洽谈推进重点合作项目

新浪财经
2026-03-26 14:12:09
伊朗将收油轮过路费,特朗普想分一杯羹?中方已表态

伊朗将收油轮过路费,特朗普想分一杯羹?中方已表态

兵国大事
2026-03-25 20:13:24
“老师最烦这种现眼包家长”,宝妈运动会穿紧身裙,被嘲故作娇弱

“老师最烦这种现眼包家长”,宝妈运动会穿紧身裙,被嘲故作娇弱

妍妍教育日记
2026-03-17 20:29:16
沙溢当众殴打李晨,被告上仲裁会:永远不要轻易评价一个人

沙溢当众殴打李晨,被告上仲裁会:永远不要轻易评价一个人

圆梦的小老头
2026-03-15 03:37:22
广东队连夜返莞备战粤京大战 下一轮输北京将跌出前5 杜锋压力山

广东队连夜返莞备战粤京大战 下一轮输北京将跌出前5 杜锋压力山

越岭寻踪
2026-03-26 03:39:23
4种粗粮已被列入伤胃名单,吃多了或伤胃!再爱吃也别贪嘴

4种粗粮已被列入伤胃名单,吃多了或伤胃!再爱吃也别贪嘴

岐黄传人孙大夫
2026-03-22 19:05:03
2026-03-27 02:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
手机
艺术
旅游
公开课

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版