网易首页 > 网易号 > 正文 申请入驻

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT4o

0
分享至

SAIL-VL2团队 投稿
量子位 | 公众号 QbitAI

2B模型在多个基准位列4B参数以下开源第一。

抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2

SAIL-VL2以2B、8B等中小参数规模,在106个数据集实现性能突破,尤其在MMMU、MathVista等复杂推理基准超越同规模模型,甚至比肩更大参数的闭源模型。

方法上,SAIL-VL2通过数据、训练、架构三大维度的创新,为社区提供“小模型也能有强能力”新范式。

SAIL-VL2既具备细粒度视觉感知能力,又能在复杂推理任务中媲美更大规模模型。同时,团队通过开源模型与推理代码,提供可扩展的多模态基础模型。

Pretrain:三大核心创新

架构层面:稀疏MoE+灵活编码器,平衡性能与效率

SAIL-VL2突破传统稠密LLM的架构,引入稀疏混合专家(MoE),并提供多规格模型配置,满足不同场景需求:

SAIL-ViT:渐进式优化的视觉编码器

为攻克视觉-语言对齐这一核心挑战,SAIL-VL2设计了「热身适应→细粒度对齐→世界知识注入」三阶段训练:

  • 阶段I(热身适应):冻结SAIL-ViT与LLM,仅训练Adapter,使用8M数据激活跨模态映射能力;
  • 阶段II(细粒度对齐):固定LLM,解锁SAIL-ViT与Adapter,使用6.7M Caption和COR数据,强化跨模态对齐深度;
  • 阶段III(世界知识注入):解锁所有参数,使用36.5M多任务数据,提升模型泛化能力。

经此流程,SAIL-ViT与LLM特征空间的平均最近邻距离从1.42降至1.15,Wasserstein距离从4.86降至3.88,证明视觉-语言对齐效果显著提升。

MoE架构:参数与计算的平衡

SAIL-VL2的31.1B大模型采用Qwen3-MoE架构,每次推理仅激活3B参数。为优化专家激活不平衡问题,模型引入负载均衡损失与数据校准策略,最终将专家激活熵提升20%,保障了各专家功能特化。

SAIL-ViT-AnyRes:任意分辨率的突破

为打破传统ViT的固定分辨率瓶颈,SAIL-ViT-AnyRes借助“2D RoPE插值”技术,实现了对任意分辨率输入的动态支持(最高1792×1792)。这一突破的价值在RefCOCO视觉定位任务中得到验证:其平均精度高达57.82,远超固定分辨率版本的53.28。

数据层面:评分过滤+合成增强,构建高质量多模态语料库

SAIL-VL2设计了一套全自动数据pipeline,从“质量筛选”与“类型扩展”两大方向提升数据价值:

  • SAIL-Caption2:通过“视觉信息丰富度(VIR)”与“图文对齐度(ITA)”双维度评分(1-5分),过滤低质量样本(得分<3),得到250M通用caption+1.69M图表caption;
  • 合成VQA数据:将80MSAIL-Caption2通过LLM生成QA形式,补充QA数据多样性;
  • 纯文本与多模态指令数据:文本语料保留LLM语言能力,VQA数据强化指令跟随能力。

训练层面:渐进式框架+动态学习率,激活模型多维度能力

SAIL-VL2设计三阶段视觉预训练与两阶段多模态预训练的渐进式流程,从基础感知逐步过渡到复杂推理:

  • 两阶段多模态预训练:先通过“基础预训练”(64M数据)培养跨模态对齐能力,再通过“多任务预训练”(180M数据)强化视觉理解与指令跟随能力;
  • 数据重采样:数据集平衡采样比例,在语言层面优化n-gram分布,缓解数据偏置,提升训练效率;
  • 动态学习率:使用AdaLRS算法——基于损失下降斜率动态调整学习率,训练效率大幅提升。
Posttrain:全链路优化

后训练数据:三大高质量数据集

SAIL-Video

针对视频理解中“帧-指令错位”痛点,从6个权威数据集初筛623万条样本,通过“视频-问答对齐度(-1~10分)、内容丰富度(-1~7分)、问答难度(-1~3分)”双维度评估,仅保留均达标的样本,最终得到510万条高质量视频-问答数据,保障视频理解训练可靠性。

SAIL-Instruction2(指令微调数据)

使用Mammoth、R等数据集补充长回答与推理样本,通过“质量评估+增量评估”双验证与“潜在类别过滤”,生成2000万条指令样本。

MMP

Multimodal CoT Data(多模态思维链数据)

基于VisualWebInstruct、MathV360K等数据集,通过“质量过滤、格式统一、样本去重”清洗,筛选出“有挑战性但可解决”的样本,最终形成40万LongCoT SFT样本、100万条Think-Fusion SFT样本及15万条RL样本,为推理训练提供结构化数据支撑。

后训练策略:五阶段递进强化能力

SAIL-VL2设计了一套递进式的五阶段后训练策略,以系统性地提升模型综合能力:

1、基础SFT:首先,通过四阶段数据注入与模型融合技术,为模型构建坚实的基础指令遵循能力。

2、LongCoT SFT:接着,使用40万条CoT样本,训练模型掌握逐步推理(step-by-step)的能力。

3、可验证奖励RL:然后,引入RL,基于“答案正确性+格式规范性”双重奖励优化STEM样本,确保推理结果准确、规范。

4、Think-Fusion SFT:随后,采用混合数据与条件损失进行训练,让模型学会按需推理,实现能力的收放自如。

5、混合奖励RL:最后,利用更复杂的三维奖励信号进行最终优化,实现强大推理能力与简洁输出的平衡。

训练基础设施:高效支撑大规模训练

Stream Packing:双策略提升训练效率

  • 批处理与在线打包:通过动态拼接样本减少填充令牌,将SM利用率提升近1倍,训练速度加快50%,并提升了0.7%的QA性能。
  • 视觉打包:通过加入视觉令牌平衡约束,缓解了视觉编码器的内存压力,使训练效率再提升48%。
MoE基础设施:突破稀疏架构训练瓶颈
  • 计算优化:采用核融合技术将多个操作合并执行,减少数据搬运开销,使MoE训练速度提升达3倍。
  • 通信优化:设计流式数据读取和混合并行机制,有效降低通信和训练开销。
性能验证:106个数据集上的全面领先

SAIL-VL2在106个多模态数据集上得到验证,从基础感知到复杂推理,从图像理解到视频分析,均展现出同规模模型中的顶尖水平。

基础模型性能:小参数规模实现大突破

在通用多模态理解基准中,SAIL-VL2基础模型(无思维增强)表现突出(如下表所示):

SAIL-VL2-2B OpenCompass为70.31,超越Qwen2.5-VL-3B(65.36)、InternVL3.5-2B(66.64)等模型,位列4B参数以下开源第一;SAIL-VL2-8B在OpenCompass取得开源同量级模型的最高分数

细粒度任务,SAIL-VL2-2BMMStar达64.07分,OCRBench达89.50分,均为同参数规模最优;SAIL-VL2-8B进一步将MMStar分数提升至70.73,OCRBench提升至91.30,8B规模领先。

思维增强模型性能:复杂推理能力媲美大模型

SAIL-VL2-Thinking在OpenCompass多模态推理榜单表现卓越:

SAIL-VL2-8B-Thinking平均得分54.4,超越所有开源模型,仅次于GPT-4o-latest(54.8);SAIL-VL2-A3B-Thinking(MoE架构)以3B激活参数实现53.6分,超越闭源模型Gemini-2.0-Flash(50.6),展现出极高的效率性能比。

论文地址:https://arxiv.org/pdf/2509.14033
代码与模型:https://github.com/BytedanceDouyinContent/SAIL-VL2
Hugging Face模型库:https://huggingface.co/BytedanceDouyinContent

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

赴一场山海啊
2026-07-03 00:59:33
外媒:印尼分离主义武装宣布枪杀美国飞行员

外媒:印尼分离主义武装宣布枪杀美国飞行员

参考消息
2026-07-03 14:44:26
热议男篮19分不敌日本:媒体吐槽看完一肚子火 球迷高呼郭士强下课

热议男篮19分不敌日本:媒体吐槽看完一肚子火 球迷高呼郭士强下课

狼叔评论
2026-07-03 21:54:14
车企总经理直播被骂到哽咽下播

车企总经理直播被骂到哽咽下播

电动知家
2026-07-03 22:56:55
昆明试验列车撞人致11死2伤,调查报告公布

昆明试验列车撞人致11死2伤,调查报告公布

界面新闻
2026-07-03 17:46:55
泰山被曝用135公里刀片刺绳隔离网围山,泰山景区最新回应:接受批评,与正常游览路线不交叉不重叠

泰山被曝用135公里刀片刺绳隔离网围山,泰山景区最新回应:接受批评,与正常游览路线不交叉不重叠

大象新闻
2026-07-02 09:55:29
秦岚现身杭州,V领裹胸秀水蛇腰,满头假发法令纹和双下巴太真实

秦岚现身杭州,V领裹胸秀水蛇腰,满头假发法令纹和双下巴太真实

胡一舸南游y
2026-07-03 15:12:44
胆子不小!小国世界杯晋级后,马上喊话大陆:不跟台湾“断交”

胆子不小!小国世界杯晋级后,马上喊话大陆:不跟台湾“断交”

春之寞陌
2026-07-03 09:12:35
障碍清除!德约科维奇注定梦圆25冠!劲敌丰塞卡惨遭横扫爆冷出局

障碍清除!德约科维奇注定梦圆25冠!劲敌丰塞卡惨遭横扫爆冷出局

搏击江湖
2026-07-03 20:47:21
“天才作家”蒋方舟被清华教授实名举报硕士论文系统性造假,中国人大回应已介入调查近3个月,论文已从知网紧急下架,蒋方舟至今未回应

“天才作家”蒋方舟被清华教授实名举报硕士论文系统性造假,中国人大回应已介入调查近3个月,论文已从知网紧急下架,蒋方舟至今未回应

大风新闻
2026-07-03 18:20:07
清华教授实名举报:蒋方舟硕士论文全面造假

清华教授实名举报:蒋方舟硕士论文全面造假

观察者网
2026-07-03 18:52:19
陈奕迅女儿首度回应父亲买1.8亿港元豪宅:没跟我说,可能送给他自己的,也可能是“扩张”我们的家;此前网友猜测是为女儿准备的“嫁妆”

陈奕迅女儿首度回应父亲买1.8亿港元豪宅:没跟我说,可能送给他自己的,也可能是“扩张”我们的家;此前网友猜测是为女儿准备的“嫁妆”

鲁中晨报
2026-07-03 17:58:17
爆冷!最新战况:张本美和闯进决赛冲冠,桥本帆乃香0-3惨败出局

爆冷!最新战况:张本美和闯进决赛冲冠,桥本帆乃香0-3惨败出局

锐评利物浦
2026-07-03 11:19:05
“擦边”的世界冠军吴柳芳,终于还清债务,首次直播的佣金全捐了

“擦边”的世界冠军吴柳芳,终于还清债务,首次直播的佣金全捐了

马拉松跑步健身
2026-07-03 21:50:25
委内瑞拉震区几乎所有官员遇难,目前地震造成死亡人数已上升至2595人,受伤超1.2万人

委内瑞拉震区几乎所有官员遇难,目前地震造成死亡人数已上升至2595人,受伤超1.2万人

荔枝新闻
2026-07-03 11:36:54
米哈游法务部:诉拼多多不正当竞争案,最高法驳回拼多多再审申请

米哈游法务部:诉拼多多不正当竞争案,最高法驳回拼多多再审申请

IT之家
2026-07-03 18:17:04
詹姆斯经纪人谈詹姆斯去向:去南方,有字母哥、阿德巴约、威金斯

詹姆斯经纪人谈詹姆斯去向:去南方,有字母哥、阿德巴约、威金斯

好火子
2026-07-04 03:27:38
唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

清衣渡a
2026-06-30 13:42:14
55岁黄政民戒酒一年判若两人,网友:像年轻了10岁

55岁黄政民戒酒一年判若两人,网友:像年轻了10岁

小椰的奶奶
2026-07-03 18:13:41
中国或将迎历史高温!新疆地表84度,地球到底怎么啦?

中国或将迎历史高温!新疆地表84度,地球到底怎么啦?

李云飞Afey
2026-07-03 22:57:32
2026-07-04 06:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12891文章数 176508关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

埃及点球5-3澳大利亚晋级16强 将战阿根廷vs佛得角胜者

头条要闻

埃及点球5-3澳大利亚晋级16强 将战阿根廷vs佛得角胜者

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

房产
手机
游戏
艺术
亲子

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

手机要闻

苹果将在本月发布iOS 27公测版,适合iPhone升级吗?

R星官方又发动态!玩家们被吓到 有玩家为PS光盘开喷

艺术要闻

这位女子,在画坛默默无闻,作品清新质朴

亲子要闻

一妇婴领衔全国81家医院共筑“好孕联盟”,破解复发性流产跨区域转诊难题

无障碍浏览 进入关怀版