网易首页 > 网易号 > 正文 申请入驻

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

0
分享至

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

原生 VLM 的探索并非由 NEO 首创。早期的 Fuyu、EVE 就开启了这条路,但它们所面临的一个重要问题是:如何在语言模型内部高效构建视觉表征?这个过程往往效率低下、训练不稳定,甚至会破坏原有的语言能力。后续研究尝试用知识蒸馏、混合训练数据或专家系统来缓解,但始终未能触及核心问题。NEO 的团队认为,问题的根源在于没有从根本上为多模态重新设计模型的基础组件。

NEO 团队的方案是构建一个统一的原生基元(Native VLM Primitive),这个基元同时具备视觉编码、跨模态对齐和多模态推理的能力。具体而言,NEO 引入了三项关键创新:多头原生注意力(Multi-Head Native Attention, MHNA)、原生旋转位置编码(Native Rotary Position Embeddings, Native-RoPE)以及 Pre-Buffer 和 Post-LLM 的两阶段架构设计。


图丨原生视觉-语言框架概览(来源:arXiv)

在注意力机制的设计上,NEO 采用了一种混合策略。对于图像 token,模型使用双向注意力,允许每个视觉 token 与图像中的所有其他 token 进行交互,这保留了视觉编码器捕捉全局空间关系的能力。而对于文本 token,则沿用传统的因果注意力,确保自回归生成的有效性。这种“帧级双向、词级因果”的混合注意力机制,让 NEO 能够在同一个统一架构中同时处理视觉的全局理解和语言的序列生成。

位置编码是 NEO 的另一个创新点。传统 VLM 在处理图像和文本时,往往简单地将预训练 LLM 的一维旋转位置编码(Rotary Position Embeddings, RoPE)扩展到二维或三维空间,但这种做法会破坏 LLM 原有的建模模式,损害其语言能力。NEO 采用的 Native-RoPE 则完全解耦了时间(T)、高度(H)和宽度(W)三个维度的索引和频率分配。


图丨NEO 框架(来源:arXiv)

对于文本,模型保持原有的时间维度索引,而将高度和宽度维度的索引置零;对于图像,每个视觉 token 拥有固定的时间索引和独特的空间坐标。这种设计不仅保持了与预训练 LLM 的兼容性,还能更好地捕捉图像中的局部语义依赖关系。

在训练策略上,NEO 采用了 Pre-Buffer 和 Post-LLM 的分离式预训练。Pre-Buffer 负责从头学习视觉感知,而 Post-LLM 则继承预训练 LLM 的强大语言能力和推理能力。在预训练阶段,Post-LLM 的参数被冻结,仅训练 Pre-Buffer 和新增的 Query-Key 头维度及归一化层。

这种设计既保护了 LLM 的语言知识不被低质量的图像-文本对破坏,又允许 Pre-Buffer 在大规模视觉数据上进行充分的学习。到了中期训练和监督微调阶段,Pre-Buffer 和 Post-LLM 被合并为一个统一的单体架构,模型能够自主地在编码、对齐和推理之间分配计算资源。

此外,Pre-Buffer 本身具有可复用性。这个经过大规模视觉数据预训练的模块可以作为开源资源,帮助后续研究者以更低的成本将新的 LLM 适配为 VLM。

值得注意的是,NEO 在训练效率上展现出令人惊讶的表现。整个预训练阶段仅使用了 3.45 亿图文对,这个数据规模远小于主流模块化 VLM 动辄数十亿的训练数据。在中期训练阶段,NEO 使用 4000 万样本进行视觉-语言对齐的强化;监督微调阶段则使用约 400 万条高质量指令数据。总计不到 4 亿的训练样本,NEO-2.2B 和 NEO-9B 两个版本就达到了与顶级模块化 VLM 相当的性能水平。


图丨与其他模块化和原生 VLM 的基准测试比较(来源:arXiv)

在多项标准评估基准上,NEO 的表现出色。在 MMMU(多学科多模态理解与推理)测试中,NEO-2.2B 获得了 48.6 分,超过了 InternVL2.5(43.6 分)和 HoVLE(32.2 分)等原生 VLM 竞品。

在文档理解任务如 AI2D 和 DocVQA 上,NEO-2.2B 分别达到 80.1 分和 89.9 分,接近甚至超过了一些采用强化学习的模块化模型。更大的 NEO-9B 版本在多个基准上的表现更加出色,在 MMBench 上获得 82.1 分,在 AI2D 上达到 83.1 分,与使用数十亿训练数据的 Qwen2-VL 和 InternVL2.5 处于同一竞争梯队。

当然,NEO 也还存在一些局限性。在知识密集型和 OCR(光学字符识别)重度任务上,如 MMMU、InfoVQA 和 TextVQA 等测试中,NEO 的表现相对落后。NEO-9B 在某些 OCR 任务如 DocVQA 和 InfoVQA 上的表现甚至不如 NEO-2.2B,这表明当前的训练语料库在这些特定领域可能存在不足。

研究团队在论文中表示,这些局限性主要源于训练数据的规模和质量限制,而非架构本身的问题。如果能够获得更大规模、更高质量的训练数据,NEO 的潜力还有很大的提升空间。

参考资料:

1.https://arxiv.org/pdf/2510.14979v1

2.https://github.com/EvolvingLMMs-Lab/NEO

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京三元违规被罚!取消资格!

北京三元违规被罚!取消资格!

大北京早知道
2026-02-05 17:18:19
徐正源笑着告诉韩媒:中国足协催我应聘他们的主帅,但被我拒绝了

徐正源笑着告诉韩媒:中国足协催我应聘他们的主帅,但被我拒绝了

风过乡
2026-02-06 10:52:42
董璇二婚不幸!一家人现身皮松肉垮满脸褶子,与佟丽娅同框像两代人

董璇二婚不幸!一家人现身皮松肉垮满脸褶子,与佟丽娅同框像两代人

八星人
2026-02-06 10:51:33
一下来俩!国安官宣2新援加盟,刚果边锋+后腰,只差最后1块拼图

一下来俩!国安官宣2新援加盟,刚果边锋+后腰,只差最后1块拼图

体坛鉴春秋
2026-02-06 16:38:50
实锤了!韩国综艺曝光小S忽视姐姐病情,对大S的离世要负很大责任

实锤了!韩国综艺曝光小S忽视姐姐病情,对大S的离世要负很大责任

壹月情感
2026-02-05 12:42:35
有机会卖到日本的电车起火,东风奕派禁言了评论区

有机会卖到日本的电车起火,东风奕派禁言了评论区

源Auto
2026-02-05 15:56:21
首波反制已出!中方停止交易?巴政府尝到恶果,数十亿投资恐中断

首波反制已出!中方停止交易?巴政府尝到恶果,数十亿投资恐中断

一口娱乐
2026-02-06 16:07:12
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
到高中,你会发现:去了普通高中,基本就跟985、211没什么关系了

到高中,你会发现:去了普通高中,基本就跟985、211没什么关系了

好爸育儿
2026-02-03 17:51:04
亏麻了!苹果CarPlay 这些隐藏功能,90%车主开 5 年都没发现!

亏麻了!苹果CarPlay 这些隐藏功能,90%车主开 5 年都没发现!

沙雕小琳琳
2026-02-05 07:26:14
成龙女儿吴卓林结婚现场曝光,紧握爱人的手,洋溢着甜蜜笑容!

成龙女儿吴卓林结婚现场曝光,紧握爱人的手,洋溢着甜蜜笑容!

娱乐团长
2026-01-13 15:39:28
醍醐灌顶:这个时代最大的红利,是普通人能以极低的成本生存下去

醍醐灌顶:这个时代最大的红利,是普通人能以极低的成本生存下去

扶苏聊历史
2025-12-09 18:08:27
A股:跌到4065.58,尾盘很明确,股民准备,下周一,很可能这样走

A股:跌到4065.58,尾盘很明确,股民准备,下周一,很可能这样走

虎哥闲聊
2026-02-06 15:08:49
日本专家颠覆认知:想健康就不要跑步!?

日本专家颠覆认知:想健康就不要跑步!?

马拉松跑步健身
2026-02-03 06:30:10
突发!开拓者老鹰三换一交易达成!恭喜杨瀚森!

突发!开拓者老鹰三换一交易达成!恭喜杨瀚森!

林子说事
2026-02-06 11:20:26
余嘉豪确认出战世预赛,郭士强曾询问王俊杰,但是遭到拒绝

余嘉豪确认出战世预赛,郭士强曾询问王俊杰,但是遭到拒绝

篮球看比赛
2026-02-06 17:24:23
飞天茅台,“一天价格调了5次”

飞天茅台,“一天价格调了5次”

澎湃新闻
2026-02-06 01:53:16
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
上海警方:“落难公子”王某某已被拘留!

上海警方:“落难公子”王某某已被拘留!

环球网资讯
2026-02-06 08:38:01
“还以为是假的!”武汉一女子凭107.9元超市发票,抽中一辆东风汽车!

“还以为是假的!”武汉一女子凭107.9元超市发票,抽中一辆东风汽车!

阿燕姐说育儿
2026-02-06 11:11:47
2026-02-06 20:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16229文章数 514588关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

爱泼斯坦死亡当晚监控披露:神秘"橙色人影"进入封锁区

头条要闻

爱泼斯坦死亡当晚监控披露:神秘"橙色人影"进入封锁区

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

时尚
本地
健康
游戏
军事航空

开运首饰|| 300多到手天然珍珠、水晶,好意头还显贵气

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

转头就晕的耳石症,能开车上班吗?

卡普空更新让《生化4RE》性能倒退三年!PC玩家炸锅

军事要闻

美国“肯尼迪”号核动力航母完成首次海试

无障碍浏览 进入关怀版