网易首页 > 网易号 > 正文 申请入驻

行业首个!商汤正式开源原生多模态架构NEO,训练仅需1/10数据量

0
分享至


智东西
编译 王欣逸
编辑 程茜

智东西12月2日消息,昨天,商汤科技正式发布并开源了全新多模态模型架构NEO,该架构由商汤科技和新加坡南洋理工大学AI技术实验室S-Lab合作研发,是行业首个可用的、实现深层次融合的原生多模态架构,基于NEO架构的NEO模型仅用3.9亿训练数据,就达到了模块化架构下顶级VLM(视觉-语言模型)模型的性能,数据量仅需其他同等性能模型的1/10。


从基准测试来看,NEO模型在多模态能力综合评估、跨学科和复杂推理等多项指标中碾压上海AI Lab推出的Mono-InternVL-1.5、清华大学、上海AI Lab联合商汤推出的HoVLE等原生VLM模型,还在多项视觉理解任务中追平通义千问的视觉语言模型Qwen2-VL、上海AI Lab联合商汤推出的InternVL3等基于模块化架构的顶级VLM模型。

当前,业内主流的多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式,本质上仍以语言为中心,图像与语言的融合仅停留在数据层面,视觉编码和语言解码分离,模型学习效率低下,在复杂多模态场景下处理任务受限。


为此,商汤科技抛弃了传统的模块化结构,推出从零设计的NEO原生架构。NEO架构在注意力机制、位置编码和语义映射进行了底层创新,构建一个统一的原生基元,让模型具备统一处理视觉与语言的能力。

NEO架构相关论文已发布在arXiv上,题为《从像素到文字——迈向大规模的原生视觉语言原始基元(From Pixels to Words — Towards Native Vision-Language Primitives at Scale)》,商汤科技联合创始人、执行董事及AI基础设施和大模型首席科学家林达华博士,南洋理工大学S-Lab负责人、副教授刘子纬等均在该论文的作者行列。


开源地址:https://github.com/EvolvingLMMs-Lab/NEO

论文地址:https://arxiv.org/abs/2510.14979

一、同参数全面领先原生VLM,数据仅为同等性能模型的1/10,复杂文本理解存在局限

基于NEO架构,研究人员推出了两个参数的VLM模型:NEO-2.2B和NEO-9B,这两个模型利用Qwen3-1.7B和Qwen3-8B两个基础语言模型作为基础语言模型,添加了原生视觉组件。

在基准测试中,研究人员把NEO-2.2B、NEO-9B和同级别VLM模型进行对比,包括模块化架构的VLM模型InternVL3、Qwen2.5-VL等,以及原生VLM模型Mono-InternVL-1.5、HoVLE等。为了进行公平、可控的科学对比,研究人员专门构建了一个模块化VLM基线模型Encoder-Based作为对照。

从通用视觉语言的理解能力来看,与模块化VLM相比,NEO在2B和8B参数规模下表现都不错,NEO-2.2B和NEO-9B在多模态能力综合评估、跨学科和复杂推理等多个关键指标优于模块化VLM Encoder-Based;在同参数规模下,NEO几乎全面领先其他原生VLM。

值得一提的是,NEO仅使用约3.9亿训练数据,而InternVL3等模块化架构的顶级VLM模型至少使用了60亿训练数据,是NEO所需数据的15倍。


视觉任务测试中,在图表理解和文档结构理解任务上,NEO-2.2B和NEO-9B都表现出接近顶级模块化模型水平。

不过,NEO的密集文本识别和理解能力仍存在不足,几乎落后于所有模块化模型,在原生模型的对比中也不占优。NEO-9B在文档问答和图像中的文本问答能力的得分略低于NEO-2.2B。

研究人员指出,密集文本识别和理解能力不足是由于训练数据中此类高质量、知识密集型样本的不足,而NEO-9B的得分低于NEO-2.2B则是由于当前训练数据集的覆盖范围和知识密度有限。


此外,NEO在边缘部署方面具有优势,特别是在0.6B-8B的参数区间内,便于计算资源有限或实时性要求严格的场景应用。

二、原生图块嵌入,双向注意力并存,具备复杂场景扩展能力


NEO架构通过在注意力机制、位置编码和语义映射三个关键维度的底层创新,让模型天生具备了统一处理视觉与语言的能力:

1、原生图块嵌入(Native Patch Embedding): 这一方法摒弃了离散的图像tokenizer,通过独创的图块嵌入层(Patch Embedding Layer ,PEL)自底向上构建从像素到词元的连续映射。

2、原生三维旋转位置编码(Native-RoPE):NEO架构解耦了三维时空频率分配,为三个维度设定了不同的旋转基频率。视觉维度采用高频频率,便于模型理解空间布局和细粒度对齐;文本维度采用低频频率,兼容了预训练语言模型的旋转位置编码(RoPE)设置。由此,训练后的模型具备向视频处理、跨帧建模等复杂场景扩展的潜力。

3、原生多头注意力(Native Multi-Hea´d Attention):针对不同模态特点,NEO在统一框架下实现了文本token的自回归注意力和视觉token的双向注意力并存。基于此,模型可以无视线性化顺序,直接根据原生三维旋转位置编码(Native-RoPE)的二维坐标来学习任意两个空间区域的语义和几何关系,以支撑复杂的图文混合理解与推理。

三、三阶段训练,平稳过渡视觉能力与复杂文本指令

NEO模型的训练分为三个阶段逐步推进:预训练、中期训练和监督微调。


在预训练阶段,训练的主要工作是学习基础视觉概念和上下文关系,并在预训练语言模型的指导下,初步建立图像与文本之间的对齐。NEO架构采用了Pre-Buffer(NEO中新增的视觉层)和Post-LLM(NEO中的语言大脑)分离式预训练,这一阶段Post-LLM被冻结,Pre-Buffer需要从头开始学习视觉感知能力,这保护了语言模型不被低质量的图像-文本对破坏,实现跨模态学习。这一阶段使用了约3.45亿的网络和合成的图像-文本对的数据。

中期训练阶段的核心目标是强化视觉与语言能力的对齐,提升模型对高分辨率图像、复杂场景、小物体和OCR文本的感知能力。这一阶段的训练数据来自InternVL-1.5的预训练语料库,包含4000万样本数据,整个架构使用相同的损失函数进行更新,以巩固视觉-语言对齐。

在监督微调阶段,NEO能够遵循复杂指令、进行多轮对话和执行多样化任务,更适用于实际应用。研究人员使用约400万高质量、多来源的指令数据,涵盖视觉问答、多模态对话、数学推理、知识问答等多种任务。

阶段式训练不仅防止了视觉训练破坏已有的语言能力,确保稳定优化,还能实现模型能力从基础的视觉概念到复杂指令的平滑过渡。

结语:正探索NEO规模化和突破数据瓶颈,拓展多模态应用边界

NEO系列模型实现了模型数据训练的高效性,其性能在同等参数规模原生VLM模型中处于领先地位。在图表和文档结构化理解上,NEO模型具有明显优势和竞争力。受制于训练数据和计算资源,NEO模型仍表现出了媲美顶尖模块化VLM的实力。

NEO模型还存在密集文本识别和理解能力的不足、依赖外部知识的短板。不过,研究人员指出这并非是架构的缺陷,而是训练数据集的覆盖范围、知识密集型样本、高质量数据的不足。

研究人员称,未来他们将会探索更大规模的NEO模型,解决知识和文本理解短板,开发稀疏架构,探索视频、具身智能等新应用场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新华社消息|美军称将对伊朗港口海上交通实施封锁

新华社消息|美军称将对伊朗港口海上交通实施封锁

新华社
2026-04-13 09:26:59
山东回应“举债3.68亿、总投资超7亿的农业基地不干农业,却有健身房、棋牌室等”:成立联合调查组,严肃追责问责

山东回应“举债3.68亿、总投资超7亿的农业基地不干农业,却有健身房、棋牌室等”:成立联合调查组,严肃追责问责

大象新闻
2026-04-15 09:45:04
八国联军中,有七国主动退还赔款,唯独一国分文不退,是哪个?

八国联军中,有七国主动退还赔款,唯独一国分文不退,是哪个?

千秋文化
2025-03-28 10:37:53
八千里路云和月大结局:田家泰认张汝贤为干爹,张云魁娶韩小月

八千里路云和月大结局:田家泰认张汝贤为干爹,张云魁娶韩小月

慢半拍sir
2026-04-15 20:38:42
女子阳台狂撒港币后续:正面照曝光,亲属透露原因,更多细节流出

女子阳台狂撒港币后续:正面照曝光,亲属透露原因,更多细节流出

阿握聊事
2026-04-15 23:29:51
打起来了,美军在国际水域不宣而战,2人当场死亡,英法俄失声

打起来了,美军在国际水域不宣而战,2人当场死亡,英法俄失声

至死不渝的爱情
2026-04-15 20:31:40
尹锡悦金建希时隔9个月再见面,尹锡悦眼眶泛红注视妻子,不时抹

尹锡悦金建希时隔9个月再见面,尹锡悦眼眶泛红注视妻子,不时抹

上观新闻
2026-04-16 04:04:04
巴基斯坦空军进驻沙特,真实目的曝光,不是防伊朗,是怕有人搞鬼

巴基斯坦空军进驻沙特,真实目的曝光,不是防伊朗,是怕有人搞鬼

爱吃醋的猫咪
2026-04-15 21:20:06
希拉里发声:我坚决反对内塔尼亚胡!特朗普失控了,得有人管住他

希拉里发声:我坚决反对内塔尼亚胡!特朗普失控了,得有人管住他

阿天爱旅行
2026-04-16 01:49:12
随着马竞3-2,大巴黎4-0,欧冠最新夺冠赔率出炉:两队并列第一

随着马竞3-2,大巴黎4-0,欧冠最新夺冠赔率出炉:两队并列第一

侧身凌空斩
2026-04-15 05:51:16
张继科一天连上两次热搜!复出德国打传奇杯,却被曝出公司出事了

张继科一天连上两次热搜!复出德国打传奇杯,却被曝出公司出事了

东方不败然多多
2026-04-16 00:13:42
功亏一篑!徐思遭威尔逊逆转绝杀,中国名将无缘世锦赛32强!

功亏一篑!徐思遭威尔逊逆转绝杀,中国名将无缘世锦赛32强!

世界体坛观察家
2026-04-16 04:24:26
欧冠淘汰赛:阿森纳5将缺阵,阿尔特塔再苟一场,葡体难翻盘!

欧冠淘汰赛:阿森纳5将缺阵,阿尔特塔再苟一场,葡体难翻盘!

小鞄搞笑解说
2026-04-15 13:45:51
文班亚马你太狠了!NBA尘封了60年的纪录,就这样被你打破了

文班亚马你太狠了!NBA尘封了60年的纪录,就这样被你打破了

衔春信
2026-04-15 16:39:20
过午不食?55岁男子坚持2年不吃晚饭,去体检后,他的胃怎样了?

过午不食?55岁男子坚持2年不吃晚饭,去体检后,他的胃怎样了?

白话电影院
2026-04-09 14:36:58
意外!第6轮联赛还没开踢,中超官方就给了韦世豪一份惊喜大礼

意外!第6轮联赛还没开踢,中超官方就给了韦世豪一份惊喜大礼

张丽说足球
2026-04-15 10:30:00
15连胜1-0胜达曼,科曼破门C罗失机,领跑积分榜8分

15连胜1-0胜达曼,科曼破门C罗失机,领跑积分榜8分

二爷台球解说
2026-04-16 04:10:14
感谢特朗普“到处放火”,多国政要扎堆来北京,这不是巧合是选择

感谢特朗普“到处放火”,多国政要扎堆来北京,这不是巧合是选择

闻香阁
2026-04-15 10:11:58
岛内最新民调曝光,事关两岸统一,陆配突然向黄国昌开火,不简单

岛内最新民调曝光,事关两岸统一,陆配突然向黄国昌开火,不简单

DS北风
2026-04-14 18:24:10
弱者着相,强者破相,智者无相(深度好文)

弱者着相,强者破相,智者无相(深度好文)

洞见
2026-04-12 15:24:55
2026-04-16 05:20:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11597文章数 117029关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

法国全票通过 “将不义之财归还中国”

头条要闻

法国全票通过 “将不义之财归还中国”

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

时尚
游戏
数码
艺术
本地

赫本爱穿的伞裙,好优雅!

《GTA6》抢劫玩法泄露引热议!NPC与警察全面升级

数码要闻

明基新款显示器首发12499元:4K专业级色彩校准 根据环境光自动调整

艺术要闻

看!波兰超模阿里亚纳的惊艳写真,身材让人心动不已!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

无障碍浏览 进入关怀版