![]()
哈喽,大家好,我是小墨,AI圈又出大新闻!12月1日,商汤科技正式开源了全新多模态模型架构NEO。这个和新加坡南洋理工大学S-Lab联手搞出来的架构,可是行业首个能实际用的原生多模态架构。
最牛的是,它只用3.9亿训练数据,就达到了顶级模型的性能,数据量连同类模型的十分之一都不到。
消息一出,开源社区直接沸腾了,北大AI实验室的张教授团队当天就拉取了代码,试跑后直言:“之前训练一个同类模型要占满8块GPU跑半个月,NEO用2块GPU一周就搞定,精度还没降。”这波操作,直接捅破了多模态模型“数据贪食症”的天花板。
![]()
多模态模型圈一直有个痛点,想做好性能就得喂海量数据。就拿业内顶级的InternVL3来说,训练要足足60亿数据,光数据清洗就得花好几个月。商汤这次的NEO架构,直接把这个门槛砍到了3.9亿,还在测试里交出了漂亮成绩单。
![]()
在基准测试里,NEO的两个版本,2.2B和9B参数模型,表现相当亮眼。面对上海AI Lab的Mono-InternVL-1.5、清华联合研发的HoVLE这些原生模型,它在多模态推理、跨学科任务里直接碾压。就算和通义千问Qwen2-VL、InternVL3这些模块化顶级模型比,也在图表理解、场景分析等任务里追平了性能。
南洋理工S-Lab负责人刘子纬副教授团队,之前就深耕视觉-语言深层对齐研究,曾做出过当时最快的图像文本匹配模型。这次和商汤联手,把实验室技术打磨成了可用架构。商汤内部测试时,用NEO处理智慧城市的交通场景数据,之前模块化模型要10亿样本才达标,NEO用1亿样本就实现了95%的识别准确率。
![]()
不过它也有短板,在密集文本识别上,比如识别发票上的小字并提取信息,NEO的表现就不如模块化模型。研究人员说,这是训练数据里这类样本太少,不是架构问题,后续补全数据就能解决。
![]()
现在主流的多模态模型,大多是“视觉编码器+投影器+语言模型”的组合,本质上是先分别处理图像和文字,再靠中间的“翻译官”把两者凑一起。
商汤联合创始人林达华博士之前就吐槽过这种模式:“就像让只会中文的人和只会英文的人合作,全靠翻译传话,效率低还容易出错。”
![]()
NEO架构直接抛弃了这种老套路,从底层重新设计。它的核心是三个创新点,硬生生造出了能“双语沟通”的原生大脑。第一个是原生图块嵌入,不用先把图像切成固定小块再编码,而是直接从像素到文字建立连续映射,就像人看画时自然联想到文字描述。
第二个创新是原生三维旋转位置编码。它给图像和文字分了不同的“频率频道”,图像用高频能精准捕捉空间布局,文字用低频兼容现有语言模型,这样模型还能轻松扩展到视频处理。商汤已经用这个特性做了初步测试,处理短视频的场景理解时,准确率比传统模型高了12%。
![]()
最关键的是第三个,原生多头注意力。它让文字能按顺序理解,图像能任意区域关联,比如看一张餐桌图,模型能直接锁定“筷子在碗右边”这种空间关系,不用再靠语言模型硬套逻辑。
这种设计让NEO在复杂图文推理任务里,响应速度比模块化模型快了30%。
![]()
这次商汤不仅发布了架构,还直接开源了2.2B和9B两个版本的模型,代码和论文都挂在了GitHub和arXiv上。开源不到一天,星标就破了5000,字节跳动、百度等公司的AI团队都已经fork了代码。
它的边缘部署优势特别受关注。在0.6B到8B参数区间,NEO能在普通服务器甚至高端工业平板上运行。
![]()
深圳一家做智能巡检的公司试过后反馈,把NEO装在巡检机器人上,识别设备故障的图文信息时,功耗比用传统模型降了40%,续航从4小时延长到6小时。
行业里更看重它的扩展潜力。NEO的原生架构能无缝对接视频、3D数据,商汤已经和一家机器人公司合作,开发具身智能应用。比如让服务机器人看到“拿水杯”的指令后,能直接判断杯子位置和形状,调整抓取姿势,这在之前需要专门训练抓取模型才能实现。
中金证券的报告里提到,原生多模态是下一代AI的关键方向,NEO的开源会加速整个行业的技术迭代。目前商汤已经和北大、上交等高校合作,开设NEO架构的实训课程,还计划明年推出针对视频处理的增强版本。
![]()
商汤NEO用1/10数据量实现顶级性能,靠的是原生架构的底层创新。虽然在文本识别上有短板,但开源带来的协作生态,加上边缘部署和扩展优势,已经让它成为多模态领域的关键突破。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.