网易首页 > 网易号 > 正文 申请入驻

剑指世界模型!商汤发多模态理解生成一体化架构,无需编码器“玩转”图像

0
分享至


智东西
作者 陈骏达
编辑 李水青

智东西3月6日报道,今天,商汤科技发布最新技术博客——《NEO-unify:原生架构打造端到端多模态理解与生成统一模型》。NEO-unify是一个从底层统一多模态理解与生成的端到端原生架构,在保留抽象语义与细粒度表征的同时,展现更高数据训练效率。

当前,多模态模型普遍采用“视觉编码器(VE)用于理解,变分自编码器(VAE)用于生成”的组合式设计。这套范式虽行之有效,却也内在割裂了感知与创造,常面临模块协同与效率权衡的挑战。

能否更进一步,让AI像人一样,直接从最原始的像素和文字中,统一地进行学习、理解与生成?这正是NEO-unify尝试回答的根本问题。它摒弃了传统的VE与VAE,首次构建了一个真正的端到端原生统一模型,在同一个架构内直接处理像素与文本,并在此基础上协同完成理解与生成任务。

初步研究成果显示,该设计在保持强大语义理解与细节恢复能力的同时,显著提升了训练与计算效率。

博客地址(英文):

https://huggingface.co/blog/sensenova/neo-unify

博客地址(中文):

https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

一、不需要VE也不需要VAE,模型表现打平Qwen3-VL

长期以来,多模态研究已形成一种默认范式:视觉编码器(Vision Encoder, VE)负责感知与理解,而变分自编码器(Variational Autoencoder, VAE)则用于内容生成。近期的一些工作尝试构建共享编码器,但这种折衷往往引入新的结构性设计权衡。

由此回到第一性原理:构建一体化模型直接处理原生输入,即像素本身与文字本身。商汤科技联合南洋理工大学,提出一种全新的架构范式:NEO-unify(preview),一个原生、统一、端到端的多模态模型架构。它不仅越过了当前视觉表征的争论,也摆脱了预训练先验和规模定律瓶颈的限制。最关键的是:不需要VE,也不需要VAE。

NEO-unify则是一个端到端统一框架,能够直接从近乎无损的信息输入中学习,并由模型自身塑造内部表征空间。

它首先引入近似无损的视觉接口,用于统一图像的输入与输出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架构,使理解与生成能够在同一体系中协同进行。

最终,通过统一学习框架实现跨模态训练:文本采用自回归交叉熵目标,视觉通过像素流匹配进行优化。


实验结果显示,采用NEO-unify架构的模型在多项基准测试上的表现超过同尺寸的前沿视觉语言模型,排进了同尺寸模型的第一梯队,基本与Qwen3-VL模型打了平手。


二、无编码器同时保留抽象语义与细粒度表征,展现更高数据训练效率

那么,这一模型背后究竟有哪些关键技术发现呢?

商汤此前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同样能够学习到丰富的语义表征。在此基础上,商汤进一步观察到一个有趣的现象:即使在冻结理解分支的情况下,独立的生成分支仍然能够从表示中抽取并恢复细粒度的视觉细节

基于这一发现,商汤训练了NEO-unify(2B)。在初步9万步预训练后,模型在MS COCO 2017上取得31.56 PSNR和0.85 SSIM,而Flux VAE的对应指标为32.65和0.91。这一结果表明,即使不依赖预训练VE或VAE,近似无损的原生输入仍能够同时支持高质量的语义理解与像素级细节保真。

据此,商汤进一步开展探索:NEO-unify将所有全模态条件信息统一输入到理解分支,而生成分支仅负责生成新的图像。

在冻结理解分支的情况下,NEO-unify(2B)仍展现出较强的图像编辑能力,同时显著减少了输入图像token的数量。在使用开源生成与图像编辑数据集并进行初步6万步混合训练后,模型在ImgEdit基准上取得3.32的成绩,且理解分支在整个训练过程中保持冻结。

借助预训练的理解分支与生成分支,NEO-unify使用相同的中期训练(MT)与监督微调(SFT)数据进行联合训练。即使在较低的数据比例和损失权重下,理解能力依然保持稳定,而生成能力则收敛很快。二者在MoT主干中协同提升,整体冲突极小。


此外,商汤首先进行web-scale预训练,随后在多样且高质量的数据语料上依次进行中期训练(MT)和监督微调(SFT)。与7BBagel模型相比,NEO-unify展现出更高的数据训练效率,在使用更少训练token的情况下取得了更优的性能。


结语:多模态理解与生成一体化或成世界模型基础

NEO-unify团队认为,随着多模态理解生成一体化的模型出现,模型不再在模态之间进行转换,而是能够原生地跨模态思考。多模态AI不再只是连接不同系统,而是构建一个从未割裂的统一智能体,并让所需能力从其内部自然涌现。

理解生成一体化是AI大模型领域的前沿方向之一,被认为是更接近人类智能的一种模型形式。目前,业界已经基本完成文字理解生成一体化模型的探索,而多模态理解生成一体化模型,则有望成为全模态推理、视觉推理、空间智能乃至世界模型的重要基础。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
京沪蓉之后,第四座“双机场”城市,来了

京沪蓉之后,第四座“双机场”城市,来了

西部城市
2026-03-25 21:43:15
尘埃落定?NBA各大奖项预测出炉!SGA卫冕MVP 最佳新秀不是弗拉格

尘埃落定?NBA各大奖项预测出炉!SGA卫冕MVP 最佳新秀不是弗拉格

大卫的篮球故事
2026-03-25 20:35:52
宝马X3坐不住了!给出7.89万优惠,网友:这次学聪明了

宝马X3坐不住了!给出7.89万优惠,网友:这次学聪明了

汽车网评
2026-03-26 21:26:34
哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

说历史的老牢
2026-03-26 01:18:38
中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

咣当地球
2026-03-26 16:10:46
浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

独角showing
2025-12-31 21:08:57
山姆曲奇礼盒紧急下架,消费者要求立即召回!监管部门:已立案

山姆曲奇礼盒紧急下架,消费者要求立即召回!监管部门:已立案

北京商报
2026-03-26 13:44:00
3月26日俄乌:乌克兰的猛烈回击

3月26日俄乌:乌克兰的猛烈回击

山河路口
2026-03-26 17:32:00
伊朗已正式回应美国提出的停火协议15点内容

伊朗已正式回应美国提出的停火协议15点内容

澎湃新闻
2026-03-26 22:10:06
美国对中国渗透没白费,扶持的“内鬼”,终于开始在中国露头了

美国对中国渗透没白费,扶持的“内鬼”,终于开始在中国露头了

历史求知所
2025-12-01 11:30:06
含剧毒,无解药!高温120℃煮不烂、杀不死每家都有,一定别乱吃

含剧毒,无解药!高温120℃煮不烂、杀不死每家都有,一定别乱吃

江江食研社
2026-03-25 21:55:01
刚曝光就火了?方程豹钛7Pro,这才是国产越野该有的颜值!

刚曝光就火了?方程豹钛7Pro,这才是国产越野该有的颜值!

小怪吃美食
2026-03-26 01:08:36
突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

石辰搞笑日常
2026-03-26 17:28:25
有人玩脱了?整蛊男友日常,这就是传说中的病情一致吧

有人玩脱了?整蛊男友日常,这就是传说中的病情一致吧

采采
2026-03-26 17:17:36
55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

睡前讲故事
2025-12-12 13:58:11
我自驾西藏,遇徒步女大学生搭车,同行3天后,才知自己躲过一劫

我自驾西藏,遇徒步女大学生搭车,同行3天后,才知自己躲过一劫

千秋文化
2026-03-09 20:53:50
核圈失守!以色列防空神话被击穿,伊朗打击圈冲出中东近4000公里,美以伊三方棋局彻底乱了!

核圈失守!以色列防空神话被击穿,伊朗打击圈冲出中东近4000公里,美以伊三方棋局彻底乱了!

国是直通车
2026-03-22 16:00:02
输同曦发布会!张庆鹏直指全队防守态度不行,朱松玮主动反思!

输同曦发布会!张庆鹏直指全队防守态度不行,朱松玮主动反思!

篮球资讯达人
2026-03-26 22:43:44
Altman发感谢信,16000名被裁程序员集体破防

Altman发感谢信,16000名被裁程序员集体破防

Ping值焦虑
2026-03-25 17:02:40
张雪峰经典名言 100 条(完整版)

张雪峰经典名言 100 条(完整版)

新浪财经
2026-03-25 06:17:25
2026-03-27 00:35:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11443文章数 117016关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
家居
手机
亲子
数码

400万人爱过的女孩,被黄谣网暴180天后

家居要闻

傍海而居 静观蝴蝶海

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

亲子要闻

看看把孩子吓得哈哈哈

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

无障碍浏览 进入关怀版