去掉 VAE 之后，商汤用 8B 参数重新定义了开源生图的上限|模态|key|大模型

分享至

多模态理解与生成的真统一。

作者丨吴海明

编辑丨马晓宁梁丙鉴

开源一周多，GitHub 破 1,500 Star，冲上HuggingFace趋势榜——商汤SenseNova U1 在开发者社区引发的热度，和这个模型本身的技术野心一样不寻常。它做的事情，是把多模态理解和生成这两件事，真正塞进同一个大脑。

开发者在讨论什么？除了效果有多惊艳，还有一个更底层的问题：为什么这次把VAE也去掉了？从 Stable Diffusion 到 FLUX，几乎所有主流扩散模型都依赖变分自编码器（VAE）把图像压进潜空间，这是近年来整个图像生成技术栈的地基。SenseNova U1 的 NEO-unify 架构选择把它整个拆掉，直接在像素层面端到端建模语言与视觉。这不是工程优化，是架构层面的重新选边站。

HuggingFace 社区的热门讨论包括「能否在单张 RTX 5090 上运行」、「是否会有更轻量版本」等极具落地指向的问题，说明已经有大量开发者在认真跑通它。有开发者评价称，这是「终于有人在原生统一方向上认真做了工程落地」，和此前的伪统一架构完全不可同日而语。

与此同时，模型以 Apache 2.0 协议完全开源，支持商用，发布后不到两周，团队已陆续推出 8 步推理加速版、LoRA 微调版、GGUF 量化版及低显存layer-offload 推理模式，迭代节奏之快，也是社区热度持续的原因之一。

多模态的「两条腿走路」，走了太久

多模态的理解与生成，长期以来都是“两条腿走路”。在多模态理解方面，以GPT-4V、LLaVA、Qwen-VL 为代表的视觉语言模型（VLM）能够执行复杂的图像描述、视觉问答和推理任务，而图像生成技术，则有Stable Diffusion、FLUX、DALL-E 3 为代表的扩散模型。两条技术路线虽然各有突破，但长期以来因独立演进，形成了截然不同的架构范式，是不争的事实。

变革最初发生在 2025 年，GPT-4o 的统一多模态能力引爆了业界对统一架构的追求，也就是用一款模型既能理解图像内容，又能生成高质量图像。不过业界普遍推测，GPT-4o的图像理解能力仍然是依赖视觉编码器提取图像特征实现，这款模型本身也并不原生生成高质量图像，而是依赖集成的DALL-E 3。

实现路径之所以重要，是因为它关系到模型的多模态能力是否真正实现了统一。以 GPT-4o 为代表的混合架构虽然在物理上共享部分参数，但是理解与生成在特征表示和计算路径上仍相对独立。这种不同模块接力完成任务的路径，不可避免地导致了模型冗余、能力割裂和交互障碍。

NEO-unify：真正靠同一个大脑做到这件事

真正靠同一个大脑做到这件事，曾经是很多人的设想，今天被商汤实现了。SenseNova U1 系列模型基于商汤于今年 3月自主研发的NEO-unify 架构，率先在单一模型架构上统一多模态理解、推理与生成，实现了从「模态集成」向「原生统一」的范式跨越。

NEO-unify 架构的核心突破在于，它彻底摒弃了视觉编码器（VE）和变分自编码器（VAE），直接从像素和文本进行端到端学习。商汤在官方文章里打了个比方，传统架构像“说不同语言的人组成的工作组”，而SenseNova U1更像「一个从一开始就同时掌握多项技能的人」。

这一设计的技术意义在于：VAE 的压缩过程本质上是有损的，开发者为此花了数年时间调参和打补丁；而 NEO-unify 直接在像素层面建模语言与视觉信息，像素与词语的信息从一开始就在同一个表征空间里共同参与每一层计算，消除了跨模块传递带来的信息损耗。

图注：该框架结合了（1）近无损视觉接口，（2）由两层卷积编码与类 MLP 编码层实现，以及（3）原生的混合 Transformer（MoT）主干架构。架构重点在于同时解决三组⽭盾：语义抽象与像素细节的共同表征、理解与⽣成的协同、语⾔因果性与图像空间⼀致性。

到此为止，我们才能说端到端统一框架真正得到了实现。下到一次图像生成的效果，上到整个多模态模型的智能上限，都和这一里程碑的实现与否休戚相关。

本次开源的 SenseNova U1 Lite，包含两个不同规格的模型：

▪ 基于稠密骨干网络的 SenseNova-U1-8B-MoT：理解与生成两条分支参数约 9.37B / 8.19B

▪ 基于混合专家（MoE）骨干网络的 SenseNova-U1-A3B-MoT：理解分支约 30.54B，生成分支约 8.2B，每 token 激活 top-8 专家，实际活跃参数约 3B

模型测评：数据说话

在商汤最新发布的U1技术报告中，有一些数据格外亮眼。在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中，8B-MoT均达到同量级开源模型SOTA 水平，甚至在部分指标上超越了部分大型商业闭源模型。

图注：SenseNova-U1 与其他顶级多模态理解模型在多模态基准测试（Benchmarks）上的对比。

图注：SenseNova-U1 与仅具备理解能力的顶级模型在纯文本基准测试（Benchmarks）上的对比

图注：GenEval 上的定量评估结果

从上表可以看出，SenseNova U1 实现了理解、生成、编辑、交错和智能体能力的一体融合，形成了相对均衡的能力谱系。关键数据上，GenEval总分约0.91-0.92，OneIG中文文字渲染达0.977，信息图生成领先多数开放模型，多模态理解MMMU达80.55——这些数字发生在同一个模型内部，而不是多个专用模型的拼接。

技术报告中一个值得单独拿出来说的结论是：统一架构具备更高数据效率。NEO-unify相比类似统一模型BAGEL，在更少训练token 下取得了更好表现。原因在于原生像素-文本接口减少了跨模块对齐成本，MoT 又让两类能力共享上下文、互相提供监督信号，训练数据利用率因此更高。

在生成延迟与平均性能的综合对比中，SenseNova U1 Lite 在保证图像生成质量比肩 Qwen-Image 2.0 Pro、Seedream 4.5 等大型闭源模型的同时，推理响应速度也展现出显著优势，尤其在复杂信息图（Infographic）生成任务中，控制力超出预期。

更值得注意的是，作为最强开源生图模型的SenseNova U1 Lite，仅仅只有8B的体量。光是这个数字本身，就意味着落地上的巨大潜力。

实测与部署方案

回到生产场景，SenseNova U1 对长文档和数据图表进行总结分析、生成高质量信息图表的能力，有着广阔的应用空间。我们也针对性地设计了一个任务，看看SenseNova U1 在实际工作流中的表现。

先让U1画一幅云南的水彩风景画，用连续图文创作输出的方式，展示从线稿到上色完稿的逐步过程。SenseNova U1 能够很好的理解要求，进行符合逻辑的连贯输出，并保持画面信息的一致性。

同样是在生产场景，图文交错生成、带图思考背后的一致性也让 SenseNova U1 带来了更多可能性。在下面这个用例中，我们请它为一座建筑群设计了7步分镜，覆盖了从二维底图到带有好莱坞级CG效果的人视街景。

信息图生成方面，我们先让 SenseNova U1 根据公开信息，做了一份 5 月院线电影观影指南。

观影指南是一个关键信息高度密集的场景，每部电影的片名、日期、主题等标签都需要保证可读，在文字渲染准确性的难关之上，这又对SenseNova U1 处理多对象结构化排版的能力提出了考验。

此时文字的清晰呈现已经成为了最基本要求，更进一步的表现，是在高信息密度的约束下，仍然保持杂志级的排版审美。平面设计师的排版能力，与产品经理的信息架构能力，这二者的交叉点，恰恰是最容易暴露AI 能力的短板。

为了进一步测试 SenseNova U1 的结构化叙事和设计能力，我们又让它做了一份介绍《甄嬛传》中“滴血验亲”这场戏的信息图，并且把关键台词融入设计中。

两份信息图都没有拿模板套作的痕迹，每一页都做到了根据内容密度自适应，信息图表和数据可视化都有对应的视觉呈现，字体、颜色、元素比例在视觉效果上也很协调。

这两项任务真正的难点有两个。首先是异构素材的知识合并能力，公开信息来源涵盖了文本、图像等多种格式，SenseNova U1 需要让重叠的知识点相互印证、合并，最终得到差异化的分层信息。没有真正的理解能力，做不到这一点。其次是逻辑感，提示词非常简练，SenseNova U1却能自主对搜集的内容进行取舍，找到一条合理的叙述逻辑，这一点在总结“滴血验亲”剧情的用例中，体现得更为明显。

见惯了汉字在 AI 图片里扭曲成麻花，SenseNova U1 在如此高密度的信息输出之下，准确率居然也已经达到了落地级别。手搓信息图乃至PPT，或许很快就要成为一种正在消失的技能。

ComfyUI快速部署方案：5分钟上手

在SenseNova U1 的最近一次更新中，商汤正式上线了 ComfyUI 部署支持，开发者可以将 U1 作为自定义节点直接嵌入 ComfyUI 工作流，实现从 “ 提示词构建 → 图像生成 → 结果预览 ” 的全链路可视化操作。值得一提的是， U1 在 ComfyUI 中提供了 “ 带图思考 ” 的交错生成节点，复杂逻辑的可视化推理过程一目了然。

环境要求▪ Python ≥ 3.10，ComfyUI 最新版

▪ GPU：推荐 16GB 显存（8B-MoT 标准版）

▪ 低显存用户：8B-MoT-GGUF 版本可在 8GB 显存下运行；支持 layer-offload，进一步降低显存占用

安装步骤

# 1. 进入 ComfyUI 的 custom_nodes 目录

cd ComfyUI/custom_nodes

# 2. 克隆官方仓库

git clone https://github.com/OpenSenseNova/SenseNova-U1

# 3. 安装依赖（推荐 uv）

uv pip install -r requirements.txt

# 4. 配置 API Key（本地推理可跳过此步）

export SENSENOVA_API_KEY=your_key_here

# 5. 启动 ComfyUI，拖入 workflow_demo.json 即可运行

▎核心节点说明

▎加速与量化选项

▪ 8 步推理加速版（SenseNova-U1-8B-MoT-8step-preview）：大多数场景下生成质量与基础模型接近，推理速度大幅提升

▪ LoRA 微调版（SenseNova-U1-8B-MoT-LoRA-8step-V1.0）：支持风格定制与场景适配

▪ GGUF 量化版：由社区贡献者 @smthem 提供，权重已发布于 HuggingFace，适合消费级 GPU 本地推理

对于偏好免安装体验的用户，商汤还同步提供了办公小浣熊https://office.xiaohuanxiong.com/home的体验方式，无需 GPU，直接在浏览器中即可试用 U1 的核心功能。

生产级任务新选择

过去一年，主流大模型厂商在多模态理解侧的表现已相对趋同，GPT-4V、Gemini Pro、Qwen-VL 等模型在图像理解、视频解析、文档理解等任务上的差距日益收窄。但生成侧始终是短板——理解一个数据集，然后生成信息图或制作一份 PPT，往往需要调用多个专用模型串联完成，不仅延迟高、风格一致性差，而且交付质量也参差不齐。

SenseNova U1 的差异化正在于此。把 SenseNova U1 放进多模态当前的竞争格局，你几乎无法找到同样的定位：

▪ GPT 系列多模态理解能力一流，但原生图像生成仍然依赖独立模块，走专用模型协作的路子

▪ Qwen-VL 开源生态庞大，但生成以文本输出为主

▪ DeepSeek-V4 行业翘首以盼，但多模态生成亦不是其核心卖点

此前头部玩家的核心能力多集中在理解侧，SenseNova U1 率先实现了生成和理解的原生融合。在端到端交付已经成为Agent落地共识的今天，只要理解与生成之间还横亘着跨模块的鸿沟，反映在落地上，就是交付质量和生产效率的真实痛点。SenseNova U1 一己之力，将这场拼交付的竞争，拉到了底层架构创新的高度。

技术阶段的代差本身就意味着生产力。SenseNova U1 针对企业办公场景做了定向优化，将信息图、PPT、研究报告这类高频交付物作为重要战场，技术优势直接转化为了落地能力。由此，SenseNova U1 才能在已经是一片红海的生图市场占据一席之地，成为生产级任务的全新选择。

结语

NEO-unify 的核心创新，就是让语言和视觉在同一个表征空间里共同参与每一层计算。此后模型在生成图像时，不是在翻译文字指令，而是在同一个思维框架之下，使语言与视觉信息能够作为一个统一的复合体被直接建模。

统一架构会打破理解与生成之间的信息壁垒，消除模块边界本身带来的信息损耗。当理解和生成成为同一种认知能力的两面，协同效应就不再是设计的结果，而只是统一表征自然涌现的属性。这些革新共同支撑了应用层面的全新体验：统一架构首先意味着更强的复杂指令遵循能力，同时多轮交互中跨模态推理的可视化，也增强了输出的可解释性，对于抽象推理过程尤其如此。

商汤还在技术报告中通过一系列消融实验，回答了一个核心问题：理解生成统一是否带来了真正的收益？

实验结论明确：统一架构在表示、训练稳定性和数据效率上确实有收益，而不是一种折中。

▪原生像素-文本设计能同时保留语义和像素信息。实验验证了 encoder-free 架构不仅能学到理解所需的语义表示，也能支持像素级重建与编辑。即使冻结理解分支，生成路径仍能恢复细节并完成较好的图像编辑——说明理解端训练的内在表征并不只是「理解 token」，也具备生成所需的细粒度信息。

▪MoT让理解与生成协同，而不是互相干扰。在联合 mid-training 和 SFT 阶段，即使生成数据和理解数据共同训练，理解能力仍保持稳定，生成能力还收敛更快。MoT 的参数解耦加共享注意力上下文，能有效降低理解/生成之间的内在冲突。

▪统一架构具备更高数据效率。NEO-unify 相比类似统一模型 BAGEL，在更少训练 token 下取得更好表现。原因在于原生像素-文本接口减少了跨模块对齐成本，MoT 又让两类能力共享上下文、互相提供监督信号，训练数据利用率因此更高。

单一模型替代专用模型协作的传统范式，能够显著降低存储、计算和部署成本，不过这还只是真原生架构革命性的一角。

而更深远的意义在于，原生统一的多模态智能，仍然是一条被寄予厚望的AGI之路。多模态智能的未来突破，并不只是简单的规模扩大，更重要的是朝着深度融合进化的内核架构创新。今天底层范式和模型架构的创新正变得越来越珍贵。开原生统一架构之先河的SenseNova U1，或许会有与其历史地位相匹配的表现——而这，才刚刚开始。

SenseNova U1：https://github.com/OpenSenseNova/SenseNova-U1/

SenseNova-Skills：https://github.com/OpenSenseNova/SenseNova-Skills

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.