![]()
机器之心编辑部
就在每次大家刚摸熟玩法时,新花样又来了。
最近,全网集体上头的是 OpenAI 发布的 GPT Image 2。它不只会生成好看的图片,更是把「信息图生成」带火了:知识卡片、数据图解、攻略长图、科普海报…… 只要一句话,就能生成一张排版精致、信息清晰、质感在线的图片。这波出圈速度,丝毫不亚于当年的吉卜力风格刷屏。
但对于国内用户来说,想体验 GPT Image 2 还是有些难度的。那有没有一个更低门槛、更适合国内用户的选择?
好巧,还真有。
刚刚,我们发现了一款国产开源模型,正好踩中了这个需求 —— 来自商汤的日日新 SenseNova U1 系列原生理解生成统一模型
那些超大参数模型的玩法,它都能做,以前特别费脑、费时间的内容,现在只需要把需求说清楚,它就能自动完成信息整理、版式设计和视觉呈现,直接给你「看起来很专业」的成品图。
而且它完全开源,也不受次数束缚。
就像这样:
![]()
![]()
SenseNova U1 不只是会「画图」,它采用了NEO-unify 理解生成统一的全新架构,能够真正让语言和视觉信息协同。所以它只需8B 的小参数,就能实现很多商业闭源模型同样的效果,效率拉满。
由于能够把视觉信息直接纳入思考链路中,它还在行业首创了连续性图文创作输出的模式。
另外,值得说明的是,商汤这次开源的是 SenseNova U1 的轻量版系列 SenseNova U1 Lite,包含SenseNova-U1-8B-MoTSenseNova-U1-A3B-MoT两个版本。
- GitHub:https://github.com/OpenSenseNova/SenseNova-U1
- Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1
虽然身板小,但它在多个测评维度上性能领先。
在图像理解与生成基准测试中,SenseNova-U1-8B-MoT 的表现相当亮眼。虽然它只是 8B 级模型,但在通用理解、空间理解等多个测试中都取得了领先成绩,甚至超过了 Qwen3VL-30B-A3B、Gemma4-26B-A4B 等更大规模模型。简单说,SenseNova-U1-8B-MoT 并不是靠堆参数取胜,而是在较小体量下做出了更高效的多模态理解能力。
![]()
在图像生成基准测试上,SenseNova U1 Lite 在信息图生成(Infographics)的其中一项拿到了 39.8 的高分,领先 Qwen-Image 等模型。这说明在处理高难度、高密度信息转化为图表时,SenseNova U1 具备行业领先的逻辑重组能力。
在文字渲染(Text Rendering)这一维度下,SenseNova U1 Lite 的成绩几乎全面领先。AI 生图最怕文字崩坏,这一测试结果证明了 SenseNova U1 Lite 在视觉化文字上的精准度。
![]()
视觉推理是 AI 最容易「翻车」的地方,因为它要求模型不仅要看懂图像,还要进行复杂的逻辑推理。SenseNova U1 (VBVR (UMM) 得分)拿到了 60.5 的高分,超过对比模型(如 Nano-Banana 的 49.6)。这意味着在处理复杂的视觉关系推理时,它比同类模型表现得更加「聪明」。
在 WISE 维度上取得了 69.0 的优异成绩,领先于 Qwen-Image(63.0)以及其他一众模型。这表明在执行基于人类意图的视觉修改时,它对「指令」的解析与「像素」的操控结合得更加紧密。
GEdit-Bench 得分 7.47,在同量级开源模型中处于顶尖位置,甚至优于一些参数规模更大的闭源替代方案。
![]()
实测后发现,这才是你急需的提效利器
光看榜单当然不过瘾。
SenseNova U1 Lite 在业内首个实现连续性的图文创作输出
传统模型的工作方式是:先用文字把问题想清楚,再调用外部工具把图生出来,这是两个步骤,两套系统,中间还有中间商负责牵线。SenseNova U1 Lite 打破的,正是这道墙,它能在同一套推理过程中,让图像和文字同步生长,示意图、流程图、草图,在它推理的同时就已经出现了,而不是等推理结束后再配上去。
我们来看几个实际效果。
让它生成一幅小白兔和大灰狼的故事连环画。
从结果可以看出,SenseNova U1 Lite 可以一边推进故事情节,一边同步生成对应场景的插图,图和文本来自同一套思维过程,逻辑连贯、风格统一。
![]()
![]()
想学习电影运镜,也可以向 SenseNova U1 Lite 提问,它会把文字解释和视觉图同步给你,并且保持人物角色的高度一致性。这比单纯的文字教程好懂得多,也比纯图示来得有逻辑。
![]()
这种带图思考的能力,正是 SenseNova U1 的原生图文理解生成能力。它能把图像与文本从底层进行融合,实现高效、连贯的思考和图文交错输出。不但效率高,也更接近人类的理解与表达模式。
我们还用 SenseNova U1 Lite 尝试了复杂高密度信息图(infographic)的生成
信息图要解决的是一个真实的表达困境:一篇论文、一份研报、一个操作流程、一个知识点,原始形态往往密度过高、结构不清,大多数人看到就想关掉。而一张好的信息图,能把同样的内容重新组织,让读者在几秒钟内抓住核心。
首先,我们让模型生成了一张适合可爱女生的短发造型信息图,SenseNova U1 Lite 完成度依然在线。
![]()
在接下来的案例中,SenseNova U1 Lite 生成的占星术与塔罗牌占卜图片风格华丽,充满了神秘主义元素,如果你对星座感兴趣,不放也试着做一份属于自己的星座图。
![]()
读不下去的论文,交给它。
最近,谷歌 DeepMind 发布了一篇颇受关注的论文《Image Generators are Generalist Vision Learners》,内容密度高,需要反复阅读才能理清脉络。我们把摘要丢给 SenseNova U1 Lite,让它生成一份图解。它不只是把文字重新排了一遍,而是真正提取出了论文的核心主张、方法逻辑和关键结论,用更直观的视觉结构把这些内容呈现出来,让一篇需要沉下心来读的学术文章,变得可以快速上手。
![]()
论文地址:https://arxiv.org/abs/2604.20329v1
接着,我们又换了一个完全不同的题材:让模型生成一张「武侠江湖禁忌」信息图。
这类内容看似轻松,其实很考验模型的结构化表达能力。因为它既要有江湖味,又要让读者一眼看懂规则。
SenseNova U1 Lite 的完成效果依然很有意思。它把江湖禁忌拆成了几个清晰板块:比如勿偷学武功,勿背后放冷箭暗器等。
![]()
金庸江湖生存指南:
![]()
接下来,我们又让模型生成了一张「柠檬的万能指南」信息图。SenseNova U1 Lite 的处理方式比较聪明。它把柠檬的用途拆成了几个清晰模块:烹饪、家居清洁、心身疗愈。
![]()
生成詹姆斯 · 乔治 · 弗雷泽名著「金枝」(The Golden Bough)信息图:
![]()
刺绣入门指南:
![]()
城市明信片:
![]()
从以上结果可以看出,对于高信息密度场景,SenseNova U1 Lite 处理起来相当游刃有余。
高效统一架构,让小模型跑出大模型效果
看完这些效果,一个问题自然会浮现:它为什么能做到这些?
过去,多模态 AI 几乎被一个固定范式所统治:视觉编码器负责感知理解,把图像压缩成特征向量喂给语言模型;变分自编码器负责生成图像,把语言模型的意图解码成像素。两套系统各司其职,看似分工明确,却在理解与生成之间埋下了一道天然的断层。
问题出在压缩这个动作上。视觉编码器把图像变成特征向量,本质是一次有损的信息筛选,它预先决定了哪些视觉细节值得保留、哪些可以舍弃。而这个决定,早在模型真正开始思考之前就已经做完了。生成侧同样如此:解码器只能从语言模型的理解结果中重建图像,而不是从原始像素出发。两端都在用二手信息工作,断层由此而来。
这种路线并不是没有价值。相反,它是过去几年多模态模型快速发展的重要基础。但它的问题也很明显:每多经过一个模块,信息就多一次转换;每多一次转换,就可能带来一次损耗。尤其是图像这种信息密度很高的模态,一旦被过度压缩,细节、空间关系、局部结构都可能被弱化。到了生成阶段,模型再想把这些信息完整还原出来,就会变得更困难。
这也是为什么很多多模态模型会出现一种割裂感:它可能能说清楚图里有什么,却不一定能准确画出复杂结构;它可能能生成一张好看的图片,却不一定真正理解文字里的逻辑关系;它也可能能完成单张图生成,但一旦要求连续输出多张风格一致、逻辑连贯的图文内容,就容易出现前后不一致、细节漂移、版式混乱等问题。
SenseNova U1 Lite 的答案,是一套叫做 NEO-Unify 的原生多模态架构,解决这种理解和生成之间的断层
其思路是把这些原本分开的环节尽可能收拢到一个统一架构里。它不再把视觉和语言当成两个需要互相翻译的系统,而是让图像信息和文本信息在同一个内部空间中共同参与计算。这样一来,模型处理图文任务时,不需要在看图系统、语言系统、生成系统之间来回传递,而是可以在同一套模型内部完成感知、理解、推理和表达。
这样做带来的第一个好处,是信息路径更短。
传统架构里,模型完成一次复杂图文任务,可能要经历看图 — 理解 — 规划 — 生成 — 修正等多个阶段,而且每个阶段之间都存在对齐成本。SenseNova U1 Lite 的统一架构则更像是把这些环节压缩进同一个大脑里,让模型可以一边理解内容,一边组织画面,一边保持语义和视觉的一致性。少了中间转译,模型就能把更多计算用于真正的理解和生成,而不是消耗在模块之间的衔接上。
第二个好处,是效率更高。
通过架构上的统一,减少不必要的信息损耗和流程开销,让较小规模的模型也能释放出更高的有效能力。
这也是 SenseNova-U1-8B-MoT 值得单独拿出来看的原因。8B 级别的模型规模并不算大,但它在图像生成、图像编辑、复杂信息图、视觉推理等任务中,能够接近甚至追上部分大型商业模型。背后的关键,并不是简单小参数逆袭大模型,而是统一架构让计算利用率更高,模型不需要花太多能力去弥补模块割裂带来的损耗。
这可以通过一些实验结果来说明:
如下图所示,SenseNova-U1-8B-MoT 位于相当靠左的位置,延迟大约只有 15 秒 / 2K 图,是所有对比模型中生成速度最突出的一个。同时,它的平均得分接近 67 分,已经进入主流商业模型所在的中高分区间。
这意味着,SenseNova-U1-8B-MoT 的优势主要体现在效率上:它没有依赖更长的生成时间去换取性能,而是在低延迟条件下保持了较高的生成质量。相比一些得分更高但耗时达到 30 秒、70 秒甚至更久的商业模型,它更接近实际生产中需要的状态,快速出图、质量可用、响应稳定。
换句话说,如果只看最高分,GPT-Image-2.0、Nano Banana Pro 等模型仍然处在第一梯队;但如果把速度也纳入考量,SenseNova-U1-8B-MoT 的位置就变得非常突出。它用更短的时间完成了接近主流商业模型的生成效果,体现出很强的单位时间产出能力。
![]()
Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench
![]()
Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench
结语
在 AI 领域,开源两个字正在被严重稀释。有的开源只是权重开放,却不开放代码;还有的干脆设了各种商用限制,开源不过是蹭热度的说法。
商汤此次选择将两个参数模型全面开源,代码托管于 GitHub,模型权重在 Hugging Face 平台同步提供下载,完整技术报告也将在近期公布。
在当前多模态大模型格局下,开源一个在架构层面有实质创新、且跑通了理解 - 生成 - 统一路线的模型,意味着这套方法可以被学术界反复审视、被开发者社区持续打磨,同时也为产业伙伴提供了直接可用的基础设施。
尤其是它的小身材、大能量、高效率,能帮助开发者即便在资源受限的环境下,也能享受高效率的能力,发挥越级的实力。
当整个行业都在追赶 GPT Image 2 的生图质量时,商汤押注的是统一本身。而随着全面开源的放出,这条路径,现在属于所有人。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.