![]()
AI模型的第一性原理应该是什么?
这是我最近脑海里时常有的一个疑问。
我让商汤SenseNova U1,生成了一篇关于广州3天旅游攻略的长图文,要求图文并茂展示路线、景点、美食和注意事项。
![]()
看到生成的长图的那一刻,我似乎有了答案。
在多模态这个大战场上,过去几年的主流做法,说白了就是拼乐高。
想把图像识别和语言理解揉在一起做多模态,那就搞个视觉编码器当适配器,给大语言模型外挂一双眼睛。
想生成图片,那就再叠一个扩散头上去。
这套拼接式的搞法,成了行业默认的答案。
但这真的是多模态AI该有的样子吗?
一个真正从根上理解视觉和语言关系的智能系统,它的第一性原理应该是什么?
似乎,它应该从一开始就能把这两者放在同一个脑袋里思考、理解、生成,而不是理解归理解模块、生成归生成模块,中间走一大堆没必要的弯路。
![]()
https://github.com/OpenSenseNova/SenseNova-U1
前几天商汤开源了SenseNova U1系列原生理解生成统一模型。
老实说,我刚看到消息的反应是:又一家号称统一多模态的,有什么不一样呢?
但在我把文档和技术细节研究了一遍之后,发现这次商汤的思路确实不一样。
甚至可以说,这是我从业以来见过的最接近多模态第一性原理的一次尝试。
这次的核心突破不是又刷了一个多高的Benchmark分数,是他们从架构层面,有底层创新。
01拆掉那堵墙:为什么说拼接式架构是个死胡同
先聊聊大多数多模态模型是怎么弄的。
如果你用过市面上那些所谓多模态模型,会发现它们的工作流程大概是:
你丢一张图进去,问个问题,模型在里面兜兜转转好几个模块,最后给你一个回答。
听起来没什么问题对吧?但你把这一过程放大看,就会发现问题所在:
一张图信息流,得经过视觉编码器转译一次,给大语言模型看一眼,如果还要生成图片这个倒回来的过程,那就更复杂了,还得再过扩散模型,再过后续处理。
这就像把一群不同专业的人强行拉在一起开会。
有人在视觉这块是个门外汉”,他用的是像素信息、图形信息,另外一个人是语言专家,用token表示,他擅长理解抽象逻辑。还有一个人,只会画图不懂语义推理。
每次多模态任务来了,这帮人就得你传我、我传他,层层转译。
即便两个“专家”配合非常默契,也不可避免地有信息损失和效率低下问题。
商汤这次的SenseNova U1把这种拼接方案彻底改了。
![]()
https://huggingface.co/blog/sensenova/neo-unify
他们基于自研的NEO-Unify架构,直接把VE视觉编码器和VAE变分自编码器给拿掉了。
很多人对这个改动没啥概念,我这么说吧——这就好比手机厂商突然告诉你,我们手机不用电池了,直接隔空充电。
是的,就是这么颠覆。
VE和VAE是几乎所有主流多模态系统都绕不开的组件,这两样东西就像是多模态江湖的少林武当,大家修练的功法不同,但都离不开这两座大山。
![]()
商汤的NEO-Unify架构重新构建了一个统一的深层表征空间。在这个空间里,像素和文本不再是两种需要“翻译”的语言,而是作为同一个复合体被直接建模和思考。
把这件事换个更直白的说法:
传统模型看一幅画,它要先看懂了,再把懂得的东西用文字告诉另一个系统;另一个系统接收信息再去画。而SenseNova U1是让模型直接看着这幅画,同时用画画和说话的方式理解,逻辑推理和视觉表达在同一条路径里跑。
我注册了GitHub上的预览版本体验了一轮,印象最深刻的是模型对复杂信息的处理方式。
![]()
https://unify.light-ai.top/home
我让它生成一张复杂的生物实验机制原理和附带的结构程序图。
它没有分开理解再拼凑答案,直接在统一空间里把可视化的图表信息和抽象的文本信息关联起来,输出的结果里既有对技术细节的理解,也有对视觉结构的问题感知。
![]()
这种体验和传统拼接式模型完全不同。拼接式模型在处理这种夹生任务时,常常会出现理解断裂问题:看图理解是什么,读文理解是什么,然后匹配结果时总有对不上的地方。
在复杂工业图纸解读和图文交叉推理这类核心场景中,SenseNova U1的性能比同参数级的拼接式模型平均提升了超过32%。
02小鱼吃大鱼:开源8B模型比肩闭源商业产品
商汤这次开源的是U1 Lite系列的两个型号:SenseNova-U1-8B-MoT(Dense架构)和SenseNova-U1-A3B-MoT(MoE架构)。
8B参数是什么概念?在今天的大模型竞赛里,这几乎相当于轻量版。
但就是这个8B模型,在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中,达到了同量级开源模型SOTA水平。
不只在开源圈子里比,它甚至能在多个维度上比肩Qwen-Image 2.0 Pro和Seedream 4.5这类闭源商业产品。
![]()
我看到这个结果时,第一反应是:怎么做到的?
传统逻辑里,图像生成质量几乎和参数规模正相关——参数越大,能捕获的细节越多,生成质量就越好。你一个8B的模型跟人家的更大参数模型比质量,这不合常理。
但商汤的答案恰恰在于他们跳出了“靠堆参数解决问题”的思维方式。
传统架构因为要在不同模块间来回传信息,损耗太大,为了弥补这些问题,不得已要把模型做得很大。而SenseNova U1基于统一表征空间构建,从根本上缩短了信息流转的距离。就像一组人,本来要绕路,现在直接修条直路,距离短了,速度快了,损耗自然少了。
![]()
说句实在话,作为一直关注部署成本的从业者,看到这个数据的时候我心里确实动了一下。
我们在企业内部做AI落地最头疼的问题是什么?不是模型能力不够,是算力成本和推理延迟高到没法商用。
一个8B级别的模型能做到接近顶级闭源产品的质量,推理效率还提升了27%,这直接拉低了多模态应用的门槛。
在信息图生成这类对难度要求特别高的任务中,SenseNova U1 Lite平均得分50.7,是开源模型里最强的一个。在AI2D图表理解类基准测试中,8B模型跑出了91.7分。视觉推理方面远超不少比它大得多的商业模型。
我特别注意到一个细节:20亿参数的预览模型,图像重建达到31.56的PSNR分数,这个分数无限接近Flux模型32.65的水平,但Flux大得多不说,还必须跑独立的VAE。
这不就是架构效率的最好证明吗——用更少的资源,做更多的事。
03从被动拼接走向创造:图文交错、信息图效果都很好
还有一件事,我得单独拿出来说。
SenseNova U1是目前业内第一个能在一个模型内进行连贯图文交错生成的方案。
什么叫图文交错?就是不单独输出文字,不单独输出图片,是在一个输出流里,文字和图片自然交叠。
就像下面这种。
![]()
再比如说,我想系统了解一下,「五种有代表性的电影运镜方式及视觉效果」。
![]()
文字介绍和图片的对应,非常直观清晰,信息的准确度也都到位。
像下面这个,原创设计一个建在悬崖边的现代图书馆,展示从宏观到微观的四个不同视角:
![]()
![]()
设计的美感、质感都很漂亮,氛围也很到位。而且文字的表述也很精当,对画面做了非常好的一句话解读。
信息图的呈现效果,也比我预期要好。
你让它做个“清新手工饮品”的教程,它会一步一个脚印,从准备材料到工具到调味再到搅拌完成。
![]()
每一步都有详细的文字步骤,同时每一步都配一张对应的图,每一步都保持高度一致,不会出现第三步的杯子跟第一步长得完全不一样这种问题。
你让它讲三只小猪的故事,输入七个字,它给你出一整组连环画。
三只小猪、三种房子的材质、最后那只狼,每个分镜都排得整整齐齐,故事逻辑不乱。
![]()
传统模型要实现类似的效果,可能需要用一个模型做文本规划,再用另一个模型按规划生成图片。
图片和图片之间的风格、视角、人物很难一致,因为这中间多个模型的认知是割裂的,没有一个统一的“审美记忆”。
各个模型各画各的,就会出现第一步还是可爱风,第三步变成写实派,主角的脸在第二次出现时直接变形这样让人哭笑不得的情况。
![]()
在内容创作领域,这种连续图文生成能力意味着真实的生产力提升。
博主、教育工作者、营销人员都可以利用这种能力,把长篇文字内容快速转化为易于消化的图文混合内容,直接把复杂信息浓缩成一眼能懂的图示,再也不用像以前那样排版、配图和编辑好几天。
04端掉重资产上限:AI开发的下一场变革
商汤这次开源,更深层的价值也许是:他们正在重新定义多模态AI开发的下一个标准范式。
行业里有一个被很多人忽略的潜规则——为了获得多模态能力,必须支付巨额的硬件成本。
因为拼接式架构效率低,只能堆硬件去弥补结构的短板。
对大公司来说或许没问题,但对创业团队、个体开发者和研究机构来说,这笔成本是高不可攀的天花板。
SenseNova U1打破了这条规则。
它以极致效率,让小模型也能做出大模型的活儿。8B级别的模型能做到过去需要数十亿甚至上百亿参数的闭源产品才能做的质量。
我查了一下他们的发表记录,NEO-Unify一开始是商汤和南洋理工大学S-Lab合作做的研究项目。今年3月他们将这项架构设计正式提出,4月底就落地推出开源实现,研发和交付的节奏很快。
从技术报告看,这个架构展现出了很高的数据训练效率。跟其他类似架构比,NEO-Unify在训练步数更少的情况下达到更好的性能。
![]()
这背后反映出的是一种开发思维的转变。过去一年多行业流行的思路是:模型不行,砸钱堆参数、堆数据,总能砸到够强。不是说这条路不对,但它不是可持续的路线。
真正走得远的路线,应该是在架构上找答案,而不是无脑堆资源。
商汤选择开源这条路,给了社区一个真正可用的原生统一多模态架构。
开源不仅仅是一种态度,让更多的开发者可以参与到开发和改进中,更是一种促进创新的策略——让更多头脑在同一个高效的基础设施上做探索。
随着模型在GitHub、Hugging Face同步开放,配套的提示指南和技能库也会陆续上线。我个人很期待看到开发社区基于这套架构创造出什么样的新应用和新用法。
05写在最后:多模态走向何方
回看SenseNova U1,我觉得它的最大意义不在于又一次技术秀,而在于它用第一性原理的思考方式,给多模态AI开发长期以来的拼接思维划了一个句号。
多模态模型真正该走的路,不应该是每个功能各走各的,最后想办法强扭到一起。而是从一开始,就把理解和生成当作同一个大问题的不同侧面,用同一套系统去统一解决。
![]()
商汤这步棋下得很聪明。他们没去死磕所谓更大参数数字,而是真正思考了多模态的本质,然后直接推倒重来。他们在发布会上说了一句话,我觉得说得很好——原生统一的多模态智能是通往AGI的必经之路。
从使用场景看,SenseNova U1未来可以作为机器人的“具身大脑”,在一个模型闭环里完成从环境感知到逻辑推理再到任务执行的完整过程。
当然,这不是说SenseNova U1已经完美无缺。开源版本目前还是Lite系列,更大参数的正式版还在路上。一些极复杂的视觉推理场景中,模型偶尔还是会出一些常识性的偏差。但它最重要的一点是:方向对。
2026年的多模态AI赛道上,商汤给出了一个足以让行业重估赛道的变量——不是靠烧钱烧出来的效率,而是在底层架构原生统一中找到了破局点。
从模型集成到原生统一,从堆参数到砍架构,这不仅是技术上的取舍,更是对商业和生态逻辑的理解。
![]()
开源的原生多模态架构,正在消除过去几年中国AI研发长期面临的芯片与软件生态的隔阂。
当算力不再是绞索,架构创新的价值就会被真正释放。
中国企业能做出一款媲美Flux的30纳米高端芯片,也完成了一条从芯片到算法、从底层框架到开发工具链完整的独立生态。
商汤这一步只是个开始。当多模态的第一步踏稳了,第二步就会覆盖更复杂的现实场景。
从办公文档的自动化生成到医疗影像的智能解读,从教育内容的AI辅助制作到工业模拟的复杂任务执行——只要底层架构足够灵活、原生统一足够彻底,这些应用的爆发可能就在未来的十八到二十四个月里。
我唯一有些遗憾的事情是,这么好的模型,他们的文档里没有展示更多关于它对系统指令和全局风格掌控力的案例。
我正琢磨着,下周用自己手头的数据和任务在下游调优一下,看看是否可以做出更有用的商业级落地场景。
如果这次尝试顺利,说不定我还会再写一篇续文,详细讲讲SenseNova U1在实际场景中的神奇表现。
现在嘛,我得先去写代码和跑模型了。
AI的第一性原理,毕竟还是要靠自己亲手做出来才算数。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.