网易首页 > 网易号 > 正文 申请入驻

黑马图像模型被Nano Banana技术负责人点赞!

0
分享至

  • 允中 发自 凹非寺
    量子位 | 公众号 QbitAI

图像界又杀出一匹黑马!

刚刚,Luma AI甩出全新模型Uni-1,正面对标谷歌Nano Banana Pro和GPT Image 1.5。



Uni-1是一个统一的图像理解与生成模型。

在官方展示中,Uni-1具备角色姿态迁移、故事板生成、草稿+材质结合参考生成、草稿转漫画、多参考图场景合成、草稿引导的照片编辑、UV贴图生成、带有文字的贺卡海报生成等诸多能力。



在多项权威任务评测中,Uni-1不仅能对标Nano Banana Pro、GPT Image 1.5,部分任务的表现更是达到世界领先水平。

例如下面这个案例,Uni-1精准拿捏细节,在风格一致性、元素融合度和细节还原上更胜一筹。



更令人意外的是,能实现如此惊艳效果的Uni-1,背后并非大厂重兵投入,而是一支不到15人的华人研究团队。

Uni-1发布后评论一片叫好,甚至引来谷歌DeepMind首席科学家、Nano Banana项目技术负责人Oliver Wang点赞:



英伟达机器人主管Jim Fan也送上了祝福:



Uni-1效果到底有多炸?话不多说,来看更多图。

解锁多元创作场景

马年新春贺卡

先来一个简单的测试:

生成一张马年新春贺卡,要包含“新春快乐”、“马年大吉·万事如意”、“马年 二〇二六”等中文文字。



Uni-1生成的贺卡文字内容完整、排版合理,马的形象和中国传统剪纸风格高度一致。相比之下,GPT Image 1.5出现了文字混乱,Nano Banana Pro的文字渲染也有明显瑕疵。

中文文字渲染一直是图像生成模型的“照妖镜”——Uni-1交出了一份相当能打的答卷。

多参考图场景合成

给模型5张参考图——两只猫、两位男士、Luma AI的logo——要求合成一个会议场景:

一只猫展示Luma AI幻灯片,另一只猫旁听,同时融入真人照片和logo。



Uni-1精确还原了每张参考图的身份特征——猫的毛色花纹、男士的五官和发型、logo的细节——并将它们合理地组织进了同一个场景。

GPT Image 1.5则把参考图片直接“贴”到了幻灯片上,而Nano Banana Pro连基本的参考图融合都没做到。

信息图提取

给模型一张地铁站实拍的“THE BEES NEED YOU”公益海报,要求提取为可直接用于生产的信息图——生成完整图片,不带占位框,准确还原信息图中所有可见文字。



这个任务同时考验“看”和“画”两种能力:

先要理解实拍海报里的全部信息层级,再要重新生成一张排版清晰的信息图。

Uni-1准确还原了完整的海报布局、所有文字、正确配色,以及黑色草地剪影和正确的纵横比。GPT Image 1.5部分文字颜色错误,底部文字全部缺失,野花种子和蜜蜂的logo也出了问题。Nano Banana Pro整体布局尚可,但底部文字同样缺失。

草稿转漫画

再来看生成能力——把一张粗糙的草稿(猫站在书架上,旁边有人说”Hey! Get down from there!”)转化为专业级漫画。



Uni-1完美地将草稿意图转化为专业漫画:分格构图、对话气泡的位置和方向都精准还原,所有细节完整保留——猫耳朵、翘起的尾巴、卷烟缸、书架上的书,甚至手机屏幕显示着911。

钢琴前的一生:6帧故事板

下面可能是最能体现Uni-1实力的demo之一。

要求:生成6帧故事板,展示同一个角色从童年到老年在钢琴前的一生。一个人从男孩到少年、到青年、到中年、到老年,最后变成一家人在台上的大合照。



6帧画面中角色身份保持一致——同一张脸,钢琴、透视和画风不变,仅人物形象和背景随时间变化。这种跨帧的角色一致性和时间叙事能力,是当前图像模型的核心难题之一。

UV贴图生成

给模型一个人从不同角度拍摄的三张照片(正面、左侧、右侧),要求生成一张标准面部拓扑的展开UV贴图。



UV贴图是3D建模中的核心环节,对面部对齐、左右对称和肤色一致性要求极高。

Uni-1生成的UV贴图在这三个维度上都明显优于GPT Image 1.5、Nano Banana Pro:

GPT Image 1.5的正脸和侧面贴图出现了不一致,Nano Banana Pro则完全没能生成符合标准UV布局规范的结果。

能搞定这种专业级3D任务,说明Uni-1不只是“画图好看”,而是真正具备了对三维空间结构的深层理解。

不到15人,凭什么?

看完效果,你可能会好奇:这些通常只在大厂才能看到的结果,到底是怎么从一个不到15人的团队手里做出来的?

答案或许就藏在这支团队的两位研究负责人身上。

宋佳铭,清华大学本科,斯坦福大学博士。

他最广为人知的贡献是发明了DDIM(Denoising Diffusion Implicit Models)。如果你用过任何基于扩散模型的图像生成工具,从Stable Diffusion到DALL·E,背后几乎都离不开DDIM带来的采样加速技术。

这篇论文至今被引用超过万次,并获得ICLR 2022 Outstanding Paper Award。



沈博魁,斯坦福大学本科及博士。

他的代表作获得了CVPR 2018 Best Paper Award——CVPR是计算机视觉领域的顶级会议,每年仅有极少数论文能获此殊荣。此外,他还入选了RSS 2022 Best Student Paper Finalist。



一位是扩散模型加速的奠基人,一位是计算机视觉的顶尖研究者——两位华人学者联手,带领一支精锐小队,选择了一条和大厂截然不同的路线:

不是把理解和生成分开做,而是用一个统一的模型把两件事一起搞定。

统一模型:给逻辑大脑长出“心灵之眼”

Uni-1的核心理念,用Luma自己的话说,就是“给逻辑大脑长出心灵之眼”。

传统路线下,图像理解(看图说话、物体检测)和图像生成(文生图、图像编辑)是两套独立的系统。但Uni-1采用了一种decoder-only自回归Transformer架构,将文本和图像表示在同一个交错序列中——既是输入,也是输出。

这意味着,Uni-1不需要分别训练“理解模块”和“生成模块”,而是在一个统一框架内同时建模时间、空间和逻辑。

更有意思的是,Luma发现生成训练能显著提升理解能力。换句话说,当模型学会“画画”之后,它“看图”的能力也变强了——这和人类的认知规律竟然高度一致。

在推理式生成任务中,Uni-1会在合成图像前进行结构化的内部推理:先分解指令、规划构图,然后再渲染输出

这种“先想后画”的能力,让它在RISEBench(评估时间推理、因果推理、空间推理和逻辑推理四个维度的基准测试)上取得了世界最优成绩



在开放词汇密集检测(ODinW-13)基准上,Uni-1同样展现出了强劲的竞争力——要知道,这是一个传统上由纯理解模型主导的领域。一个统一模型能在理解任务上也不输专门的理解模型,本身就已经是一个重要的信号。

为什么这很重要?

把Uni-1放到更大的AI行业图景中看,有两件事值得关注:

第一,统一模型可能是下一代视觉AI的方向。

当理解和生成不再是两个独立系统,而是同一个模型的两面,很多过去需要复杂pipeline的任务——多轮编辑、参考图合成、风格迁移——都可以在一个模型内优雅地完成。Uni-1已经在这些任务上展示了这种优势。

第二,顶尖AI研究不一定需要万人团队和无限算力。

不到15人的华人研究团队,在一个被Google和OpenAI主导的赛道上做出了世界级的成果。这再次证明:在正确的技术路线上,优秀的人才密度可以弥补资源的差距。

Luma表示,Uni-1只是第一步。下一阶段,这个统一框架将从静态图像扩展到视频、语音、交互式世界模拟——最终目标是构建能够“看、说、推理、想象”的统一多模态系统。

从一个不到15人的华人团队开始,这个目标或许并不遥远。

Luma AI官方博客:https://lumalabs.ai/uni-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普威胁西班牙:你家基地我想用就用!美军出动B-2轰炸机,伊朗动用新导弹,击中美军驱逐舰,以军:打击伊朗一处秘密地下核武研发场所

特朗普威胁西班牙:你家基地我想用就用!美军出动B-2轰炸机,伊朗动用新导弹,击中美军驱逐舰,以军:打击伊朗一处秘密地下核武研发场所

每日经济新闻
2026-03-04 14:34:06
伊朗今日之局面,基本盘难辞其咎

伊朗今日之局面,基本盘难辞其咎

黔有虎
2026-03-06 14:58:16
全球首例!LNG运输船起火弃船,“最安全船型”神话被打破

全球首例!LNG运输船起火弃船,“最安全船型”神话被打破

信德海事
2026-03-05 19:54:54
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
出大事了,白宫发言人说漏嘴,以色列情报曝光,特朗普连遭噩耗

出大事了,白宫发言人说漏嘴,以色列情报曝光,特朗普连遭噩耗

史行途
2026-03-07 05:41:02
委内瑞拉恢复稀释原油出口

委内瑞拉恢复稀释原油出口

财联社
2026-03-07 04:14:31
乌兹别克女足主帅:很难比较中国队和朝鲜队,两队风格不同

乌兹别克女足主帅:很难比较中国队和朝鲜队,两队风格不同

懂球帝
2026-03-06 20:23:06
退休医生返聘再引热议!大三甲主任现身说法:返聘并未抢了年轻人饭碗…

退休医生返聘再引热议!大三甲主任现身说法:返聘并未抢了年轻人饭碗…

华医网
2026-03-07 05:41:11
终于打穿了!美国航母神话,彻底崩了!

终于打穿了!美国航母神话,彻底崩了!

大嘴说天下
2026-03-06 17:08:45
1230人遇难!美国5天烧200亿,终于承认:伊朗无人机真拦不住

1230人遇难!美国5天烧200亿,终于承认:伊朗无人机真拦不住

近史博览
2026-03-07 01:20:35
25岁实习生差两天转正被辞退,他收拾东西就走,第二天老板愣住了

25岁实习生差两天转正被辞退,他收拾东西就走,第二天老板愣住了

奶茶麦子
2026-03-05 23:57:09
CEO揭晓《十日终焉》阵容:肖战主演,全员实力派

CEO揭晓《十日终焉》阵容:肖战主演,全员实力派

暖心萌阿菇凉
2026-03-06 03:44:16
一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

达文西看世界
2026-03-02 14:25:12
神袍之下,三千亿财富帝国

神袍之下,三千亿财富帝国

老鹰哥
2026-03-04 09:52:15
20+11!开拓者替补中锋爆了;开拓者官宣杨瀚森

20+11!开拓者替补中锋爆了;开拓者官宣杨瀚森

现代小青青慕慕
2026-03-06 10:27:00
痒是大病预警!医生提醒:2处发痒,或不是过敏,而是这4病

痒是大病预警!医生提醒:2处发痒,或不是过敏,而是这4病

医学科普汇
2026-03-05 21:20:03
“人体艺术”,绝非色情!

“人体艺术”,绝非色情!

文刀万
2026-03-06 06:05:03
演都不演了,刚复出就开演唱会,票价卖到1280,到底谁给的自信?

演都不演了,刚复出就开演唱会,票价卖到1280,到底谁给的自信?

一娱三分地
2026-03-03 13:51:03
大风315 | 车辆正行驶,屏幕突然显示“3秒钟后关机”,宝骏云海断电趴窝;4S店:小电瓶损坏,较少见

大风315 | 车辆正行驶,屏幕突然显示“3秒钟后关机”,宝骏云海断电趴窝;4S店:小电瓶损坏,较少见

大风新闻
2026-03-06 13:45:07
美国伊朗冲突,那些造“官谣”的人已经魔怔了

美国伊朗冲突,那些造“官谣”的人已经魔怔了

清书先生
2026-03-06 17:06:21
2026-03-07 06:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12222文章数 176403关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

伊朗称向美军“林肯”号航母发射导弹

头条要闻

伊朗称向美军“林肯”号航母发射导弹

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

手机
游戏
亲子
教育
旅游

手机要闻

荣耀600系列曝光:9000mAh+2亿像素+超声波指纹,这波堆料太狠

曝下代Xbox靠纯算力制霸!性能“爆杀”PS6

亲子要闻

儿童鼻出血的常见问题,儿科医生解答

教育要闻

“县城的最爱学这种课”,一段女儿当街走秀视频,把人看尴尬了

旅游要闻

杭州CBD藏了片七彩油菜花海,草莓熊坐镇,成年人的治愈全在这儿

无障碍浏览 进入关怀版