网易首页 > 网易号 > 正文 申请入驻

在线体验 | 北大团队开源UniWorld-V1统一大模型,统一架构新思考

0
分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。欢迎成为wisemodel算力平台用户,新老用户参与可获8.88元算力券返现福利,A800/H20等算力6.25元/卡时,支持在线微调训练,及线部署和。

北大团队通过对GPT-4o-Image的深入实验,突破性发现其在视觉特征提取环节中,相较于传统变分自编码器(VAE),更依赖语义编码器进行处理。这一关键洞察为统一模型架构设计开辟了全新路径。

基于上述研究成果,团队推出UniWorld-V1统一生成框架。该框架创新性融合高分辨率对比语义编码器与多模态大模型,仅需2.7M训练样本,即可实现图像理解、生成、编辑、感知等多任务处理。

实验数据显示,在多个权威基准测试中,UniWorld-V1的性能表现与使用2665M样本训练的BAGEL模型、专业图像编辑模型Step1X-Edit旗鼓相当。UniWorld-V1已上线始智AI-wisemodel开源社区,支持一键部署在线体验,欢迎大家前去尝试。

模型地址

https://wisemodel.cn/models/PKU-YUAN/UniWorld-V1

01.

观察

图1 UniWorld在多个基准上达到先进的性能

在“编辑实验”中,让 GPT-4o-Image 将公交车背面的广告涂成蓝色,观察到编辑前后黄色和绿色标签文字的位置发生明显不一致,说明低频结构没有被严格保留,VAE 特征(强调低频信息)无法解释这一现象。

在“去噪实验”中,将一张狗的图像分别加噪至 0.4× 和 0.6×,GPT-4o-Image 对低噪图像能够正确去噪,但在高噪(0.6×)下将狗误判为鹿。进一步调用 GPT-4o 和 Qwen2.5-VL 理解模块发现,它们对高噪图像也一致地识别为鹿,表明 GPT-4o-Image 依赖强大的多模态理解先验而非 VAE 的低频信息。

综上,这些观察支持了 GPT-4o-Image 使用基于语义编码器的视觉特征提取方案。

02.

架构

基于实验发现,我们将原先基于 VAE 的低级控制信号替换为对比式视觉-语言模型 SigLIP 编码器(选用最高分辨率版本 SigLIP2-so400m/14,固定输出 512×512)。在视觉理解部分,我们沿用了先前工作中使用的 Qwen2.5-VL-7B 预训练模型。

对于参考图像,同时使用 Qwen2.5-VL-7B 和 SigLIP 进行处理,并将两者的输出拼接后,作为 FLUX 文本分支的输入,从而实现更优的特征融合与建模。基于实验发现,我们将原先基于 VAE 的低级控制信号替换为对比式视觉-语言模型 SigLIP 编码器(选用最高分辨率版本 SigLIP2-so400m/14,固定输出 512×512)。

在视觉理解部分,我们沿用了先前工作中使用的 Qwen2.5-VL-7B 预训练模型。对于参考图像,同时使用 Qwen2.5-VL-7B 和 SigLIP 进行处理,并将两者的输出拼接后,作为 FLUX 文本分支的输入,从而实现更优的特征融合与建模。

03.

实验

在 GenEval 测试中,UniWorld-V1 取得总体 0.79 分;使用与 BLIP3-o 相同的提示重写后得分提升至 0.84,已非常接近 BAGEL 的 0.88。在 WISE 基准上,UniWorld-V1 综合得分 0.55,尤其在“空间”类题材中获得 0.73 分,仅次于 GPT-4o-Image 的 0.89,位列其他统一模型之首,展现了其在整合世界知识生成图像方面的竞争力。

在 ImgEdit-Bench 对比中,UniWorld-V1 以总分 3.37 位居所有开源模型之首,显著领先于 Step1X-Edit 和 BAGEL(均为 3.17)。它在 Adjust(3.70)、Remove(3.54)、Extract(2.23)、Replace(3.49)和 Hybrid(3.13)五大关键指标上均获开源模型最高分,展现了在属性调整、元素移除、对象提取、混合编辑与内容替换等任务中的卓越能力。

虽然 GPT-4o-Image 以 4.31 继续领跑,但 UniWorld-V1 的表现最接近该行业标杆,标志着其在开源阵营中已实现媲美顶级模型的图像编辑水平。

通过示例与 GPT-4o-Image 进行了定性对比(见图6)。结果显示,UniWorld-V1 在各类感知任务上表现不俗,甚至在许多方面超越了 GPT-4o-Image。尤其在 Canny 边缘检测、法线图生成、HED、分割和草图生成等任务中,UniWorld-V1 的指令理解与执行能力更强。这表明其一体化架构能够提供广泛且准确的图像感知功能,是首个具备如此多样且高保真视觉分析能力的开源统一模型。

04.

在线体验

wisemodel社区上已经上线了UniWorld-V1模型的镜像,支持一键创建在线体验,欢迎感兴趣的前往社区体验。首次在wisemodel社区创建在线体验的用户,同时还可以获得返现8.88算力券的福利。

首先进入wisemodel社区的“应用”模块,选中“uniworld”的镜像。

选择相应的硬件配置,其他信息都已经预填写了,可以根据需要调整,如果无需调整,则可以直接点击“提交订单”按钮,体验进入后台的启动阶段。

大概等待2-3分钟左右,体验进入运行中的状态。公开状态的在线体验可以直接在“在线体验”的页面上点击相应的体验,进入体验的页面;私有状态的在线体验需要前往“用户中心-我的资源-体验”进入体验的页面。

体验结束之后,也可以进入“用户中心-我的资源-体验”,在相应的体验后面操作栏,鼠标移到设置,出现“关闭”的按钮,如果创建时设置的自动停止时间,到期后也会自动停止。

欢迎前往wisemodel.cn社区进行体验,成为wisemodel社区的算力用户还可以获得8.88元的算力券返现福利~

编辑丨赵雅鑫

----- END -----

wisemodel相关:

系统升级:

大赛报名:

系列模型:

8

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王鹤棣给王彦霖女儿寄了60多件衣服,平铺在地上满满的一客厅

王鹤棣给王彦霖女儿寄了60多件衣服,平铺在地上满满的一客厅

喜欢历史的阿繁
2026-06-24 00:15:39
泽连斯基越线了!把手伸向台海南海,真以为中国会一忍再忍?

泽连斯基越线了!把手伸向台海南海,真以为中国会一忍再忍?

故事终将光明磊落
2026-06-24 12:58:36
“队史最佳射手”归位,内马尔有望迎本届世界杯首秀,安切洛蒂:他可以走着踢90分钟

“队史最佳射手”归位,内马尔有望迎本届世界杯首秀,安切洛蒂:他可以走着踢90分钟

红星新闻
2026-06-24 14:45:09
濒临出局!52岁卡纳瓦罗或被解雇:我会承担责任 但踢100次都是输

濒临出局!52岁卡纳瓦罗或被解雇:我会承担责任 但踢100次都是输

风过乡
2026-06-24 05:47:27
杨某某(女,36岁)开车致1死2伤,官方公布伤情:3岁男孩病情危重,妈妈将进行胸椎骨折手术

杨某某(女,36岁)开车致1死2伤,官方公布伤情:3岁男孩病情危重,妈妈将进行胸椎骨折手术

南方都市报
2026-06-23 19:06:52
破防了!土耳其排协体面送别老将,中国女排功勋,只剩默默退场

破防了!土耳其排协体面送别老将,中国女排功勋,只剩默默退场

金毛爱女排
2026-06-24 00:00:07
王治郅怒了!首秀7分8板却遭前辈炮轰:别在外面瞎挡拆 给我进去凿

王治郅怒了!首秀7分8板却遭前辈炮轰:别在外面瞎挡拆 给我进去凿

刘哥谈体育
2026-06-24 10:16:56
1990年,90岁张学良爆料于凤至不堪隐私,因三个儿子之死痛恨发妻

1990年,90岁张学良爆料于凤至不堪隐私,因三个儿子之死痛恨发妻

铜臭的历史味
2026-06-13 05:46:20
9亿执行令才过4年!董卿丢的面子,这次竟被12岁儿子找了回来

9亿执行令才过4年!董卿丢的面子,这次竟被12岁儿子找了回来

阿纂看事
2026-06-24 10:41:19
商家:今年吃杨梅的都赚到了!福建“泡药杨梅”事件后,一箱浙江杨梅从138元跌到110元

商家:今年吃杨梅的都赚到了!福建“泡药杨梅”事件后,一箱浙江杨梅从138元跌到110元

第一财经资讯
2026-06-23 16:47:29
大罗:梅西已经超越了所有前辈,我38岁体重都涨到120公斤了

大罗:梅西已经超越了所有前辈,我38岁体重都涨到120公斤了

懂球帝
2026-06-23 14:29:34
全新宝马X5要来了,或6月30日首发,国产依旧加长

全新宝马X5要来了,或6月30日首发,国产依旧加长

汽车公告板
2026-06-23 17:47:34
字母哥来了,鲍威尔就得走:热火帽下无回旋余地,活塞已排队接人

字母哥来了,鲍威尔就得走:热火帽下无回旋余地,活塞已排队接人

奕辰说球
2026-06-24 14:41:44
史上最低价?日本完成首例iPS胰岛细胞移植手术,糖尿病或将治愈

史上最低价?日本完成首例iPS胰岛细胞移植手术,糖尿病或将治愈

谷盟1
2026-06-22 16:47:49
C罗放弃射门助葡萄牙打出精彩战术完成破门,神之操作登顶热搜榜首

C罗放弃射门助葡萄牙打出精彩战术完成破门,神之操作登顶热搜榜首

菊哥品球
2026-06-24 06:08:24
2TB固态硬盘白菜价 三星西数闭眼入的时机到了

2TB固态硬盘白菜价 三星西数闭眼入的时机到了

闪存猎手
2026-06-23 01:27:18
1988年师长李德金被控制,军区查证他私藏枪支,搜查找到一串钥匙

1988年师长李德金被控制,军区查证他私藏枪支,搜查找到一串钥匙

磊子讲史
2026-06-23 16:21:38
江苏执法人员开公车收礼被监控拍下,12345举报后竟被要求做伪证

江苏执法人员开公车收礼被监控拍下,12345举报后竟被要求做伪证

听心堂
2026-06-23 16:38:07
马宁将执法挪法大战!

马宁将执法挪法大战!

五星体育
2026-06-24 00:57:20
演员张卫健:被父亲打到窒息,两度丧子后,他做出了最正确的决定

演员张卫健:被父亲打到窒息,两度丧子后,他做出了最正确的决定

飘飘然的娱乐汇
2026-06-24 09:05:09
2026-06-24 15:35:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
488文章数 16关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

郑丽文称国民党追求和平但不放弃自我防卫 国台办回应

头条要闻

郑丽文称国民党追求和平但不放弃自我防卫 国台办回应

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

本地
亲子
时尚
数码
公开课

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

亲子要闻

爸爸接4岁女儿放学,在路上吓唬女儿,没想到到家就跟妈妈告状!

被40万人追更的火焰魔术师,重塑古老灯工玻璃

数码要闻

三星Galaxy Watch Ultra2智能手表渲染图曝光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版