网易首页 > 网易号 > 正文 申请入驻

智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门

0
分享至

机器之心发布

机器之心编辑部

2024 年 9 月,智源研究院发布了统一图像生成模型 OmniGen。该模型在单一架构内即可支持多种图像生成任务,包括文本生成图像(Text-to-Image Generation)、图像编辑(Image Editing)和主题驱动图像生成(Subject-driven Image Generation)。用户仅需使用多模态的自然语言指令,便可灵活实现上述功能,无需依赖额外的上下文提示、插件或预处理模块。凭借其功能的高度通用性与架构的高度简洁性,OmniGen 一经发布便获得社区的广泛好评。随后,随着 Gemini 2.0 Flash 和 GPT-4o 等闭源多模态模型的相继发布,构建统一图像生成模型成为当前最受关注的研究与应用方向之一。

在这一背景下,OmniGen 迎来重大技术升级,正式发布OmniGen2。新一代模型在保持简洁架构的基础上,显著增强了上下文理解能力、指令遵循能力和图像生成质量。同时,OmniGen2 全面继承了其基座多模态大模型在上下文理解与生成方面的能力,同时支持图像和文字生成,进一步打通了多模态技术生态。同时,模型权重、训练代码及训练数据将全面开源,为社区开发者提供优化与扩展的基础。这些特性都将推动统一图像生成模型从构想向现实的转变。

1. 分离式架构 + 双编码器策略

OmniGen2 采取了分离式架构解耦文本和图像,同时采用了 ViT 和 VAE 的双编码器策略。不同于其他工作,ViT 和 VAE 独立作用于 MLLM 和 Diffusion Transformer 中,提高图像一致性的同时保证原有的文字生成能力。

2. 数据生成流程重构

OmniGen2 也在探索解决阻碍领域发展的基础数据和评估方面的难题。相关的开源数据集大多存在固有的质量缺陷,尤其是在图像编辑任务中,图像质量和质量准确度都不高。而对于图片上下文参考生成任务,社区中缺乏相应的大规模多样化的训练数据。这些缺陷极大地导致了开源模型和商业模型之间显著的性能差距。为了解决这个问题,OmniGen2 开发了一个从视频数据和图像数据中生成图像编辑和上下文参考数据的构造流程。

3. 图像生成反思机制

受到大型语言模型自我反思能力的启发,OmniGen2 还探索了将反思能力整合到多模态生成模型中的策略。基于 OmniGen2 的基础模型构建了面对图像生成的反思数据。反思数据由文本和图像的交错序列组成,首先是一个用户指令,接着是多模态模型生成的图像,然后是针对之前生成输出的逐步反思。

每条反思都涉及两个关键方面:

1)对与原始指令相关的缺陷或未满足要求的分析,

2)为解决前一幅图像的局限性而提出的解决方案。

经过训练的模型具备初步的反思能力,未来目标是进一步使用强化学习进行训练。

OmniGen2 发布一周 GitHub 星标突破2000,X 上相关话题浏览量数十万

现在科研体验版已开放,可抢先尝试图像编辑、上下文参照的图像生成等特色能力。

科研体验版链接:https://genai.baai.ac.cn

OmniGen2 的玩法简单,只需要输入提示词,就能解锁丰富的图像编辑与生成能力。

1. 基于自然语言指令的图像编辑

OmniGen2 支持基于自然语言指令的图片编辑功能,可实现局部修改操作,包括物体增删、颜色调整、人物表情修改、背景替换等。

2. 多模态上下文参考的图像生成

OmniGen2 可从输入图像中提取指定元素,并基于这些元素生成新图像。例如,将物品 / 人物置于新的场景中。当前 OmniGen2 更擅长保持物体相似度而不是人脸相似度。

3. 文生图

OmniGen2 能够生成任意比例的图片。

OmniGen2 在已有基准上取得了颇具竞争力的结果,包括文生图,图像编辑。然而,对于图片上下文参考生成(in-context generation) 任务,目前还缺乏完善的公共基准来系统地评估和比较不同模型的关键能力。

现有的上下文图像生成基准在捕获实际应用场景方面存在不足。它们不考虑具有多个输入图像的场景,并且受到上下文类型和任务类型的限制。同时,先前的基准使用 CLIP-I 和 DINO 指标来评估上下文生成的图像的质量。这些指标依赖于输入和输出之间的图像级相似性,这使得它们不适用于涉及多个主题的场景,并且缺乏可解释性。

为了解决这一限制,团队引入了OmniContext 基准,其中包括8 个任务类别,专门用于评估个人、物体和场景的一致性。数据的构建采用多模态大语言模型初筛和人类专家手工标注相结合的混合方法。

OmniGen2 依托智源研究院自研的大模型训练推理并行框架 FlagScale,开展推理部署优化工作。通过深度重构模型推理链路,并融合 TeaCache 缓存加速策略,实现 32% 的推理效率提升,大幅缩短响应时间并强化服务效能。同时,框架支持一键式跨机多实例弹性部署,有效提升集群资源整体利用率。团队将持续推进软硬协同优化,构建高效推理部署能力体系。

OmniGen2 的模型权重、训练代码及训练数据将全面开源,为开发者提供优化与扩展的新基础,推动统一图像生成模型从构想加速迈向现实。

OmniGen2 相关链接:

  • Github: https://github.com/VectorSpaceLab/OmniGen2/
  • 论文:https://arxiv.org/abs/2506.18871
  • 模型:https://huggingface.co/BAAI/OmniGen2
  • 科研体验版链接:https://genai.baai.ac.cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3月26日俄乌:乌克兰的猛烈回击

3月26日俄乌:乌克兰的猛烈回击

山河路口
2026-03-26 17:32:00
英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

潇湘晨报
2026-03-26 16:25:20
贺龙视察南京,许世友说了啥,贺龙怼道:许世友,你这是瞎胡闹

贺龙视察南京,许世友说了啥,贺龙怼道:许世友,你这是瞎胡闹

史之铭
2026-03-26 13:42:52
张雪峰追悼会周六将在苏州殡仪馆举行

张雪峰追悼会周六将在苏州殡仪馆举行

界面新闻
2026-03-26 07:04:27
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

乐天闲聊
2026-03-26 03:40:35
37:47!美国投票结果出来后,特朗普连下三条命令

37:47!美国投票结果出来后,特朗普连下三条命令

欧洲报姐
2026-03-26 16:49:00
安瓦尔:西亚争端须以和平方式解决

安瓦尔:西亚争端须以和平方式解决

亚太观澜
2026-03-26 20:40:03
美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

徐云流浪中国
2026-03-04 15:30:07
喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

品读时刻
2026-02-12 00:06:27
为什么中年身材会走样?网友:心脉受损,心力不足!

为什么中年身材会走样?网友:心脉受损,心力不足!

特约前排观众
2026-03-25 00:10:05
内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

老马拉车莫少装
2026-03-22 23:24:28
游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

涵豆说娱
2026-03-26 11:46:21
国宴上钱学森按请柬找不到座位,毛主席:你的名字是我划掉的

国宴上钱学森按请柬找不到座位,毛主席:你的名字是我划掉的

浩渺青史
2026-03-16 15:02:55
浙江男子捡到22万,还给失主并拒绝酬金,哪料隔天失主说他丢了27万,让男子赔5万,结果大快人心!

浙江男子捡到22万,还给失主并拒绝酬金,哪料隔天失主说他丢了27万,让男子赔5万,结果大快人心!

感觉会火
2026-03-25 18:31:22
男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

张晓磊
2026-03-26 11:22:06
山东小伙横店演“公公”走红!行情好时日入四位数,没戏拍就去送外卖

山东小伙横店演“公公”走红!行情好时日入四位数,没戏拍就去送外卖

闪电新闻
2026-03-26 16:10:52
我们看印度人是奇葩,印度人看我们也一样?真相是我们想象的百倍

我们看印度人是奇葩,印度人看我们也一样?真相是我们想象的百倍

番外行
2026-03-24 13:04:28
钾是苹果的8倍,建议中老年人,春天多吃这“高钾菜”,精神好!

钾是苹果的8倍,建议中老年人,春天多吃这“高钾菜”,精神好!

阿龙美食记
2026-03-26 15:22:03
白发“师妃暄”,为何变成“金刚芭比”

白发“师妃暄”,为何变成“金刚芭比”

凹凹滴
2026-03-26 12:52:16
不可错过!3月26日晚上18:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚上18:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:29:55
2026-03-26 21:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
游戏
艺术
本地
教育

数码要闻

小米Book Pro 14超薄设计引爆市场!这家国产厂商立功了

10万奖池!2026 KKCS1.6 巅峰之路传奇联赛(春季赛)正式开赛!——KK官方对战平台

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

教育要闻

来上课了——高考阅读难题大综合(细节+主旨+含义)(下)第1段

无障碍浏览 进入关怀版