网易首页 > 网易号 > 正文 申请入驻

DeepSeek除夕狂飙大招:开源多模态掀翻全场!256张A100训两周碾压DALL-E 3

0
分享至

新智元报道

编辑:Aeneas 好困

【新智元导读】DeepSeek除夕又放出重磅炸弹:多模态大一统开源模型Janus-Pro系列上线!其中,1.5B模型仅用了128颗英伟达A100训练一周,而7B也只是翻了个倍。

全世界瞩目之际,DeepSeek在除夕又有了新的动作。

就在昨夜,DeepSeek正式发布了集理解与生成于一体的多模态大模型Janus-Pro。

目前,相关代码和模型已完全开源。

论文地址:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

开源项目:https://github.com/deepseek-ai/Janus

Janus-Pro采用了创新性自回归框架,并实现了多模态理解与生成的统一,是对 去年发布的前代模型Janus的全面升级。

它通过将视觉编码解耦为独立的通道,克服了先前方法的局限性,同时仍然使用单一且统一的Transformer架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成方面的固有角色冲突,还显著提升了框架的灵活性。

结果显示,升级后的Janus-Pro在多模态理解和文生图能力上都实现了显著突破,同时文生图的稳定性也得到了提升。

与此同时,DeepSeek在训练上一如既往地只用了非常少的算力——

1.5B和7B这两款模型,分别在配备16/32个计算节点的集群上进行,每个节点装配8张Nvidia A100(40GB)GPU,总训练时间约为7/14天。

网友实测

对于DeepSeek的又一个暴击,外媒VentureBeat评论道:「Janus-Pro-7B的发布,让它的影响力再次得到扩大的同时,强化了这一叙事——DeepSeek作为创新者,已经颠覆了AI世界的既定秩序。」

网友们纷纷预言,DeepSeek Janus-Pro-7B模型对整个AI世界生态系统来说,又将造成巨震。

甚至1B模型可以直接在WebGPU的浏览器中就可以运行。本地运行模型,只需访问网站即可!

但在实际效果上,很多网友实测发现Janus-Pro的生图效果并不总是很理想。

左右滑动查看

当然,也有实测效果比较好的例子。

左右滑动查看

类似的,在图像理解方面,表现也是有好有坏。

完整论文解读

具体而言,Janus-Pro在以下三个方面进行了改进:(1)采用了优化后的训练策略,(2)扩充了训练数据集,以及(3)实现了模型规模的进一步扩展。

Janus作为一个创新性模型,最初在1B参数规模上完成了验证。但由于训练数据量受限且模型容量相对不足,导致它存在一些局限性,主要表现在短提示词图像生成效果欠佳以及文本生图质量不够稳定等方面。

针对这些问题,DeepSeek团队推出了升级版本Janus-Pro,在训练策略、数据规模和模型容量三个维度上都实现了重要突破。

Janus-Pro 系列提供了1B和7B两种参数规模的模型,充分展示了视觉编解码方法的可扩展性。

多个基准测试的评估结果表明,Janus-Pro在多模态理解能力和文本生图的指令执行性能方面都取得了显著进展。

具体而言,Janus-Pro-7B在多模态理解基准测试MMBench上达到了79.2的评分,超越了包括Janus(69.4)、TokenFlow(68.9)和MetaMorph(75.2)在内的现有最优统一多模态模型。

在GenEval文本生图指令执行能力排行榜上,Janus-Pro-7B获得了0.80的高分,显著优于Janus(0.61)、DALL-E 3(0.67)和Stable Diffusion 3 Medium(0.74)的表现。

模型架构

Janus-Pro架构的核心设计理念是,实现多模态理解和生成任务中视觉编码的解耦。与Janus保持一致。

具体而言,研究者采用独立的编码方法将原始输入转换为特征,随后通过统一的自回归Transformer进行处理。

Janus-Pro的架构

在多模态理解方面,研究者采用SigLIP编码器,从图像中提取高维语义特征。

这些特征首先从二维网格结构展平为一维序列,然后通过理解适配器将图像特征映射到大语言模型的输入空间。

在视觉生成任务中,他们使用VQ分词器将图像转换为离散ID序列。将这些ID序列展平为一维后,通过生成适配器将对应的码本嵌入映射至大语言模型的输入空间。

随后,他们将上述特征序列整合为统一的多模态特征序列,输入大语言模型进行处理。

除了利用大语言模型内置的预测头外,研究者还在视觉生成任务中引入了一个随机初始化的预测头用于图像预测。

整个模型采用自回归框架。

优化训练策略

Janus的前代版本采用了三阶段训练流程——

第一阶段专注于适配器和图像头的训练;第二阶段进行统一预训练,期间除理解编码器和生成编码器外的所有组件参数都会更新;第三阶段进行监督微调,在第二阶段基础上进一步解锁理解编码器的参数进行训练。

然而,这种训练策略存在某些问题。

在第二阶段中,Janus参照PixArt的方法,将文本生图能力的训练分为两个部分:首先使用ImageNet数据集进行训练,以图像类别名称作为提示词来生成图像,目的是构建像素依赖关系;其次使用标准文本生图数据进行训练。

在具体实施中,第二阶段将66.67%的文本生图训练步骤分配给了第一部分。

但通过深入实验,研究者发现这种策略效果欠佳,且计算效率较低。为此,他们实施了两项重要改进:

  • 阶段I延长训练时间:增加第一阶段的训练步骤,确保充分利用ImageNet数据集。研究表明,即使在大语言模型参数固定的情况下,模型也能有效建立像素依赖关系,并根据类别名称生成高质量图像。

  • 阶段II集中重点训练:在第二阶段中,摒弃了ImageNet数据,转而直接使用标准文本生图数据来训练模型,使其能够基于详细文本描述生成图像。这种优化策略使第二阶段能够更高效地利用文本生图数据,显著提升了训练效率和整体表现。

此外,研究者还对第三阶段监督微调过程中的数据配比进行了调整,将多模态数据、纯文本数据和文本生图数据的比例从7:3:10优化为5:1:4。

通过适度降低文本生图数据的占比,可以发现,这种调整既保持了强大的视觉生成能力,又提升了多模态理解性能。

数据Scaling

在多模态理解和视觉生成两个方面,团队显著扩充了Janus的训练数据规模:

• 多模态理解

在第二阶段预训练中,他们参考了DeepSeekVL2的方法,新增了约9000万个训练样本。这些样本包括图像描述数据集以及表格、图表和文档理解数据集。

在第三阶段监督微调中,他们进一步引入了DeepSeek-VL2的补充数据集,包括表情包理解、中文对话数据和对话体验优化数据集等。

这些数据的引入大幅提升了模型的综合能力,使其能够更好地处理多样化任务,并提供更优质的对话体验。

• 视觉生成

研究者发现,Janus早期版本使用的真实数据存在质量不高、噪声较大等问题,这往往导致文本生图过程不稳定,生成的图像美感欠佳。

为此,在 Janus-Pro 中,他们引入了约7200万个人工合成的高质量美学数据样本,使统一预训练阶段的真实数据与合成数据达到1:1的均衡比例。这些合成数据的提示词来源于公开资源。

实验结果表明,使用合成数据不仅加快了模型的收敛速度,还显著提升了文本生图的稳定性和图像的美学质量。

模型Scaling

Janus的前代版本通过1.5B参数规模的大语言模型,验证了视觉编码解耦方法的有效性。在Janus-Pro中,研究者将模型规模扩展至7B参数量。

研究发现,在采用更大规模大语言模型后,无论是多模态理解还是视觉生成任务的损失值收敛速度都较小规模模型有了显著提升。

这一结果进一步证实了该技术方案具有优秀的可扩展性。

Janus和Janus-Pro的超参数设置

对比SOTA

• 多模态理解性能

在表3中,研究者将本文提出的方法与当前最先进的统一模型和专用理解模型进行了对比。结果显示,Janus-Pro实现了整体最优性能。

这主要得益于在多模态理解和生成任务中实现了视觉编码的解耦,有效缓解了两项任务间的冲突。即便与参数规模显著更大的模型相比,Janus-Pro仍展现出强劲的竞争力。

例如,Janus-Pro-7B在除GQA外的所有基准测试中,都超越了TokenFlow-XL(13B)的表现。

• 视觉生成性能

研究者在GenEval和DPG-Bench两个基准上,评估了视觉生成性能。

如表4所示,Janus-Pro-7B在GenEval测试中达到了80.0%的整体准确率,优于所有现有的统一模型和专用生成模型,包括Transfusion(63.0%)、SD3-Medium(74.0%)和DALL-E 3(67.0%)。

这一结果充分证明了,这一方法具有更强的指令执行能力。

此外,如表5所示,Janus-Pro在DPG-Bench测试中获得了84.19分的优异成绩,领先于所有其他方法。

这表明Janus-Pro在执行复杂的文本生图指令方面具有卓越的表现。

定性分析

在图4中,研究者展示了多模态理解的测试结果。实验表明,Janus-Pro在处理不同场景下的输入时展现出卓越的理解能力,充分体现了其强大的性能优势。

在图4的下半部分,研究者展示了一系列文本生图的结果。

尽管输出分辨率仅为384×384,但Janus-Pro-7B生成的图像仍然展现出高度的真实感和丰富的细节表现。

特别是在处理具有想象力和创造性的场景时,Janus-Pro-7B能够准确理解提示词中的语义信息,并生成逻辑合理、内容连贯的图像。

然而,Janus-Pro当前仍然存在一些局限性。

在多模态理解方面,由于输入分辨率被限制在384×384,影响了模型在OCR等需要精细识别的任务上的表现。

在文本生图方面,较低的分辨率以及视觉Token编码器引入的重建损失,导致生成的图像虽然语义内容丰富,但在细节表现上仍有不足。

典型例子是当人脸区域在图像中占比较小时,往往会出现细节欠缺的情况。这些问题有望通过提升图像分辨率得到改善。

参考资料:

https://github.com/deepseek-ai/Janus

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗外长要求美国停止动武威胁

伊朗外长要求美国停止动武威胁

环球网资讯
2026-02-18 12:40:16
宝马CEO最新涉华表态:对中国庞大市场与创新潜力视而不见的人,正错失巨大机遇

宝马CEO最新涉华表态:对中国庞大市场与创新潜力视而不见的人,正错失巨大机遇

环球网资讯
2026-02-20 15:48:08
宜城烟花店燃烧之前,有网友拍到有人在门口放爆竹

宜城烟花店燃烧之前,有网友拍到有人在门口放爆竹

映射生活的身影
2026-02-20 10:59:08
阿勒代斯:图赫尔拿下贝林厄姆是在立规矩;10号位我选罗杰斯

阿勒代斯:图赫尔拿下贝林厄姆是在立规矩;10号位我选罗杰斯

懂球帝
2026-02-20 11:45:36
绝非迷信!正月初五,3事别犯了忌讳:1不拜、2不吵、3不吃

绝非迷信!正月初五,3事别犯了忌讳:1不拜、2不吵、3不吃

牛锅巴小钒
2026-02-20 18:34:32
举报《太平年》的人,到底在怕什么

举报《太平年》的人,到底在怕什么

勇哥读史
2026-02-19 10:10:16
国家为什么要在当下这个节点提出共同富裕?

国家为什么要在当下这个节点提出共同富裕?

流苏晚晴
2026-01-28 18:25:23
下黑手了!党内倒戈要求郑丽文下台

下黑手了!党内倒戈要求郑丽文下台

雪中风车
2026-02-20 15:02:04
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
不可轻敌!武统台湾的难度远大于俄乌战争

不可轻敌!武统台湾的难度远大于俄乌战争

扶苏聊历史
2025-12-21 06:35:03
台湾即将有望统一!5大信号正在释放:武力统一或将进入倒计时?

台湾即将有望统一!5大信号正在释放:武力统一或将进入倒计时?

触摸史迹
2026-02-20 19:51:48
春节来新加坡旅游,被自己穷笑了:酒店一晚1.6万、入境被罚6000

春节来新加坡旅游,被自己穷笑了:酒店一晚1.6万、入境被罚6000

新加坡万事通
2026-02-17 18:29:48
在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

解读热点事件
2026-02-04 00:05:07
52岁吴越独自在家包馄饨,素颜穿红色毛衣,为人低调朴素,很顾家

52岁吴越独自在家包馄饨,素颜穿红色毛衣,为人低调朴素,很顾家

东方不败然多多
2026-02-12 00:33:21
康熙临终前问谁可继位,周培公只用8个字,让康熙决心传位四阿哥

康熙临终前问谁可继位,周培公只用8个字,让康熙决心传位四阿哥

千秋文化
2026-02-08 19:35:47
幸亏还没结婚!一女生哭诉第一次去男友家过年,被他“冷落抛弃”

幸亏还没结婚!一女生哭诉第一次去男友家过年,被他“冷落抛弃”

火山詩话
2026-02-20 08:39:05
1967年广州海关截获两只老鼠,检测数据让专家后背发凉:这哪是耗子,分明是冲着原子弹来的

1967年广州海关截获两只老鼠,检测数据让专家后背发凉:这哪是耗子,分明是冲着原子弹来的

老杉说历史
2026-01-06 21:05:15
3天4金强逆袭!冬奥会金牌榜大洗牌,中国队目标:冲6金绝杀日本

3天4金强逆袭!冬奥会金牌榜大洗牌,中国队目标:冲6金绝杀日本

大秦壁虎白话体育
2026-02-21 00:18:15
智谱7天暴涨250%,徐新爆赚30倍,股民高呼离谱!韩国散户竟是爆炒推手?

智谱7天暴涨250%,徐新爆赚30倍,股民高呼离谱!韩国散户竟是爆炒推手?

金石随笔
2026-02-20 22:58:08
Z世代购物车|“90分钟卖了16万元”,年轻人为何爱上盘中药手串?

Z世代购物车|“90分钟卖了16万元”,年轻人为何爱上盘中药手串?

中新经纬
2026-02-20 12:26:33
2026-02-21 01:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14560文章数 66632关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

体育要闻

金牌夫妻!王心迪徐梦桃赛后拥抱太甜了

娱乐要闻

《将门独后》开拍,王鹤棣孟子义主演

财经要闻

特朗普全球关税被推翻!有何影响?

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

游戏
教育
家居
数码
军事航空

宝可梦红/绿售价20美元!任天堂表示我们觉得很有趣

教育要闻

出炉,2026考研初试成绩查询!

家居要闻

本真栖居 爱暖伴流年

数码要闻

AMD "Zen 6" MSDT主流桌面处理器被曝最快2027年推出

军事要闻

消息人士透露:美军赴黄海活动 解放军有效应对处置

无障碍浏览 进入关怀版