网易首页 > 网易号 > 正文 申请入驻

Deepseek又出连招:刚发布了超越DALL-E3的多模态模型

0
分享至

作者 | Li Yuan

编辑 | 靖宇

AI 时代就这么悄悄降临了。

大概谁也没想到,今年春节,打的最热的不再是传统互联网的红包大战,谁和春晚合作了,而是 AI 公司。

临近春节,各家大模型公司都完全没放松,更新了一波模型和产品,而最受关注的,却是去年崭露头角的「大模型公司」DeepSeek(深度求索)。

1 月 20 日晚,DeepSeek 公司发布推理模型 DeepSeek-R1 正式版,使用低廉的训练成本直接训练出了不输 OpenAI 推理模型 o1 的性能,而且完全免费开源,直接引发了行业地震。

这是第一次国产 AI 大范围在全球,特别是美国引起了科技圈的震动。开发者纷纷表示,正在考虑用 DeepSeek「重构一切」,在这一浪潮下,经过一周的发酵,甚至一月才刚刚发布的 DeepSeek 移动端应用,迅速登顶美区苹果应用商店免费 App 排行第一,不但超越了 ChatGPT,也直接超越了美区的其他热门应用。

DeepSeek 的成功甚至直接影响了美股,没有使用巨量昂贵 GPU 就训练出的模型,让人们重新思考了 AI 的训练路径,直接让 AI 第一股英伟达最大跌幅达到 17%。

而这还没结束。

1 月 28 日凌晨,除夕夜前一晚,DeepSeek 又开源了其多模态模型 Janus-Pro-7B,宣布在在 GenEval 和 DPG-Bench 基准测试中击败了 DALL-E 3(来自 OpenAI)和 Stable Diffusion。

DeepSeek 真的要血洗 AI 圈了吗?从推理模型到多模态模型,拿 DeepSeek 重构一切,是蛇年开年的第一主题吗?

01

Janus Pro,多模态模型创新架构的验证

Janus Pro,多模态模型创新架构的验证

DeepSeek 此次深夜一共发布了两个模型,Janus-Pro-7B 和 Janus-Pro-1B(1.5B 参数量)。

从命名上就能看出,模型本身来自之前 Janus 模型的升级。

2024 年 10 月,DeepSeek 才第一次发布 Janus 模型。和 DeepSeek 的一贯套路一样,模型采取了一个创新的架构。在不少视觉生成模型中,模型都是采用了统一的 Transformer 架构,能够同时处理文生图和图生文任务。

而 DeepSeek 则是提出了一种新的思路,对理解(图生文)和生成任务(文生图)的视觉编码进行解耦,提升了模型训练的灵活性,有效缓解了使用单一视觉编码导致的冲突和性能瓶颈。

这也是 DeepSeek 为什么将模型命名为 Janus (杰纳斯)。Janus 是古罗马门神,被描绘为有分别朝向相反方的两个面孔。DeepSeek 表示命名为 Janus,指的是模型可以像 Janus 一样,用不同的眼睛看向视觉数据,分别编码特征,然后用同一个身体 (Transformer) 去处理这些输入信号。

在 Janus 系列模型中,这种新思路已经产生了不错的效果,团队表示,Janus 模型的指令跟随能力很强,有多语言能力,且的模型更聪明,能读懂 meme 图像。同时还能处理 latex 公式转换、图转代码等任务。

而在 Janus Pro 系列模型中,团队对模型的训练流程进行了部分修改,直接做到了在 GenEval 和 DPG-Bench 基准测试中击败了 DALL-E 3 和 Stable Diffusion。

随着模型本身,DeepSeek 也发布了 Janus Flow 新型多模态 AI 框架,旨在统一图像理解与生成任务。

Janus Pro 模型能做到使用简短提示提供更稳定的输出,具有更好的视觉质量、更丰富的细节以及生成简单文本的能力。

模型既可以生成图像,也可以对图片进行描述,识别地标景点(例如杭州的西湖),识别图像中的文字,并能对图片中的知识(如「猫和老鼠」蛋糕)进行介绍。

X 上不少人已经开始试用新模型。

上图左为图像识别的测试,右图则为图像生成的测试。

可以看到,在高精度读图上,Janus Pro 也做的很好。能够识别数学表达式和文字的混合排版。未来搭配推理模型使用,可能有更大意义。

02

1B 和 7B 的参数量,或能解锁新应用场景

在多模态理解任务中,新模型 Janus-Pro 采用 SigLIP-L 作为视觉编码器,支持 384 x 384 像素的图像输入。而在图像生成任务中,Janus-Pro 使用一个来自特定来源的分词器,降采样率为 16。

相对而言,这样的图像规模尺寸仍然较小。X 上有用户分析认为,Janus Pro 模型更多是方向上的验证,如果验证靠谱,就会推出可以投入生产的模型了。

不过值得注意的是,此次 Janus 发布的新模型,不但在架构上对多模态模型有创新意义可以参考,在参数量上,也是一个新的探索。

此次 DeepSeek Janus Pro 对比的模型,DALL-E 3,之前公布的参数量为 120 亿,而 Janus Pro 的大尺寸模型只有 70 亿参数。在这样紧凑的尺寸下,Janus Pro 能够做到这样的效果已经十分不错。

尤其是 Janus Pro 的 1B 模型,只使用了 15 亿参数。外网上已经有用户将对模型的支持添加到了 transformers.js。这意味着模型现在可以在 WebGPU 上的浏览器中 100%运行!

虽然截止发稿,笔者还没能成功地在网页版上使用到 Janus Pro 的新模型,但是参数量小到能够在网页端直接运行,仍然是一项令人惊叹的进步。

这意味着图片生成/图片理解的成本,正在进一步下降。而我们有机会在更多原本无法使用生图和图片理解功能的地方,看到 AI 的使用,改变我们的生活。

2024 年的一大热点,在于加入了多模态理解的 AI 硬件,能够如何介入我们的生活。而参数量越来越低的多模态理解模型,或者可以让我们期待能够在端侧运行的模型,能够让 AI 硬件进一步爆发。

03

DeepSeek 搅动新年,万事万物可以用中国 AI 重做一遍?

AI 世界一日千里。

去年春节前后,搅动世界的是 OpenAI 的 Sora 模型,而一年下来,中国公司已经完全在视频生成方面迎头赶上,让年尾 Sora 的发布显得有些暗淡了。

而今年搅动世界的,变成了中国的 DeepSeek。

DeepSeek 并不算传统的科技公司,然而用远低于美国大模型公司 GPU 卡和成本,做出了极其创新的模型,直接让美国同行感到震动——美国人纷纷感叹:R1 模型的训练,仅仅花费 560 万美元,甚至只相当于 Meta GenAI 团队任一高管的薪资,这是什么神秘的东方力量?

DeepSeek 创始人梁文峰直接在 X 上发布了一张有趣的图片:

图片使用了爆火的 2024 年全球爆火的土耳其射击选手的梗。

在法国巴黎奥运会射击项目10 米气手枪决赛中,51 岁的土耳其射击男选手迪凯奇,仅佩戴了一副普通的近视眼镜和一对睡眠耳塞,便以单手插兜的潇洒姿态,稳稳地将银牌收入囊中。而在场的全部其他射击选手都需要两块聚焦和遮光的专业镜片和一副防噪声耳塞,才能开始比赛。

自从 DeepSeek「破解」了 OpenAI 的推理模型,美国各大科技公司开始背上了巨大的压力。今天,Sam Altman 也终于扛不住压力出来回应了一段官方发言。

2025 年,会是中国 AI 冲击美国认知的一年吗?

DeepSeek,手里还藏着什么秘密——这注定是个不平凡的春节。

极客一问

今天你DeepSeek了吗?

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿根廷好命! 在4强前可能不会遇传统豪门梅西会在约旦比赛上场

阿根廷好命! 在4强前可能不会遇传统豪门梅西会在约旦比赛上场

80后体育大蜀黍
2026-06-26 14:07:19
考不上这三类大学,真心不建议普通家庭孩子出省读大学

考不上这三类大学,真心不建议普通家庭孩子出省读大学

王姐懒人家常菜
2026-06-26 14:00:19
当年900万贱卖,如今6000万买回?曼联或签回昔日青训英格兰国脚

当年900万贱卖,如今6000万买回?曼联或签回昔日青训英格兰国脚

体坛鉴春秋
2026-06-26 12:09:37
《四渡》北京首映一票难求,6月26日上映点燃暑期红色银幕

《四渡》北京首映一票难求,6月26日上映点燃暑期红色银幕

南方都市报
2026-06-26 08:50:12
今天暴跌的原因找到了!

今天暴跌的原因找到了!

贩财局
2026-06-26 15:52:19
什么东西让你体会到贵有贵的道理?网友:买完之后真香了!

什么东西让你体会到贵有贵的道理?网友:买完之后真香了!

阿康四岁啦
2026-06-26 10:40:55
32强大名单:24席出炉,死亡半区浮出水面!

32强大名单:24席出炉,死亡半区浮出水面!

海右那人
2026-06-26 22:09:36
三只羊开卖线下课:大杨哥现身分享短视频经验 三天两晚收费1980元

三只羊开卖线下课:大杨哥现身分享短视频经验 三天两晚收费1980元

快科技
2026-06-26 17:41:08
俄乌战争照此下去,普京可能被“斩首”,那将是俄罗斯解体的结局

俄乌战争照此下去,普京可能被“斩首”,那将是俄罗斯解体的结局

往后相濡以沫
2026-06-25 20:02:41
巴西足协致信国际足联!提及梅西战奥地利进球,抗议VAR双标

巴西足协致信国际足联!提及梅西战奥地利进球,抗议VAR双标

全景体育V
2026-06-26 16:53:56
冯小刚近些年血亏的影片:最新的《抓特务》砸了三个亿,离回本的七亿门槛差得老远。

冯小刚近些年血亏的影片:最新的《抓特务》砸了三个亿,离回本的七亿门槛差得老远。

TVB的四小花
2026-06-25 05:38:41
两家A股公司宣布涨价

两家A股公司宣布涨价

证券时报
2026-06-26 18:26:17
特工假扮“35岁寂寞主妇”,诱男军官自拍泄密

特工假扮“35岁寂寞主妇”,诱男军官自拍泄密

扬子晚报
2026-06-26 11:00:22
可怕的不是日本连续3届晋级,而是他们根本没想过要避开巴西!

可怕的不是日本连续3届晋级,而是他们根本没想过要避开巴西!

十点街球体育
2026-06-26 13:46:05
金价一夜大变天!6月26日,中国黄金最新价格、人民币黄金最新价格

金价一夜大变天!6月26日,中国黄金最新价格、人民币黄金最新价格

户外钓鱼哥阿旱
2026-06-26 13:56:15
金价跌回3字头,半年回撤超30%,东方豪侠再度预言黄金白银见底时间

金价跌回3字头,半年回撤超30%,东方豪侠再度预言黄金白银见底时间

东方豪侠
2026-06-26 11:37:33
阿森纳后悔吗!8000 万弃将世界杯封神!含金量完爆德罗巴

阿森纳后悔吗!8000 万弃将世界杯封神!含金量完爆德罗巴

澜归序
2026-06-26 07:50:44
两名美国人在韩国街头遭毒打,视频疯传:上前劝阻女子被威胁,打人者当警察面掏出5万韩元;当地警方澄清:行凶者非韩国人,同为美国籍

两名美国人在韩国街头遭毒打,视频疯传:上前劝阻女子被威胁,打人者当警察面掏出5万韩元;当地警方澄清:行凶者非韩国人,同为美国籍

大风新闻
2026-06-26 19:42:50
彻底翻车!郑丽文公开推翻访陆表态

彻底翻车!郑丽文公开推翻访陆表态

果妈聊娱乐
2026-06-26 07:27:51
米利唐:安帅及时调整了世界杯开局阶段战术,他很擅长4-3-3

米利唐:安帅及时调整了世界杯开局阶段战术,他很擅长4-3-3

懂球帝
2026-06-26 21:57:10
2026-06-27 00:43:00
极客公园
极客公园
让最棒的创新成为头条
12198文章数 78910关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

女生被男友劫持到天台坠亡 初次约会就被灌醉发生关系

头条要闻

女生被男友劫持到天台坠亡 初次约会就被灌醉发生关系

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

"索具龙头"领大额罚单

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

亲子
本地
游戏
房产
公开课

亲子要闻

近三年幼儿园人数对比:4627万、4093万,24年多少?

本地新闻

世界杯球迷节:比球赛更好玩的派对

黄牛掏空退休金买了500份《GTA6》!自信一定会血赚

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版