网易首页 > 网易号 > 正文 申请入驻

混元文生图大模型开源,腾讯想缩小与闭源模型的差距

0
分享至

界面新闻记者 | 崔鹏
界面新闻编辑 | 宋佳楠

“在文生图领域,开源(模型)和闭源的差距是逐渐拉大的,希望我们的开源能把这个差距缩小。”

5月14日下午,腾讯宣布最新混元文生图大模型对外开源,该产品负责人芦清林在一场小型沟通会上对界面新闻等媒体如是说。

据腾讯方面介绍,上述大模型是业内首个中文原生的DiT(Diffusion With Transformer)架构文生图开源模型,支持中英文双语输入及理解,参数量为15亿(1.5B)。DiT的核心思想是将Transformer架构应用于扩散模型中,以此来提高生成图像的质量和效率。

该模型采用的DiT架构与Open AI的革命性产品Sora保持一致,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。目前其已在专注于自然语言处理(NLP)的开源机器学习平台Hugging Face及面向软件开发者的代码托管平台Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

若以腾讯方面提供的评测数据来看,其效果超过开源的Stable Diffusion模型,整体能力走在前列。

“我们还会尝试参数量更大的模型,它消耗的计算资源和时长会更长。”芦清林称,“虽然还没ready(准备好),但已经在做。”

为何选择DiT架构?

本次混元文生图大模型升级的重点在于采用全新的DiT架构,在这方面混元与Sora和Stable Diffusion 3保持了一致性,都是基于Transformer架构的扩散模型,它的优点是对大参数量更加友好。


摄影:崔鹏

过去,视觉生成扩散模型主要基于U-Net架构,会先将图片压缩,然后再重新放大,但这个过程通常会伴随信息损失。随着参数量提升,这个架构的训练稳定性也在逐渐变差,使用它的模型正在变少。

芦清林表示,基于Transformer架构的扩散模型网络结构,避免了信息的压缩处理,能显著提高模型的生成质量及效率。

新架构的语意表达能力更强,可容纳的信息量更多,也能适应更大规模的参数量,“未来升级到5B甚至10B时,我们都有把握将大模型训练得更加合理。”芦清林强调。

据界面新闻了解,早在2023年7月前后,腾讯团队就明确了基于DiT架构的模型方向,启动新一代模型研发,但当时国内少有产品尝试此方向。

今年初,混元文生图大模型升级为DiT架构,在这个过程中,腾讯也对原有模型进行了部分改进。比如,在算法层面优化了模型的长文本理解能力,能够支持最多256字符的内容输入。

此前Stable Diffusion等主流开源模型核心数据集以英文为主,混元文生图则强调是中文原生的DiT模型,具备中英文双语理解及生成能力。

芦清林告诉界面新闻,过去很多大模型都是把国外的数据做一层翻译,再变成中文进行训练,在这个过程中会造成很多信息损失和理解歧义。而混元文生图大模型支持的是原生中文理解能力,砍掉翻译过程,用户可直接使用中文数据进行训练,大模型理解的也是中文。

腾讯展示的评测结果显示,新的文生图大模型视觉生成整体效果较前代提升超过20%,在语义理解、画面质感与真实性方面提升明显。

同时,混元还实现了多轮生图和对话能力,用户能在一张初始生成图片的基础上,通过自然语言描述进行调整。

在芦清林看来,多轮对话本质上是大语言模型不停在用户和chatbox(AI聊天机器人)之间做交互,用户不需要一上来就提供完整的提示词,可以一边写一边改一边生成(图片),觉得不满意再改再生成,极大降低了使用门槛。

开源能让大模型走得更快

据界面新闻了解,混元文生图大模型去年主要在与腾讯广告进行合作,搭建广告场景下的AI驱动工具,今年则计划加大与QQ、企业微信和游戏等业务的合作,在更多的业务场景中大规模落地应用。

芦清林强调,目前混元文生图大模型的开源版本,也是腾讯内部正在使用的版本,不存在自用的领先几代,给业界放出来会落后的问题。

实际上,它已经在腾讯内部被用于素材创作、商品合成和游戏出图等众多场景。比如在今年初,腾讯广告就基于混元大模型,推出一站式AI广告创意平台,可以为广告主提供文生图、图生图与商品背景合成等工具。

过去混元文生图大模型走的路线也是闭源,内部将大模型迭代后,再将接口开放出来使用。现在团队发现,做开源社区能让更多开发者参与进来,共建的方式有助于大模型走得更快。

“去年7月开始转型(DiT架构),我们踩了非常多的坑,直到今年1月份才逐步把问题解决掉。”芦清林认为,此时选择开源是一个合适的时机,基于开源模型,企业无需重头训练,即可直接用于推理,能够节约大量人力和算力。

今年春节期间Open AI放出Sora之后,芦清林说团队“年都没过好”,对方已经证明了DiT架构的强大能力,“我们希望把图片的DiT分享出来,让业界想做视频的同行可以快速跟进追赶。”

在选择开源之前,腾讯也在内部做了横向对比测试,结论是在图文一致性、美学、清晰度等对比维度上,混元与主流闭源模型相比差距不算太大,能排在Dalle 3和SD 3(Stable Diffusion 3)之后。

此外,目前的文生图开源社区主要还是Stable Diffusion等为主的英文开源社区,腾讯选择开源后,能丰富以中文为主的文生图开源生态,形成更多样的原生插件,推动中文文生图技术研发和应用。

混元文生图大模型的开源,也是腾讯推进开源战略的一部分。根据官方给出的统计,腾讯目前已经开源了超过170个项目,且都基于真实的业务场景,覆盖微信、腾讯云和腾讯游戏等核心业务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大陆惩治“台独”见效,赖清德主动示好,时间在中止关税减让次日

大陆惩治“台独”见效,赖清德主动示好,时间在中止关税减让次日

小豆豆赛事
2024-06-05 10:10:33
为了重返月球!美国已签42个国家,NASA局长承认:阿波罗后登月难

为了重返月球!美国已签42个国家,NASA局长承认:阿波罗后登月难

悟空科学
2024-06-04 11:23:06
柳叶刀点名批评中国饮食,一日三餐都是碳水,升糖指数全球最高

柳叶刀点名批评中国饮食,一日三餐都是碳水,升糖指数全球最高

芝士圈
2024-06-02 14:09:50
余承东不用嘲笑了,180万特斯拉车主,能扔掉手机支架了

余承东不用嘲笑了,180万特斯拉车主,能扔掉手机支架了

互联网.乱侃秀
2024-06-04 12:24:53
欧美重启火星采样!英媒:中国嫦娥六号月球挖一勺后,就要去火星

欧美重启火星采样!英媒:中国嫦娥六号月球挖一勺后,就要去火星

三农老历
2024-06-04 22:11:19
比亚迪出口到巴西,谁知出现一个副作用,巴西的偷车贼消失了

比亚迪出口到巴西,谁知出现一个副作用,巴西的偷车贼消失了

阿珂谈汽车
2024-06-03 16:54:36
维尔茨:克罗斯的向前传球非常出色,大家都很开心他决定回归

维尔茨:克罗斯的向前传球非常出色,大家都很开心他决定回归

直播吧
2024-06-05 02:24:06
消息称苹果正与中国移动就“Apple TV+ 入华”进行磋商

消息称苹果正与中国移动就“Apple TV+ 入华”进行磋商

IT之家
2024-06-04 22:20:28
中国曾三次忍辱负重“装孙子”,完美躲过美国制裁!最终迎来崛起

中国曾三次忍辱负重“装孙子”,完美躲过美国制裁!最终迎来崛起

猫眼观史
2024-05-16 18:11:46
詹姆斯和科比交手了22次,科比449投541分,那詹姆斯多少投多少分

詹姆斯和科比交手了22次,科比449投541分,那詹姆斯多少投多少分

林子说事
2024-06-05 02:57:43
原地解散!深圳31年大厂倒下

原地解散!深圳31年大厂倒下

亿恩媒体
2024-06-04 14:02:31
脑洞大开的战机透视图

脑洞大开的战机透视图

晶陆
2024-06-04 17:03:54
发生关系,多久一次最舒服?

发生关系,多久一次最舒服?

匡北北
2023-12-15 23:56:59
将近40岁满脸褶,却尬演18岁少女,是谁给了她“强行装嫩”的勇气

将近40岁满脸褶,却尬演18岁少女,是谁给了她“强行装嫩”的勇气

娱乐圈十三太保
2024-05-28 13:56:53
“这里不是中国!不会有人惯你们!”中国大妈已经沦落成世界公害

“这里不是中国!不会有人惯你们!”中国大妈已经沦落成世界公害

三月柳
2024-06-01 15:24:12
詹姆斯:也许独行侠今年能夺冠因他们有欧文 没什么词能赞扬他了

詹姆斯:也许独行侠今年能夺冠因他们有欧文 没什么词能赞扬他了

直播吧
2024-06-05 02:36:07
引发热议!胖东来老板于东来说:收入两三千,还整天说着造福员工

引发热议!胖东来老板于东来说:收入两三千,还整天说着造福员工

说故事的阿袭
2024-06-04 22:18:36
打压百姓电动车!共享单车取消引爆舆论,社会安全陷入混乱边缘!

打压百姓电动车!共享单车取消引爆舆论,社会安全陷入混乱边缘!

户外小阿隋
2024-06-05 04:06:58
夜查逻辑遭反噬:扣完私人车推共享,三元里成空城,太原一堆破车

夜查逻辑遭反噬:扣完私人车推共享,三元里成空城,太原一堆破车

大风文字
2024-06-04 12:40:28
王楚然,小了一点

王楚然,小了一点

娱乐的小灶
2024-06-05 09:21:24
2024-06-05 11:58:44
界面新闻
界面新闻
只服务于独立思考的人群
592982文章数 1291531关注度
往期回顾 全部

科技要闻

马斯克把特斯拉5亿美元AI芯片提前调拨给X

头条要闻

土耳其外交部长在北京表态:土耳其希望加入金砖国家

头条要闻

土耳其外交部长在北京表态:土耳其希望加入金砖国家

体育要闻

赴美试训的崔永熙,表现究竟怎么样?

娱乐要闻

《青春有你》胡文煊被曝孕期出轨

财经要闻

欧盟推迟对华行动,如何理解?

汽车要闻

又一个水桶车 试驾新“卷王”极狐阿尔法S5

态度原创

时尚
房产
旅游
数码
教育

学穿衣还得看日本女人,夏季基础款也能穿得好看,果然不一般

房产要闻

79.17亿!海开拿下永丰南地块 据说产品90平起

旅游要闻

一女子从家到机场仅10分钟却没赶上飞机 愤而投诉

数码要闻

“女武神”携手“白银”,映泰展出两款英特尔 Z890 主板

教育要闻

高三老师走廊“摆摊”为考生解疑答惑

无障碍浏览 进入关怀版