网易首页 > 网易号 > 正文 申请入驻

填补中文大模型又一空白:腾讯混元开放代码和算法,可免费商用

0
分享至

随着AIGC的逐渐普及,你有没有发现越来越多的人开始用大模型自制微信头像?不过,许多文生图大模型仍然存在诸多不足,例如质感不强、图像畸变等。而今,秉持着实用研发思路的腾讯混元文生图大模型,可以很好地解决上述问题。

例如,当笔者在腾讯混元助手中输入如下提示词以后,即“帮我画一个头像:动漫风格,黑色蓬松短卷发,年轻女性,四分之二侧脸,手拿单反相机,望着后面的雪山背景”,几秒钟内就能得到一张符合要求的头像(如下图的左图所示)。



图丨对比图:左图由腾讯混元助手生成、由图由其他大模型生成(来源:真实评测图)

如果将相同的提示词输入进某大模型中,虽然也能获得一张头像(如上图的右图所示),但却可以很明显地发现后者图像质量不高、眼球眼白不均、人物手部也存在手指长度不够、不符合真实形状等畸变问题。

相比之下,前者不仅拥有饱满的画面和高清的质量,人物手部也真实形象、线条流畅。值得注意的是,拥有如此文生图效果的腾讯混元文生图大模型,已经在2024年5月14日实现全面升级并对外开源,供广大企业和开发者免费商用。



(来源:资料图)

采用DiT架构,视觉生成效果提升20%以上

本次腾讯混元文生图大模型的升级主要体现在架构、算法、数据质量和工程等方面。

从架构层面看,该模型采用DiT(全称为Diffusion With Transformer)架构。这是一款基于Transfomer架构的扩散模型,也被OpenAI发布的Sora和Stability AI推出的Stable Diffusion 3这两种大语言模型所采用。



(来源:资料图)

扩散模型,是文生图的核心模型。它的工作原理是,先收集大量原始图像并对其标签化,然后在上面一层层地添加随机噪点,直到该图像无限接近纯粹噪点,以此获得训练的原始数据集;在训练阶段,让模型通过输入指令一层层迭代并去除噪点,直到还原出原始图片,就是符合描述图片的过程。

过去几年,主流的文生图模型以基于U-Net架构的扩散模型为主。随着文生图模型加入的参数越来越多、图像或指令越来越复杂,U-Net架构也开始陷入性能瓶颈,并面临着扩展性问题。基于此,为让文生图模型更加智能,生成令用户满意的高质量图像,更多研究者开始聚焦文生图领域的Transformer建模方案。

腾讯混元团队认为,基于 Transformer 架构的扩散模型具备更高的可扩展性。因此,其自2023年7月起开始长达半年的研发工作,到2024年2月初其将模型基础架构升级为Transformer,并在多个评测维度上全面超越基于U-Net的文生图模型。

实际上,Transformer无法通过语言生成图片,并且DiT对于算力和数据量的要求非常高,但文生图领域缺乏高质量的图片描述与图像样本训练数据。所以,为解决这些问题,腾讯混元团队对算法和数据质量分别进行改进和优化。

从算法层面来看:

首先,目前混元模型的长文本理解能力,最高可支持256个字符的图片生成指令,远超过业界主流的77个字符。

其次,自主训练中文原生文本编码器,增加模型的中文原生理解能力,能够在古诗词、中华美食等中国传统元素的生成上取得出色表现。

再次,增加多轮对话能力,让模型不仅能够连贯地理解上下文,还能保证同一话题下图片主体的一致性。

比如,可以在某个话题下先后输入不同的提示词,包括“生成一朵长在森林中的白色玫瑰”“背景换成室内,花插在瓶中”“花改为百合花”“花瓣改成粉色”“让蝴蝶落在花瓣上”“改成动漫风格”等,让腾讯混元文生图大模型生成符合不同要求的图片(如下图所示)。



(来源:资料图)

从数据质量层面来看,对语言模型的数据质量和图片训练数据的处理流程均进行了优化,提升了文生图图文训练数据的质量,并使模型具备较强的泛化性。

另外,从工程优化层面来看,为该模型构建专属工程加速工具库,有效地提高模型训练与运行效率,以及算力资源的利用率。

那么,上述不同层面的升级,给该模型带来了怎样的效果提升?

数据显示,在通用场景下,模型的整体视觉生成效果提升超过20%,这既体现在画面真实感、质感与细节、空间构图等方面,又体现在细粒度、多轮对话、真实人像生成等场景下。

而基于腾讯混元文生图大模型目前具备的能力,腾讯混元团队也制定了两方面未来规划。腾讯文生图负责人芦清林表示:“一是不断提升模型的技术能力,二是让模型应用更加广泛。”



图丨芦清林(来源:资料图)

从技术上说,腾讯混元团队将通过构建参数量更大的模型、筛选更高质量的中文语料等手段,提升模型的生成速度和质量。

从应用上说,腾讯混元团队将推动模型应用于更广泛的业务场景,包括腾讯内部的广告、社交等场景和外部客户的场景。

面向社会全面开源,联合共建基于DiT架构的视觉生成生态

如上所说,目前腾讯混元文生图大模型已面向社会全面开放,包含模型权重、推理代码、模型算法等在内的完整模型,已发布至Hugging Face平台及GitHub上。

令人好奇的是,腾讯为何要选择在这个时间节点开源文生图大模型?

其实,如果关注文生图大模型领域就会知道,基于文生图的开源开发者生态已经形成,开源社区呈现出强大的生命力,数量庞大的开发者正在基于Stable Diffusion精调垂直场景丰富的大模型。

但是,在目前DiT架构已经显示出巨大潜力的情况下,上述开源社区依然主要基于U-Net架构的模型做开发,并未有先进的DiT架构充分开源,更没有中文原生的DiT文生图架构。

另一方面,经过较长时间的优化,腾讯混元团队已经探索出基于DiT架构的首个中文原生文生图模型,并将该模型的水平提升至国内第一、国际领先。

在这样的条件下,如果开源这一最新的研发成果,将有利于全球范围的企业和个人开发者使用,既节省了人力物力,又降低了AI的使用门槛。

同时,只有更多开发者共建基于DiT架构的视觉生成生态,才能更好地验证、挖掘该技术架构的潜力,这也是腾讯在该领域贡献力量的重要体现。

另外,在腾讯看来,该模型是同类开源模型中“最强”的一个。

对此,芦清林表示:“首先,目前DiT架构中没有一个模型是中文原生开源的;其次,我们利用超20个维度对腾讯混元文生图大模型进行综合评估,发现它不仅没有明确的短板,在语义理解、数量表达、颜色表达等多个方面还存在显著优势,综合评分比较高。”

而开源后的腾讯混元文生图大模型,也会给业界和用户带来如下帮助。

一方面,社交、游戏、娱乐、广告等多个行业都可以在自家业务中应用该模型提供的能力。比如,2024年初,腾讯广告就基于该模型发布了一站式AI广告创意平台妙思,可为广告主提供文生图、商品背景合成等多场景创意工具,有效提升广告生产和投放效率。

另一方面,国内用户在使用这一业界首个中文原生DiT架构文生图模型时,能减少在使用外国模型时需要付出的适配成本。

据了解,在开源方面,腾讯一直秉持开放态度,尤其是AI领域。如芦清林所言,“在曾经的小模型时代,是否开源差别并不大,因为研究人员看了相关论文后,可以在所用数据和资源较少的条件下复现出来;但现在有一个问题是,如果业界不开放一些大体量的基础模型,独立的研究人员甚至一个大型实验室很难做出一个好的基础模型。我们希望能够通过开源,推动整个生态共建”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄一鸣又来了!实锤孩子就是王思聪的,网友:我要看证据聊天记录

黄一鸣又来了!实锤孩子就是王思聪的,网友:我要看证据聊天记录

娱记掌门
2024-06-12 01:38:19
江青唯一外孙,薄一波女婿,他现状如何?

江青唯一外孙,薄一波女婿,他现状如何?

零点历史说
2024-05-30 11:25:40
不会出口欧美!拜登做梦也没想到,中国出手会这么狠

不会出口欧美!拜登做梦也没想到,中国出手会这么狠

科技龙
2024-06-11 17:13:36
长沙楼市旗开得胜,长沙楼市岳麓区从11000元涨至了13000元

长沙楼市旗开得胜,长沙楼市岳麓区从11000元涨至了13000元

有事问彭叔
2024-06-11 17:32:19
黄岩岛附近中方战舰全撤走,美韩近百架战机闯入,055的机会来了

黄岩岛附近中方战舰全撤走,美韩近百架战机闯入,055的机会来了

小lu侃侃而谈
2024-06-09 22:47:52
警号000001落马了,大快人心!

警号000001落马了,大快人心!

华人星光
2024-05-22 15:03:01
曼联官宣!超新星离队,拒绝续约,发文感谢滕哈赫:谢谢给机会

曼联官宣!超新星离队,拒绝续约,发文感谢滕哈赫:谢谢给机会

卡灵顿分析师
2024-06-12 07:48:06
万万没想到,上海市五月份成交量最大的是这类房子!

万万没想到,上海市五月份成交量最大的是这类房子!

靓仔情感
2024-06-11 21:22:27
3消息:“全面战争”或将爆发;莫迪对华态度突变;中方彻底怒了

3消息:“全面战争”或将爆发;莫迪对华态度突变;中方彻底怒了

诉说人世间
2024-06-12 00:05:34
刘亦菲:和妈妈逛街,侧颜都这么精致!妈妈穿着贵气,气质出众!

刘亦菲:和妈妈逛街,侧颜都这么精致!妈妈穿着贵气,气质出众!

综艺拼盘汇
2024-06-11 21:14:23
自从养了暹罗猫,家里的猫屎都被暹罗一个猫承包了,果然猫界菲佣

自从养了暹罗猫,家里的猫屎都被暹罗一个猫承包了,果然猫界菲佣

猫猫狗狗总会有的
2024-06-08 22:25:08
太强了!赛力斯超级增程5.0热效率高达45%,1升油可发3.65度电!

太强了!赛力斯超级增程5.0热效率高达45%,1升油可发3.65度电!

芯怡飞
2024-06-12 00:05:30
新加坡球迷:至少我们有进步 中国球迷3月还臭骂我们呢

新加坡球迷:至少我们有进步 中国球迷3月还臭骂我们呢

直播吧
2024-06-11 23:50:41
太秀了,北大物理保送生考了唯一一门语文,我要笑死在评论区!

太秀了,北大物理保送生考了唯一一门语文,我要笑死在评论区!

钱多多多多
2024-06-08 10:40:10
李想回复裁员质疑:不需养几千人研究corner case,评论区炸锅

李想回复裁员质疑:不需养几千人研究corner case,评论区炸锅

月影说职场
2024-06-11 10:35:06
今后退休老人大规模去世,不发养老金,社保基金压力会小吗?

今后退休老人大规模去世,不发养老金,社保基金压力会小吗?

社保小达人
2024-06-11 10:28:24
“坐滩”舰终迎大结局?封锁见效,菲驻军或撤离,中方:允许离开

“坐滩”舰终迎大结局?封锁见效,菲驻军或撤离,中方:允许离开

影孖看世界
2024-06-11 01:28:05
高中女生控诉十岁寄宿时被性侵并遭死亡威胁,涉事老师被公诉

高中女生控诉十岁寄宿时被性侵并遭死亡威胁,涉事老师被公诉

澎湃新闻
2024-06-11 06:58:32
二传惹争议!朱婷首发没人传球,仅得6分,球迷炸锅!

二传惹争议!朱婷首发没人传球,仅得6分,球迷炸锅!

林子说事
2024-06-12 09:11:00
死都别搞工厂,真的能劝住一个是一个。

死都别搞工厂,真的能劝住一个是一个。

玉辞心
2024-06-03 18:59:56
2024-06-12 10:44:49
DeepTech深科技
DeepTech深科技
麻省理工科技评论独家合作
13912文章数 511804关注度
往期回顾 全部

科技要闻

苹果进军AI后股价新高 市场期待iPhone大卖

头条要闻

40岁新加坡门将火了 中国球迷为他越洋扫二维码打钱

头条要闻

40岁新加坡门将火了 中国球迷为他越洋扫二维码打钱

体育要闻

直接打钱!网友找到新加坡门将开的店铺

娱乐要闻

黄一鸣再次录视频表态孩子是王思聪的

财经要闻

捷瑞数字IPO:关联方"投喂"客户引关注

汽车要闻

将于6月13日上市 深蓝G318重新定义露营生活美学

态度原创

数码
艺术
游戏
家居
公开课

数码要闻

晚于三星、美光,SK 海力士将于 2025 年一季度量产 GDDR7 显存

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

《影之刃零》制作人:本作非类魂 非PS独占会登陆PC

家居要闻

原木绿居 阳光编织的自然生活诗篇

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版