网易首页 > 网易号 > 正文 申请入驻

填补中文大模型又一空白:腾讯混元开放代码和算法,可免费商用

0
分享至

随着AIGC的逐渐普及,你有没有发现越来越多的人开始用大模型自制微信头像?不过,许多文生图大模型仍然存在诸多不足,例如质感不强、图像畸变等。而今,秉持着实用研发思路的腾讯混元文生图大模型,可以很好地解决上述问题。

例如,当笔者在腾讯混元助手中输入如下提示词以后,即“帮我画一个头像:动漫风格,黑色蓬松短卷发,年轻女性,四分之二侧脸,手拿单反相机,望着后面的雪山背景”,几秒钟内就能得到一张符合要求的头像(如下图的左图所示)。



图丨对比图:左图由腾讯混元助手生成、由图由其他大模型生成(来源:真实评测图)

如果将相同的提示词输入进某大模型中,虽然也能获得一张头像(如上图的右图所示),但却可以很明显地发现后者图像质量不高、眼球眼白不均、人物手部也存在手指长度不够、不符合真实形状等畸变问题。

相比之下,前者不仅拥有饱满的画面和高清的质量,人物手部也真实形象、线条流畅。值得注意的是,拥有如此文生图效果的腾讯混元文生图大模型,已经在2024年5月14日实现全面升级并对外开源,供广大企业和开发者免费商用。



(来源:资料图)

采用DiT架构,视觉生成效果提升20%以上

本次腾讯混元文生图大模型的升级主要体现在架构、算法、数据质量和工程等方面。

从架构层面看,该模型采用DiT(全称为Diffusion With Transformer)架构。这是一款基于Transfomer架构的扩散模型,也被OpenAI发布的Sora和Stability AI推出的Stable Diffusion 3这两种大语言模型所采用。



(来源:资料图)

扩散模型,是文生图的核心模型。它的工作原理是,先收集大量原始图像并对其标签化,然后在上面一层层地添加随机噪点,直到该图像无限接近纯粹噪点,以此获得训练的原始数据集;在训练阶段,让模型通过输入指令一层层迭代并去除噪点,直到还原出原始图片,就是符合描述图片的过程。

过去几年,主流的文生图模型以基于U-Net架构的扩散模型为主。随着文生图模型加入的参数越来越多、图像或指令越来越复杂,U-Net架构也开始陷入性能瓶颈,并面临着扩展性问题。基于此,为让文生图模型更加智能,生成令用户满意的高质量图像,更多研究者开始聚焦文生图领域的Transformer建模方案。

腾讯混元团队认为,基于 Transformer 架构的扩散模型具备更高的可扩展性。因此,其自2023年7月起开始长达半年的研发工作,到2024年2月初其将模型基础架构升级为Transformer,并在多个评测维度上全面超越基于U-Net的文生图模型。

实际上,Transformer无法通过语言生成图片,并且DiT对于算力和数据量的要求非常高,但文生图领域缺乏高质量的图片描述与图像样本训练数据。所以,为解决这些问题,腾讯混元团队对算法和数据质量分别进行改进和优化。

从算法层面来看:

首先,目前混元模型的长文本理解能力,最高可支持256个字符的图片生成指令,远超过业界主流的77个字符。

其次,自主训练中文原生文本编码器,增加模型的中文原生理解能力,能够在古诗词、中华美食等中国传统元素的生成上取得出色表现。

再次,增加多轮对话能力,让模型不仅能够连贯地理解上下文,还能保证同一话题下图片主体的一致性。

比如,可以在某个话题下先后输入不同的提示词,包括“生成一朵长在森林中的白色玫瑰”“背景换成室内,花插在瓶中”“花改为百合花”“花瓣改成粉色”“让蝴蝶落在花瓣上”“改成动漫风格”等,让腾讯混元文生图大模型生成符合不同要求的图片(如下图所示)。



(来源:资料图)

从数据质量层面来看,对语言模型的数据质量和图片训练数据的处理流程均进行了优化,提升了文生图图文训练数据的质量,并使模型具备较强的泛化性。

另外,从工程优化层面来看,为该模型构建专属工程加速工具库,有效地提高模型训练与运行效率,以及算力资源的利用率。

那么,上述不同层面的升级,给该模型带来了怎样的效果提升?

数据显示,在通用场景下,模型的整体视觉生成效果提升超过20%,这既体现在画面真实感、质感与细节、空间构图等方面,又体现在细粒度、多轮对话、真实人像生成等场景下。

而基于腾讯混元文生图大模型目前具备的能力,腾讯混元团队也制定了两方面未来规划。腾讯文生图负责人芦清林表示:“一是不断提升模型的技术能力,二是让模型应用更加广泛。”



图丨芦清林(来源:资料图)

从技术上说,腾讯混元团队将通过构建参数量更大的模型、筛选更高质量的中文语料等手段,提升模型的生成速度和质量。

从应用上说,腾讯混元团队将推动模型应用于更广泛的业务场景,包括腾讯内部的广告、社交等场景和外部客户的场景。

面向社会全面开源,联合共建基于DiT架构的视觉生成生态

如上所说,目前腾讯混元文生图大模型已面向社会全面开放,包含模型权重、推理代码、模型算法等在内的完整模型,已发布至Hugging Face平台及GitHub上。

令人好奇的是,腾讯为何要选择在这个时间节点开源文生图大模型?

其实,如果关注文生图大模型领域就会知道,基于文生图的开源开发者生态已经形成,开源社区呈现出强大的生命力,数量庞大的开发者正在基于Stable Diffusion精调垂直场景丰富的大模型。

但是,在目前DiT架构已经显示出巨大潜力的情况下,上述开源社区依然主要基于U-Net架构的模型做开发,并未有先进的DiT架构充分开源,更没有中文原生的DiT文生图架构。

另一方面,经过较长时间的优化,腾讯混元团队已经探索出基于DiT架构的首个中文原生文生图模型,并将该模型的水平提升至国内第一、国际领先。

在这样的条件下,如果开源这一最新的研发成果,将有利于全球范围的企业和个人开发者使用,既节省了人力物力,又降低了AI的使用门槛。

同时,只有更多开发者共建基于DiT架构的视觉生成生态,才能更好地验证、挖掘该技术架构的潜力,这也是腾讯在该领域贡献力量的重要体现。

另外,在腾讯看来,该模型是同类开源模型中“最强”的一个。

对此,芦清林表示:“首先,目前DiT架构中没有一个模型是中文原生开源的;其次,我们利用超20个维度对腾讯混元文生图大模型进行综合评估,发现它不仅没有明确的短板,在语义理解、数量表达、颜色表达等多个方面还存在显著优势,综合评分比较高。”

而开源后的腾讯混元文生图大模型,也会给业界和用户带来如下帮助。

一方面,社交、游戏、娱乐、广告等多个行业都可以在自家业务中应用该模型提供的能力。比如,2024年初,腾讯广告就基于该模型发布了一站式AI广告创意平台妙思,可为广告主提供文生图、商品背景合成等多场景创意工具,有效提升广告生产和投放效率。

另一方面,国内用户在使用这一业界首个中文原生DiT架构文生图模型时,能减少在使用外国模型时需要付出的适配成本。

据了解,在开源方面,腾讯一直秉持开放态度,尤其是AI领域。如芦清林所言,“在曾经的小模型时代,是否开源差别并不大,因为研究人员看了相关论文后,可以在所用数据和资源较少的条件下复现出来;但现在有一个问题是,如果业界不开放一些大体量的基础模型,独立的研究人员甚至一个大型实验室很难做出一个好的基础模型。我们希望能够通过开源,推动整个生态共建”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看来华谊兄弟现在混的是真的不行了啊,一个大牌明星也请不到

看来华谊兄弟现在混的是真的不行了啊,一个大牌明星也请不到

青瓜娱评
2024-06-16 10:06:26
42岁凯特惊喜亮相,新造型向戴安娜致敬,加冕王后只差临门一脚

42岁凯特惊喜亮相,新造型向戴安娜致敬,加冕王后只差临门一脚

红袖说事
2024-06-16 11:00:21
绝大部分支持“维持现状”的台湾人没意识到一个问题

绝大部分支持“维持现状”的台湾人没意识到一个问题

观察者网
2024-06-16 08:36:13
指挥所遭空袭,数十人被埋!这次偷袭俄本土的不明战机是F-35吗?

指挥所遭空袭,数十人被埋!这次偷袭俄本土的不明战机是F-35吗?

锋芒毕露
2024-06-16 12:24:54
0-2到3-2!女排绝地反击,逆转世界第1,日本队空欢喜一场!

0-2到3-2!女排绝地反击,逆转世界第1,日本队空欢喜一场!

钉钉陌上花开
2024-06-15 22:43:32
中国曾三次忍辱负重“装孙子”,完美躲过美国制裁!最终迎来崛起

中国曾三次忍辱负重“装孙子”,完美躲过美国制裁!最终迎来崛起

猫眼观史
2024-05-16 18:11:46
上海最短的三条马路,一条只有33米,正宗的上海人也未必知道全部

上海最短的三条马路,一条只有33米,正宗的上海人也未必知道全部

苗苗情感说
2024-06-16 07:15:02
妻子和网友睡3次,被网友转走5万多,2021年妻子:寂寞才找男人的

妻子和网友睡3次,被网友转走5万多,2021年妻子:寂寞才找男人的

汉史趣闻
2024-06-15 10:48:04
高考结束家长拆了放在孩子卧室6年的监控,网友:满满的窒息感,专家:培养自信更重要

高考结束家长拆了放在孩子卧室6年的监控,网友:满满的窒息感,专家:培养自信更重要

极目新闻
2024-06-14 10:52:19
博士老师为何留守中专?编制,穷孩子逆袭的最后防线!

博士老师为何留守中专?编制,穷孩子逆袭的最后防线!

华庭讲美食
2024-06-16 08:57:11
孔子问一7岁小孩:天上有多少颗星星?小孩回答后,孔子行礼拜师

孔子问一7岁小孩:天上有多少颗星星?小孩回答后,孔子行礼拜师

否知
2024-06-10 09:50:11
德国欧洲杯6月16日(周日)比赛预测

德国欧洲杯6月16日(周日)比赛预测

元爸体育
2024-06-16 08:28:45
欧洲杯第3日赛程看点:波兰VS荷兰一触即发,夺冠热门英格兰登场

欧洲杯第3日赛程看点:波兰VS荷兰一触即发,夺冠热门英格兰登场

ALL体育
2024-06-16 08:40:07
小米公司两位总经理涉贪腐被开除!

小米公司两位总经理涉贪腐被开除!

互联网坊间八卦
2024-06-15 17:51:11
淮安文旅、涟水文旅连发多条视频祝贺姜萍,网友:省了几百万广告费

淮安文旅、涟水文旅连发多条视频祝贺姜萍,网友:省了几百万广告费

极目新闻
2024-06-15 19:33:39
《墨雨云间》周夫人永远不会知道,害惨周彦邦的其实是姜玉娥

《墨雨云间》周夫人永远不会知道,害惨周彦邦的其实是姜玉娥

娱记掌门
2024-06-16 08:35:13
瑞士3-1匈牙利!赢欧洲杯开门红,埃比舍尔传射,索博送助攻

瑞士3-1匈牙利!赢欧洲杯开门红,埃比舍尔传射,索博送助攻

侃球熊弟
2024-06-15 22:52:25
刚和中国海军过完招,十多位美军舰长被解职,原因是“失去信心”

刚和中国海军过完招,十多位美军舰长被解职,原因是“失去信心”

蓝莓防务
2024-06-15 22:09:50
068期双色球之解析,惊喜6+1,蓝定10,11,3区防26,28,33

068期双色球之解析,惊喜6+1,蓝定10,11,3区防26,28,33

王晓爱体彩
2024-06-16 11:45:05
记者辟谣三元里成空城,村民表示适应,商户生意也没受太大影响

记者辟谣三元里成空城,村民表示适应,商户生意也没受太大影响

映射生活的身影
2024-06-15 15:36:04
2024-06-16 13:48:49
DeepTech深科技
DeepTech深科技
麻省理工科技评论独家合作
13925文章数 511978关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

上海一家三口出动去香港过周末 在高铁动卧睡一晚就到

头条要闻

上海一家三口出动去香港过周末 在高铁动卧睡一晚就到

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

手机
健康
旅游
本地
公开课

手机要闻

华为Pura 70系列推送鸿蒙OS 4.2 167版升级:优化相机 拍月亮更强

晚餐不吃or吃七分饱,哪种更减肥?

旅游要闻

@毕业生,江苏这些景区可享免票或优惠

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版