网易首页 > 网易号 > 正文 申请入驻

Sora同架构,可免费商用:腾讯开源的混元文生图大模型,处于什么段位?

0
分享至



作者|冰咖啡

编辑|方奇

媒体|AI大模型工场

这个星期的AIGC行业真的是神仙打架,目不暇接。

尤其对各位创业者、开发者非常有价值的,莫过于5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源。AI普惠时代正式来临,“白嫖党”狂喜。

目前,混元文生图大模型已在Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,企业与个人开发者免费商用。

中文原生,15亿参数量,再加上与sora相同的DiT架构。Github评测数据显示,最新的腾讯混元文生图模型效果很不错,在开源文生图模型里面得分最高。此次开源,大有“米其林餐厅摆流水席”的意味。


评测数据看着有点厉害,AI大模型工场打算亲手“遛一遛”。

我们选取了市面上其他几款国产文生图大模型,有百度、抖音这种大厂旗下的“明星大模型”——文心一言和豆包,也有作为人工智能领域头部玩家,在文生图领域表现亮眼的科大讯飞星火大模型作为对比。

在言、象、意层层递进的“考题车轮战”中,各大模型的个性也逐渐鲜明。

“言”之复杂语义理解

首先,在“言”的层面,也就是在语义理解上,作为乙方的文生图大模型“听懂客户需求”、画出具有内容合理性的图是关键。

对此,AI大模型工场想到了最近火遍全网的“你好,我有一个帽衫”视频——一个名字叫“牛”的小女孩疑惑别人穿帽衫都很漂亮,而自己穿上后“像个大耳朵矮人”。对这种很有灵气的童言童语,大模型会如何理解呢?


带着这种疑问,AI大模型工场让大模型各自发挥,画一个“头有一点大的可爱小女孩,穿着一个蓝色帽衫,眼神充满疑问,看起来像个大耳朵矮人”。

从左到右,分别是腾讯混元、百度文心一言、豆包交出的答卷:


可以看到,混元文生图作为中文原生的文生图模型,中文“语感”很强:生成的Q版图片中,女孩眼睛里充满大大的疑惑,而为了表现“大耳朵矮人”,大模型采用了让女孩呈仰视视角的技巧,并以一个有压迫感的大帽衫对照,这样一眼看上去就是“一小只”的即视感。

文心一言的画风虽然不同,但表现同样可圈可点,画中的小女孩眼睛大大的、萌萌的,且比较有东方韵味,用两道似蹙非蹙眉表现“疑惑”,像年画上的小女孩。

豆包对“大耳朵”的理解很到位,四张图里有三张在帽衫上加了大耳朵,生成了充满疑惑的外国小孩姐。

感觉这个几家都还可以,比不出差距,我得上难度了!

“言”之多轮对话

在多轮对话环节,考察的是大模型画“连环画”的功底,因此,随着逻辑重重递进、细节不断修改,画面是否连贯、主体及风格是否具有一致性成为考察的重点。同时,在不断加入多主体的过程中,绘画难度直线升级,相当于普通考题和“附加题”的难度差别。

在让大模型画一只兔子,并不断更换背景、衣服,并加入其他兔子时,各家的多轮对话功底也逐渐显露。

首先是腾讯混元,整体表现不错,听懂了“把背景换成冬天”“把裙子换成羽绒服”“再加两只兔子做朋友”的要求,而且从始至终主体很稳定,始终是同样的白毛兔,在加入其他兔子时,背后的雪景也基本不变。


然后是文心一言,很遗憾,在“加两只小兔子做它的朋友”环节,大模型没能听懂并加入新兔子,留下了一只孤零零的兔子在风中凌乱。


而豆包理解到了“加入两只兔子”做朋友,不过,在不停改图的环节中,兔子的颜色、品种也不断更换,从白兔到灰兔、棕兔,连贯性表现稍弱。


可以看到,在多轮对话这一“加时赛”环节,差距逐渐拉开了。

“象”之人像真实性与质感

而接下来,则是“象”的层面。对大模型来说,做出兼具真实感与质感的图是关键。而这一赛道具体又分为人像和风景,如最近热播的迷你剧《我的阿勒泰》,原著作者李娟也是本人很喜欢的一位作家,生活中自称“娟姨”,非常可爱。放一张娟姨美照:


那么,让AI画个背景在新疆阿勒泰的娟姨,会是什么样的呢?

从左到右,分别是腾讯混元、百度文心一言、讯飞星火交出的答卷:


首先是腾讯混元,说实话,看到的第一眼还是很惊艳的,能看出其在发丝、法令纹等人像细节上下了功夫,因此画面质感很高。

然后是文心一言,画了个五十岁仍笔耕不辍的娟姨,让广大读者很感动。阿勒泰的背景不太突出,而且看不出来这位娟姨的职业。

再然后是讯飞星火,背景阿勒泰的表现力也很强,生成的图片很唯美。不过人物质发丝质感稍弱,缺少手部细节!对此我命名为“刘亦菲·娟”!(不知道娟姨本人喜欢不?)

“象”之景物把控

那么,景物的表现力呢?让大模型们画一画最近朋友圈刷屏的“北京世纪绝美晚霞”试试。为此,AI大模型工场输入了“画一张北京落日晚霞图,城市里车水马龙,人群川流不息,城市上空乱云飞渡,火烧云十分壮观”的指令。

从左到右,分别是腾讯混元、豆包、讯飞星火交出的答卷:


首先是腾讯混元,场景要素齐全,对“乱云飞渡”“车水马龙”等细节的感知到位,真实性也很强,背景上是中国尊和央视“大裤衩”的经典北京建筑,这张图是可以发在朋友圈假装“人在北京,刚下飞机”的程度。

然后是豆包,生成的晚霞也很壮观,缺失了“车水马龙“和“北京“要素,但对景物的把控不错。

最后是讯飞星火,场景表现力也很强。

终极PK:“意境”及中国元素理解

最后则是难度更高的“意境”,让大模型根据“星垂平野阔,月涌大江流“作图。

从左到右,分别是腾讯混元、百度文心一言、讯飞星火交出的答卷:


首先是腾讯混元,天际低垂的星星、辽阔的平野,月亮倒映在江面上随着波浪涌动……细节要素齐全,很有中国水墨山水画的意境。

而文心一言风格雄浑,比较大开大阖,可惜有点糊。

最后是讯飞星火,对画面风格的偏好则更为中西结合,有一种梵高笔下星空的西式浪漫。

个人觉得比较喜欢腾讯混元对诗句的中国风诠释,大家喜欢哪张?

那么,难度升级,对词、赋等具有“文言文”“中国风”“长文本”多重buff的指令,各大模型又表现如何呢?让大模型根据岳飞的《满江红》,生成一幅画试试。

从左到右,分别是腾讯混元、百度文心一言、豆包交出的答卷:


可以看到,腾讯混元生成的图片中,一位身披铠甲的男子神情愤懑,符合“壮怀激烈”、慷慨报国的题旨;而身后背景上的山河图中,有山水等中式元素,对应“收拾旧山河”愿景,从画面内容到细节都不让人“出戏”。

而文心一言的画中,则只有山河图,由于主人公的缺失,看上去“没内味了”且画风偏西式油画风格;同样,豆包的图片比较唯美,但不符合《满江红》意境。

综上,可以在神仙打架的文生图领域,各大模型都有自己的风格和特点,且经过几轮调试,都进化得较为成熟,基本不会出现“已读乱回”现象。而在多轮对话、细节感知、对中国元素生成与中文理解等层面,腾讯混元确实更胜一筹,且更适合商用。

AI普惠时代已至,国产文生图生态起势

无论是Open AI正式发布免费的 GPT-4o,还是此次文生图领域“米其林餐厅”的开源——腾讯混元的开源,先进生产力纷纷开放,都意味着AI普惠时代已至。

在此前,中文的文生图开源社区依然主要基于Stable Diffusion的U-Net架构模型进行开发,仍未有比较先进的DiT架构充分开源。如今,随着腾讯混元文生图带头开放,国内开发者不用研发,也能直接用上了最先进DiT的架构。

从长远来看,这一举动会让我国文生图技术生态更加繁荣,形成良性的竞合格局。随着更多的中文开发者参与进来,形成文生图技术社区,不仅能够促进技术的传播和交流,更能够培养出一批具有国际竞争力的人才和团队,代表我国AI战队“出战”。

而对个体使用者来说,也将进一步释放灵感与创意,借助技术工具实现思想上的“百川奔流”——在未来,时代智慧将从“术”层面向更高级的“道”层面进一步集中,科技和人文将进一步交汇、结合。

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian ,注明真实身份。

数据支持天眼查,大模型独家合作账号

监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI Marketing Field


大模型应用创业者,你怎么看?

■ 百度文心一言,阿里通义千问 ▍通用大模型案例

■ 科大讯飞星火 京东 ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维 ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■ 网易,金山办公大模型 ▍ 更多行业大模型案例

上次介绍OpenAI将再次迎来新升级!将升级哪些?下一代iPhone是否有望使用ChatGPT


本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。

欢迎提供新的大模型商业化落地思路

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6月6日,刘若英被曝大瓜!

6月6日,刘若英被曝大瓜!

山野下
2024-06-06 10:02:33
38岁已婚女与37岁情人,在石凳子上发生关系,温存后被残忍杀害

38岁已婚女与37岁情人,在石凳子上发生关系,温存后被残忍杀害

胖胖侃咖
2024-06-08 08:00:08
没有停!昨晚又有4家公司收函,32万股东踩雷,端午节没法过了

没有停!昨晚又有4家公司收函,32万股东踩雷,端午节没法过了

股海风云大作手
2024-06-08 09:52:47
谁的责任?韦世豪穿的国足队服上的国旗被印反了

谁的责任?韦世豪穿的国足队服上的国旗被印反了

懂球帝
2024-06-08 13:04:11
18强决出14席,国足收大礼,末轮输球也能出线,泰国开心早了!

18强决出14席,国足收大礼,末轮输球也能出线,泰国开心早了!

我就是一个说球的
2024-06-07 22:51:07
端午小长假第一天 中国铁路北京局共计发送124.7万人

端午小长假第一天 中国铁路北京局共计发送124.7万人

北京商报
2024-06-07 22:24:05
额,高层发声,这是要开搞了吗?

额,高层发声,这是要开搞了吗?

中产先生
2024-06-08 12:01:06
再这样下去,中国房地产真要爆发系统性风险了……

再这样下去,中国房地产真要爆发系统性风险了……

关不羽
2024-06-08 10:52:09
南宁西乡塘区市监局通报“路边摊现榴莲鬼秤,8斤称出18斤”:正依法依规处理

南宁西乡塘区市监局通报“路边摊现榴莲鬼秤,8斤称出18斤”:正依法依规处理

环球网资讯
2024-06-08 13:57:06
公安局原副局长,被批多次接受黑社会组织主要成员宴请

公安局原副局长,被批多次接受黑社会组织主要成员宴请

极目新闻
2024-06-07 20:22:38
网友吐槽上海高考作文题目:表述非常坑人!在审题上为难考生!

网友吐槽上海高考作文题目:表述非常坑人!在审题上为难考生!

可达鸭面面观
2024-06-07 20:27:59
17万的宝马,刺痛了多少中产玩家!

17万的宝马,刺痛了多少中产玩家!

蒋东文
2024-06-07 22:34:11
被消耗的激情,日渐逼仄!

被消耗的激情,日渐逼仄!

吴女士
2024-06-06 10:41:17
女子商场殴打丈夫后续:男子系倒插门,已离婚,带伤替前妻求情

女子商场殴打丈夫后续:男子系倒插门,已离婚,带伤替前妻求情

兰子记
2024-06-07 22:03:29
超重磅会议!又要出大招了

超重磅会议!又要出大招了

樱桃大房子
2024-06-07 22:24:30
湖北仙桃原市委副书记跳楼自杀,事发酒店被扒,最后露面照流出

湖北仙桃原市委副书记跳楼自杀,事发酒店被扒,最后露面照流出

求实者
2024-06-08 00:01:45
国产“星链终端”来了 无人区也能上网 2.98万值吗?

国产“星链终端”来了 无人区也能上网 2.98万值吗?

财联社
2024-06-07 18:45:08
王菲女儿晒泳装,被骂“荡妇”,王菲:她只是不乖,但她没有学坏

王菲女儿晒泳装,被骂“荡妇”,王菲:她只是不乖,但她没有学坏

娱乐白名单
2024-06-06 13:19:14
俄国很生气,宣布了三件事,但世界似乎没反应

俄国很生气,宣布了三件事,但世界似乎没反应

近距离
2024-06-07 12:42:38
网友:比亚迪员工内部信流出网上直接炸锅了,这应该就是梦想吧!

网友:比亚迪员工内部信流出网上直接炸锅了,这应该就是梦想吧!

火山诗话
2024-06-08 05:07:19
2024-06-08 16:28:49
AI大模型工场
AI大模型工场
专注AI大模型行业媒体,深度解读公司大模型行业动态,且提供一手的AIGC,行业大模型内容。
57文章数 13关注度
往期回顾 全部

科技要闻

今年数学到底有多难?大模型:我也不太会

头条要闻

连续15年护考的警察目送女儿进考场 对女儿背影挥手

头条要闻

连续15年护考的警察目送女儿进考场 对女儿背影挥手

体育要闻

她拯救了WNBA,却为何被疯狂针对?

娱乐要闻

汤唯抵达巴黎将担任奥运火炬手

财经要闻

重磅详解:为什么美国经济还没有衰退?

汽车要闻

上汽大通大家9售26.99万起 综合续航1300km+

态度原创

时尚
游戏
手机
数码
军事航空

40岁才不要穿“阿姨装”,跟着这些女神穿,老了也是一枝花

《2077》总监揭秘狗镇设计:参考了尼加拉瓜与墨西哥

手机要闻

古尔曼曝苹果iOS 18控制中心:定制布局、多页显示、新增音乐控件

数码要闻

华硕 ROG 宣布购买指定产品,可申领《黑神话:悟空》游戏兑换码

军事要闻

胡塞武装逮捕多名联合国工作人员

无障碍浏览 进入关怀版