腾讯开源生图模型 3.0,试了一下世界知识可以媲美 Banana,甚至可以图解中学几何题!美学和文字排版也达到了一流水平,太顶了。
模型参数高达 80B,这次的升级主要特点是:
1. 可以生成较长的文字,包括中文;
2. 了解世界知识并且可以进行一定程度的推理;
3. 美学表现相较于之前提升较大。
我也做了一下详细的测试,文字生成和世界知识这块非常的顶,提示词放在图片下方了。
世界知识这块,我先是让他解一些涉及到图像的数学几何体、物理或者化学题。
它可以在生成的图片上完美的展示解题步骤,左边展示对应的示例图案,解题步骤和答案的正确率接近 100%,左边的图例偶尔有问题,但已经非常牛皮了。
搞定之后又让他生成其他人文社科之类的图片,比如推理和展示蒸汽机的发展路线,除了偶尔小字有问题外,整个图案示例画的相当简单易懂。
生成对应的诗词解释卡片也都没问题,可以画出诗词对应的景色,还能生成诗词的背景和主旨。
还有常见的知识卡片,比如食谱和游戏卡片也没啥问题,这部分如果他输出文字较少的话你可以在提示词规定对应的文字数量。
在文字生成这部分测试了一下之前常用的复杂排版玄学壁纸和单纯的字体设计。
基本上都可以按照要求的排版方式和字体画出对应的图片,而且上面也都有对应的文字内容。
纯粹的艺术字体生成先是让他生成类似篆体的 Logo,确实非常有那个神韵。然后是书法字体也生成的相当不错,有那味了。
然后肉让他整了两张复杂的中秋海报,涉及到文字生成、排版位置和画面风格,都处理的不错,基本达到了现在头部图像模型的水平。
目前跟 Banana 的差距就是图像编辑了,暂时还没有这个能力,但是有内幕消息说国庆之后估计就有了。
开源的这种级别的图像编辑和世界知识图像模型,想象力还是非常大的, 加上微调之后可以搞很多好玩的。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.