网易首页 > 网易号 > 正文 申请入驻

深度解析Recraft V3:突破文本渲染限制,「文生图」黑马是怎样炼成的?

0
分享至

新智元报道

编辑:LRST

【新智元导读】Recraft团队通过结合TextDiffuser-2技术和自训练的大型语言模型,提升了文本到图像渲染的质量和准确性,不过现有模型在处理复杂语言如中文和未明确指定的文本时,仍存在渲染不准确的问题。

在当前的图像生成技术中,文本渲染的能力已逐渐成为衡量其先进性的重要标准。不论是学术界的最新研究还是市场上的先进产品,都在竞相展示其处理复杂文本的能力,这不仅标志着技术的进步,更是成为一种创新的分水岭。

实际上,字图生成技术在多个领域内显示出显著的实用性,例如在设计海报、书籍封面、广告和LOGO等方面,已成为不可或缺的工具。

此外,随着社交媒体和数字营销的兴起,能够快速生成视觉吸引力强的图像变得尤为重要。这些图像往往需要结合富有创意的文本,以更好地与目标观众沟通,从而在短时间内吸引用户注意力,提高品牌识别度。

图1 现有文生图方法的生成结果。Prompt: a cat holds a paper saying text rendering is important

在图1中,我们可以直观地看到文生图模型技术的飞速进步。然而,尽管技术日益成熟,部分方法在处理复杂文本时仍显示出一些局限性。

例如,生成的图像有时会遗漏prompt中的关键词,这可能会影响最终图像的可用性。而像Ideogram和Recraft V3这样的产品在文本渲染方面表现出色。

它们能够更精确地捕捉和呈现文本中的细节和语境,从而生成与输入文本高度匹配的图像。

值得一提的是,Recraft V3作为文生图领域的黑马,已经在Artificial Analysis Text to Image Model Leaderboard上以1172的ELO评分获得了第一名(图2)。Recraft的新模型展示出的质量超过了Midjourney、OpenAI以及其他所有主要图像生成公司的模型。

图2 在文生图排行榜上,Recraft V3排名第一

最近,Recraft团队在其官方网站上分享了其在文本渲染技术方面的一些实现细节。接下来的部分,我将详细分析这些技术细节,探讨Recraft如何实现其出色的文本到图像渲染效果。

图3 早期Recraft 20B模型的文本渲染能力不佳。Prompt:a cat with a sign 'Recraft generates text amazingly good!' in its paws

Recraft团队首先尝试使用早期模型模型Recraft 20B基于prompt “a cat with a sign 'Recraft generates text amazingly good!' in its paws”生成图像,结果发现文本渲染效果不佳(图3)。基于此Recraft团队总结分析了几个关键点:

1. 训练数据的限制:文本到图像的生成模型主要是在包含图像及其对应简要描述的数据集上进行优化的。这些描述通常只涵盖图像的大致内容,而不提供具体细节,尤其是图像中的文字内容。因此,当需要生成包含具体文字的图像时,模型因为缺乏详细的条件或例子而表现不佳。

2. 文本错误的易识别性:人类的大脑对于处理和识别文本非常擅长,因此在图像生成中的任何文本错误都很容易被我们发现。

为了解决图像生成模型在处理图像中的文本问题,Recraft团队采用了一种方法,使用文本布局图作为更详细的输入条件。此策略的灵感来源于TextDiffuser-2论文(图4),该论文提供了有效处理文本表征技术。

图4 Recraft团队采用TextDiffuser-2技术构造两阶段文本渲染框架

论文链接:https://arxiv.org/pdf/2311.16465

在搜集数据的过程中,Recraft团队借鉴了TextDiffuser-2的方法,采用了两阶段生成框架:首先生成文本布局,然后基于这些布局生成图像。

尽管文本布局可以通过使用OCR技术从现有的字图图像中检测获得,Recraft团队发现现有的开源OCR工具难以生成完美的OCR结果,这主要是由于数据分布的差异。

因此,Recraft团队参考了《Bridging the Gap Between End-to-End and Two-Step Text Spotting》论文(图5),开发了一种新的文本检测和识别方法。

图5 Recraft团队采用此论文提取文本layout

论文链接:https://arxiv.org/abs/2404.04624

最终,Recraft团队基于大语言模型训练了两个「双向」的模型:一个模型基于OCR结果生成caption,另一个模型则可以根据用户的prompt生成模型想象的OCR caption,从而完成文本布局的生成。这样的方法有效地提升了生成图像的质量和文本的准确性。

图6 Recraft团队使用OCR模型提取图像的文本layout,采用大语言模型得到caption,并训练另外一个大语言模型由prompt得到layout用于图像生成

在构建文本信息的过程中,Recraft团队采用了TextDiffuser-2的表征方式,每一行文本首先记录了文本的内容,随后通过坐标来指明文本的具体区域。

与TextDiffuser-2不同,Recraft团队使用了三个坐标点来表示文本(图7),使得模型能够支持渲染倾斜的文本。

此外,Recraft团队最终选择了类似ControlNet的架构来渲染白底黑字的图像,用作模型生成的辅助条件。这种方法增加了文本渲染的可控性,允许用户自定义想要渲染的文本区域。这与仅使用prompt作为条件的flux和ideogram方法形成了对比,提供了更高的灵活性和控制度。

图7 Recraft团队采用TextDiffuser-2的表征方式得到文本layout,并将其渲染为图片作为condition进行图像生成

由于Recraft团队开放了测试接口,我对模型进行了一些测试,效果十分惊艳

图8 prompt: a cat holds a paper saying abcdefghijklmnopqrstuvwxyz

图9 prompt: a graphic design with monkey music festival poster

图10 prompt: a girl in the left holds the paper saying hello and a boy in the right holds the paper saying world

图11 prompt: On a rainy night, the lightning in the sky formed the shape of "hello."

然而Recraft依然存在一些问题,例如模型尽管能支持中文prompt,但对于中文渲染不是特别好:

图12 prompt: 下雨的夜晚,天空中的闪电构成了“天空”两个字

另外Recraft也很难渲染未明确指定的文本:

图13 prompt: a man stands in front of a huge newspaper。可以发现小字部分的笔画是扭曲的。

图14 prompt: keyboard。键盘上的文本是错乱的。

图15 prompt: ruler。刻度是错乱的。

总之,文本渲染在文本生成图像领域扮演了至关重要的角色,它不仅关系到图像的视觉呈现,还影响到文本信息的准确传达和语义理解。尽管近年来技术有了显著的进步,但文本渲染依然面临诸多挑战,需要进一步的研究和改进。

参考资料:

https://www.recraft.ai/blog/how-to-create-sota-image-generation-with-text-recrafts-ml-team-insights

Chen J, Huang Y, Lv T, et al. Textdiffuser: Diffusion models as text painters. NeurIPS 2023.

Chen J, Huang Y, Lv T, et al. Textdiffuser-2: Unleashing the power of language models for text rendering. ECCV 2024. Huang M, Li H, Liu Y, et al.

Bridging the Gap Between End-to-End and Two-Step Text Spotting. CVPR 2024.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
44岁全智贤香港晚宴亮相,斗鸡眼明显,体态欠佳

44岁全智贤香港晚宴亮相,斗鸡眼明显,体态欠佳

悠悠说世界
2026-06-30 22:40:59
武契奇宣布购买HQ-9导弹,塞媒体猜测还将购买中国战机

武契奇宣布购买HQ-9导弹,塞媒体猜测还将购买中国战机

观察者网
2026-06-30 21:15:09
菲律宾副总统开庭受审之日已定,小马科斯视察军队严防生变

菲律宾副总统开庭受审之日已定,小马科斯视察军队严防生变

旧窗老街
2026-07-01 00:52:11
为挽救就业岗位和本土产能,大众股东呼吁在德国生产中国“特供”车型

为挽救就业岗位和本土产能,大众股东呼吁在德国生产中国“特供”车型

中国能源网
2026-06-30 11:08:03
改嫁60年后,她选择葬在杨开慧身边:这一声“妈妈”她等了一辈子

改嫁60年后,她选择葬在杨开慧身边:这一声“妈妈”她等了一辈子

近史谈
2026-06-30 18:34:13
罗马诺:曼联和拉什福德的团队直接接触;名记:据我所知,他在曼联的生涯结束了

罗马诺:曼联和拉什福德的团队直接接触;名记:据我所知,他在曼联的生涯结束了

MUREDS
2026-07-01 02:20:44
父母能不靠谱到什么地步?网友:我妈让我嫁给四十的老登

父母能不靠谱到什么地步?网友:我妈让我嫁给四十的老登

康富贵碎碎念
2026-06-28 11:47:58
对普京掀桌子了!特朗普连发两道通牒,留给莫斯科的时间真不多了

对普京掀桌子了!特朗普连发两道通牒,留给莫斯科的时间真不多了

云上乌托邦
2026-06-30 17:15:05
姆巴佩恋情正式曝光!1.8亿球王邂逅西班牙顶流,双向奔赴太好嗑

姆巴佩恋情正式曝光!1.8亿球王邂逅西班牙顶流,双向奔赴太好嗑

老特有话说
2026-06-28 20:01:22
别吹马丁内利了!巴西世界杯逆转头号功臣!他一人拯救了全队

别吹马丁内利了!巴西世界杯逆转头号功臣!他一人拯救了全队

澜归序
2026-06-30 03:35:23
俄军三线都要收尾了!

俄军三线都要收尾了!

星火聊天下
2026-06-30 07:16:16
湖北一位复读生的亮眼成绩:去年高考633分复读一年奋力冲刺

湖北一位复读生的亮眼成绩:去年高考633分复读一年奋力冲刺

手工制作阿爱
2026-06-30 19:37:20
下周三,珠海人账户或将多一笔钱

下周三,珠海人账户或将多一笔钱

石辰搞笑日常
2026-06-30 19:01:11
不回答皇马!新援首秀踢45分钟后表态:现在只谈国家队

不回答皇马!新援首秀踢45分钟后表态:现在只谈国家队

体育硬核说
2026-07-01 00:29:07
我60岁,奉劝所有人:爸妈只要到了90岁,请马上断绝这5个动作

我60岁,奉劝所有人:爸妈只要到了90岁,请马上断绝这5个动作

阿凯销售场
2026-06-30 18:42:40
美国军队痛哭流涕,伊朗战争的绝境,实际上是上了三个国家的当

美国军队痛哭流涕,伊朗战争的绝境,实际上是上了三个国家的当

农夫史记
2026-06-09 20:11:08
王石,捡到宝了。

王石,捡到宝了。

驴蛋科普
2026-06-29 07:00:39
重磅破冰!中欧达成关键共识,欧盟主动让步,经贸格局彻底稳了

重磅破冰!中欧达成关键共识,欧盟主动让步,经贸格局彻底稳了

奇思妙想生活家
2026-06-30 20:08:54
真“死亡”之组?荷兰日本同天出局+无缘16强!瑞典将战15亿法国

真“死亡”之组?荷兰日本同天出局+无缘16强!瑞典将战15亿法国

我爱英超
2026-06-30 12:25:52
男子在KTV饮酒后猝死,家属索赔143万;KTV和两名同饮者被判共赔偿58万,判决书披露详情

男子在KTV饮酒后猝死,家属索赔143万;KTV和两名同饮者被判共赔偿58万,判决书披露详情

大风新闻
2026-06-30 18:04:02
2026-07-01 02:56:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15572文章数 66944关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

时尚
健康
数码
旅游
教育

Meiinpsn的穿衣风格,清新又叛逆

狂吃“糯叽叽”小心肠梗阻!

数码要闻

曝微软停产Surface Go与Surface Laptop Go,无后续机型研发计划

旅游要闻

张园东区首开区亮相 详细版攻略来啦!

教育要闻

最新试卷+官方答案|2026年高考广东地理试卷!情境为王、重思轻背:2026 广东高考地理卷深度点评

无障碍浏览 进入关怀版