网易首页 > 网易号 > 正文 申请入驻

还在为AI「鬼画符」发愁?TextPecker即插即用破解文字渲染难题

0
分享至



一、引言

在生成式 AI 浪潮中,文生图技术已实现跨越式发展,在视觉呈现上达到了前所未有的高度。然而,在生成图像中准确合成拼写正确、结构规范且风格协调的文字 ——视觉文本渲染(Visual Text Rendering, VTR),至今仍是该领域尚未攻克的核心难题。

即便是当前最先进的文生图模型(如 Nano Banana,Seedream、Qwen-Image),也难以稳定生成结构忠实的文本,常伴有笔画错位、结构畸变与字符缺失等问题,在中文等字形结构复杂的语言中表现尤为明显。这一短板直接制约了 AIGC 技术在海报设计、广告创意、图文排版及电商场景等高价值商业领域的规模化落地。

针对这一难题,华中科技大学白翔教授团队等提出了TextPecker,一个为视觉文本而生的「啄木鸟」。该方法是一种基于结构感知的即插即用型强化学习优化策略,无需修改底层模型即可灵活适配各类主流生成器,并带来显著的性能增益:搭载 TextPecker 后,FLUX 的语义对齐度与结构保真度分别提升了 +38.3% 和 +31.6%;即便面对已为中文场景高度优化的 Qwen-Image,仍取得了 +8.7% 和 +4.0% 的显著增益,将视觉文本渲染推向了全新 SOTA。

目前,该工作已被 CVPR 2026 接收。



  • 论文标题:TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering
  • 论文链接:https://arxiv.org/pdf/2602.20903
  • 代码链接:https://github.com/CIawevy/TextPecker

二、当「裁判」失灵:评估与优化的双重瓶颈

TextPecker 的核心洞察在于:制约视觉文本渲染质量的瓶颈,并非生成模型本身的能力上限,而是优化流程中负责评估文字质量的「裁判」存在根本性缺陷

当前主流范式普遍采用强化学习(RL)后训练来提升模型的文字生成能力,并依赖 OCR 模型或多模态大模型(MLLM)作为奖励信号的来源。然而,研究团队发现,这些评估模型缺乏对文字结构异常的细粒度感知能力,在面对不完美的生成文字时,表现出两类典型失效模式:

  • 语言先验驱动的「幻觉」(Hallucination):评估模型过渡依赖语言先验,将结构错误的文字自动 "脑补" 为正确字符,从而给出虚高的奖励分数。
  • 低置信区域的「失明」(Invisibility):评估模型对严重模糊或畸变的文字区域直接跳过识别,导致关键渲染错误被完全遗漏。



图 1 现有 OCR 模型与多模态大模型难以感知生成文字中的细粒度结构异常,成为 VTR 评估与强化学习优化的关键瓶颈。红色标注为误识别字符。

这两类失效直接导致强化学习的奖励信号中混入大量噪声,模型无法获得细粒度的结构级反馈,构成了当前 VTR 评估与优化的双重瓶颈

三、结构感知的「好裁判」:TextPecker 方法详解

1. 重新定义「好」的标准:结构感知的复合奖励

TextPecker 基于 Flow-GRPO 框架构建,是一种即插即用的强化学习优化策略。其核心改进在于重新定义奖励函数:引入一个具备细粒度结构异常感知能力的评估模块,替代传统的 OCR 编辑距离信号,从结构质量语义对齐两个维度同时评估生成文字的质量。



图 2:TextPecker 方法整体框架







以往方法简单地将生成文本视为一条长字符串,直接与目标文本计算编辑距离。这种方式隐含一个假设:生成文字的排列顺序与 Prompt 完全一致。但在真实渲染场景中,文字的空间布局未必与 Prompt 中的出现顺序一致







最终,TextPecker 将结构质量与语义对齐两个维度的分数通过加权融合构成复合奖励。这一设计使得优化过程不再仅仅追求「文字内容对不对」,而是同时关注 「文字结构好不好」,实现二者的联合优化。

2. 打造「好裁判」:字符级结构异常数据集的构建

上述复合奖励的有效性,取决于一个前提:结构感知评估模块能够准确识别生成文字中的细粒度结构异常。而训练这样的模块,首先面临一个基础性难题 ——缺乏大规模、带有字符级结构异常标注的高质量数据。为此,TextPecker 设计了一套系统化的三阶段数据构建流程(如图 3 所示)。



图 3 TextPecker 数据构建流程概览

阶段一:大规模多样化富文本图像生成

由于不同生成模型产生的结构错误各有特点,单一模型的输出难以反映真实场景下错误类型的多样性。因此,第一阶段的核心策略是多模型、多来源的交叉生成

具体而言,团队针对中英文场景分别设计了数据生成方案:

  • 英文场景:从 TextAtlas5M、Lex-10k 等数据集中采样 Prompt,分别调用 AnyText、Stable Diffusion v1-5、Stable Diffusion 3.5、Flux.1-dev、Seedream 3.0、Qwen-Image 等多种主流生成模型进行图像合成,确保对错误类型与生成风格的广泛覆盖。
  • 中文场景:首先从万卷 1.0 语料库中采样文本,确保对现代汉语常用字的充分覆盖。在此基础上,利用 Qwen3-235B-A22B 针对不同字体风格生成风格化描述,与语料组合构成最终的 Prompt,驱动 CogView4、Kolors、Seedream、Qwen-Image 等模型合成图像,兼顾多种字体风格下的结构错误表现。

阶段二:高成本的字符级结构异常精标注

获取富文本图像后,研究团队投入了大量人工标注资源,对数据进行字符级的结构异常检查。这里,结构异常被定义为:任何因模糊、扭曲、笔画缺失或冗余伪影导致的结构性失真,使得字符的语义可识别性受损。

具体的标注流程分为两步:首先利用 OCR 模型获取初步识别结果,再由标注人员逐字符检查并以特殊标记标注所有结构缺陷(如图 4 所示)。对于结构严重粘连、无法逐字区分的区域,则采用统一占位符标记。这一阶段将监督粒度细化至单字符的结构完整性层面,为结构感知评估模块的训练提供了精确的字符级监督信号。



图 4 TextPecker 数据集可视化

阶段三:基于笔画编辑的合成数据增强

仅依赖阶段二人工标注的数据训练模型存在局限:对未见异常类型的泛化能力不足,且对标准汉字的识别能力下降。其原因在于中文的固有复杂性:不同于英文字母的线性形态,汉字具有二维空间构成且规模庞大(常用字超过 8000),潜在的结构异常类型呈组合爆炸式增长,远超人工标注所能穷举。

为此,团队设计了一套基于笔画编辑的程序化合成流程。利用公开笔顺数据将汉字表示为有序笔画序列,并在此基础上定义三种笔画级结构编辑算子

  • 笔画删除(Stroke Deletion):随机移除部分笔画,模拟缺失类错误
  • 笔画交换(Stroke Swapping):交换笔画间的空间位置,模拟错位类错误
  • 笔画插入(Stroke Insertion):从其他字符中取出笔画插入当前字符,模拟冗余类错误

关键在于,这三种算子并非独立使用,而是按顺序随机组合叠加,从而能够模拟远比单一编辑更复杂、更贴近真实生成错误的结构异常类型。在此基础上,团队自研了一套基于 SynthTIGER 的文本渲染引擎,将生成的异常字符与规范字符放置到多样化的背景与排版布局中,合成最终的富文本图像(如图 4 所示)。最终,将阶段二的人工标注数据与本阶段的合成数据合并,形成训练集与测试集,数据集统计与分布详见图 5。



图 5 TextPecker 数据集统计

结构感知评估模块的训练

基于上述数据集,研究团队对 Qwen3-VL 与 InternVL-3 进行监督微调(SFT),得到最终的结构感知评估模块,为强化学习提供结构级奖励信号。

四、从感知评估到跨模型生成优化:TextPecker 实验全景

1. 结构异常感知能力:现有模型近乎失灵,TextPecker 大幅领先

团队设计了两项专用评测任务:文本结构异常感知(TSAP)和规范文本识别(CTR),系统检验模型对生成文本中细粒度结构缺陷的辨识能力。结果揭示了一个严峻事实:无论是专业 OCR 模型(PP-OCRv5、GOT-OCR-2.0、MonkeyOCR 等)还是顶尖多模态大模型(GPT-5、Gemini-2.5-Pro 等),在 TSAP 任务上的 F1 均不超过 0.23,部分模型甚至完全无法检出异常字符。

相比之下,TextPecker 在英文和中文 TSAP 上分别取得0.870.93的 F1 值,同时在 CTR 上也显著优于基线模型,验证了其结构感知能力的全面优势。



图 6 现有模型在文本结构异常感知(TSAP)与规范文本识别(CTR)任务上的表现对比。TextPecker 在所有维度上大幅领先。

2. VTR 生成优化:跨模型、跨语言的一致性提升

团队在 SD3.5-M、Flux.1 [dev]、Qwen-Image 三个生成模型上进行了 RL 优化实验,覆盖 OneIG-Bench、LongText-Bench、CVTG-2K 及自建 GenTextEval 四个基准。

结果显示,TextPecker 奖励信号在所有配置下均带来一致提升。以 Flux.1 [dev] 英文生成为例,语义对齐(Sem.)和结构质量(Qua.)分别提升 +38.3% 和 +31.6%,同时在语义维度上超越 OCR 奖励基线 +11.7%。

更具说服力的是,即便在已经对文字生成高度优化的 Qwen-Image 上,TextPecker 在中文渲染任务中仍实现了+8.7% Sem.+4.0% Qua.的显著增益,刷新了高保真 VTR 的 SOTA。



图 7 TextPecker 在三大主流模型上的定量结果对比。

3. 定性对比:从「语义接近」到「结构忠实」的质变

原始 Qwen-Image 在小字、密集排版等高难场景中频繁出现模糊、扭曲与错位;基于 OCR 奖励的 RL 优化虽改善了语义一致性,但结构缺陷依然存在。而 TextPecker 驱动的优化则在结构保真与语义准确两个维度实现了同步提升:以论文中的「英文菜单」和「中文论文」渲染案例为例,文字笔画清晰、行列对齐,结构畸变问题得到有效消除。



图 8 TextPecker 显著改善了 Qwen-Image 的文字渲染质量,定性对比。

4. 消融实验:数据构建与奖励设计的协同效应

研究团队通过两组消融实验验证了方法各组件的贡献(如图 9、图 10 所示):

  • 数据有效性:仅用人工标注数据即可在 TSAP 上大幅超越基线,但中文识别出现下降;加入合成数据后中文性能全面恢复,TSAP 性能进一步提升,验证了笔画编辑引擎的必要性。
  • 奖励设计:逐步叠加词级匹配(PM)与结构质量分数,每一组件均带来增量收益;将 OCR 奖励替换为 TextPecker 奖励后语义与结构同步提升,完整奖励设计达到最优综合性能。



图 9 数据组成消融实验



图 10 奖励设计消融实验

5. 补充实验:从跨模型泛化到多奖励协同下的鲁棒优化

除主实验外,研究团队在论文附录中提供了两组补充实验,从不同角度进一步验证了 TextPecker 的泛化能力与实用潜力。

  • 评估器的跨模型泛化验证

TextPecker 评估器是否仅对训练中涉及的生成模型有效?为此,团队选取训练过程中从未接触过的 Nano Banana(Gemini-2.5-flash-image) 作为测试对象,在常规渲染、极端艺术字、低对比度排版三种递进难度下进行验证(见图 11)。结果显示,TextPecker 在未见过的生成模型上依然保持强劲的结构感知能力,常规与低对比度条件下表现尤为稳健;性能衰减主要出现在极端艺术化字体场景,此时艺术变形与真实结构缺陷的界限趋于模糊,也为后续研究指出了明确方向。



图 11 TextPecker 的跨模型泛化表现

  • 多奖励协同下的增强 RL 优化

主实验中 TextPecker 仅使用文本渲染奖励,单一目标在实际应用中不可避免地会影响图像美学质量。

为此,团队构建了增强 RL 框架:训练层面引入 Flow-GRPO-Fast、GRPO-Guard 及 Velocity KL 正则化以提升稳定性;奖励层面将 TextPecker 与 PickScore、Aesthetic Score 组合为多目标奖励,兼顾文字准确性与画面美学。实验覆盖三个模型在 7 个英文基准和 3 个中文基准上的完整评测。

结果显示,TextPecker 在多奖励体系中的提升与主实验一致甚至更为显著,在中英文场景下均取得了大幅度的质量与语义双重增益,验证了其奖励信号与其他优化目标的兼容性,也表明 TextPecker 具备产品级优化流程的落地潜力。



图 12 TextPecker 在多奖励协同优化下提升依然显著(中文)



图 13 TextPecker 在多奖励协同优化下提升依然显著(英文)



图 14 Qwen-Image 经 TextPecker 多奖励协同优化后,文字保真度与画面美学实现良好平衡

五、总结:从结构感知到可信赖的视觉文本生成

TextPecker 揭示了制约视觉文本渲染质量的关键瓶颈 —— 现有评估模型无法感知生成文字中的细粒度结构异常,并围绕这一问题给出了完整的解决方案:构建字符级结构异常数据集训练专用评估器,设计兼顾语义对齐与结构质量的复合奖励函数,以即插即用的方式为主流生成模型提供结构级优化信号。

实验表明,该方法在所有测试模型上均带来一致提升,将高保真视觉文本渲染推向了新的水平。

从更宏观的视角看,可靠的文字渲染能力是多模态 AI 走向真实应用的关键基础设施,从 AI Agent 自主生成海报文档,到多模态大模型输出含文字的视觉内容,都以此为前提。TextPecker 为这一方向提供了基础性的评估工具与优化范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
处长把我踢出工作群还标“编外”,隔天求我救急?我:没权限!

处长把我踢出工作群还标“编外”,隔天求我救急?我:没权限!

晓艾故事汇
2026-03-21 15:19:51
别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

牛弹琴123456
2026-03-22 13:59:13
1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

微野谈写作
2026-01-27 06:00:03
杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

千秋文化
2026-03-23 20:09:06
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
你知道我在床上有多厉害吗?

你知道我在床上有多厉害吗?

果粉之家
2026-03-20 12:35:16
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
顺德女老板,叫板国际巨头,一年卖出5个亿

顺德女老板,叫板国际巨头,一年卖出5个亿

最华人
2026-03-25 12:33:15
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
第六险来了!一文读懂“长护险”

第六险来了!一文读懂“长护险”

极目新闻
2026-03-26 07:21:00
大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

侃球熊弟
2026-03-26 00:36:57
短短1年,灵活就业者暴增4千万

短短1年,灵活就业者暴增4千万

深度报
2026-03-23 21:47:58
姐弟闹掰?李鑫拒绝录口供,直言这样下去姐弟没得做,李林哭了!

姐弟闹掰?李鑫拒绝录口供,直言这样下去姐弟没得做,李林哭了!

李橑在北漂
2026-03-26 01:56:27
谭瑞松,被判死缓

谭瑞松,被判死缓

新京报政事儿
2026-03-25 17:17:03
致命围堵!7500人强攻哈尔克岛,伊朗生死线告急

致命围堵!7500人强攻哈尔克岛,伊朗生死线告急

孤城落叶
2026-03-25 14:06:37
52年岳飞后人找毛主席求安排工作,主席听完沉默片刻,说了句话让他当场愣住

52年岳飞后人找毛主席求安排工作,主席听完沉默片刻,说了句话让他当场愣住

老杉说历史
2026-03-13 23:00:06
6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

孤酒老巷QA
2026-03-25 20:19:35
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

柚子说球
2026-03-26 13:07:05
2026-03-26 14:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12601文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
房产
健康
手机
旅游

家居要闻

傍海而居 静观蝴蝶海

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

转头就晕的耳石症,能开车上班吗?

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

旅游要闻

明起全面实行线上实名预约购票!云台山景区发布公告

无障碍浏览 进入关怀版