告别AI“乱画图表”！港中文团队发布首个结构化图像生成编辑系统|模态|代码|深度思考模型

告别AI“乱画图表”！港中文团队发布首个结构化图像生成编辑系统

2025-10-11 17:17:30　来源: 量子位

北京举报

分享至

CUHK MMLab团队投稿
量子位 | 公众号 QbitAI

AI竟然画不好一张“准确”的图表？

AI生图标杆如FLUX.1、GPT-Image，已经能生成媲美摄影大片的自然图像，却在柱状图、函数图这类结构化图像上频频出错，要么逻辑混乱、数据错误，要么就是标签错位。

这背后是视觉生成领域的长期偏向：过度追求自然图像的美学效果，却忽视了结构化图像对 “事实准确性” 的核心需求。

更关键的是，现有视觉理解模型（如Qwen-VL）已能精准解析图表数值、公式逻辑，而生成/编辑模型却难以匹配这种理解能力，形成显著能力鸿沟，严重阻碍了“能看又能画”的统一多模态模型发展。

对此，来自港中文MMLab、北航、上交等校的联合团队提出了首个综合性解决方案，可应用于结构化视觉生成与编辑领域。

涵盖高质量数据集构建、轻量模型优化、专用评估基准三大模块，旨在让多模态模型不仅能看懂图，还会画准图。

下面是更多详细内容。

结构化图像的 “三大能力刚需” 与 “一大发展瓶颈”

结构化非自然图像（图表、公式、表格、示意图等）虽不像风景、人像图像那样 “美观”，却是教育、科研、办公的核心工具，其生成与编辑需满足三大刚性要求：

精准文本渲染：例如公式符号无错漏、表格数值对齐、图表标签匹配；
复杂布局规划：布局规划远比自然图像复杂，例如柱状图的轴范围适配数据、函数图像的曲线贴合定义域、流程图的节点连接无误；
多模态推理：例如接到 “将饼图转为折线图” 指令时，需先理解原饼图的数值分布，再按折线图规则重构结构。

但现有方案完全无法满足这些需求：

数据端：主流数据集（如JourneyDB、OmniEdit）以自然图像为主，缺乏 “代码-图像严格对齐” 的结构化样本（如无法通过代码验证图表数值准确性）；
模型端：统一多模态模型侧重自然图像的指令跟随，缺乏对细粒度结构化语义的理解（如分不清图表的X轴与Y轴逻辑）；
评估端：CLIP Score、PSNR等指标只关注像素或整体语义的相似性，无法衡量 “数值是否正确”“标签是否匹配” 这类细粒度准确性。

更关键的是，视觉理解与生成的 “能力鸿沟” 持续扩大 —— 模型能 “看懂” 图表里 “类别A的数值是5.2”，却 “画不出” 一个数值准确的同类图表，这成为统一多模态模型发展的关键卡点。

从 “数据” 到 “基准” 的全链条突破

为解决上述问题，论文构建了“数据-模型-基准”三位一体的解决方案，每一环都直击领域痛点：

1、数据层：130万代码对齐的结构化样本库

结构化图像的 “准确性” 可通过代码精准定义（如Matplotlib、LaTeX的绘图代码），因此团队采用 “代码驱动” 思路构建数据集：

收集200万可执行绘图代码，覆盖数学函数、图表、表格等6类场景，执行代码生成 “代码-图像对”；
用GPT-5生成 “双指令”：既生成 “视觉编辑指令”（如 “将函数y=x²的阴影区间缩至x∈[-1,1]”），也生成对应的 “代码编辑指令”（如 “修改fill_between条件为x>=-1且x<=1”），确保编辑前后的图像与代码严格对齐；
最终筛选出130万高质量样本，并为每个样本添加 “思维链标注”（如生成任务的详细分析、编辑任务的多步推理过程），解决指令模糊问题。

数据构建流程

2、模型层：轻量融合VLM，兼顾结构化与自然图像能力

基于FLUX.1 Kontext（支持生成与编辑统一的扩散Transformer），团队设计 “轻量级VLM整合方案”，避免传统重投影器的训练开销：

引入Qwen-VL来增强对结构化图像输入的理解能力，通过 “轻量MLP连接器” 将其提取的高层语义（如图表数值逻辑、公式符号关系）对齐到FLUX.1的特征空间，仅训练少量参数即可实现能力迁移；
采用 “三阶段渐进训练”：先对齐VLM与扩散模型特征（仅训MLP），再混合自然图像与结构化数据训练（训MLP+骨干），最后用带思维链的样本提升推理能力，确保模型不丢失自然图像生成能力。

三阶段渐进式训练流程

3、基准层：StructBench与StructScore，精准评估 “准确性”

针对现有评估指标的缺陷，团队提出专用基准与指标：

StructBench 基准：包含1714个分层抽样样本，覆盖数学、图表、表格等6类任务，每个样本附带 “细粒度Q&A对”（如 “Q：柱状图 X 轴标签是什么？A：类别1/2/3”），用于验证事实准确性；

评估流程

StructScore 指标：通过 “原子化Q&A+开放回答评分” 评估 —— 将图像属性拆分为单个开放式问答（避免多属性混淆），比较模型回答与标准答案的相似性进行赋分。生成任务看Q&A准确率，编辑任务则以 “0.1×视觉一致性+0.9×指令遵循” 加权（优先保证编辑有效性），该指标与人类偏好的皮尔逊相关系数超0.9，远优于传统指标。

皮尔逊相关系数对比

显著缩小 “理解-生成” 鸿沟

研究人员将15个主流开源闭源模型进行对比，实验结果如下所示。

由此可见，本方案展现出明显优势：

闭源仍领先，但整体仍不令人满意：无论生成还是编辑，最佳模型的事实准确率约在“对半”附近，结构化视觉仍有大量提升空间；
数据比架构更关键：不同开源范式（扩散/自回归/离散扩散）与不同视觉编码器并无一方法“通吃”；高质量、严格对齐、含推理标注的数据是决定性因素；
推理能力关键：在复杂任务（如图表类型转换）上尤为明显；给多种模型接入相同的“显式推理轨迹”也能持续提升，显示“扩展推理算力”对结构化生成/编辑至关重要。

而本项研究不单单是为了解决 “AI画图表” 的问题，还能够推动统一多模态模型发展：

填补领域空白：首次系统梳理结构化视觉生成的核心需求，构建首个全链条解决方案，让社区关注这一被忽视的重要方向；
突破能力瓶颈：通过 “理解-生成” 的能力对齐，为统一多模态模型（既能看又能画、既能解析又能创作）提供关键技术支撑；
落地实际需求：为教育领域自动生成数学图像、科研领域绘制实验图表、办公领域编辑表格等场景，提供 “准确可靠” 的AI工具。

研究团队希望为构化视觉生成领域打下第一块系统性基石，并期待更多研究者关注这一方向，共同推动多模态AI向“精准理解、可靠生成”迈进。

因为当AI能精准生成一张数值无误的图表、一笔不错的数学公式时，它才真正从 “美化工具” 走向 “生产力工具”。

论文链接：https://arxiv.org/pdf/2510.05091
项目链接：https://structvisuals.github.io/
GitHub链接：https://github.com/zhuole1025/Structured-Visuals

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.