网易首页 > 网易号 > 正文 申请入驻

告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统

0
分享至

CUHK MMLab团队 投稿
量子位 | 公众号 QbitAI

AI竟然画不好一张“准确”的图表?

AI生图标杆如FLUX.1、GPT-Image,已经能生成媲美摄影大片的自然图像,却在柱状图、函数图这类结构化图像上频频出错,要么逻辑混乱、数据错误,要么就是标签错位。

这背后是视觉生成领域的长期偏向:过度追求自然图像的美学效果,却忽视了结构化图像对 “事实准确性” 的核心需求。

更关键的是,现有视觉理解模型(如Qwen-VL)已能精准解析图表数值、公式逻辑,而生成/编辑模型却难以匹配这种理解能力,形成显著能力鸿沟,严重阻碍了“能看又能画”的统一多模态模型发展。



对此,来自港中文MMLab、北航、上交等校的联合团队提出了首个综合性解决方案,可应用于结构化视觉生成与编辑领域。

涵盖高质量数据集构建、轻量模型优化、专用评估基准三大模块,旨在让多模态模型不仅能看懂图,还会画准图



下面是更多详细内容。

结构化图像的 “三大能力刚需” 与 “一大发展瓶颈”

结构化非自然图像(图表、公式、表格、示意图等)虽不像风景、人像图像那样 “美观”,却是教育、科研、办公的核心工具,其生成与编辑需满足三大刚性要求:

  • 精准文本渲染:例如公式符号无错漏、表格数值对齐、图表标签匹配;
  • 复杂布局规划:布局规划远比自然图像复杂,例如柱状图的轴范围适配数据、函数图像的曲线贴合定义域、流程图的节点连接无误;
  • 多模态推理:例如接到 “将饼图转为折线图” 指令时,需先理解原饼图的数值分布,再按折线图规则重构结构。

但现有方案完全无法满足这些需求:

  • 数据端:主流数据集(如JourneyDB、OmniEdit)以自然图像为主,缺乏 “代码-图像严格对齐” 的结构化样本(如无法通过代码验证图表数值准确性);
  • 模型端:统一多模态模型侧重自然图像的指令跟随,缺乏对细粒度结构化语义的理解(如分不清图表的X轴与Y轴逻辑);
  • 评估端:CLIP Score、PSNR等指标只关注像素或整体语义的相似性,无法衡量 “数值是否正确”“标签是否匹配” 这类细粒度准确性。

更关键的是,视觉理解与生成的 “能力鸿沟” 持续扩大 —— 模型能 “看懂” 图表里 “类别A的数值是5.2”,却 “画不出” 一个数值准确的同类图表,这成为统一多模态模型发展的关键卡点。

从 “数据” 到 “基准” 的全链条突破

为解决上述问题,论文构建了“数据-模型-基准”三位一体的解决方案,每一环都直击领域痛点:

1、数据层:130万代码对齐的结构化样本库

结构化图像的 “准确性” 可通过代码精准定义(如Matplotlib、LaTeX的绘图代码),因此团队采用 “代码驱动” 思路构建数据集:

  • 收集200万可执行绘图代码,覆盖数学函数、图表、表格等6类场景,执行代码生成 “代码-图像对”;
  • 用GPT-5生成 “双指令”:既生成 “视觉编辑指令”(如 “将函数y=x²的阴影区间缩至x∈[-1,1]”),也生成对应的 “代码编辑指令”(如 “修改fill_between条件为x>=-1且x<=1”),确保编辑前后的图像与代码严格对齐;
  • 最终筛选出130万高质量样本,并为每个样本添加 “思维链标注”(如生成任务的详细分析、编辑任务的多步推理过程),解决指令模糊问题。


数据构建流程

2、模型层:轻量融合VLM,兼顾结构化与自然图像能力

基于FLUX.1 Kontext(支持生成与编辑统一的扩散Transformer),团队设计 “轻量级VLM整合方案”,避免传统重投影器的训练开销:

  • 引入Qwen-VL来增强对结构化图像输入的理解能力,通过 “轻量MLP连接器” 将其提取的高层语义(如图表数值逻辑、公式符号关系)对齐到FLUX.1的特征空间,仅训练少量参数即可实现能力迁移;
  • 采用 “三阶段渐进训练”:先对齐VLM与扩散模型特征(仅训MLP),再混合自然图像与结构化数据训练(训MLP+骨干),最后用带思维链的样本提升推理能力,确保模型不丢失自然图像生成能力。


三阶段渐进式训练流程

3、基准层:StructBench与StructScore,精准评估 “准确性”

针对现有评估指标的缺陷,团队提出专用基准与指标:

  • StructBench 基准:包含1714个分层抽样样本,覆盖数学、图表、表格等6类任务,每个样本附带 “细粒度Q&A对”(如 “Q:柱状图 X 轴标签是什么?A:类别1/2/3”),用于验证事实准确性;


评估流程

  • StructScore 指标:通过 “原子化Q&A+开放回答评分” 评估 —— 将图像属性拆分为单个开放式问答(避免多属性混淆),比较模型回答与标准答案的相似性进行赋分。生成任务看Q&A准确率,编辑任务则以 “0.1×视觉一致性+0.9×指令遵循” 加权(优先保证编辑有效性),该指标与人类偏好的皮尔逊相关系数超0.9,远优于传统指标。


皮尔逊相关系数对比

显著缩小 “理解-生成” 鸿沟

研究人员将15个主流开源闭源模型进行对比,实验结果如下所示。





由此可见,本方案展现出明显优势:

  • 闭源仍领先,但整体仍不令人满意:无论生成还是编辑,最佳模型的事实准确率约在“对半”附近,结构化视觉仍有大量提升空间;
  • 数据比架构更关键:不同开源范式(扩散/自回归/离散扩散)与不同视觉编码器并无一方法“通吃”;高质量、严格对齐、含推理标注的数据是决定性因素;
  • 推理能力关键:在复杂任务(如图表类型转换)上尤为明显;给多种模型接入相同的“显式推理轨迹”也能持续提升,显示“扩展推理算力”对结构化生成/编辑至关重要。



而本项研究不单单是为了解决 “AI画图表” 的问题,还能够推动统一多模态模型发展:

  • 填补领域空白:首次系统梳理结构化视觉生成的核心需求,构建首个全链条解决方案,让社区关注这一被忽视的重要方向;
  • 突破能力瓶颈:通过 “理解-生成” 的能力对齐,为统一多模态模型(既能看又能画、既能解析又能创作)提供关键技术支撑;
  • 落地实际需求:为教育领域自动生成数学图像、科研领域绘制实验图表、办公领域编辑表格等场景,提供 “准确可靠” 的AI工具。

研究团队希望为构化视觉生成领域打下第一块系统性基石,并期待更多研究者关注这一方向,共同推动多模态AI向“精准理解、可靠生成”迈进。

因为当AI能精准生成一张数值无误的图表、一笔不错的数学公式时,它才真正从 “美化工具” 走向 “生产力工具”

论文链接:https://arxiv.org/pdf/2510.05091
项目链接:https://structvisuals.github.io/
GitHub链接:https://github.com/zhuole1025/Structured-Visuals

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
惨绝人寰!苏丹叛军屠城,两天处决2000妇女儿童,加沙惨案重现?

惨绝人寰!苏丹叛军屠城,两天处决2000妇女儿童,加沙惨案重现?

人物故事分享
2025-11-03 07:40:03
一个重大信号!国家队已开始进场!

一个重大信号!国家队已开始进场!

证券市场周刊市场号
2025-11-03 18:12:55
吉林省延边州人大常委会党组副书记韩长发接受审查调查

吉林省延边州人大常委会党组副书记韩长发接受审查调查

界面新闻
2025-11-03 16:04:08
深圳地铁不再向万科挤牛奶,一把梭哈近220亿史无前例

深圳地铁不再向万科挤牛奶,一把梭哈近220亿史无前例

童童聊娱乐啊
2025-11-03 15:09:22
北京地铁6号线,请向东再迈一步!打通“最后10公里”,全面激活北三县发展新动能

北京地铁6号线,请向东再迈一步!打通“最后10公里”,全面激活北三县发展新动能

小鹿姐姐情感说
2025-11-03 15:45:45
黄金税来了,彻底封死”做空法币”之路!

黄金税来了,彻底封死”做空法币”之路!

思哲与创富
2025-11-03 10:29:08
外交部:中方决定将对法国等国免签政策延长至2026年12月31日

外交部:中方决定将对法国等国免签政策延长至2026年12月31日

环球网资讯
2025-11-03 15:38:57
公园人工湖清淤,湖底捞出12辆共享单车,每辆车上都绑一具人形模特

公园人工湖清淤,湖底捞出12辆共享单车,每辆车上都绑一具人形模特

悬案解密档案
2025-10-29 13:36:28
英国游客吃烧烤没给钱,次日带翻译来道歉,摊主一句话老外瞪大眼睛

英国游客吃烧烤没给钱,次日带翻译来道歉,摊主一句话老外瞪大眼睛

卡西莫多的故事
2025-11-02 14:02:25
别再吹了!“美国之子”水成狗,弗拉格被喷到体无完肤

别再吹了!“美国之子”水成狗,弗拉格被喷到体无完肤

体坛黑馬
2025-11-03 10:57:06
藏在身边的“止咳秘宝”,不是雪梨而是它,润肺止咳,消食利咽!

藏在身边的“止咳秘宝”,不是雪梨而是它,润肺止咳,消食利咽!

江江食研社
2025-11-02 16:30:02
跌下神坛的贵族水果,从百元一斤跌到几块钱,人们反而不愿意买了

跌下神坛的贵族水果,从百元一斤跌到几块钱,人们反而不愿意买了

妙招酷
2025-10-29 00:22:47
九旬李明启谈到容嬷嬷为自己发声:我是个好人,当年属于救场行为

九旬李明启谈到容嬷嬷为自己发声:我是个好人,当年属于救场行为

蜜桔娱乐
2025-11-03 16:30:18
中产真没钱!孩子的国际学校退费潮来了,全家都在“教育降级”

中产真没钱!孩子的国际学校退费潮来了,全家都在“教育降级”

阿器谈史
2025-11-02 21:47:50
我打算带80岁父亲去三亚旅游,儿媳却让我带孙子,她带爸妈去云南

我打算带80岁父亲去三亚旅游,儿媳却让我带孙子,她带爸妈去云南

我是三月鱼H
2025-11-02 16:51:56
面相又变了!50岁赵薇近照曝光,婚礼上用心打扮,却走不了回头路

面相又变了!50岁赵薇近照曝光,婚礼上用心打扮,却走不了回头路

鑫鑫说说
2025-11-03 13:57:21
五大联赛年薪排名:哈兰德3170万欧居首,姆巴佩3130万欧第二

五大联赛年薪排名:哈兰德3170万欧居首,姆巴佩3130万欧第二

懂球帝
2025-11-03 15:06:11
中国最低调的吃猪大省,不是四川,不是广东!

中国最低调的吃猪大省,不是四川,不是广东!

地道风物
2025-11-03 11:22:36
保时捷压根没把小米当回事儿

保时捷压根没把小米当回事儿

汽车K线
2025-11-01 17:06:12
上班搭子离职是啥体验?网友:我的搭子也要走了,我崩溃……

上班搭子离职是啥体验?网友:我的搭子也要走了,我崩溃……

解读热点事件
2025-10-31 00:15:03
2025-11-03 19:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
11619文章数 176322关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

17岁男生提供电话卡给网诈团伙被判8个月 称获利997元

头条要闻

17岁男生提供电话卡给网诈团伙被判8个月 称获利997元

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

家居
数码
健康
公开课
军事航空

家居要闻

岁月柔情 现代品质轻奢

数码要闻

DDR5超频世界记录刷新!成功达成13034MT/s

超声探头会加重受伤情况吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版