网易首页 > 网易号 > 正文 申请入驻

学术海报不用愁,一句话精准自动编辑,华东师大开源APEX

0
分享至


新智元报道

编辑:LRST

【新智元导读】华东师范大学Planing Lab提出APEX框架,通过自然语言指令实现学术海报的局部可控编辑,并引入「审查—调整」机制提升编辑可靠性。

学术海报是科研成果展示的重要形式,但在有限版面内完成高密度内容组织与美观排版,往往需要研究人员投入大量时间与精力。

近年来,Paper2Poster、PosterGen 等工作尝试通过多智能体框架自动生成学术海报初稿,但生成结果普遍存在排版僵硬、风格单一的问题,与人工精修海报仍有明显差距。

不仅如此,这些方法缺乏在初稿基础上进行交互式修改的能力,当用户不满意时,往往仍需大量人工手动修改。

针对这一痛点,华东师范大学Planing Lab提出APEX(Academic Poster Editing Agentic Expert),这是首个面向交互式学术海报编辑的Agent框架

APEX能够根据用户的自然语言指令,对现有学术海报进行局部、可控的自动修改,真正实现「一句话编辑学术海报」。

为应对学术海报中图文元素密集、结构复杂的特点,APEX通过操纵预定义的一套涵盖「单元素操作」到「组操作」的多层级API来增量式编辑学术海报。

此外,其引入「审查—调整(Review-and-Adjustment)」机制,在首次编辑完成后对比编辑前后的视觉与语义变化,检查是否存在与指令不一致或不必要的修改,并进行二次修正,从而显著提升编辑结果的可靠性。

为模拟真实编辑场景并系统评估学术海报自动编辑能力,团队通过参考导向与无参考优化两种方式构建了首个学术海报编辑基准测试APEX-Bench,该基准覆盖 59 篇 ICLR、ICML、NeurIPS 顶级会议论文,对应514条具有4种难度梯度的编辑指令,涵盖文本内容修改、风格调整、图像编辑与布局重构等多种操作类型。


论文链接:https://arxiv.org/abs/2601.04794

代码仓库:https://github.com/Breesiu/APEX

实验结果表明,综合指令遵循度、修改范围控制度以及视觉一致性这三种关键指标,APEX 显著优于「重绘式」方法和通用PPT Agent方法,能够在严格执行用户指令的同时,最大限度避免对无关区域的误改。

为什么现在的AI改不好海报?

学术海报是科研成果展示的核心窗口,其要求在有限的空间内进行高密度的论文信息排版。

近年来的大模型自动化工具(Paper2Poster,PosterGen等)虽然能生成学术海报,但不能在海报初稿的基础上根据用户的指令进行二次修改。而围绕学术海报编辑的现有解决方案也各有不足:

重绘式方法(Regeneration-based)存在「严重幻觉」问题

「重绘」式方法指的是将原海报、相关论文和修改指令一起输入给多模态大模型(如Gemini3-pro, Gemini-3-Pro-Image-Preview (Banana pro)),让模型重新生成一张海报图像或XML文件(pptx)。

其中使用Banana pro重新生成海报这种时下热门的方法存在严重的视觉幻觉,端到端的图像生成较不稳定,常常会乱改海报中已有元素。特别是在处理学术图表时,模型容易模糊、扭曲图表中的内容,导致数据不可读甚至含义错误,且难以保证海报其余部分的忠实度。


Banana Pro的幻觉问题

而生成XML的方式也存在较严重幻觉问题,其很难在编辑过程中保留原始海报的所有内容。

通用PPT Agent存在「领域水土不服」问题

通用的幻灯片编辑Agent虽然能操作pptx文件,但缺乏对学术论文结构的深层理解,且难以处理海报中高密度的图文排版。

APEX方法框架

为了解决上述问题,APEX执行多层级的API序列来增量式编辑学术海报,并引入「审查-调整」机制调整初次编辑的结果,提高编辑的准确度。


APEX学术海报编辑架构图

1. 语义解析与元素序列化

系统首先利用python-pptx库将原始海报的pptx文件解析为结构化的JSON数据,提取出所有元素的ID、位置和属性,为精准控制提供数据基础。

2. 规划与执行(Planner-and-Execution)

  • 论文理解工具:当指令涉及内容补充(如「插入消融实验的表格」)时,Agent会调用论文理解工具从原论文PDF中提取真实数据,杜绝内容造假。

  • 多层级API设计:APEX没有依赖不稳定的代码生成,而是预定义了一套涵盖「单元素操作」到「组操作」的多层级API(如move_group移动章节,text_format_brush同时修改文本的多个属性)。系统根据输入的JSON数据、海报图像、用户指令以及所需的论文内容,生成API序列来编辑学术海报对应的pptx文件。

3. 审查与调整(Review-and-Adjustment)

这是系统的「质检」部分。在初次编辑后,多模态Agent会对比编辑前后效果,不仅检查系统是否进行了冗余的编辑操作,还会核实海报中修改的部分是否与用户的指令一致。

如果发现排版重叠或内容错误,系统会自动生成额外的API序列进行二次修正,极大缓解了初次编辑效果不佳的问题。

APEX-Bench

首个学术海报编辑基准


APEX-Bench构建流程

为了系统评估编辑能力,团队构建了APEX-Bench,包含59篇顶级AI会议(ICLR, ICML, NeurIPS)论文对应的514条编辑指令。

  • 数据源与PosterGen:为模拟学术论文合成与编辑全流程自动化场景,数据集中的海报统一使用PosterGen这一兼具良好美学设计与内容组织的自动学术海报生成框架合成。

  • 构建策略:采用「模型辅助,人工精修」。其中「模型辅助」的具体策略如下所示:

  • 参考导向(Reference-guided):大模型对比PosterGen生成的AI初稿与人类作者的终稿,根据差异生成编辑指令。

  • 无参考优化(Reference-free):大模型从美学和内容等角度出发,自主提出优化建议。

  • 多维分类:涵盖了文本内容修改、文本风格调整、图像调整、布局重构等多种操作,并按难度分为四个等级,且包含了大量依赖论文上下文(Paper-related)的编辑指令。

评价指标:为了全面自动化评估编辑质量,团队采用了多模态大模型裁判(VLM-as-a-judge)进行评估。评估维度如下:

指令遵循度(Instruction Fulfillment):衡量系统是否准确地执行了用户的具体要求。

修改范围控制度(Modification Scope):评估系统是否引入了不必要的、未请求的修改(即是否对无关区域产生非预期修改)。

视觉一致性(Visual Consistency):在前两个指标得分较高的情况下,评估修改后的元素是否与原海报的整体设计(布局、风格)保持和谐统一

实验结果


各方法性能及成本比较

团队在APEX-Bench上进行了广泛评测。实验对比了图像生成(Direct Image Generation)、XML生成(XML Generation)、基于python脚本的直接编辑(Direct Script-based Editing)、通用PPT Agent的方法(PPTC、Talk-to-Your-Slides)以及我们提出的APEX方法。

结果显示:在指令遵循度(I.F.)和视觉一致性(V.C.)上,APEX得分最高且大幅领先其他方法,说明其能较好地执行用户指令并保持编辑后海报的视觉一致性。此外,其在修改范围控制度(M.S.)的良好表现可以说明,该方法有效避免了重绘式方法常见的幻觉问题,极少改变与用户指令无关的元素。

总结

APEX通过多层级API和「审查-调整」机制,有效填补了学术海报自动编辑的领域空白,解决了学术海报编辑中「重绘导致幻觉」和「通用PPT Agent不懂学术海报的复杂结构」的双重难题,为科研人员提供了一个可靠的学术海报自动编辑助手。

参考资料:

https://arxiv.org/abs/2601.04794


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曼联目前计划进行四笔重大引援;星报:巴萨希望续租拉什福德1个赛季,球员想留在西班牙

曼联目前计划进行四笔重大引援;星报:巴萨希望续租拉什福德1个赛季,球员想留在西班牙

MUREDS
2026-04-23 23:52:56
24小时之内,美国迎来3个噩耗,特朗普或将下台,伊最高领袖下场

24小时之内,美国迎来3个噩耗,特朗普或将下台,伊最高领袖下场

混沌录
2026-04-22 13:48:17
演员文章开饭店,爆火不到3天便遇“滑铁卢”,糟心事一件接一件

演员文章开饭店,爆火不到3天便遇“滑铁卢”,糟心事一件接一件

复转这些年
2026-04-23 22:17:29
斯诺克世锦赛:墨菲连战连捷!单杆79分零封,肖国栋出师不利!

斯诺克世锦赛:墨菲连战连捷!单杆79分零封,肖国栋出师不利!

刘姚尧的文字城堡
2026-04-23 20:44:31
打蛇打七寸!中国全面断供开始,日本多行业停摆,高市真慌了

打蛇打七寸!中国全面断供开始,日本多行业停摆,高市真慌了

来科点谱
2026-04-19 07:17:32
没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

健康之光
2026-01-04 09:31:45
蔡磊目前仅存眼部活动能力,直言病情因高强度工作而加重恶化,称攻克渐冻症是最后一场创业:“人生自古谁无死?这次创业无比值得”

蔡磊目前仅存眼部活动能力,直言病情因高强度工作而加重恶化,称攻克渐冻症是最后一场创业:“人生自古谁无死?这次创业无比值得”

大象新闻
2026-04-23 23:45:03
CBA男篮动态更新!辽宁男篮vs江苏男篮,赛前带来辽宁男篮赵继伟、莱迪、李晓旭以及江苏男篮庞峥麟最新消息

CBA男篮动态更新!辽宁男篮vs江苏男篮,赛前带来辽宁男篮赵继伟、莱迪、李晓旭以及江苏男篮庞峥麟最新消息

凯丰侃球
2026-04-24 00:10:07
浙大调查发现:肠道内有息肉的人,身体一般或可能有这6个特征

浙大调查发现:肠道内有息肉的人,身体一般或可能有这6个特征

垚垚分享健康
2026-04-22 18:45:05
麦迪:詹杜库还在闪耀因为有球权 我当年只能替补

麦迪:詹杜库还在闪耀因为有球权 我当年只能替补

体坛周报
2026-04-23 20:48:17
暴跌近80%,外资、葛兰、社保疯狂加仓,全球最大创新药黑马,被严重低估了!

暴跌近80%,外资、葛兰、社保疯狂加仓,全球最大创新药黑马,被严重低估了!

价值事务所所长
2026-04-23 21:01:49
“差评”极多的国家:好色成瘾,骗子遍地,却反被评为最佳旅行地

“差评”极多的国家:好色成瘾,骗子遍地,却反被评为最佳旅行地

深度报
2026-04-11 22:34:04
王者归来!新款奔驰S级国内首发亮相:超50%部件改款焕新

王者归来!新款奔驰S级国内首发亮相:超50%部件改款焕新

快科技
2026-04-23 15:25:06
金价窄幅震荡,机构预测后市机会

金价窄幅震荡,机构预测后市机会

环球网资讯
2026-04-23 13:51:16
美国高规格邀请俄罗斯参加G20峰会,这说明什么?

美国高规格邀请俄罗斯参加G20峰会,这说明什么?

山河路口
2026-04-23 21:04:50
一汽-大众产品全面焕新升级 春季新品发布会五车齐发

一汽-大众产品全面焕新升级 春季新品发布会五车齐发

齐鲁壹点
2026-04-01 11:18:03
朱婷又夺冠!郎平、姚迪现场见证,中国女排崛起有望,李盈莹养伤

朱婷又夺冠!郎平、姚迪现场见证,中国女排崛起有望,李盈莹养伤

曹说体育
2026-04-23 14:41:37
阿尔特塔莫慌!曼城1-0反超登顶,后5轮要踢4强队,阿森纳有1优势

阿尔特塔莫慌!曼城1-0反超登顶,后5轮要踢4强队,阿森纳有1优势

体育知多少
2026-04-23 07:11:48
善恶有报:丁嘉丽风流成性终为下半身贪婪付出代价

善恶有报:丁嘉丽风流成性终为下半身贪婪付出代价

暖心萌阿菇凉
2026-04-23 00:09:17
人类灭亡大局已定?科学家算出人类灭绝的日期,人类准备好了吗?

人类灭亡大局已定?科学家算出人类灭绝的日期,人类准备好了吗?

安逸安逸
2026-04-02 17:48:28
2026-04-24 04:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15048文章数 66797关注度
往期回顾 全部

教育要闻

赔 2400 买断师德?老师拒收手机背后的血泪教训

头条要闻

以色列:只要美国同意 将刺杀伊朗最高领袖

头条要闻

以色列:只要美国同意 将刺杀伊朗最高领袖

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

普华永道赔偿10亿 恒大股东见到"回头钱"

科技要闻

马斯克喊出"史上最大产品",但量产难预测

汽车要闻

预售30.29万起 岚图泰山X8配896线激光雷达

态度原创

健康
家居
数码
本地
亲子

干细胞如何让烧烫伤皮肤"再生"?

家居要闻

浪漫协奏 法式风格

数码要闻

荣耀重新定义轻薄本,四月连发六款新品续航首超Mac

本地新闻

SAGA GIRLS 2026女团选秀

亲子要闻

新华读报|打乒乓球有助提高儿童注意力

无障碍浏览 进入关怀版