网易首页 > 网易号 > 正文 申请入驻

PosterGen:告别学术海报制作烦恼,从PDF生成可编辑PPTX学术海报

0
分享至



许多研究者在参加学术会议前,常常会因为制作海报所耗费的大量时间和精力而感到困扰。一张精心设计的海报是高效的学术交流媒介,但现有自动化方法普遍忽略了核心设计原则,导致生成的海报仍旧需要大量人工调整

为解决这一痛点,来自纽约州立大学石溪分校、纽约大学、不列颠哥伦比亚大学和浙江大学的联合团队推出了PosterGen,一个能将论文PDF 直接转化为设计精良、完全可编辑的 PPTX格式学术海报的多智能体框架。



  • 论文标题:PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent LLMs
  • 论文地址:https://arxiv.org/abs/2508.17188
  • 代码地址:https://github.com/Y-Research-SBU/PosterGen
  • 项目主页:https://Y-Research-SBU.github.io/PosterGen

PosterGen 的核心创新在于:

  • 通过模拟专业设计师工作流的多智能体协作架构,将复杂且依赖创意的设计任务进行了系统性的分解与执行;
  • 构建了一条从论文 PDF直达可编辑 PPTX 海报的端到端工作流,使研究者从耗时费力的海报设计工作中解放,专注于学术交流的核心价值;
  • 建立了一套遵循核心设计原则的自动化流程,打造出首个在视觉美学和版式规范上,能与人类设计的海报相媲美的自动化生成效果。

case 1:



case 2:



case 3:



深度嵌入框架的四大核心设计原则

PosterGen 能够生成高品质海报的核心要素在于,它并非简单地堆砌内容,而是将专业设计师的美学知识和设计策略,转化为 AI 可理解和执行的四大核心原则

叙事结构(Narrative):一张好的海报必须逻辑清晰。PosterGen 采用科学写作中经典的「And, But, Therefore」(ABT)叙事结构。它首先建立研究背景(And),接着点明问题与挑战(But),最后呈现解决方案与成果(Therefore),以此构建出一条引人入胜的逻辑线索,引导观众快速理解研究核心。

空间布局(Layout Structure):为确保信息传递的秩序感,PosterGen 采用专业且高效的三栏式网格布局。这种布局能够保证自然的阅读流,确保第一时间抓住观众的注意力的同时,提供一定的视觉喘息。同时,通过对留白(White Space)的有效运用,清晰地分离各个内容模块,减少视觉混乱感。

色彩方案(Color Design):色彩在视觉传达中扮演着建立层次和确保可读性的关键角色。PosterGen 采用一套克制的主题单色调配色方案,以维持视觉的和谐统一。该颜色方案由主题色、用于背景的单色变体以及用于高亮的高对比度强调色构成。所有文本的色彩应用都严格遵守 WCAG 4.5:1 的对比度标准,以保证在标准观看距离下的可读性。

版式层级(Typography Design):字体设计与色彩协同工作,用来构建信息的清晰度。PosterGen 优先选用易读的无衬线字体,并建立两类层级:(1)利用不同字号区分标题、正文等的视觉层级;(2)通过粗体、斜体和强调色等格式来构建关键词的语义层级,共同确保信息传递的高效与精准。



图 1 PosterGen 多智能体框架概览

PosterGen 的工作流由四个协同工作的专业智能体(或模块)构成,系统性地将设计原则贯穿于海报生成的每一个环节,环环相扣、各司其职,让学术海报的自动化生成拥有了接近人类设计师的「审美与灵感」。

  • 内容解析与策划(Parser and Curator Agents)

该阶段主要功能是一次「智能化的故事重构」。Parser Agent 负责从原始 PDF 论文中提取所有文字与视觉元素(如图表),而 Curator Agent 则像一个「叙事导演」,按照ABT 结构(And, But, Therefore),将复杂的论文内容转化为简明扼要的故事板,为后续设计奠定叙事骨架。

  • 空间布局生成(Layout Agent)

Layout Agent 负责将概念性的故事板转化为精确的空间布局,在一个标准的三栏式画布上,系统地放置每一个内容元素。这种结构被广泛证明能有效确保自然的阅读流,并通过将关键视觉元素策略性地放置在视平线的「热区」(如中间列顶部),构成视觉锚点以吸引观众。



图 2 PosterGen 所采用的基本布局框架

为实现元素间的精准间距控制,Layout Agent 还将留白(white space)视为关键的设计元素。它实现了一个类似 CSS 的盒模型(box model),为每个内容元素(文本、图片、表格)封装独立的「外边距」和「内边距」属性,从而对元素周围的间距进行精细化控制。



图 3 类 CSS 的盒模型布局方法

由于不同系统的渲染引擎的差异,精确计算文本框的高度是 PPTX 自动化布局中的一个核心挑战。为此,研究团队提出了一种优化的估算算法,该算法通过二分搜索来确定避免字体大小被自动缩减的最小文本框高度,并结合换行符进行偏移校正,以精准预测最终渲染高度,从而有效避免了令人头疼的内容溢出与浪费空间。



图 4 文本高度估算算法伪代码

  • 视觉风格化(Stylist Agents)

此阶段是 PosterGen 实现「美学设计」的关键,由两个智能体组成:

  • 色彩智能体(Color Agent)会自动提取机构 Logo 或关键图像中的主题色,再结合色彩理论生成一套专业调色板:主题色、单色变体与高对比度强调色,既保证美观,也严格遵守 WCAG 对比度标准,做到「美且易读」。



图 5 学术海报智能色彩生成方案

  • 字体智能体(Font Agent)则负责构建清晰的视觉层级和语义层级,让标题、正文、关键词各有视觉上的分工,重点信息用粗体、斜体或强调色加以突显,让观众的目光「不由自主」被引导。



图 6 学术海报字体样式设计方案

  • 海报渲染输出(Renderer)

最后,Renderer 模块将所有风格与布局信息精准落地,并调用 python-pptx 库生成完全可编辑的 PPTX 格式的学术海报,并自动生成高分辨率的 PNG 图像,供用户查阅和使用。生成的结果能够直接用于学术会议现场,达到演示级别的水准。

实验评估与结果

为了证明 PosterGen 的「美学驱动」确实有效,研究团队引入了一套基于视觉语言模型(VLM)的综合性评估标准(VLM-as-Judge),从内容和设计两大维度对生成结果进行评分。





图 7 定量实验结果



图 8 案例研究对比结果

实验结果证明了 PosterGen 框架的有效性:

  • 定量结果表明,PosterGen 在内容保真度上与当前 SOTA 方法(PosterAgent)相当,但在所有设计与美学指标上均取得了显著且一致的提升,尤其在「主题一致性」、「风格层次」、「字体可读性」等维度上实现了压倒性领先。
  • 定性对比同样印证了优势:相比之下,直接使用文生图模型的 GPT-4o 存在内容幻觉和文本乱码问题;而 SOTA 方法(PosterAgent)则在布局上存在元素重叠、阅读流不自然等缺陷,而 PosterGen 的结果在海报布局结构、视觉层次和整体美感上表现出色。



图 9 消融实验结果

消融实验进一步证明了 PosterGen 各核心智能体设计的必要性。结果显示:

  • 仅有Curator Agent生成的初始故事板缺乏空间规划,导致布局混乱、内容溢出;
  • Layout Agent的介入成功解决了这些空间缺陷,实现了均衡的列布局;
  • Stylist Agents的应用则为海报注入了最终的视觉美感,通过和谐的色彩与分层的字体设计,极大地提升了海报的专业性和吸引力。

这一过程清晰地展示了每个智能体在从内容到最终设计成品转化过程中的不可或缺的贡献。

总结与意义

PosterGen 不仅是又一个自动化工具,而是一次对「设计智能体」未来形态的大胆探索。它让学术海报自动生成真正跨越了从「能用」到「好用」、再到「够美」的门槛。

这一框架不仅极大地减轻了研究者的负担,更展示了多智能体系统在「逻辑与创意融合任务」上的巨大潜力。对科研人员来说,PosterGen 意味着:从此再也不用被海报设计困住,可以把宝贵的精力完全放在学术会议中的科研与交流上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
没想到,高市早苗涉华言论风波没完,矢野浩二因一个举动口碑暴涨

没想到,高市早苗涉华言论风波没完,矢野浩二因一个举动口碑暴涨

负面黑洞
2025-11-19 15:04:06
连刷6集,Netflix新剧杀疯了

连刷6集,Netflix新剧杀疯了

来看美剧
2025-11-19 17:35:08
官媒确认!邓超再创佳绩,全家移民消息提前曝光

官媒确认!邓超再创佳绩,全家移民消息提前曝光

老琴才是我的外号
2025-11-18 17:33:27
2-0头名晋级!他们重返世界杯,这一刻等了51年,排名比国足高5位

2-0头名晋级!他们重返世界杯,这一刻等了51年,排名比国足高5位

侃球熊弟
2025-11-19 11:30:06
潜伏在我国高层的四大间谍,被安插在军政两界,导致我国损失惨重

潜伏在我国高层的四大间谍,被安插在军政两界,导致我国损失惨重

阅识
2025-10-28 15:23:15
官宣!深圳顶尖大学合作+2!选址确定!

官宣!深圳顶尖大学合作+2!选址确定!

深圳本地宝
2025-11-19 22:50:43
中日军方隔空对阵,日本电磁炮上场,解放军落弹区扩大,美军溜了

中日军方隔空对阵,日本电磁炮上场,解放军落弹区扩大,美军溜了

Ck的蜜糖
2025-11-20 00:50:13
8-0,塞内加尔踢疯,33岁马内戴帽,24岁拜仁悍将雅克松梅开二度

8-0,塞内加尔踢疯,33岁马内戴帽,24岁拜仁悍将雅克松梅开二度

凌空倒钩
2025-11-19 07:03:19
乌军大捷,俄没钱的时候战争就会停止

乌军大捷,俄没钱的时候战争就会停止

难得君
2025-11-16 16:47:26
已官宣:庄宇珊月底去意大利!或帮助球队保级,复制石川的轨迹

已官宣:庄宇珊月底去意大利!或帮助球队保级,复制石川的轨迹

金毛爱女排
2025-11-20 00:00:03
全世界找不出第二个国家,能把所有邻国都得罪遍,还都是领土问题

全世界找不出第二个国家,能把所有邻国都得罪遍,还都是领土问题

扶苏聊历史
2025-11-18 17:47:25
高市早苗最担心的4个局面,前3个已出现,最后一个,联合国见

高市早苗最担心的4个局面,前3个已出现,最后一个,联合国见

云鹏叙事
2025-11-19 10:53:46
警惕!这种“毒碗”已经上黑榜了,检查一下,家里有的赶紧扔了吧

警惕!这种“毒碗”已经上黑榜了,检查一下,家里有的赶紧扔了吧

削桐作琴
2025-10-24 15:45:22
太遗憾!2米26的张子宇, 又一次无缘WCBA

太遗憾!2米26的张子宇, 又一次无缘WCBA

体育哲人
2025-11-19 23:17:52
官宣前兆?久保建英即将登陆英超,皇家社会终于放行!

官宣前兆?久保建英即将登陆英超,皇家社会终于放行!

奶盖熊本熊
2025-11-20 01:28:41
普贤菩萨曾言:无名指超过食指的人,这一生注定有6件事躲不过

普贤菩萨曾言:无名指超过食指的人,这一生注定有6件事躲不过

卡西莫多的故事
2025-11-13 09:54:48
好莱坞性感“黑珍珠”:身材火爆天生尤物,为艺术献身全裸出镜

好莱坞性感“黑珍珠”:身材火爆天生尤物,为艺术献身全裸出镜

南宗历史
2025-11-19 19:39:49
又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

墨印斋
2025-11-11 16:31:34
明日寒衣节,牢记:1要洗,2不晒,3不回,4要吃,传统习俗要重视

明日寒衣节,牢记:1要洗,2不晒,3不回,4要吃,传统习俗要重视

小茉莉美食记
2025-11-19 01:35:03
筑牢法治之基,汇聚法治力量

筑牢法治之基,汇聚法治力量

人民网
2025-11-19 07:07:16
2025-11-20 03:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11756文章数 142508关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

游戏
旅游
数码
时尚
军事航空

我的小众XP,在“玩法正确”面前一无是处?

旅游要闻

女性专属酒店好不好,还得由市场说了算

数码要闻

猫头鹰黑化版散热器风扇来袭

辛芷蕾的炸裂10分钟,让人大受震撼

军事要闻

量大管饱 中国军网在海外发布备战视频

无障碍浏览 进入关怀版