网易首页 > 网易号 > 正文 申请入驻

谷歌推出自动生成学术插图的开源框架:PaperBanana,搞科研的别错过

0
分享至

做科研的兄弟们都知道,写论文最痛苦的环节往往不是敲代码,而是画图。

为了画一张这就“高大上”的Methodology(方法论)架构图,你可能要在 Visio、PowerPoint、甚至 Adobe Illustrator 之间反复横跳。

配色要高级,线条要对齐,逻辑要清晰——往往一整天过去了,图还没改好,心态先崩了。

最近,北大(PKU)联合 Google Research 推出的一个名为 PaperBanana 的项目在 GitHub 上还未开源就收获了2.9k的关注。


对,还没开源,官方说还有2周~好饭不怕晚,我们再等等!

官方号称它是一个智能体框架,能直接把你的文字描述转化成 出版级的学术插图!


PaperBanana怎么做到的?

PaperBanana的解法,五个智能体协作

PaperBanana的核心思想很简单,用AI智能体来完成论文配图的全流程。


但它不是简单地"给个prompt就生成图片",而是设计了五个专门的智能体,各司其职:

Retriever Agent(检索者) :先去搜相关的参考图

画图之前,得先看看别人怎么画同类方法的。比如你做的是Transformer变体,它就去搜NeurIPS、ICML这些顶会里类似的方法图,作为参考。

Planner Agent(规划者) :把你的方法转换成详细的文字描述

这是整个框架的"大脑"。它需要读懂你的论文正文、图表说明,然后规划出一套详细的画图方案:这里要画几个框?用什么颜色?标签怎么写?

这个过程其实是在做"视觉化思考"——把抽象的方法变成具体的画面描述。这个过程本身就有价值,因为你在思考"怎么表达"的时候,其实也在梳理自己的思路。

Stylist Agent(风格师) :确保符合学术审美

它会从检索到的参考图里提取风格规则:用什么配色方案?字体用多大?间距怎么控制?阴影怎么加?

这些细节决定了图表最终的专业感。

Visualizer Agent(视觉化者) :把描述变成图片或代码

这是执行层。根据前面的规划,要么直接生成图片,要么生成代码(比如Matplotlib、Plotly的代码)。

Critic Agent(批评者) :自我检查和迭代

生成完不等于结束。Critic会检查:这个图准确吗?简洁吗?美观吗?如果不行,就反馈给前面的智能体重新做。

这五个智能体串起来,就是一个完整的"思考-规划-执行-检查"闭环。

怎么评估好不好?

很多论文会说"我们的方法很好",但没有量化指标。

PaperBanana团队做了一个很重要的事情:建了一个评测基准,叫PaperBananaBench。

他们从NeurIPS 2025的论文里,手工筛选了292个真实的方法论图作为测试集。覆盖了计算机视觉、NLP、强化学习等不同领域,也包括了不同风格的图表。


结果显示,PaperBanana在这四个维度上都显著优于基线方法。

这个数据还挺猛的。我原本以为提升也就10-20%,没想到是全面领先。


更重要的是,他们不只是画方法图,还能画统计图表(比如柱状图、折线图)。下面这个柱状图就是官方给的例子


两个有趣的应用场景

论文里提到了两个额外的应用,我觉得挺有意思。

场景一:优化人类画好的图

你可能遇到过这种情况:自己画的图内容是对的,但配色、字体、布局不太专业。

PaperBanana可以先"学习"学术图表的美学规范,然后用这些规则去优化你已有的图。

论文里有个对比示例:原始图是作者手画的,信息准确但配色有点老气。经过优化后,颜色更现代,字体更统一,整体感觉专业了很多。


场景二:用图像生成模型画统计图

传统的统计图都是用代码(Matplotlib、Seaborn)生成的,优点是准确,缺点是不好看。

PaperBanana尝试用图像生成模型(比如DALL-E、Midjourney这一类)直接生成统计图。

结果发现了一个有趣的trade-off:

图像生成的图表更美观、更有设计感

但准确度不如代码生成,容易出现数字错误、元素重复等问题

这个结论挺真实的。图像生成模型在"看起来好看"上很强,但在"数值准确"上确实有局限。


官方还给了对比例子,别的不多说了,大家看下哪个更好


但它还做不到什么?

当然,PaperBanana也不是完美的。

论文里坦诚地列出了主要的失败案例:连接错误。

比如该连的没连,连错目标节点,或者有多余的连线。这些问题,Critic智能体有时候也识别不出来。

初步分析认为,这可能和基础模型本身的感知能力有关——有些视觉关系,模型就是看不出来。

除此之外,还有一些现实的限制:

生成速度:五个智能体串起来,一次迭代可能要几分钟。如果是复杂图表,需要多次迭代,时间成本还是有的

领域限制:目前主要针对AI领域的论文,其他学科(比如生物、物理)的图表,可能需要重新训练

风格局限:虽然能学习参考图风格,但如果目标风格和训练数据差异太大,效果会打折

所以,现在的PaperBanana更像是一个"助手",而不是"替代品"。

它可以帮你快速生成初稿,但最终的微调、校验,还需要人来把关。

题外话了,每日一感慨

PaperBanana这类工具的出现,让研究者可以把更多时间花在真正的"思考"上,而不是"制图"上。

类比一下编程领域:现在有Trae、Cursor、CodeX、Claude Code这些AI编程助手,让程序员效率大大提高,很多编码都是有AI来完成了。

PaperBanana对学术写作,可能也会起到类似的作用。

再往后的未来,学术研究中的很多体力活,以前需要大量人力精力的,可能都会有AI来完成。所有能够流程化,逻辑确定的内容都可以AI来搞定了!AI注定要重塑科研的工作流程!

项目仓库(还没开源,先关注下,春节后估计就放出来了)

https://github.com/dwzhu-pku/PaperBanana

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
丘成桐:要不是我牛逼,早被那帮人整垮

丘成桐:要不是我牛逼,早被那帮人整垮

深度报
2026-02-07 23:19:01
姜武一家住北京四合院豪气,和儿子一起挂灯笼,妻子女儿出镜漂亮

姜武一家住北京四合院豪气,和儿子一起挂灯笼,妻子女儿出镜漂亮

娱说瑜悦
2026-02-09 17:51:41
2026时来运转?香港著名堪舆学家苏民峰,深度解析12生肖运程

2026时来运转?香港著名堪舆学家苏民峰,深度解析12生肖运程

港港地
2026-02-09 10:03:43
中国将出席“和平委员会”首次领导人会议吗?外交部回应

中国将出席“和平委员会”首次领导人会议吗?外交部回应

澎湃新闻
2026-02-09 15:53:05
险胜!弗拉格34+12,阿门轰21+8+9,你再打下去,就是火箭新领袖

险胜!弗拉格34+12,阿门轰21+8+9,你再打下去,就是火箭新领袖

巴叔GO聊体育
2026-02-09 15:59:20
一马尔代夫球队输4球将降级,于是选择弃赛被判0-3顺利保级

一马尔代夫球队输4球将降级,于是选择弃赛被判0-3顺利保级

懂球帝
2026-02-09 15:17:24
安徽大众1年亏损43亿!年销仅9千辆!不及上汽大众1%

安徽大众1年亏损43亿!年销仅9千辆!不及上汽大众1%

网上车市
2026-02-08 01:42:42
一反常态!仅完成一笔交易、一笔签约,这队已完成阵容修整!

一反常态!仅完成一笔交易、一笔签约,这队已完成阵容修整!

大卫的篮球故事
2026-02-08 21:35:08
单身多年生活潇洒,哥哥王刚家中永远为她留着位置,亲情胜过一切

单身多年生活潇洒,哥哥王刚家中永远为她留着位置,亲情胜过一切

白面书誏
2026-02-09 12:44:23
4枪已开打,特朗普收割中国资产,还逼中方交出武器,俄希望谈判

4枪已开打,特朗普收割中国资产,还逼中方交出武器,俄希望谈判

墨兰史书
2026-02-06 09:30:08
娱乐圈太现实,曾经的当红流量小花,参加微博之夜,竟全程没镜头

娱乐圈太现实,曾经的当红流量小花,参加微博之夜,竟全程没镜头

楚楚号
2026-02-07 07:14:47
全世界没搞成的事,中国搞成了

全世界没搞成的事,中国搞成了

牛弹琴
2026-02-09 06:15:27
“最惨”高考生陈亮:母亲、哥哥相继去世,高考前一天父亲也没了

“最惨”高考生陈亮:母亲、哥哥相继去世,高考前一天父亲也没了

未来已来风云变幻
2026-02-09 09:33:04
豪车价格战,迪A3跌破10万,消费者还买单吗?

豪车价格战,迪A3跌破10万,消费者还买单吗?

燕梳楼频道
2026-02-08 21:34:04
外媒:澳大利亚悉尼、墨尔本等多地爆发示威活动,数千人集会抗议以色列总统到访

外媒:澳大利亚悉尼、墨尔本等多地爆发示威活动,数千人集会抗议以色列总统到访

环球网资讯
2026-02-09 21:53:09
随着CBA杯上海112:83大胜上海,我发现三个不得不说的事实!

随着CBA杯上海112:83大胜上海,我发现三个不得不说的事实!

田先生篮球
2026-02-08 22:58:05
年薪30万男友因工资卡分手,婚姻最毒的算计是“我要全部掌控”

年薪30万男友因工资卡分手,婚姻最毒的算计是“我要全部掌控”

戗词夺理
2026-02-08 10:55:45
沪媒:申花明天很可能三外援前锋同时首发,门将应该是薛庆浩

沪媒:申花明天很可能三外援前锋同时首发,门将应该是薛庆浩

懂球帝
2026-02-09 18:39:06
93年毛远新出狱,看到长相出众的女儿很欣慰,得知残疾又泣不成声

93年毛远新出狱,看到长相出众的女儿很欣慰,得知残疾又泣不成声

雍亲王府
2026-02-08 18:15:07
NBA官宣三分赛名单:两届冠军利拉德意外入选 米切尔克努佩尔在列

NBA官宣三分赛名单:两届冠军利拉德意外入选 米切尔克努佩尔在列

罗说NBA
2026-02-09 04:47:45
2026-02-09 22:55:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
376文章数 7574关注度
往期回顾 全部

科技要闻

实测|字节新模型带着音效和复杂运镜杀疯了

头条要闻

高市早苗表态:着手推动修宪

头条要闻

高市早苗表态:着手推动修宪

体育要闻

创中国冬奥最佳战绩!19岁速滑新星含泪向天拉勾

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

本地
时尚
家居
房产
军事航空

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

冬季穿衣越简单越实用!从这些日常穿搭中收获灵感,大方又自然

家居要闻

山院焕新 雅聚悦亲朋

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

军事要闻

美伊最敏感时刻 林肯号航母迎来三位“不速之客”

无障碍浏览 进入关怀版