网易首页 > 网易号 > 正文 申请入驻

谷歌北大联手学术版Banana爆火,论文图表100%精确生成

0
分享至

效果好到刷屏的Nano Banana,学术特供版热乎出炉!

名字就是如此直观——PaperBanana,给你每天都在头痛的Paper用上Banana。(试图押韵skr)

而且这一次是由谷歌北大强强联手打造。



知道你想马上看效果,别急,三个官方案例这就给大家搬上桌。

在相同输入下,人类绘制、原版Nano Banana与PaperBanana生成的论文插图对比如下:

综合评估显示,PaperBanana在美观性、简洁性与逻辑清晰度上均全面优于原版。



而且它还能直接优化人工绘制的插图,瞅瞅右边,是不是高级感一下就上去了。



此外,由于PaperBanana还提供代码出图功能 (即利用Gemini-3-Pro自动生成并执行Python可视化代码出图),所以它还能用来生成需要数值100%精准的各种图表。



好好好,既能拿捏高级感,又不忘精准度,应该没有学术人不爱吧~



论文作者表示,PaperBanana为全自动生成可用于出版的插图铺平了道路。

  • 我们希望这个框架能成为连接复杂科学概念与高效视觉叙事的桥梁,赋能每一位研究者,用专业级的视觉语言清晰呈现其发现。

而在看到其效果之后,一众网友也纷纷感叹“学术插图”这个老大难总算是要被攻克了。

想想以前的日子,真真是要落泪了~

  • 研究人员花费4个小时在Figma中绘制一张图,简直令人难以置信。



那么,学术版PaperBanana是如何炼造的呢?

一个不够,那就5个!

用一个模型生图怎么够,现在都是多智能体齐上阵了。

没错,PaperBanana背后就是5个分工明确的智能体在起作用。

  • Retriever Agent(检索智能体):从顶会论文库中,找到与你要画的图领域、结构最相似的参考案例。
  • Planner Agent(规划智能体):把论文文字描述,转化为包含所有模块、逻辑的详细绘图说明书。
  • Stylist Agent(风格智能体):总结学术审美规范,给说明书加上配色、排版等“美颜”标准。
  • Visualizer Agent(可视化智能体):根据说明书,直接画图或写代码出图,产出初稿。
  • Critic Agent(批判智能体):检查图的对错与美观度,提出修改意见,循环迭代3轮优化。

下面这张图清晰展示了它们的工作流程:

划重点,连这张图也是PaperBanana自己生成的。



论文作者表示,这一过程参考了人类制作论文插图的流程。

以制作一个模型架构图为例,通常研究人员会先去看看顶会里类似工作的图是怎么画的,找找灵感和规范。

这一步就对应了检索智能体的工作。

然后就需要根据参考来规划自己的图该怎么画,“我的方法有几个关键模块?”、“数据流和逻辑顺序是怎样的?”,在想清所有关键问题后,脑子里大概就有一幅架构蓝图了。

而到这一步还不是真正动笔的时候,因为还需要结合自己的图以及之前看过的“顶会审美”标准,来给蓝图加点设计感。

有了这两样东西(蓝图+审美),现在就可以真正出图了。

并且出完之后,研究人员往往还需要检查一番,以确保出图正确无误。



怎么样?是不是一环扣一环、且全都一一对应上了。

而在了解完PaperBanana的工作方式后,接下来的问题在于:

怎么评估PaperBanana的生图效果?

实验方法及结果

对此,团队还专门构建了一个PaperBananaBench。该基准内容源自NeurIPS 2025——

他们从5275篇论文中随机采样2000篇,经过滤、人工校验后,得到584个有效样本,然后将其均分为292个测试样本和292个参考样本。

这292个参考样本,每一个都提取了完整的(S, C, I)三元组:

  • S(源上下文):描述方法的文本,如论文方法论章节;
  • C(传达意图):图的标题/说明,如“我们的框架概述”;
  • I(参考图像):论文中实际使用的、高质量的对应图表。

参考样本集构成了一个高质量的“学术插图数据库”,主要供检索智能体进行查询和匹配。

而与之对应的292个测试样本,在评估时则仅提供S、C作为输入。其对应的I作为隐藏的标准答案,不参与生成过程,仅用于最终的质量比对与评分。

准备到这里,接下来就是具体生成和评估了。

裁判方面,他们采用了“VLM-as-a-Judge”(大模型当裁判)的评估范式——

让强大的视觉语言模型(如Gemini-3-Pro)作为评委,将PaperBanana生成的图与测试集中隐藏的标准答案I进行逐项对比。

对比的维度主要有四个:忠实性、简洁性、可读性、美观性

若PaperBanana表现优于标准图得100分,劣于得0分,持平得50分,最终计算总分。

而实验结果表明,PaperBanana在所有维度上全面超越了传统的单模型直接生成(Vanilla)等基线方法。



  • 整体性能碾压:总分相对基线提升了17.0%。其中,简洁性提升最为显著,高达37.2%,说明它生成的图逻辑更干净、重点更突出;可读性(+12.9%)和美观性(+6.6%)也有大幅领先。
  • 获得人类盲测认可:在匿名的人类盲测中,研究员有72.7%的情况认为PaperBanana生成的图比基线模型更好。
  • 统计图表表现优异:在需要高精度的统计图表任务中,PaperBanana的“代码生成模式”在数值忠实性上与人类水平相当,而简洁性和美观性甚至略胜一筹。



这里需要说明,在生成图表方面,PaperBanana有两种模式:

一种是代码生成模式(默认)。让Gemini-3-Pro这类模型自动写Python可视化代码(如Matplotlib),再运行代码出图。优点是可以保证数值绝对准确,适合需要严格精度的场景。

另一种是直接生图模式(可选方式)。跳过代码,让图像生成模型直接根据文本描述生成图表。优点是视觉效果更顶,但数值容易出现幻觉问题。

左图直接生图模式下,红框圈选出来的就是一些错误问题,而右侧的代码生图模式明显无误,但美观度略逊。



最后的消融实验证明,检索参考、风格优化、批判迭代这三个环节缺一不可,它们共同保证了最终图像的“准确”与“好看”。

不过也需要提醒,PaperBanana目前仍有一些局限性,比如它作为生图还无法编辑,同时在很多细节忠实度方面仍比不上人类手工作业。

所以,更保险的做法或许是,让它帮你优化以前绘制过的图。

在下面这套“手图蜕变”流程下,很多图都能变得更美观、更高级……当然也更容易入顶会的眼(doge)。



谷歌x北大联手打造

最后介绍下PaperBanana背后的团队。

一共7人,可以清晰分成两拨——

一拨来自北大,主要提供NLP与多模态理解的学术根基;另一拨来自Google Cloud AI Research,负责多模态系统与工业化视角。



署名第一的Dawei Zhu(兼通讯作者),本硕博均就读于北大,现为北大四年级博士生。

他重点研究长上下文建模和多模态数据,之前在微软亚洲研究院实习过,目前是Google Cloud AI Research学生研究员,PaperBanana也是他在谷歌期间参与的项目。



借着北大这条线,另外两位来自北大的分别是Xiyu Wei和Sujian Li(兼通讯作者)。

Sujian Li目前是北大计算机学院长聘副教授,也是Dawei Zhu的博导,主要研究自然语言处理、信息抽取等。

而Xiyu Wei可能还是学生,目前只能看到TA和Dawei Zhu合作过一篇关于拓展上下文的论文。



而其他几位来自Google Cloud AI Research的分别是:

负责人Tomas Pfister、高级研究科学家Yale Song、研究科学家Rui Meng和Jinsung Yoon(兼通讯作者)。

截至目前,PaperBanana已在开源社区GitHub揽获上千star,感兴趣可以继续关注。



项目主页:
https://dwzhu-pku.github.io/PaperBanana/
论文:
https://arxiv.org/abs/2601.23265
GitHub地址:
https://github.com/dwzhu-pku/PaperBanana

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奥巴马两个女儿久违露面,身形反差大引网友热议,前第一夫人暴瘦

奥巴马两个女儿久违露面,身形反差大引网友热议,前第一夫人暴瘦

译言
2026-05-13 22:09:31
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
股指期货开盘集体下挫

股指期货开盘集体下挫

每日经济新闻
2026-05-13 09:43:05
彪哥签来的球员全部留下,张帆等8名球员合同到期,为王少杰辟谣

彪哥签来的球员全部留下,张帆等8名球员合同到期,为王少杰辟谣

慢歌轻步谣
2026-05-14 00:45:23
李家鼎被曝资产约1500万,千万祖屋已被长子霸占,定期存款200万

李家鼎被曝资产约1500万,千万祖屋已被长子霸占,定期存款200万

漫婷侃娱乐
2026-05-12 22:15:46
宇航员登月回归后精神失常,死前坦言:人类不应踏足远方

宇航员登月回归后精神失常,死前坦言:人类不应踏足远方

清茶浅谈
2024-12-20 22:30:46
“汉坦病毒”来袭,医生提醒:宁可每天看电视,也不要出门做6事

“汉坦病毒”来袭,医生提醒:宁可每天看电视,也不要出门做6事

路医生健康科普
2026-05-11 17:39:53
21年广西45岁富婆被封进水泥墙,绑匪大骂:我竟然连条狗都不如

21年广西45岁富婆被封进水泥墙,绑匪大骂:我竟然连条狗都不如

第四思维
2025-07-18 13:30:07
北京时间5月13日,湖人核心东契奇突然在社交平台官宣重磅消息!

北京时间5月13日,湖人核心东契奇突然在社交平台官宣重磅消息!

止境
2026-05-14 00:41:14
实控人拟变更!603779,“一”字涨停,封单超百万手

实控人拟变更!603779,“一”字涨停,封单超百万手

数据宝
2026-05-13 11:01:19
别再说“消费降级”了,是很多人真的快撑不住了!

别再说“消费降级”了,是很多人真的快撑不住了!

重庆地产视野
2026-04-18 11:59:08
吃苯磺酸氨氯地平,最致命的副作用只有一个!想要保命,注意5点

吃苯磺酸氨氯地平,最致命的副作用只有一个!想要保命,注意5点

健康之光
2026-05-13 09:41:24
马斯克、黄仁勋排面拉满,与特朗普同机抵达,会有哪些愿望清单?

马斯克、黄仁勋排面拉满,与特朗普同机抵达,会有哪些愿望清单?

光电科技君
2026-05-14 00:00:20
英伟达股价续创记录新高 总市值达到5.5万亿美元

英伟达股价续创记录新高 总市值达到5.5万亿美元

财联社
2026-05-13 21:38:14
日系供应链集体失守!丰田日产大举采用中国零部件:成本低3成、质量还一样

日系供应链集体失守!丰田日产大举采用中国零部件:成本低3成、质量还一样

快科技
2026-05-12 12:20:06
中午11时,中美磋商准时开始,特朗普发现:中国比他想象中更厉害

中午11时,中美磋商准时开始,特朗普发现:中国比他想象中更厉害

吃货的分享
2026-05-14 00:21:29
骆家辉警告中国:最好不要自主生产尖端芯片,这不是美国想看到的

骆家辉警告中国:最好不要自主生产尖端芯片,这不是美国想看到的

蜉蝣说
2026-04-14 17:00:37
1940年最完美的暗杀:“23名保镖贴身保护,但脑袋却被人砍掉”

1940年最完美的暗杀:“23名保镖贴身保护,但脑袋却被人砍掉”

纪实文录
2025-05-08 16:15:44
小马科斯再度响应国际法庭逮捕令,下令抓捕菲参议员德拉罗萨

小马科斯再度响应国际法庭逮捕令,下令抓捕菲参议员德拉罗萨

爱下厨的阿酾
2026-05-14 01:37:19
你的蓝牙耳机可能在“窃听”!国安部提醒涉密人员禁止使用,苹果、华为、小米、索尼等品牌客服回应

你的蓝牙耳机可能在“窃听”!国安部提醒涉密人员禁止使用,苹果、华为、小米、索尼等品牌客服回应

都市快报橙柿互动
2026-05-14 00:46:18
2026-05-14 03:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
12621文章数 176462关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

时尚
亲子
数码
公开课
军事航空

专栏 | 进入心流后,不被洪流裹挟

亲子要闻

去最需要的地方!安慧霞远赴高原幼教帮扶:夜晚吸氧白天授课

数码要闻

徕芬智能卷发棒Styler发布,499元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

沙特被指3月曾对伊朗发动多次“报复性”空袭

无障碍浏览 进入关怀版