做科研最磨人的事,莫过于写论文半天,画插图几天。
好不容易把方法论和数据分析做完,转头面对论文插图,瞬间陷入内耗:用 Matplotlib/TikZ 代码绘图,精准是精准,但改个布局、调个配色能磨一下午;用图像生成模型直接出图,视觉效果够了,却总偏离顶会学术规范,逻辑还容易出错;好不容易画完,还可能被导师打回,要求贴合 NeurIPS 等顶会的审美风格……
相信每个科研人都有过这样的经历,直到PaperBanana的出现,彻底改变了这一现状。
![]()
这款由谷歌 Cloud AI Research + 北京大学联手打造的自动化学术绘图框架,不仅能从文本描述直接生成出版级顶会风格学术图,还被 llmsresearch 团队做了开源实现与功能扩展 ,新增了幻灯片生成等实用功能,基于 Google Gemini 模型打造,支持 CLI、Python API、IDE 集成,科研小白也能一键上手,堪称科研绘图的终极救星!
核心亮点:为什么 PaperBanana 是科研人的绘图福音?
不同于普通的 AI 绘图工具,PaperBanana 从科研人的实际需求出发,解决了「精准度、学术性、易用性」三大核心痛点,这也是它能在科研圈快速爆火的关键。
✅ 顶会级出版品质,直接适配论文 / 汇报
PaperBanana 内置NeurIPS 顶会风格指南,从配色、布局、排版到模块设计,全按学术出版标准优化,生成的图表无需二次修改,可直接用于顶会论文、核心期刊和学术汇报,彻底告别「画完再改风格」的麻烦。
![]()
✅ 5 个智能体分工,像「专属设计团队」一样绘图
PaperBanana 的核心是多智能体协作的双阶段流水线,复刻了人类制作学术插图的完整流程,5 个智能体各司其职,从参考检索到最终优化,一环扣一环,比单模型生成的效果高几个档次:
- 检索智能体:从顶会论文库找最匹配的参考案例,避免偏离学术规范;
- 规划智能体:把晦涩的方法论文本,翻译成清晰的「绘图脚本」,提炼核心模块与逻辑;
- 风格智能体:给脚本加上顶会级「审美滤镜」,优化配色、线条、模块样式;
- 可视化智能体:生成初始插图,支持两种模式;
- 批判智能体:像审稿人一样检查问题,循环 3 轮优化,直到完美。
更有意思的是,PaperBanana 介绍自身工作流程的示意图,都是它自己生成的,足以见其能力!
✅ 双生成模式,兼顾「数值精准」与「视觉美观」
针对科研绘图的不同需求,PaperBanana 设计了两种生成模式,完美解决了「精准度」和「美观度」的矛盾:
- 代码生成模式(默认):由 Gemini 3 Pro 自动生成 Matplotlib 可执行代码,运行后出图,数值 100% 精准,适合统计图表、带数值的实验结果图;
- 直接生图模式:跳过代码,由图像模型直接生成插图,视觉效果更高级,适合模型架构、方法论流程等无数值的示意图。
✅ 不仅能生成,还能优化!人工图也能变顶会级
PaperBanana 最贴心的一点是,它不只是「绘图工具」,还是「修图工具」。针对科研人已经画好的插图,它能通过自身的美学准则进行优化,让普通的人工图变得更专业、更贴合顶会风格 —— 实验显示,56.2% 的优化图在美学上超过了原图,再也不用为了「图的高级感」重新画了!
✅ 多端适配,小白也能一键上手
作为开源工具,PaperBanana 做到了易用性拉满,不管你是不懂代码的科研小白,还是需要二次开发的开发者,都能找到适合自己的使用方式:
- CLI 命令行:3 行命令就能生成图表,零基础也能操作;
- Python API:支持自定义配置,方便集成到科研工作流;
- MCP 服务器:可集成到 Claude Code、Cursor 等 IDE,写代码时直接生成插图,无缝衔接;
- 还提供了 Claude Code 专属技能,一键调用生成、评估功能。
而且项目基于MIT 协议开源,可自由自定义配置、扩展参考数据集,满足个性化的绘图需求,还扩展了幻灯片生成等谷歌原版没有的新功能,实用性再升级!
技术内核:不止是 AI 绘图,更是科研工作流的重构
PaperBanana 的强大,背后是成熟的多智能体架构和科学的评估体系,而非简单的「文本生图」。
它的工作流程分为线性规划和迭代优化两个阶段,5 个智能体协同工作,完全复刻了人类制作学术插图的思维:
- 线性规划阶段:先找参考、再定逻辑、最后优化风格,为绘图打下坚实基础;
- 迭代优化阶段:生成初稿后,由批判智能体反复检查修改,默认迭代 3 轮,确保图的逻辑和美观度双达标。
为了验证效果,团队还打造了PaperBananaBench 评估基准:从 5275 篇 NeurIPS 2025 论文中筛选出 584 个有效样本,用「VLM 大模型当裁判」的方式,对比生成图与人工图的质量。
实验结果堪称惊艳:综合得分比传统单模型生成提升 17%,其中简洁性提升 37.2%,可读性提升 12.9%;在人类盲测中,72.7% 的研究员认为 PaperBanana 生成的图优于基线模型,而统计图表的数值精准度,更是与人类水平持平!
适用于哪些兄弟用呢:不止是科研人,更是所有学术可视化需求者
PaperBanana 几乎适配所有有学术可视化需求的人群:
- AI / 计算机领域的科研人员、硕博研究生;
- 高校 / 科研院所的研究员,需要发表顶会 / 期刊论文;
- 大学老师 / 学生,需要制作学术汇报的插图和幻灯片;
- 科技博主 / 技术创作者,需要绘制清晰的技术图解。
而作为谷歌和北大联手打造的框架,PaperBanana 的潜力远不止于学术绘图。团队表示,未来它还能拓展到UI 设计、专利图纸等所有需要严格遵循规范的可视化领域,成为连接复杂科学概念与高效视觉叙事的桥梁。
PaperBanana 的出现,本质上是用 AI 解放科研人的双手,让科研人从繁琐的绘图内耗中抽离,把时间和精力花在真正的研究上 —— 毕竟,科研的核心是创新,而不是磨图。
如今这款工具已经完全开源,还做了功能扩展,对于科研人来说,无疑是 2026 年最值得收藏的工具之一。赶紧去项目地址体验,让你的论文插图一步到位拿捏顶会风格!
项目地址:https://github.com/llmsresearch/paperbanana
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.