AI 做 PPT 最大的问题不是做不出来,是做出来太容易了。
我第一次用 Gamma,输入"产品路演",30 秒拿到一份 12 页幻灯片。封面有图,目录有结构,配色也算和谐。我看了两遍,没改一个字,直接关了——因为这份东西拿不出手。
![]()
为什么?因为"还行"和"能用"之间隔着一个数量级。生成只是流程的最后一步,前面该确认的环节全被跳过了。
90% 场景能用的东西,不值得用
市面上的 AI PPT 工具,从 Gamma 到 Beautiful.ai 到各种国产 SaaS,底层逻辑都一样:给你一个模板库,把你的文字塞进去,选个配色方案,交付。
这个模式在 90% 的场景下看起来没问题。封面有图,目录有结构,正文有排版。但决定你用不用这份 PPT 的,从来不是那 90%——是剩下的 10%。
风格从头到尾漂移,封面是科技蓝、正文变成文艺绿。排版在某些页面突然崩掉,信息密度忽高忽低。内容空洞,每页都像占位符。这些不是 bug,是一键生成工作流的必然结果:跳过所有需要确认的环节,直接给你一个"看起来完整"的东西。
工程上有个说法叫 march of nines——从 90% 到 99.9% 的爬坡,比从 0 到 90% 还难。AI PPT 卡的就是这最后一截:尾部质量不行,你最终还得自己重做。
ppt-image-first:把生成当终局的反面
ppt-image-first 是一个开源的 AI PPT 工作流,10 天内在 GitHub 拿到 555 颗星。思路跟一键生成完全反着来:先让你看够了,再往下走。
它的工作流是一个 14 阶段状态机。简单来说,5 个阶段:
1. Intake — 你告诉它用途、受众、有什么材料。它输出一个 baseline judgment,你确认。3 分钟。
2. 内容基底 — 它根据你的材料整理出一份 content_report.md。做的是结构化,把散乱素材理成层级。2 分钟,自动完成。
3. 风格预览 — 这是核心环节。它不直接生成最终 PPT,而是先出 3 套完整的首页、目录页、正文页预览图。每套 3 张,总共 9 张,基于你的真实内容生成,不是占位符。
![]()
我在测试时看到了三套:涂鸦创意风——手绘感、便签元素、高饱和色块;现代卡片风——超大标题、蓝紫渐变、网格布局;渐变潮玩风——柔和渐变、玻璃拟态。三套风格差异明显,但每套内部的三张图视觉语言统一。你可以直接对比,选一个最接近你想要的质感。
![]()
![]()
![]()
![]()
4. 规划锁定 — 选定风格后,它做一件有意思的事:风格反演。它不信任当初写的那段 prompt 文本,反过来从生成的图里提取风格事实——哪些配色是真的稳定出现的,哪些材质只是渲染的偶然效果,哪些装饰只在某一页成立。提取出来的结果生成一个 continuity anchor,锁定整份 PPT 的视觉一致性。然后才写设计规范、页面蓝图和锁定文件。
5. 生成评审 — 最终页面生成后,进入一个带画笔、矩形框、注释点的 HTML 评审工作台。你可以在图上直接标注哪里要改,标注数据自动保存。改完确认,才导出 PPTX。
![]()
三个 HTML 外壳——风格预览、候选选择、评审标注——是这个工具产品能力的具体体现。少了任何一个,工作流就断了一截。
我的体验
从启动到看到 9 张预览图,20 分钟。中间没什么卡顿——填完需求它自动出基底,基底确认完它自动出预览,每一步都给你看结果、让你确认。之后的规划锁定和生成评审就更顺了,方向已经定过。
这个工作流的认知负荷很低。你不需要想图层怎么排、配色怎么搭,只需要回答"哪个更贴近我想要的"。三个方案摆面前,比一个方案逼你表态,轻松得多。
![]()
![]()
这就是它和其他 AI PPT 工具的根本区别:AI 是提案机器,人是决策者。不是 AI 替你做 PPT,是 AI 给你穿上一套 Iron Man 套装——让你更强,但方向你定。
适合答辩、汇报、路演、产品介绍这类场景——需要设计感,但时间紧。艺术创作和极致定制就不太合适了,它的美学范围受限于预训练模型,天花板在那儿。
Apache-2.0 开源,支持 Claude Code / Codex CLI / WorkBuddy。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.