所有人都知道长提示词烧钱。几乎没人知道,哪些部分其实可以删掉。
系统消息、风格指南、少样本示例、背景上下文——每个添加时都有道理。但几百次API调用后,开销滚雪球。问"哪段能删",诚实答案是:不测不知道。
![]()
Token Budget Negotiator把这个测试系统化。它把提示词拆成命名、分优先级的区块,运行贪婪消融循环,逐块删除并用本地或远程大模型评委按评分标准打分,直到节省达到目标且质量未跌破阈值。结果是仍保持原行为的最小提示词。
它以命令行工具、Python库、MCP服务器三种形态发布。
提示词区块的价值不等,但没有原则性方法能判断哪些对特定任务重要——除非测试。手动裁剪是猜谜。Token Budget Negotiator用经验方法回答:逐区块、逐任务、对照定义该用例质量的评分标准。
提示词定义为带命名区块的YAML文件。每个区块包含类型(系统、少样本、上下文、指令)、内容块、优先级整数。优先级决定删除顺序:低优先级先评估,高优先级后评估。
删除前,完整提示词先由评委大模型按评分标准打分,建立基线。运行质量目标为:基线分数 × 阈值。
消融循环按优先级升序遍历区块。对每个候选,构建不含该区块的测试提示词并重新打分。若分数仍达目标,永久删除该区块,用更新后的提示词继续循环。若否,保留该区块,评估下一个候选。
两个条件终止循环:
每次接受的删除都验证确实减少了Token数。循环不会产生比初始更大的提示词。
输出为NegotiationResult,包含原始与优化后的Token数、删除的区块列表、每步分数、质量保留百分比、耗时、打分调用次数、评分标准名称、完整消融日志。可写入JSON或YAML。
安装:
cd token-budget-negotiator
pip install -e .
需要Python 3.11+。本地评委路径需要Ollama且已拉取模型,已用gemma4:latest端到端验证。OpenRouter路径需要OPENROUTER_API_KEY。
分析Token分布
协商前,analyze命令打印各区块Token数及占总预算比例:
$ token-budget analyze examples/prompt.yaml
Token Distribution Analysis:
Section Type
正方:自动化裁剪是刚需
Prompt工程有个脏秘密:没人敢删。系统消息"可能重要",示例"也许有用",上下文"留着保险"。结果就是提示词肥胖症——平均调用成本里,有效信息密度低得惊人。
Token Budget Negotiator的刚性设计解决了这个心理陷阱。优先级强制排序,消融循环强制验证,评分标准强制定义"好"是什么。人做裁剪是拍脑袋,它做裁剪是走流程。
三种发布形态覆盖不同场景:命令行给运维脚本,Python库给业务代码,MCP服务器给AI Agent生态。这种全覆盖思路说明作者清楚——成本优化不是一次性脚本,是持续基础设施。
本地评委支持是关键设计。用Ollama跑gemma4:latest,意味着敏感数据不出内网,也意味着零额外API成本。对于高频调用场景,本地打分的固定成本摊薄后,边际成本趋近于零。
反方:评分标准才是隐藏Boss
但工具把最难的问题外包了:什么是"质量"?
消融循环的停止条件依赖评分标准,而评分标准需要人工编写。如果标准模糊,工具会"优化"掉人类认为重要的部分;如果标准过严,工具不敢删,优化失效。
更深层的问题:提示词质量是多维的。准确性、风格一致性、安全边界、用户满意度——不同场景权重不同。Token Budget Negotiator把这一切压成一维分数,信息损失不可避免。
还有优先级整数。谁决定系统消息是5还是3?这个前置判断本身就是人工经验,工具只是把它显性化,并未消除主观性。
YAML配置也增加了使用门槛。Prompt工程师现在需要维护:原始提示词、分块YAML、评分标准、优先级映射。复杂度从"写提示词"迁移到"配置优化流水线",团队是否有这个投入意愿?
判断:它是基础设施,不是银弹
Token Budget Negotiator的价值不在自动化本身,而在把不可讨论的成本变成可讨论的实验。
以前团队争论"这段上下文要不要",凭的是直觉和职级。现在可以跑一遍消融,看分数掉多少、Token省多少,用数字结束争论。这种"可观测性"比节省的那点Token钱更值钱——它让Prompt工程从手艺变成可迭代的工程。
但它确实把脏活累活推给了使用者:你得写评分标准,你得定优先级,你得解释为什么85分可以接受而84分不行。工具不负责回答这些问题,只负责在你回答后执行得比人更系统、更可复现。
对于日调用量过万、提示词版本混乱、成本压力真实的团队,这是值得接入的基础设施。对于偶尔调用的实验性项目,YAML配置的 overhead 可能不划算。
一个细节暴露设计意图:输出包含"完整消融日志"。这不是给机器看的,是给人类复盘用的——哪些区块被删了、哪步分数跳水、最终保留什么。工具在帮用户建立直觉,而非取代直觉。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.