一个做加密钱包分析的团队,花了半年打磨产品,最后发现最大的瓶颈不是选哪个大模型,而是怎么跟模型说话。他们干脆做了个打分工具,把提示词质量拆成8个维度、满分80分。这件事本身比工具更值得聊——为什么到现在才有人系统性地量化这件事?
正方:提示词质量必须被量化
![]()
「Every AI model you're using is better than you think. Your prompts are the bottleneck.」
这是PQS(提示词质量分数)团队的原话。他们的核心论点很直接:模型能力被严重低估,真正卡脖子的是输入端。
他们举了个实时例子。同一模型、同一接口,提示词从「explain machine learning」改成结构化指令后,PQS从9/40跳到35/40,提升84%。输出从一句笼统定义,变成带角色设定、结构清单、受众定位、字数控制的完整方案。
这个对比戳中了一个痛点:大多数人写提示词靠直觉,优化靠试错,好坏靠感觉。PQS想把它变成可测量、可复现的工程问题。
他们的评分框架分两层。输入层4项:具体性(需求定义是否精确)、上下文(给模型的素材是否充足)、清晰度(指令有无歧义)、可预测性(多次运行结果是否稳定)。输出层4项:完整性(是否覆盖提示词隐含的全部要求)、相关性(是否回答真正的问题)、推理深度(是否展现结构化思考)、忠实度(是否紧扣提问内容)。
每项1-10分,总分80。8个维度,5个学术框架,1个数字。
更关键的是溯源。PEEM(提示工程评估模型)、HELM(语言模型整体评估)、PromptBench、Chain-of-Thought评估框架、Self-Consistency验证——每个维度都能追到经同行评审的文献。这不是拍脑袋的「感觉更好」,是可辩护的评分。
团队还做了一个反直觉的设计:不直接给你优化后的提示词就完事,而是原提示词和新提示词并行运行,输出并排对比。输出差异即证据,无需信任中介。
这个设计有产品思维。它解决的不是「优化提示词」这个技术问题,而是「凭什么相信你的优化」这个信任问题。在AI工具泛滥的当下,可验证比可优化更稀缺。
反方:量化可能是新的幻觉
但打分这件事本身,可能制造另一种误导。
第一个问题是维度完整性。PQS的8个维度覆盖了提示工程的主流文献,但「好提示词」的标准是否只有这8项?创意写作、代码生成、多轮对话、工具调用——不同场景的核心诉求差异极大。一个写小说的提示词,「可预测性」可能是缺点而非优点;一个调API的提示词,「推理深度」可能根本无关。
团队目前聚焦的是分析类任务(他们自己做的是加密钱包行为分析),框架的泛化能力尚未验证。把特定场景的评分标准包装成「通用质量分数」,有过度承诺的风险。
第二个更深层的问题:分数高等于结果好吗?
35/40的提示词确实结构工整,但「结构工整」和「解决用户真实问题」之间隔着一层。一个精心设计的提示词可能完美命中所有评分维度,却漏掉了提问者真正需要的角度。评分框架是自上而下的规范,用户需求是自下而上的涌现,两者不一定对齐。
还有「同行评审」这把保护伞。学术框架的引用增加了可信度,但也可能变成免责条款——「我们是基于研究的」可以回应一切质疑,却回避了研究本身的边界。PEEM评估的是提示工程技巧,HELM评估的是模型能力,PromptBench评估的是对抗鲁棒性,这些框架的初衷并非组合成一个「提示词质量」的单一指标。硬拼在一起,是否产生了新的概念偷换?
最后是最实际的质疑:这个分数能指导行动吗?
知道「具体性5分」比知道「写得不够具体」进步有限。真正的瓶颈往往是「我不知道自己没定义清楚什么」,而非「我知道没定义清楚但懒得改」。评分系统擅长识别症状,不擅长诊断病因。从9分到35分的跃迁,关键不是发现了低分,而是提供了一个高分的模板——但模板能复用到多少场景?
我的判断:评分是中间态,不是终点
PQS的真正价值,不在于它给出了一个「权威分数」,而在于它把提示词质量从黑箱拉进了可讨论的空间。
过去半年,AI社区经历了一场微妙的认知迁移。2023年初,大家疯狂比较模型排行榜;2023年中,注意力转向RAG(检索增强生成)和微调;2024年,提示工程重新被正视,但讨论方式变了——不再是「魔法咒语」的玄学分享,而是系统化方法的探索。PQS是这个趋势的一个节点。
它的问题也很明显:单一分数的压迫感、场景泛化的未验证、诊断深度的不足。但这些是「第一个命名系统」的必然代价。广告行业的CPM(每千次展示成本)1920年代诞生时,同样粗糙、同样有场景局限,但它提供了一个锚点,让优化有了方向,让交易有了语言。
PQS团队选择先做加密分析这个垂直场景,是聪明的。垂直意味着可验证——输出是否帮交易员赚到了钱,比分数本身更硬。如果PQS能在这个场景建立「高分提示词=更好商业结果」的因果链,再向外扩展,比一开始就宣称通用更有说服力。
更值得观察的是他们的「并排输出」设计。这暗示了一种产品哲学:在AI时代,可验证性比权威性更重要。用户不需要相信评分算法,只需要相信自己的眼睛。这种设计选择,可能比评分框架本身更有长期价值。
对科技从业者来说,这件事的启示是双重的。第一,提示词优化还有大量红利,但红利属于愿意系统化处理的人,而非继续靠直觉试错的人。第二,当你构建AI产品时,「可验证」应该成为核心设计原则——不是告诉用户「我更好」,而是让用户自己看到「哪里不同」。
如果你正在用AI处理任何关键任务,现在就可以做个实验:把同一个提示词运行三次,观察输出波动。如果三次结果差异明显,你的提示词在PQS的「可预测性」维度大概率不及格。修复它,比换模型便宜得多。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.