大语言模型在demo阶段总是看起来很惊艳。但一旦进入到生产环境很多问题就暴露了:不稳定、不可预测,甚至直接不可用。
从实践来看,核心问题很少出在模型本身。更多时候是在于如何设计、评估和迭代应用模型的提示词。LLM应用的输入提示词必须适配具体任务,才能让模型在期望的输出范围内工作。
提示词工程在今天基本还是被当作一种"艺术"。这篇文章要讨论的就是为什么这是个问题,以及怎么把它变成一门可度量的工程学科。
提示词工程仍然是猜测
大多数团队的提示词改进流程其实很粗糙:有人写(或重写)提示词,跑几个例子,主观觉得"感觉好了一些",然后就上线了。
没有度量标准,没有基线,也没有对"更好"的明确定义。
这带来的直接后果是:提示词质量难以对比,评估基本靠外部响应来判断,回归问题不容易察觉,很多故障等到上线后才被发现。
提示词工程本质上极度主观,如果目标是构建可靠的AI系统,这就成了一个严重的瓶颈。
实际LLM使用中的两个对立问题
在生产环境里跑LLM,我发现有两个反复出现的问题。
不一致性:同一个提示词,不同的答案
同一条提示词跑多次会产生明显不同的输出。这不只是烦人的问题,而是对数据流水线、自动化决策系统、评估框架来说,这是实打实的可靠性风险。
高方差在这类场景下是bug不是feature。模型要么表现出确定性行为,要么至少得在可控范围内运行。
缺乏多样性:模型不够有创造力
反过来,有好几个实际项目中碰到了相反的困境:做创意生成、探索性分析、创意制作这类任务时,模型产出的内容彼此过于相似,概念覆盖面非常窄。一旦规模化,创造力就丢得干干净净。
这时候确定性就从优势变成了束缚。
一个简单的假设
提示词质量应该是可衡量的。
有些任务需要最小化输出方差,有些任务需要最大化多样性,而提示词的变更应该能推动结果朝可度量的方向移动。不同类型的任务也可以选择不同的度量标准。
既然模型行为可以衡量,提示词行为为什么不能?
为了验证这个想法,我选了模型行为的一个切面来入手:响应多样性,把它当作创造力的代理指标。
目标不是找到完美的度量方式,而是回答两个问题:提示词变更能不能转化为一致的数值差异?单次任务上的创造力/确定性到底取决于提示词还是仅取决于温度?
实验设置
实验规模不大,设计如下:
提示词
提示词A:
"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform."
提示词B在A的基础上加了一条指令:
"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform. Be as creative as possible."
模型和采样
采用单次生成模式,测试了多个LLM(具体型号这里略过),温度分别设为0 × max、0.5 × max和1 × max。每个(提示词、模型、温度)组合跑10次。
测试集选了4个主流模型家族的13个模型:OpenAI的GPT系列、Google的Gemini系列、Antropic的Claude系列,以及Deepseek。
通过Embedding衡量多样性
每条生成结果都计算了4096维的embedding向量。然后对每个实验集(固定提示词、模型和温度),取集合内embedding的最大成对距离作为响应多样性的度量。
逻辑很简单:距离小说明行为高度确定,距离大说明输出多样且有创造力。最终得到一个数值,描述模型响应的"分散程度"。
结果
![]()
汇总表,创意提示词版本导致了更显著的分散。同时温度并不总起作用。
![]()
![]()
基础提示词和创意提示词在模型-温度切片上的比较图。
![]()
![]()
每个模型在不同温度水平上的响应分散图
结果比预期要清晰得多。
跨模型来看有三个明显趋势:在提示词中加入明确的创造力指令,曲线一致上移;提高温度在一定程度上增大了响应多样性,但受限于小样本,这个结论还需谨慎看待;各模型对温度变化的响应方式差异很大没有统一规律。
提示词变更带来的是可预测的数值效果,而非随机噪声。
这说明两件事:提示词迭代不必完全依赖直觉,输出创造力是可量化的;这一假设有可能推广到更大的样本和不同的应用场景。
这套方法的实际意义在于:提示词可以通过数值做A/B测试,温度调优有了度量依据而不是靠猜,模型选择可以由任务需求驱动而非跟风。
它让团队能在提示词变更上线之前就对效果做出推断。
局限性
结果虽然是正向的但有几个局限
度量标准的任务特定性
这里定义的"创造力"严格来说是任务相关的。用embedding距离衡量的响应多样性,在创意生成、营销创意、探索性任务上作为创造力的代理指标还算合理,但在事实性问答、代码生成、结构化数据提取这些场景下可能毫无意义,甚至会产生误导。
不能把它当成模型质量的通用指标。目前我也在测试其他面向不同任务的度量标准。
对Embedding空间的依赖
所有测量都建立在特定embedding模型和距离度量之上。换用不同的embedding模型、向量归一化方式或距离函数,绝对值也是会变的,所以模型间的相对排名也可能有所不同。
但本实验中观察到的趋势是稳定的,所以结果应当按相对值来解读,不宜绝对化。
有限的样本量
每个配置只跑了有限次数。趋势虽然一致,但要减少方差、估计置信区间、得出统计上站得住的结论,样本量还远远不够。当前的发现更多是探索性的,不是定论。
提示词和领域偏差
实验只用了一种任务表述和一个窄领域(效果营销创意)。换到其他领域或提示词风格,效果可能更弱、更强,也可能呈现完全不同的行为模式。把这些结论向创意任务之外推广需要格外谨慎。
创造力与实用性的权衡
响应多样性高不等于结果好。高度多样化的输出里可能混着不相关的想法、低质量的建议和不连贯的回复。这个实验测的是方差,不是实用性更不是商业价值。实际应用中创造力度量必须和质量过滤或下游评估配合使用。
LLM的非平稳性
大语言模型会被提供商持续更新,所以绝对分数可能随时间漂移,分数可能在提示词没改的情况下发生变化,可复现性也可能下降。任何长期的基准测试工作都必须把这种非平稳性纳入考量。
相关性不意味着因果性
最后要说的是,温度、提示词指令和响应多样性之间虽然有明确的相关性,但这不代表对模型行为有了完整的因果理解。实验证明的是"提示词变更可以被衡量",而不是创造力可以被这套度量标准完全解释。
总结
这只是一系列研究的第一个实验,后续结果会在接下来的文章中陆续呈现。下一步计划:增加样本量,尝试不同的提示词,实验如何降低创造力,为其他类型任务定义新的度量标准,以及构建一个定期更新的模型排行榜来覆盖各项指标。
https://avoid.overfit.cn/post/e84eee36d7bc4263b9fd5dfe564e21d9
作者:Alexey Konoshenkov
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.