网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

LLM创造力可以被度量吗？一个基于提示词变更的探索性实验

2026-02-12 21:08:30　来源: deephub

北京举报

0

分享至

大语言模型在demo阶段总是看起来很惊艳。但一旦进入到生产环境很多问题就暴露了：不稳定、不可预测，甚至直接不可用。

从实践来看，核心问题很少出在模型本身。更多时候是在于如何设计、评估和迭代应用模型的提示词。LLM应用的输入提示词必须适配具体任务，才能让模型在期望的输出范围内工作。

提示词工程在今天基本还是被当作一种"艺术"。这篇文章要讨论的就是为什么这是个问题，以及怎么把它变成一门可度量的工程学科。

提示词工程仍然是猜测

大多数团队的提示词改进流程其实很粗糙：有人写（或重写）提示词，跑几个例子，主观觉得"感觉好了一些"，然后就上线了。

没有度量标准，没有基线，也没有对"更好"的明确定义。

这带来的直接后果是：提示词质量难以对比，评估基本靠外部响应来判断，回归问题不容易察觉，很多故障等到上线后才被发现。

提示词工程本质上极度主观，如果目标是构建可靠的AI系统，这就成了一个严重的瓶颈。

实际LLM使用中的两个对立问题

在生产环境里跑LLM，我发现有两个反复出现的问题。

不一致性：同一个提示词，不同的答案

同一条提示词跑多次会产生明显不同的输出。这不只是烦人的问题，而是对数据流水线、自动化决策系统、评估框架来说，这是实打实的可靠性风险。

高方差在这类场景下是bug不是feature。模型要么表现出确定性行为，要么至少得在可控范围内运行。

缺乏多样性：模型不够有创造力

反过来，有好几个实际项目中碰到了相反的困境：做创意生成、探索性分析、创意制作这类任务时，模型产出的内容彼此过于相似，概念覆盖面非常窄。一旦规模化，创造力就丢得干干净净。

这时候确定性就从优势变成了束缚。

一个简单的假设

提示词质量应该是可衡量的。

有些任务需要最小化输出方差，有些任务需要最大化多样性，而提示词的变更应该能推动结果朝可度量的方向移动。不同类型的任务也可以选择不同的度量标准。

既然模型行为可以衡量，提示词行为为什么不能？

为了验证这个想法，我选了模型行为的一个切面来入手：响应多样性，把它当作创造力的代理指标。

目标不是找到完美的度量方式，而是回答两个问题：提示词变更能不能转化为一致的数值差异？单次任务上的创造力/确定性到底取决于提示词还是仅取决于温度？

实验设置

实验规模不大，设计如下：

提示词

提示词A：

"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform."

提示词B在A的基础上加了一条指令：

"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform. Be as creative as possible."

模型和采样

采用单次生成模式，测试了多个LLM（具体型号这里略过），温度分别设为0 × max、0.5 × max和1 × max。每个（提示词、模型、温度）组合跑10次。

测试集选了4个主流模型家族的13个模型：OpenAI的GPT系列、Google的Gemini系列、Antropic的Claude系列，以及Deepseek。

通过Embedding衡量多样性

每条生成结果都计算了4096维的embedding向量。然后对每个实验集（固定提示词、模型和温度），取集合内embedding的最大成对距离作为响应多样性的度量。

逻辑很简单：距离小说明行为高度确定，距离大说明输出多样且有创造力。最终得到一个数值，描述模型响应的"分散程度"。

结果

汇总表，创意提示词版本导致了更显著的分散。同时温度并不总起作用。

基础提示词和创意提示词在模型-温度切片上的比较图。

每个模型在不同温度水平上的响应分散图

结果比预期要清晰得多。

跨模型来看有三个明显趋势：在提示词中加入明确的创造力指令，曲线一致上移；提高温度在一定程度上增大了响应多样性，但受限于小样本，这个结论还需谨慎看待；各模型对温度变化的响应方式差异很大没有统一规律。

提示词变更带来的是可预测的数值效果，而非随机噪声。

这说明两件事：提示词迭代不必完全依赖直觉，输出创造力是可量化的；这一假设有可能推广到更大的样本和不同的应用场景。

这套方法的实际意义在于：提示词可以通过数值做A/B测试，温度调优有了度量依据而不是靠猜，模型选择可以由任务需求驱动而非跟风。

它让团队能在提示词变更上线之前就对效果做出推断。

局限性

结果虽然是正向的但有几个局限

度量标准的任务特定性

这里定义的"创造力"严格来说是任务相关的。用embedding距离衡量的响应多样性，在创意生成、营销创意、探索性任务上作为创造力的代理指标还算合理，但在事实性问答、代码生成、结构化数据提取这些场景下可能毫无意义，甚至会产生误导。

不能把它当成模型质量的通用指标。目前我也在测试其他面向不同任务的度量标准。

对Embedding空间的依赖

所有测量都建立在特定embedding模型和距离度量之上。换用不同的embedding模型、向量归一化方式或距离函数，绝对值也是会变的，所以模型间的相对排名也可能有所不同。

但本实验中观察到的趋势是稳定的，所以结果应当按相对值来解读，不宜绝对化。

有限的样本量

每个配置只跑了有限次数。趋势虽然一致，但要减少方差、估计置信区间、得出统计上站得住的结论，样本量还远远不够。当前的发现更多是探索性的，不是定论。

提示词和领域偏差

实验只用了一种任务表述和一个窄领域（效果营销创意）。换到其他领域或提示词风格，效果可能更弱、更强，也可能呈现完全不同的行为模式。把这些结论向创意任务之外推广需要格外谨慎。

创造力与实用性的权衡

响应多样性高不等于结果好。高度多样化的输出里可能混着不相关的想法、低质量的建议和不连贯的回复。这个实验测的是方差，不是实用性更不是商业价值。实际应用中创造力度量必须和质量过滤或下游评估配合使用。

LLM的非平稳性

大语言模型会被提供商持续更新，所以绝对分数可能随时间漂移，分数可能在提示词没改的情况下发生变化，可复现性也可能下降。任何长期的基准测试工作都必须把这种非平稳性纳入考量。

相关性不意味着因果性

最后要说的是，温度、提示词指令和响应多样性之间虽然有明确的相关性，但这不代表对模型行为有了完整的因果理解。实验证明的是"提示词变更可以被衡量"，而不是创造力可以被这套度量标准完全解释。

总结

这只是一系列研究的第一个实验，后续结果会在接下来的文章中陆续呈现。下一步计划：增加样本量，尝试不同的提示词，实验如何降低创造力，为其他类型任务定义新的度量标准，以及构建一个定期更新的模型排行榜来覆盖各项指标。

https://avoid.overfit.cn/post/e84eee36d7bc4263b9fd5dfe564e21d9

作者：Alexey Konoshenkov

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

玉渊谭天：奉劝法国别酒不醉人人自醉

北京日报 2026-02-12 08:22:18
6131 跟贴 6131
U17国足与日本队同组

北京晚报 2026-02-12 16:36:03
1192 跟贴 1192

德国俱乐部回应“樊振东是否将续约”

浙江之声 2026-02-12 15:24:55
162 跟贴 162

影石年会送出5套房员工：获奖房者都是90后、无高管

红星新闻 2026-02-12 14:13:24
2762 跟贴 2762
2月12日看点：短道速滑再演“中韩大战”

文汇报 2026-02-12 04:06:17
193 跟贴 193

马斯克谈Seedance 2.0：发展速度太快

财联社 2026-02-12 13:40:07
1388 跟贴 1388

报告：近六成日企计划今年扩大或维持对华投资

第一财经资讯 2026-02-12 11:01:30
2847 跟贴 2847
外交部：中国政府高度重视食品安全

财联社 2026-02-12 15:41:11
98 跟贴 98

中国运动员头部冲下摔倒本人晒照回应伤情

封面新闻 2026-02-12 12:45:20
202 跟贴 202
长江和记：邀请巴拿马就港口问题磋商

界面新闻 2026-02-12 18:41:33
705 跟贴 705
春运第一周58条中日航线取消全部航班

第一财经资讯 2026-02-12 03:20:29
913 跟贴 913
女孩网恋奔现去云南边境后续：男方催促急着用人，真实目的藏不住

无情有思可 2026-02-13 01:51:02
0 跟贴 0
美国要搞“北约3.0”

新华社 2026-02-12 18:57:03
508 跟贴 508
深圳17岁“少年烤鸡”店老板，开席请100人吃年夜饭！“花多少钱不重要，想真心实意谢谢他们”

大象新闻 2026-02-12 19:45:11
59 跟贴 59
温州帅哥王雄威轻生，兄弟曝原因：赚不到钱，老婆在健身房被勾走

被忽略的美好 2026-02-13 01:23:18
0 跟贴 0
河南邓州通报错领骨灰盒

北京日报 2026-02-12 17:47:44
188 跟贴 188
女子春节上门喂猫已接下26单收入近6000元

闪电新闻 2026-02-12 20:16:30
133 跟贴 133
湖北一男子想在丈母娘家表现，劈柴失误致骨折入院，当事人：估计恢复正常仍需几个月，之前没有劈过柴，没有经验

大象新闻 2026-02-12 14:49:03
18 跟贴 18
中南大学湘雅医院2025年外籍患者就诊人次较前年翻6倍

澎湃新闻 2026-02-12 20:48:26
51 跟贴 51
东北辽宁方大集团“霸总”累计给员工发40亿红包，现场摆数米高“现金墙”

大风新闻 2026-02-12 17:52:06
2 跟贴 2
长城汽车人均年终奖超5万元？魏建军：具体不知道，肯定多一些

每日经济新闻 2026-02-12 16:22:03
116 跟贴 116
1342万亿日元！日本国家债务创最高纪录

环球网资讯 2026-02-12 06:54:04
124 跟贴 124
胖东来下架智利车厘子，工作人员：坏果太多、品质达不到要求，新上架了190元每斤的澳洲车厘子

极目新闻 2026-02-12 19:58:46
0 跟贴 0
清华大学教授彭林：中国人已经陷入群体性迷失，“半人时代”横行

余們搞笑段子 2026-02-13 02:04:58
0 跟贴 0
12家第三方火车票网络销售平台被约谈（2026·02·12）

今日辟谣 2026-02-12 18:21:45
59 跟贴 59
网友吐槽：高铁买到“低人一等座”？12306回应：新增提醒，若介意可退

上观新闻 2026-02-12 20:49:20
0 跟贴 0

中国已购买部分美国政府出售的委内瑞拉石油？外交部回应

中国已购买部分美国政府出售的委内瑞拉石油？外交部回应

北青网-北京青年报

2026-02-12 19:44:01

胖东来下架智利车厘子，工作人员：坏果太多、品质达不到要求，新上架了190元每斤的澳洲车厘子

胖东来下架智利车厘子，工作人员：坏果太多、品质达不到要求，新上架了190元每斤的澳洲车厘子

极目新闻

2026-02-12 19:58:46

网友吐槽：高铁买到“低人一等座”？12306回应：新增提醒，若介意可退

网友吐槽：高铁买到“低人一等座”？12306回应：新增提醒，若介意可退

上观新闻

2026-02-12 20:49:20

白宫摆下四大必杀局！中国直接逆天，美媒气炸了！

白宫摆下四大必杀局！中国直接逆天，美媒气炸了！

毛豆论道

2026-02-12 02:58:57

78岁郑少秋丧女两年至今神隐，汪明荃也难联络，曾给许绍雄送花牌

78岁郑少秋丧女两年至今神隐，汪明荃也难联络，曾给许绍雄送花牌

查尔菲的笔记

2026-02-12 19:25:00

1-2惜败，莱巴金娜赛后4字评价郑钦文，中国一姐下站比赛揭晓

1-2惜败，莱巴金娜赛后4字评价郑钦文，中国一姐下站比赛揭晓

大秦壁虎白话体育

2026-02-12 07:19:52

“变装女王”王莉霞，她的出场集锦堪称服装大秀场，穿着不输明星

“变装女王”王莉霞，她的出场集锦堪称服装大秀场，穿着不输明星

李昕言温度空间

2026-02-12 23:07:59

外交部：中美元首通话中特朗普总统再次表达了4月访华的愿望

外交部：中美元首通话中特朗普总统再次表达了4月访华的愿望

财联社

2026-02-12 15:26:07

16GB+1TB！新机官宣：2月26日，正式全球首发！

16GB+1TB！新机官宣：2月26日，正式全球首发！

科技堡垒

2026-02-12 12:24:27

立陶宛政府举白旗，全面接受中国条件，恶斗5年，中方大获全胜

立陶宛政府举白旗，全面接受中国条件，恶斗5年，中方大获全胜

吴欣纯Deborah

2026-02-12 14:15:05

震惊！网传安徽某公司春节安排两人加班，3倍工资，额外5000每人

震惊！网传安徽某公司春节安排两人加班，3倍工资，额外5000每人

火山詩话

2026-02-12 06:49:09

大批的越南女性来上海，她们都靠做什么生活？看完让人心酸

大批的越南女性来上海，她们都靠做什么生活？看完让人心酸

千秋文化

2026-02-11 21:59:24

震惊！4个月走私3834吨稀土，向中国举报的竟是美国企业

震惊！4个月走私3834吨稀土，向中国举报的竟是美国企业

有书

2026-02-12 21:00:08

中芯国际这次真够抢风头的

蔚然先声

2026-02-12 08:33:06

大风追踪 | “母亲派出所遭民警责骂，男子插话后被拖进女厕群殴”，终审维持原判，涉案民辅警刑罚不变

大风追踪 | “母亲派出所遭民警责骂，男子插话后被拖进女厕群殴”，终审维持原判，涉案民辅警刑罚不变

大风新闻

2026-02-12 11:43:13

反转！皇马神锋离队在即，曼联介入交易，姆巴佩成唯一核心

反转！皇马神锋离队在即，曼联介入交易，姆巴佩成唯一核心

祥谈体育

2026-02-12 13:19:32

重庆力帆前外援吉利奥蒂：在中国时球员赛后不洗澡就直接回家

重庆力帆前外援吉利奥蒂：在中国时球员赛后不洗澡就直接回家

懂球帝

2026-02-12 11:37:07

59岁宋祖英现身活动状态惊艳！短发利落大气，黑色套装优雅端庄

59岁宋祖英现身活动状态惊艳！短发利落大气，黑色套装优雅端庄

琴声飞扬

2026-02-12 11:51:25

钟南山：会用证据让全世界服气

第一财经资讯

2026-02-12 18:13:00

李嘉诚：未来十年，中国有接近一半的家庭，将面临住房等6大难题

李嘉诚：未来十年，中国有接近一半的家庭，将面临住房等6大难题

文叔故事汇

2026-02-10 13:53:43

CV NLP和数据挖掘知识

1919文章数 1448关注度

往期回顾全部

科技要闻

10倍速的一夜：三大模型春节前的暗战

头条要闻

钟南山：会用证据让全世界服气

头条要闻

钟南山：会用证据让全世界服气

体育要闻

31岁首次参加冬奥，10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科？

汽车要闻

开212 T01柴油版去穿越连牧马人都跟不上

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

亲子

手机

军事航空

家居要闻

本真栖居爱暖伴流年

教育要闻

AI替代人并不可怕，只需掌握这三条

亲子要闻

孩子最渴望听到父母说的五句话

手机要闻

科技记者古尔曼：预计苹果将在未来几周内推出iPhone 17e以及M4芯片版iPad Air

军事要闻

美国新交付F35隐身战机没雷达

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版