网易首页 > 网易号 > 正文 申请入驻

LLM创造力可以被度量吗?一个基于提示词变更的探索性实验

0
分享至

大语言模型在demo阶段总是看起来很惊艳。但一旦进入到生产环境很多问题就暴露了:不稳定、不可预测,甚至直接不可用。

从实践来看,核心问题很少出在模型本身。更多时候是在于如何设计、评估和迭代应用模型的提示词。LLM应用的输入提示词必须适配具体任务,才能让模型在期望的输出范围内工作。

提示词工程在今天基本还是被当作一种"艺术"。这篇文章要讨论的就是为什么这是个问题,以及怎么把它变成一门可度量的工程学科。

提示词工程仍然是猜测

大多数团队的提示词改进流程其实很粗糙:有人写(或重写)提示词,跑几个例子,主观觉得"感觉好了一些",然后就上线了。

没有度量标准,没有基线,也没有对"更好"的明确定义。

这带来的直接后果是:提示词质量难以对比,评估基本靠外部响应来判断,回归问题不容易察觉,很多故障等到上线后才被发现。

提示词工程本质上极度主观,如果目标是构建可靠的AI系统,这就成了一个严重的瓶颈。

实际LLM使用中的两个对立问题

在生产环境里跑LLM,我发现有两个反复出现的问题。

不一致性:同一个提示词,不同的答案

同一条提示词跑多次会产生明显不同的输出。这不只是烦人的问题,而是对数据流水线、自动化决策系统、评估框架来说,这是实打实的可靠性风险。

高方差在这类场景下是bug不是feature。模型要么表现出确定性行为,要么至少得在可控范围内运行。

缺乏多样性:模型不够有创造力

反过来,有好几个实际项目中碰到了相反的困境:做创意生成、探索性分析、创意制作这类任务时,模型产出的内容彼此过于相似,概念覆盖面非常窄。一旦规模化,创造力就丢得干干净净。

这时候确定性就从优势变成了束缚。

一个简单的假设

提示词质量应该是可衡量的。

有些任务需要最小化输出方差,有些任务需要最大化多样性,而提示词的变更应该能推动结果朝可度量的方向移动。不同类型的任务也可以选择不同的度量标准。

既然模型行为可以衡量,提示词行为为什么不能?

为了验证这个想法,我选了模型行为的一个切面来入手:响应多样性,把它当作创造力的代理指标。

目标不是找到完美的度量方式,而是回答两个问题:提示词变更能不能转化为一致的数值差异?单次任务上的创造力/确定性到底取决于提示词还是仅取决于温度?

实验设置

实验规模不大,设计如下:

提示词

提示词A:

"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform."

提示词B在A的基础上加了一条指令:

"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform. Be as creative as possible."

模型和采样

采用单次生成模式,测试了多个LLM(具体型号这里略过),温度分别设为0 × max、0.5 × max和1 × max。每个(提示词、模型、温度)组合跑10次。

测试集选了4个主流模型家族的13个模型:OpenAI的GPT系列、Google的Gemini系列、Antropic的Claude系列,以及Deepseek。

通过Embedding衡量多样性

每条生成结果都计算了4096维的embedding向量。然后对每个实验集(固定提示词、模型和温度),取集合内embedding的最大成对距离作为响应多样性的度量。

逻辑很简单:距离小说明行为高度确定,距离大说明输出多样且有创造力。最终得到一个数值,描述模型响应的"分散程度"。

结果



汇总表,创意提示词版本导致了更显著的分散。同时温度并不总起作用。





基础提示词和创意提示词在模型-温度切片上的比较图。





每个模型在不同温度水平上的响应分散图

结果比预期要清晰得多。

跨模型来看有三个明显趋势:在提示词中加入明确的创造力指令,曲线一致上移;提高温度在一定程度上增大了响应多样性,但受限于小样本,这个结论还需谨慎看待;各模型对温度变化的响应方式差异很大没有统一规律。

提示词变更带来的是可预测的数值效果,而非随机噪声。

这说明两件事:提示词迭代不必完全依赖直觉,输出创造力是可量化的;这一假设有可能推广到更大的样本和不同的应用场景。

这套方法的实际意义在于:提示词可以通过数值做A/B测试,温度调优有了度量依据而不是靠猜,模型选择可以由任务需求驱动而非跟风。

它让团队能在提示词变更上线之前就对效果做出推断。

局限性

结果虽然是正向的但有几个局限

度量标准的任务特定性

这里定义的"创造力"严格来说是任务相关的。用embedding距离衡量的响应多样性,在创意生成、营销创意、探索性任务上作为创造力的代理指标还算合理,但在事实性问答、代码生成、结构化数据提取这些场景下可能毫无意义,甚至会产生误导。

不能把它当成模型质量的通用指标。目前我也在测试其他面向不同任务的度量标准。

对Embedding空间的依赖

所有测量都建立在特定embedding模型和距离度量之上。换用不同的embedding模型、向量归一化方式或距离函数,绝对值也是会变的,所以模型间的相对排名也可能有所不同。

但本实验中观察到的趋势是稳定的,所以结果应当按相对值来解读,不宜绝对化。

有限的样本量

每个配置只跑了有限次数。趋势虽然一致,但要减少方差、估计置信区间、得出统计上站得住的结论,样本量还远远不够。当前的发现更多是探索性的,不是定论。

提示词和领域偏差

实验只用了一种任务表述和一个窄领域(效果营销创意)。换到其他领域或提示词风格,效果可能更弱、更强,也可能呈现完全不同的行为模式。把这些结论向创意任务之外推广需要格外谨慎。

创造力与实用性的权衡

响应多样性高不等于结果好。高度多样化的输出里可能混着不相关的想法、低质量的建议和不连贯的回复。这个实验测的是方差,不是实用性更不是商业价值。实际应用中创造力度量必须和质量过滤或下游评估配合使用。

LLM的非平稳性

大语言模型会被提供商持续更新,所以绝对分数可能随时间漂移,分数可能在提示词没改的情况下发生变化,可复现性也可能下降。任何长期的基准测试工作都必须把这种非平稳性纳入考量。

相关性不意味着因果性

最后要说的是,温度、提示词指令和响应多样性之间虽然有明确的相关性,但这不代表对模型行为有了完整的因果理解。实验证明的是"提示词变更可以被衡量",而不是创造力可以被这套度量标准完全解释。

总结

这只是一系列研究的第一个实验,后续结果会在接下来的文章中陆续呈现。下一步计划:增加样本量,尝试不同的提示词,实验如何降低创造力,为其他类型任务定义新的度量标准,以及构建一个定期更新的模型排行榜来覆盖各项指标。

https://avoid.overfit.cn/post/e84eee36d7bc4263b9fd5dfe564e21d9

作者:Alexey Konoshenkov

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国已购买部分美国政府出售的委内瑞拉石油?外交部回应

中国已购买部分美国政府出售的委内瑞拉石油?外交部回应

北青网-北京青年报
2026-02-12 19:44:01
胖东来下架智利车厘子,工作人员:坏果太多、品质达不到要求,新上架了190元每斤的澳洲车厘子

胖东来下架智利车厘子,工作人员:坏果太多、品质达不到要求,新上架了190元每斤的澳洲车厘子

极目新闻
2026-02-12 19:58:46
网友吐槽:高铁买到“低人一等座”?12306回应:新增提醒,若介意可退

网友吐槽:高铁买到“低人一等座”?12306回应:新增提醒,若介意可退

上观新闻
2026-02-12 20:49:20
白宫摆下四大必杀局!中国直接逆天,美媒气炸了!

白宫摆下四大必杀局!中国直接逆天,美媒气炸了!

毛豆论道
2026-02-12 02:58:57
78岁郑少秋丧女两年至今神隐,汪明荃也难联络,曾给许绍雄送花牌

78岁郑少秋丧女两年至今神隐,汪明荃也难联络,曾给许绍雄送花牌

查尔菲的笔记
2026-02-12 19:25:00
1-2惜败,莱巴金娜赛后4字评价郑钦文,中国一姐下站比赛揭晓

1-2惜败,莱巴金娜赛后4字评价郑钦文,中国一姐下站比赛揭晓

大秦壁虎白话体育
2026-02-12 07:19:52
“变装女王”王莉霞,她的出场集锦堪称服装大秀场,穿着不输明星

“变装女王”王莉霞,她的出场集锦堪称服装大秀场,穿着不输明星

李昕言温度空间
2026-02-12 23:07:59
外交部:中美元首通话中 特朗普总统再次表达了4月访华的愿望

外交部:中美元首通话中 特朗普总统再次表达了4月访华的愿望

财联社
2026-02-12 15:26:07
16GB+1TB!新机官宣:2月26日,正式全球首发!

16GB+1TB!新机官宣:2月26日,正式全球首发!

科技堡垒
2026-02-12 12:24:27
立陶宛政府举白旗,全面接受中国条件,恶斗5年,中方大获全胜

立陶宛政府举白旗,全面接受中国条件,恶斗5年,中方大获全胜

吴欣纯Deborah
2026-02-12 14:15:05
震惊!网传安徽某公司春节安排两人加班,3倍工资,额外5000每人

震惊!网传安徽某公司春节安排两人加班,3倍工资,额外5000每人

火山詩话
2026-02-12 06:49:09
大批的越南女性来上海,她们都靠做什么生活?看完让人心酸

大批的越南女性来上海,她们都靠做什么生活?看完让人心酸

千秋文化
2026-02-11 21:59:24
震惊!4个月走私3834吨稀土,向中国举报的竟是美国企业

震惊!4个月走私3834吨稀土,向中国举报的竟是美国企业

有书
2026-02-12 21:00:08
中芯国际这次真够抢风头的

中芯国际这次真够抢风头的

蔚然先声
2026-02-12 08:33:06
大风追踪 | “母亲派出所遭民警责骂,男子插话后被拖进女厕群殴”,终审维持原判,涉案民辅警刑罚不变

大风追踪 | “母亲派出所遭民警责骂,男子插话后被拖进女厕群殴”,终审维持原判,涉案民辅警刑罚不变

大风新闻
2026-02-12 11:43:13
反转!皇马神锋离队在即,曼联介入交易,姆巴佩成唯一核心

反转!皇马神锋离队在即,曼联介入交易,姆巴佩成唯一核心

祥谈体育
2026-02-12 13:19:32
重庆力帆前外援吉利奥蒂:在中国时球员赛后不洗澡就直接回家

重庆力帆前外援吉利奥蒂:在中国时球员赛后不洗澡就直接回家

懂球帝
2026-02-12 11:37:07
59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

琴声飞扬
2026-02-12 11:51:25
钟南山:会用证据让全世界服气

钟南山:会用证据让全世界服气

第一财经资讯
2026-02-12 18:13:00
李嘉诚:未来十年,中国有接近一半的家庭,将面临住房等6大难题

李嘉诚:未来十年,中国有接近一半的家庭,将面临住房等6大难题

文叔故事汇
2026-02-10 13:53:43
2026-02-13 02:44:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1919文章数 1448关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

钟南山:会用证据让全世界服气

头条要闻

钟南山:会用证据让全世界服气

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

家居
教育
亲子
手机
军事航空

家居要闻

本真栖居 爱暖伴流年

教育要闻

AI替代人并不可怕,只需掌握这三条

亲子要闻

孩子最渴望听到父母说的五句话

手机要闻

科技记者古尔曼:预计苹果将在未来几周内推出iPhone 17e以及M4芯片版iPad Air

军事要闻

美国新交付F35隐身战机没雷达

无障碍浏览 进入关怀版