网易首页 > 网易号 > 正文 申请入驻

大模型常识篇——Temperature

0
分享至

大家好,我是 Ai 学习的老章

本文一起学习一下大模型中经常看到的一个参数——Temperature

Temperature: 用于调整随机从生成模型中抽样的程度,因此每次“生成”时,相同的提示可能会产生不同的输出。温度为 0 将始终产生相同的输出。温度越高随机性越大!主要用于控制创造力。
Temperature

大模型中的 temperature 参数用于控制模型输出的随机性和创造性。

较高的 temperature 值会增加输出的随机性,产生更多样化的结果,但也可能降低预测准确性。

较低的 temperature 值则会使输出更确定、更保守,更倾向于产生重复和更可预测的输出。

设置 temperature 时需要在随机性和准确性之间找到平衡。在测试大模型时,可以通过改变 temperature 的值来评估模型在不同情境下的表现,比如在创意生成、代码编写等任务中,观察其生成结果的变化。

除了 Temperature 这个最常被讨论的参数,我们还会经常看到以下参数:

  • top_p:限制被考虑的标记范围。若设为 0.5,则仅考虑累计概率不超过 50% 的最高概率标记。

  • top_k:同样限制被考虑的标记,仅考虑概率最高的前k个标记。

  • frequency_penalty: 根据生成文本中新词出现的频率对其进行惩罚。可设置为负值以鼓励重复。

  • presence_penalty: 若新词已出现在已生成文本中,则对其进行惩罚。可设置为负值以鼓励重复。

  • repetition_penalty: 该参数被记录为根据新词是否已在生成文本或提示中出现过而进行惩罚的参数。

开源模型推荐参数

开源权重与开源数据集的模型[1]

模型名称

temperature

top_p

top_k

deepseek-ai/DeepSeek-V3-0324

0.3

官方推荐 0.3,但部分基准测试使用 0.7。

deepseek-ai/DeepSeek-R1-0528

0.6

0.95

模型卡和论文均推荐此配置。

microsoft/phi-4

无 (报告用 0.5)

官方无推荐,但技术报告多用temperature=0.5

microsoft/Phi-4-reasoning

0.8

0.95

50

模型卡明确指定所有参数。

mistralai/Mistral-Small-3.2-24B-Instruct-2506

0.15

API 返回的旧版默认值与模型卡不符。

mistralai/Devstral-Small-2505

不明确 (示例用 0.15)

示例代码用 0.15,但 API 默认值为 0.0。

mistralai/Magistral-Small-2506

0.7

0.95

模型卡明确推荐,与 API 默认值一致。

qwen3 系列思考:

0.6
非思考:0.7

思考:

0.95
非思考:0.8

20

官方为不同模式提供明确参数建议。

THUDM/GLM-Z1-32B-0414

0.6

0.95

40

模型卡明确指定所有参数。


权重可用(非开源)模型

模型名称

temperature

top_p

top_k

google/gemma-3-27b-it

1.0

0.96

64

参数来自非官方确认,但已写入配置文件。

meta-llama/Llama-4-Scout-17B-16E-Instruct

0.6

0.9

参数来自配置文件,模型卡未提及。

关键结论与建议

  1. Temperature 是平衡随机性与确定性的核心参数,无统一最优值,需根据任务特性动态调整。

  2. 低 T 值适合追求准确性的任务,高 T 值适合追求创造性的任务,但需通过提示词或后处理(如核采样、Top-K 采样)辅助控制输出质量。

  3. 实际应用中建议进行小范围调优实验(如 T=0.7、1.0、1.3 对比),结合人工评估与客观指标确定最佳值。

关于 Temperature 的其他研究

The Effect of Sampling Temperature on Problem Solving in Large Language Models[2],这篇论文主要探讨了采样温度对大型语言模型(LLMs)解决问题能力的影响,具体内容如下:

  • 研究方法

    • 模型与提示:使用了 9 个流行的 LLM 模型,并结合 5 种提示工程技术,包括基线提示、领域专家提示、自我复述提示、思维链(CoT)提示和复合提示。

    • 数据:从标准的 LLM 基准测试中随机抽样,创建了包含不同领域和难度的多项选择题(MCQA)考试,包括大型考试(1000 题)和小型考试(100 题)。

    • 实验过程:在不同的采样温度(0.0 到 1.6)下,让模型使用不同的提示技术解决这些 MCQA 问题,并记录正确答案的准确率。同时,还使用了多种文本相似性指标来分析模型输出的可变性。

  • 研究结果

    • 准确率与温度的关系:在 0.0 到 1.0 的温度范围内,LLM 的问题解决性能相对稳定,没有显著的统计学差异。当温度超过 1.0 时,生成的文本会迅速变得不连贯,准确率开始下降,在 1.6 左右降至零。

    • 文本可变性与温度的关系:随着温度的升高,文本相似性降低,即文本可变性增加。这种趋势在温度超过 1.0 时更为明显,与准确率的下降趋势一致。

  • 研究结论

    • 实际应用建议:对于问题解决任务,建议将 LLM 的采样温度设置为 0.0,以最大化结果的可重复性,同时不影响准确性,并避免温度超过 1.0 时性能下降。

    • 研究局限性:研究仅涉及部分 LLM 模型、提示技术和问题领域,样本量有限,且未考虑其他采样参数的组合效应。

    • 未来研究方向:建议进一步研究更多 LLM 模型、扩展问题类型、增加问题数量和领域,以及深入分析温度对不同类型问题的影响。

Is Temperature the Creativity Parameter of Large Language Models?[3],这篇论文发现:

  • 创造力是复杂的,不仅需要新颖性,还需要有用性、连贯性等。比如,一个故事若只是随机堆砌词语(高温度),可能毫无逻辑,算不上真正的“创意”。

  • 固定实验条件:使用 LLAMA 2-CHAT 模型,用同一个简单 prompt(“Write a story.”)生成故事,仅改变温度参数(范围 0.001 到 2.0)。

  • 评估维度:从 4 个维度判断故事的创造力:

    • 新颖性(是否独特)、典型性(是否符合故事常见模式)、内聚性(句子和情节是否连贯)、连贯性(读者是否容易理解)。

  • 核心发现:温度的影响比想象中弱

    • 温度与新颖性:有微弱的正相关,即温度越高,故事偶尔会更独特,但效果不明显。

    • 温度与连贯性:呈负相关,温度越高,故事越可能逻辑混乱(比如情节跳跃、难以理解)。

    • 温度与典型性、内聚性:几乎没有关系。比如,高温度并不能让故事更符合某种类型(如冒险故事),也不能让句子衔接更自然。

    • 关键结论:温度只能带来有限的 “多样性”,但远不能代表 “创造力”。它更像是 “碰运气”—— 温度高可能偶然出现新颖内容,但也可能产生垃圾输出。

    • 创造力需要平衡 “新颖” 和 “有用”,而温度仅控制随机性,无法保证内容质量。

    • 比如,一个好的创意故事需要合理的情节、鲜明的角色,这些不是靠调高温度就能自动生成的,可能需要更复杂的模型设计或提示工程。温度参数对 LLM 的 “创意输出” 有一定影响,但远非决定性因素。真正的 AI 创造力需要更复杂的机制,而不是简单调参。未来研究应聚焦于如何让模型在 “随机” 和 “可控” 之间找到平衡,从而生成真正有价值的创意内容。

这篇论文:Exploring the Impact of Temperature on Large Language Models:Hot or Cold?[4],系统研究了大语言模型中temperature 参数(0-4.0 范围)对六种核心能力(因果推理、创造力、上下文学习、指令遵循、机器翻译、摘要生成)的影响,发现其对不同能力和模型规模(小 1B-4B、中 6B-13B、大 40B-80B)的影响差异显著:小模型对温度更敏感,高温易导致性能骤降;大模型在高温下更稳健。例如,机器翻译在小模型中性能波动可达 192.32%,而大模型仅 76.86%。研究提出基于 BERT 的温度选择器,在 SuperGLUE 数据集上显著提升中小模型性能,并验证了 FP16 与 4-bit 量化下温度效应的一致性。

核心结果:

  • 创造力(CT):中/大模型在T=1.3时表现最优,小模型在 T=1.0 时显著下降(见表 3)。

  • 机器翻译(MT):温度与性能呈强负相关,小模型性能波动达**192.32%,大模型仅76.86%**(见表 3)。

  • 指令遵循(IF):T>1 时性能骤降,小/中/大模型的突变温度分别为 1.0-1.3、1.3-1.6、1.6-1.9(图 2)。
    - 温度对 LLMs 的影响需结合任务类型(如 CT 需中高温,MT 需低温)和模型规模(小模型更敏感)动态调整,中小模型可通过BERT 选择器优化性能,大模型则可依赖其内在稳健性。

参考资料

开源权重与开源数据集的模型: https://muxup.com/2025q2/recommended-llm-parameter-quick-reference

The Effect of Sampling Temperature on Problem Solving in Large Language Models: https://arxiv.org/pdf/2402.05201

Is Temperature the Creativity Parameter of Large Language Models?: https://arxiv.org/pdf/2405.00492

Exploring the Impact of Temperature on Large Language Models:Hot or Cold?: https://www.themoonlight.io/file?url=https%3A%2F%2Farxiv.org%2Fpdf%2F2506.07295

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

趣文说娱
2026-04-17 21:37:03
朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

番外行
2026-04-16 08:25:40
32分大胜,绿凯还创纪录!塔图姆25+11乔治创纪录,布朗赛后摊牌

32分大胜,绿凯还创纪录!塔图姆25+11乔治创纪录,布朗赛后摊牌

鱼崖大话篮球
2026-04-20 06:19:59
马筱梅计划搬家,张兰家住不上,深夜爆哭曝出猛料,张兰惊呆了

马筱梅计划搬家,张兰家住不上,深夜爆哭曝出猛料,张兰惊呆了

一盅情怀
2026-04-19 19:20:56
天文学家彭罗斯:人类的死亡只是宇宙的幻象,生命是不可能终结的

天文学家彭罗斯:人类的死亡只是宇宙的幻象,生命是不可能终结的

心中的麦田
2026-03-06 19:27:32
咱输得起 网友批张雪机车夺冠是偶然 张雪回应2场0冠:这才是常态

咱输得起 网友批张雪机车夺冠是偶然 张雪回应2场0冠:这才是常态

风过乡
2026-04-20 06:58:27
爷爷生前录音赠孙女109万元遗产,六个姑姑不服要求平分,法院:录音无效,重新分配,患小儿麻痹症姑姑拿大头

爷爷生前录音赠孙女109万元遗产,六个姑姑不服要求平分,法院:录音无效,重新分配,患小儿麻痹症姑姑拿大头

鲁中晨报
2026-04-17 17:00:03
被渗透?中国军工出现内鬼,被抓时人赃并获,作案全过程曝光

被渗透?中国军工出现内鬼,被抓时人赃并获,作案全过程曝光

霁寒飘雪
2026-04-17 09:54:28
云南省佛教协会副会长祜巴玛哈香圆寂,享年59岁

云南省佛教协会副会长祜巴玛哈香圆寂,享年59岁

澎湃新闻
2026-04-17 10:34:30
惊天内幕!中国专家揭露美国攻打伊朗的真正目的,竟然是这个!

惊天内幕!中国专家揭露美国攻打伊朗的真正目的,竟然是这个!

橙色书卷
2026-04-18 22:56:03
纸老虎本质暴露:伊朗下达开火令,美舰紧急请求给15分钟逃离

纸老虎本质暴露:伊朗下达开火令,美舰紧急请求给15分钟逃离

小闻看世界
2026-04-20 09:58:44
1-0!马刺轻取开拓者,文班亚马35分破纪录,杨瀚森登场1分钟

1-0!马刺轻取开拓者,文班亚马35分破纪录,杨瀚森登场1分钟

老梁体育漫谈
2026-04-20 11:44:48
央视直播!广东VS山西全力横扫,拉科塞维奇上演首秀,杜锋冲前四

央视直播!广东VS山西全力横扫,拉科塞维奇上演首秀,杜锋冲前四

老叶评球
2026-04-19 18:17:01
张本兄妹改名风波再升级,韩媒强烈批评,这就是狠毒的创姓改称

张本兄妹改名风波再升级,韩媒强烈批评,这就是狠毒的创姓改称

有范又有料
2026-04-19 00:03:10
触目惊心,大学生正在沦为最廉价劳动力,教育初心何在?

触目惊心,大学生正在沦为最廉价劳动力,教育初心何在?

宏哥谈商道
2026-04-18 19:00:03
基辅发生大规模枪击事件,数十名平民死伤,凶手疑似与俄罗斯有关

基辅发生大规模枪击事件,数十名平民死伤,凶手疑似与俄罗斯有关

鹰眼Defence
2026-04-19 12:11:43
任泽平退款730万:价值4500万的恒大花瓶

任泽平退款730万:价值4500万的恒大花瓶

超先声
2026-04-17 16:34:01
阿森纳1-2,赛后阿尔特塔信心满满的表态引热议,球迷:其实慌了

阿森纳1-2,赛后阿尔特塔信心满满的表态引热议,球迷:其实慌了

侧身凌空斩
2026-04-20 02:32:20
乔冠华归葬故乡盐城受阻,苏州:盐城不要我们要,葬哪里都可以

乔冠华归葬故乡盐城受阻,苏州:盐城不要我们要,葬哪里都可以

史之铭
2026-04-15 21:54:17
最新民调!工党反超7%!国家党丢12席,或成为50年来首个“短命政府”!

最新民调!工党反超7%!国家党丢12席,或成为50年来首个“短命政府”!

这才是新西兰
2026-04-20 06:23:36
2026-04-20 12:03:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3334文章数 11137关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

体育要闻

七大奖项候选官宣!文班或全票DPOY

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

月之暗面IPO迷局

汽车要闻

外观非常惊艳 全新一代宝马6系有望回归

态度原创

游戏
家居
手机
艺术
公开课

光荣特库摩《仁王3》大更新官宣!DLC也有新进展

家居要闻

自然慢调 慢享时光

手机要闻

消息称某厂骁龙8 Elite Gen6 Pro手机新开6.9英寸直屏

艺术要闻

王羲之《换鹅帖》尚在人间,惊艳无比!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版