AI 术语通俗词典：温度（Temperature）|翻译|高温|top|重复性|temperature

分享至

温度是大语言模型、文本生成、解码策略、生成式人工智能和模型推理中非常常见的一个术语，它用来描述一种控制模型生成随机性和多样性的参数。换句话说，温度是在回答：模型在生成下一个 token 时，是更倾向于选择最稳妥的答案，还是允许更多变化和创造性。

如果说大语言模型在每一步生成时都会给出一组候选 token 的概率分布，那么温度就是调节这个概率分布“尖锐”或“平滑”的旋钮。温度越低，模型越倾向于选择高概率 token，输出更稳定、更保守；温度越高，低概率 token 也更容易被选中，输出更随机、更发散。

因此，温度常用于文本生成、写作助手、聊天机器人、代码生成、创意生成、故事续写、摘要生成和大语言模型 API 调用中，是理解模型输出风格和稳定性的重要基础概念。

一、基本概念：什么是温度

温度（Temperature）是控制生成模型采样随机性的参数。

图 1：什么是温度

在大语言模型中，模型并不是直接“想出一句话”，而是逐 token 生成文本。

每一步，模型都会根据已有上下文，为词表中的候选 token 计算一个分数，然后转换成概率分布。

例如，输入：

人工智能正在

模型可能给出下一个 token 的概率：

其他：0.05

如果温度较低，模型更可能选择“改变”。

如果温度较高，模型可能更容易选择“发展”“影响”“推动”等其他候选。

从通俗角度看：温度像一个“创意旋钮”。

• 低温：更稳、更确定、更少变化

• 高温：更多样、更随机、更有创意，但也更容易跑偏

需要注意：温度并不是控制模型“聪明程度”的参数。它主要控制的是生成时的随机性，而不是模型本身的知识水平或推理能力。

二、为什么需要温度

温度之所以重要，是因为很多生成任务并不只有唯一答案。

例如，用户要求：

请写一句广告语。

可能有许多合理回答。

如果模型每次都选择概率最高的 token，输出会更稳定，但也可能显得单调、保守、缺少变化。

而在创意写作、头脑风暴、故事续写、标题生成等任务中，用户往往希望模型给出更多可能性。

温度可以调节这种取舍。

1、需要稳定输出时

在以下任务中，通常希望温度较低：

• 事实问答

• 摘要

• 翻译

• 代码生成

• 数据抽取

• 格式化输出

• 技术解释

这些任务更看重准确、稳定和一致性。

2、需要多样输出时

在以下任务中，可以适当提高温度：

• 创意写作

• 广告文案

• 故事续写

• 角色对话

• 头脑风暴

• 标题生成

• 多方案构思

这些任务更看重变化、灵感和表达多样性。

从通俗角度看：温度让模型可以在“稳妥回答”和“发散生成”之间切换。

三、温度如何改变概率分布

模型生成下一个 token 时，通常先得到一组。

logits 可以理解为模型给每个候选 token 的原始分数。这些分数会经过 softmax 转换成概率。

加入温度后，常见形式为：

其中：

• pᵢ 表示第 i 个 token 被选中的概率

• zᵢ 表示第 i 个 token 的 logit 分数

• T 表示温度参数

• ∑ⱼ 表示对所有候选 token 求和

• exp 表示指数函数

温度 T 会改变概率分布的形状。

图 2：温度如何影响概率分布

1、低温：概率更集中

当 T < 1 时，较高 logit 的 token 会更加突出。概率分布会变得更尖锐。

也就是说，模型更倾向于选择最高概率候选。

从通俗角度看：低温会让模型更“谨慎”。

2、高温：概率更平滑

当 T > 1 时，不同 token 之间的概率差距会缩小。低概率 token 也有更大机会被采样到。

从通俗角度看：高温会让模型更“大胆”。

3、温度接近 0

当温度非常接近 0 时，模型几乎总是选择概率最高的 token。

这接近 Greedy Decoding，也就是“贪心解码”。

4、温度过高

如果温度过高，概率分布会过于平滑。

模型可能选择很多原本概率较低的 token，导致输出不稳定、跳跃、甚至不合逻辑。

因此，温度不是越高越好。

四、低温与高温的区别

温度的效果可以简单概括为：

• 低温：稳定、保守、重复性高

• 高温：多样、随机、创造性强

1、低温输出

假设提示词是：

请用一句话解释机器学习。

低温下，模型可能输出：

机器学习是一种让计算机从数据中学习规律并进行预测的方法。

这种回答稳定、清晰、常规。适合教材解释、技术说明、事实回答等任务。

2、高温输出

同样的提示词，高温下模型可能输出：

机器学习就像让计算机在大量例子中自己摸索规律，再把这些规律用于判断新情况。

这种回答可能更生动，但也更不稳定。

如果温度过高，甚至可能生成：

机器学习是一种让数据自己开口说话的魔法。

这种表达有修辞效果，但不一定适合严肃技术文章。

3、选择温度的原则

可以按任务目标选择：

• 准确优先：低温

• 稳定输出：低温

• 格式严格：低温

• 创意优先：中高温

• 多方案探索：中高温

从实践角度看：很多事实性、技术性任务适合使用较低温度；创意类任务可以适当提高温度，但仍需避免过高导致失控。

五、温度与 greedy、sampling、top-k、top-p 的关系

温度不是唯一的解码参数。它常常和 Greedy Decoding、Sampling、Top-k、Top-p 一起出现。

1、Greedy Decoding

Greedy Decoding 每一步都选择概率最高的 token。

可以理解为：每一步只选最可能的结果。

它输出稳定，但容易缺少变化，也可能陷入重复。

当温度非常低时，采样效果会接近 Greedy Decoding。

2、Sampling

Sampling 是按概率随机采样。

例如：

其他：0.05

sampling 不是永远选“改变”，而是按照概率随机选择。温度会影响这个概率分布。

3、Top-k

Top-k 会只保留概率最高的 k 个候选 token，再在其中采样。

例如，k = 3 时，只在前三个候选中选择。

从通俗角度看：Top-k 是先划定一个固定大小的候选集合。

4、Top-p

Top-p 也称 Nucleus Sampling，通常译为“核采样”。它会选择累计概率达到 p 的最小候选集合。

例如，p = 0.9 表示只在累计概率前 90% 的候选 token 中采样。

从通俗角度看：Top-p 是按概率质量动态决定候选集合大小。

5、它们如何配合

温度负责改变概率分布的形状。Top-k 和 top-p 负责限制候选 token 的范围。

图 3：温度与解码策略的关系

可以概括为：

• 温度：改变概率分布的尖锐程度

• Top-k：只保留前 k 个候选

• Top-p：只保留累计概率达到 p 的候选集合

• Sampling：从候选中随机选择

在实际使用中，温度通常会和 Top-p 或 Top-k 搭配使用。

六、温度在不同任务中的设置建议

温度没有唯一标准值，需要根据任务目标调整。下面给出常见经验范围。

1、事实问答与技术解释

适合较低温度：

temperature：0.0 ～ 0.3

这类任务更重视准确、清晰和稳定。

例如：

• 解释概念

• 回答事实问题

• 生成教材内容

• 技术文档说明

• 数据分析报告

2、摘要、翻译与信息抽取

也适合较低温度：

temperature：0.0 ～ 0.4

因为这些任务通常要求忠实原文、减少发挥。

例如：

• 翻译句子

• 总结文档

• 提取字段

• 生成固定格式 JSON

3、普通对话与改写

可使用中等温度：

temperature：0.4 ～ 0.8

这类任务既需要自然表达，也不能太发散。

例如：

• 日常问答

• 语气改写

• 邮件润色

• 普通写作辅助

4、创意写作与头脑风暴

可以使用较高温度：

temperature：0.8 ～ 1.2

这类任务更强调多样性和灵感。

例如：

• 故事开头

• 广告语

• 标题创意

• 角色对话

• 多方案构思

5、过高温度的风险

如果温度过高，模型可能出现：

• 答案不稳定

• 逻辑跳跃

• 事实错误增加

• 格式不受控

• 出现奇怪表达

• 更容易偏离用户要求

因此，对于严肃任务，不建议盲目提高温度。

七、温度的优势、局限与使用注意事项

1、温度的主要作用

温度最大的作用是调节生成结果的稳定性和多样性。它让同一个模型可以适应不同任务风格。

例如：

• 写技术解释时更稳定

• 写广告语时更多样

• 写代码时更保守

• 写故事时更发散

从通俗角度看：温度让模型在“标准答案模式”和“创意探索模式”之间切换。

2、温度的主要局限

温度也有局限。

首先，温度不能提升模型本身能力。

如果模型不知道某个事实，把温度调低或调高都不能真正补足知识。

其次，温度不能保证事实正确。

低温可能让模型更稳定，但如果最高概率答案本身是错的，模型仍然会稳定地输出错误。

再次，温度不能替代检索和工具。

对于最新信息、精确计算、文档问答，仍然需要 RAG、搜索、数据库或计算工具。

此外，不同模型对同一温度的表现可能不同。

某个模型的 temperature = 0.7，未必等于另一个模型的 0.7。

3、使用温度时需要注意的问题

使用温度时，需要注意：

• 温度控制随机性，不控制知识正确性

• 低温更稳定，但不保证一定正确

• 高温更多样，但更容易跑偏

• 技术解释、摘要、翻译适合低温

• 创意写作、头脑风暴可适当提高温度

• 温度常与 Top-p、Top-k 一起使用

• 严格格式输出时应降低温度

• 同一提示词在高温下多次运行可能结果差异较大

• 不同模型的温度效果可能不同

从实践角度看，温度是生成控制参数，不是质量保证参数。

八、温度的常见误解

误解一：温度越高，模型越聪明

不对。

温度越高，模型只是更随机、更发散，并不表示推理能力更强。

对于数学题、代码题、事实问答，过高温度反而可能降低可靠性。

误解二：温度越低，答案一定越正确

也不对。

低温让模型更稳定地选择高概率答案，但高概率答案未必一定正确。

如果模型内部知识错误或上下文不足，低温仍可能输出错误答案。

误解三：temperature = 0 就完全没有随机性

不一定。

在一些系统实现中，即使 temperature 设置为 0，也可能因为底层实现、并行计算、候选并列、工具调用或系统策略产生轻微差异。

但从概念上说，temperature 越接近 0，输出越确定。

误解四：所有任务都应该用同一个温度

不对。

不同任务目标不同。

例如，写法律条款摘要和写科幻故事，显然不应使用同样的生成随机性。

九、Python 示例

下面给出几个简单示例，用来帮助理解温度如何影响概率分布和采样结果。

示例 1：不同温度下的概率分布

一般会看到：

• temperature = 0.5 时，最高分 token 概率更突出

• temperature = 1.0 时，保持原始 softmax 效果

• temperature = 2.0 时，分布更平滑

示例 2：温度采样

这个例子中：

• 温度较低时，更容易采样到“改变”

• 温度较高时，其他 token 被采样到的概率增加

示例 3：多次采样观察输出差异

通常会看到：

• 低温结果更集中

• 高温结果更分散

这说明温度会影响生成的稳定性和多样性。

示例 4：temperature 接近 greedy 的情况

当 temperature 很低时，最高概率 token 会占据绝大部分概率。这时生成效果接近每次都选择最高概率 token。

示例 5：温度与 top-k 的简单结合

这个例子说明：

• Top-k 先限制候选范围

• temperature 再调节候选内部的概率分布

二者可以配合控制生成结果。

小结

温度是大语言模型生成时用于控制随机性和多样性的参数。低温会让概率分布更集中，输出更稳定、更保守；高温会让概率分布更平滑，输出更多样、更发散。温度不能提升模型知识或保证事实正确，它只是调节解码时的采样行为。对初学者而言，可以把温度理解为：控制模型生成时“稳一点”还是“放开一点”的旋钮。

“点赞有美意，赞赏是鼓励”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

AI 术语通俗词典：温度（Temperature）

历史最大IPO！马斯克下周冲击万亿富豪

青少年药物成瘾：一次吞下150多片 把刀架脖子上睡觉

青少年药物成瘾：一次吞下150多片 把刀架脖子上睡觉

选择中国品牌的库里，和他们的巨大野心

官方痛批乱象 刘涛郑恺等艺人遭点名

SpaceX发行价135美元 6月12日上市交易

专访蒋平：安全不做高低配 长安要让安全技术普惠

态度原创

江畔轻奢 观云大宅

6.8亿！保利拿下三亚今年第一块宅地！

微软Surface RTX Spark Dev Box更详细规格曝光

特朗普：若有美军士兵战死 将考虑终止与同伊朗停火

青少年药物成瘾：一次吞下150多片把刀架脖子上睡觉

青少年药物成瘾：一次吞下150多片把刀架脖子上睡觉

官方痛批乱象刘涛郑恺等艺人遭点名

专访蒋平：安全不做高低配长安要让安全技术普惠

江畔轻奢观云大宅

特朗普：若有美军士兵战死将考虑终止与同伊朗停火