最新翻译OpenAI 2023《GPT-4 技术报告》全文和解释一些关键术语|算法|智能体|openai|gpt-4 技术报告

分享至

律融玫瑰@LawrenceLuk

本报告翻译和解释仅在于披露《GPT-4 Technical Report》（中文翻译：《GPT-4 技术报告》以下简称：报告）已经披露的内容，不做扩大解读或探讨，本翻译和解释也不构成对GPT-4模型产品进行推广使用，因报告披露内容有限（加上附录内容涉及敏感信息），解释和翻译过程仅根据报告主体内容，难免存在疏漏情况，用户需谨慎阅读，仔细甄别引用，原版报告所有权和解释权归出具报告方OPenAI 2023作者，报告以原英文报告内容为准，本报告仅为中文翻译和解释作者“律融玫瑰@LawrenceLuk”观点，如需引用本中文翻译报告和解释内容需注明出处“律融玫瑰@LawrenceLuk”，文章内容涉及到“我们”指原报告出具方，敬请留意。

1.介绍

本技术报告介绍了GPT-4，是一种能够处理图像和文本输入并产生文本输出的大型多模态模型。这些模型是一个重要的研究领域，因为它们有潜力被用于广泛的应用中，如对话系统、文本摘要和机器翻译。因此，它们一直是近年来的重大兴趣和进展的主题。

开发这种模型的主要目标之一是提高它们理解和生成自然语言文本的能力，特别是在更复杂和更微妙的场景中。为了在这种情况下测试它的能力，GPT-4在最初为人类设计的各种测试中进行了评估。在这些评估中，它的表现表现得相当好，而且得分往往超过了绝大多数的人类考生。例如，在一个模拟的律师考试中，GPT-4的成绩排名前10%。这与GPT-3.5形成了鲜明对比，后者排名倒数10%。

在一套传统的NLP基准测试中，GPT-4的性能优于以前的大型语言模型和大多数最先进的系统（它们通常有特定于基准测试的培训或手工工程）。在MMLU基准测试上，一套涵盖57个科目的英语多项选择题，GPT-4不仅在英语方面远远超过了现有的模型，而且在其他语言中也表现出了强大的性能。在MMLU的翻译变体上，GPT-4在26种语言中的24种中超过了最先进的英语语言。我们将在后面的章节中更详细地讨论这些模型性能结果，以及模型安全性改进和结果。

解释：1、自然语言处理（NLP）的基准测试是用来衡量和比较不同NLP系统性能的标准化测试任务。这些基准测试旨在评估NLP系统在不同类型的语言处理任务上的能力，如文本分类、情感分析、机器翻译、命名实体识别、问答系统等。

2、MMLU（Multilingual Multi-Level Unification）是一种新的基准测试，旨在评估多语言NLP模型的性能。MMLU基准测试不仅考虑了不同的语言，还考虑了不同的NLP任务和模型架构。它包含了12个任务，涵盖了文本分类、情感分析、命名实体识别、机器翻译等多个领域。MMLU基准测试的结果可以帮助研究者了解不同的多语言NLP模型在不同任务上的表现，并促进多语言NLP模型的研究和发展。

本报告还讨论了该项目的一个关键挑战，开发深度学习基础设施和优化方法，在广泛的范围内可以预测。这使得我们能够对GPT-4的预期性能（基于以类似方式训练的小运行）进行预测，并与最终运行相比进行测试，以增加我们对训练的信心。

尽管具有强大的功能，但 GPT-4 与早期的 GPT 模型具有相似的局限性：它不完全可靠（例如，可能会出现“幻觉”），上下文窗口有限，并且无法从经验中学习。使用 GPT-4 的输出时应小心，特别是在可靠性很重要的情况下。

GPT-4的能力和局限性带来了重大的和新的安全挑战，我们相信，考虑到潜在的社会影响，仔细研究这些挑战是一个重要的研究领域。该报告包括一个广泛的系统卡（附录之后），描述了我们预见的关于偏见、虚假信息、过度依赖、隐私、网络安全、扩散和其他方面的风险。它还描述了我们为减轻GPT-4部署的潜在危害而采取的干预措施，包括与领域专家进行的对抗性测试，以及一个模型辅助的安全管道。

2.本技术报告的范围和局限性

本报告重点介绍了GPT-4的能力、限制和安全性。GPT-4是一种转换器风格的模型，预先训练来预测文档中的下一个令牌，使用公开可用的数据（如互联网数据）和从第三方供应商许可的数据。然后使用来自人类反馈（RLHF）的强化学习对该模型进行了微调。考虑到像GPT-4 这样的大规模模型的竞争格局和安全影响，本报告没有包含关于架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法或类似内容的进一步细节。

我们致力于对我们的技术进行独立的审计，并在本版本附带的系统卡中分享了这一领域的一些初步步骤和想法。（见下文注释2）我们计划向更多的第三方提供更多的技术细节，这些第三方可以就我们如何权衡上述竞争和安全考虑与进一步提高透明度的科学价值提供建议。

报告注释2：除了附带的系统卡外，OpenAI还将很快发布关于人工智能系统的社会和经济影响的更多想法，包括对有效监管的必要性。

解释：人类反馈（RLHF）是指在强化学习中，智能体（agent）与人类之间交互时，人类提供的反馈信息。与传统的强化学习中，智能体只能通过环境给出的奖励信号来学习相比，人类反馈可以提供更加细致和具体的指导，帮助智能体更快、更准确地学习到想要的行为。通常，人类反馈可以分为两种类型：显式反馈和隐式反馈。显式反馈是指人类明确告诉智能体它的行为是好的还是坏的，例如给出一个奖励值或惩罚值。而隐式反馈是指人类通过观察智能体的行为，然后提供一些关于如何改进的建议或提示。人类反馈在许多领域都得到了广泛的应用，例如在游戏设计、机器人控制和自然语言处理等领域中，都可以利用人类反馈来提高智能体的性能和学习效率。

3.可预测的比例

GPT-4项目的一个主要重点是构建一个可预测的深度学习堆栈。主要原因是，对于像GPT-4这样的大型训练运行，进行广泛的模型特定调优是不可行的。为了解决这个问题，我们开发了跨多个尺度具有非常可预测行为的基础设施和优化方法。这些改进使我们能够从使用1000x-10,000x更少的计算训练的较小模型中可靠地预测GPT-4性能的某些方面。

3.1损失预测

经过适当训练的大型语言模型的最终损失被认为是用于训练模型的计算量的幂律来近似的。为了验证Openai的优化基础设施的可扩展性，通过拟合一个具有不可约损失项的尺度律来预测GPT-4在Openai内部代码库（而不是训练集的一部分）上的最终损失(如Henighan等人。[15]):L (C) = aCb+c；来自使用相同方法训练的模型，但最多比GPT-4少10000倍。这个预测是在运行开始后不久做出的，没有使用任何部分结果。拟合的比例律对GPT-4的最终损失具有较高的预测（图1）。

3.2人类的能力的扩展

在培训之前了解模型的能力，可以改善围绕对齐、安全和部署的决策。除了预测最终的损失外，我们还开发了预测更多可解释的能力指标的方法。

解释：对齐（Alignment）是指确保人工智能系统的行为与人类的价值和意图保持一致的过程。这是一个重要的问题，因为人工智能系统可能会出现意外行为，这些行为可能会与人类价值观相违背，导致不良的后果。对齐是人工智能安全和伦理方面的一个关键问题，它需要跨学科合作，涉及哲学、心理学、计算机科学等领域的专家。

其中一个指标是在HumanEval数据集上的通过率，它衡量了综合不同复杂度的Python函数的能力。通过从最多减少1；000次计算训练的模型中推断，我们成功地预测了HumanEval数据集的一个子集上的通过率（图2）。对于人类中的个体问题，表现偶尔会随着规模的扩大而恶化。尽管存在这些挑战，我们还是发现了一个近似的幂律关系-eP[日志（pass_rate (C)）] = α *C— k

解释：HumanEval数据集是一个用于自然语言处理（NLP）任务评估的数据集，由OpenAI发布。该数据集包含了一系列经过人工标注的英文句子，涵盖了多种语言处理任务，如语言模型、文本分类、命名实体识别等。

上图1（OpenAl代码库下一个单词预测每个单词的位数）：GPT-4和较小型号的性能。该指标是来自OpenAI内部代码库的数据集的最终损失。这是一个方便的大型代码令牌数据集，不包含在训练集中。OpenAI选择考虑损失，因为在不同数量的训练计算中，它往往比其他措施的噪音更小。小型模型（不包括GPT-4）的功率定律ft显示为虚线；这种拟合准确预测了GPT-4的最终损失。x轴是训练计算归一化，因此GPT-4是1。

上图2（对23个编码问题的能力测试）：GPT-4和较小型号的性能。该度量是在HumanEval数据集的一个子集上的平均对数通过率。虚线表示了适合较小模型（不包括GPT-4）的幂律；这种拟合准确地预测了GPT-4的性能。x轴是训练计算归一化的GPT-4是1。

我们在训练完成前，只使用GPT-4在人类eval上的信息，对其在人类环境上的表现进行了预测。除了15个最难的人类问题外，所有问题都根据小模型的性能分成6个难度桶。结果在3上rd最简单的桶如图2所示，显示了这个人类问题子集非常准确，我们可以准确地估计几个较小模型的log（pass_rate）。对其他五个桶的预测表现得几乎一样好，主要的例外是GPT-4的表现逊于我们对最简单的桶的预测。

解释：人类eval（evaluation）指的是通过人类专家的评估来评估机器学习模型或人工智能算法的性能。在机器学习和人工智能领域，通常会使用各种评估指标来评估模型的性能，例如准确率、召回率、F1分数等。这些指标可以帮助我们对模型的性能进行定量评估，但是它们并不能完全代表人类对某些任务的真实认知和判断。相比之下，人类eval的优势在于它可以提供更加贴近真实场景的评估结果。人类eval通常需要专业人员或受过训练的志愿者来进行评估。他们会对模型的输出进行人工标注或人工判断，并将结果与模型的输出进行比较。这种评估方法能够考虑到人类的认知能力、语言理解和语境等因素，因此更能够反映模型在实际应用场景中的表现。然而，人类eval也存在一些局限性，例如评估的主观性、可重复性和效率等方面的问题。此外，对于某些任务，例如图像处理和语音识别等，人类eval也可能存在一定的局限性，因为人类对于这些任务的认知和感知能力可能不如机器。综合来说，人类eval在机器学习和人工智能领域中仍然具有重要的地位，可以作为评估模型性能的一个重要手段。在实际应用中，需要根据具体任务的特点和要求来选择适合的评估方法，从而更好地评估和改进模型的性能。

在培训完成之前，我们仅使用培训前可用的信息，注册了GPT-4在HumanEval上的表现的预测。除了15个最难的HumanEval问题外，所有问题都根据较小模型的性能分为6个难度桶。图2显示了3r最简单的桶上的结果，表明对HumanEval问题的这一子集的预测非常准确，我们可以准确估计几个较小模型的对数（通过率）。其他五个桶的预测几乎也一样好，主要的例外是GP1-4在最简单的桶上表现不佳。

某些能力仍然难以预测。例如，逆尺度奖提出了几个任务，其中模型的性能随着尺度的函数而下降。这与Wei等人最近的一个研究结果类似。我们发现GPT-4逆转了这一趋势，如图3中的一个任务称为事后忽略所示。

图3，GPT-4和较小模型在事后忽视任务上的性能。y轴表示精度，越高越好。阿达、巴贝奇和库里指的是可通过OpenAI API [47]获得的模型。我们相信，准确预测未来的能力对安全很重要。接下来，我们计划在大型模型培训开始之前改进这些方法，并注册跨各种能力的性能预测，我们希望这成为该领域的一个共同目标。

我们相信，准确预测未来的能力对安全很重要。接下来，我们计划在大型模型培训开始之前改进这些方法，并注册跨各种能力的性能预测，我们希望这成为该领域的一个共同目标。

4.功能

我们在一系列不同的基准测试上测试了GPT-4，包括模拟最初为人类设计的测试（考试）（注释4）。我们没有为这些考试进行过专门的培训。考试中的少数问题是模型在训练中看到的；对于每一个考试，我们都运行一个变体，删除这些问题，并报告两个较低的分数。我们相信这些结果是具有代表性的。有关污染的更多细节（检测方法和每次检查的统计数据），请参见附录C（本中文翻译报告不提供）。

考试来源于公开可获得的材料。考试问题包括多重回答问题和自由回答问题；我们为每种格式设计了单独的提示，图像被包含在需要它的问题的输入中。评估设置是基于一组验证考试的表现而设计的，我们报告了保留测试考试的最终结果。总体分数是通过结合多项选择题的分数和自由回答题的分数来确定的。我们估计并报告了每个总体得分对应的百分位数。关于考试评估方法的详情见附录A。

报告注释3：对于AMC 10和AMC 12 2022考试，人类的百分位数尚未公布，因此报告的数字是外推的，可能有很大的不确定性。见附录A.5（本中文翻译报告不提供）。

报告注释4：我们在这些考试中使用了训练后的RLHF模型。

解释：RLHF（Reward Learning from Human Feedback）是一种基于人类反馈学习奖励信号的强化学习方法。在传统的强化学习中，智能体通过与环境进行交互，根据奖励信号来更新策略，从而实现目标任务的优化。然而，在某些任务中，奖励信号可能很难定义或很难获取，这时就需要借助人类反馈来辅助智能体学习。RLHF模型的基本思想是通过人类反馈来学习奖励信号，从而实现智能体的强化学习。具体来说，智能体会不断地向人类请求反馈，根据人类反馈来学习奖励信号，并将其作为更新策略的信号。通常情况下，人类反馈可以分为两种类型：正反馈和负反馈。正反馈表示智能体的行为是正确的或有益的，负反馈则表示智能体的行为是错误的或不良的。智能体会根据不同类型的反馈来更新策略，并逐步优化任务性能。与传统的基于奖励信号的强化学习相比，RLHF模型具有以下优势：RLHF模型能够利用人类反馈来学习复杂的任务，即使任务的奖励信号很难定义或很难获取。RLHF模型可以避免人为定义奖励信号所带来的问题，例如奖励信号的选择和设计。RLHF模型可以根据人类反馈进行实时学习和更新，从而快速适应不同的任务和环境。总的来说，RLHF模型是一种非常有前景的强化学习方法，它可以通过与人类合作来学习复杂的任务，具有广泛的应用前景。

表1说明：GPT在学术和专业考试中的表现。在每种情况下，我们都会模拟真实考试的条件和评分。我们报告GPT-4的最终分数根据特定考试规则进行评分，以及达到GPT-4分数的考生的百分位数。比如律师资格考试和法学院入学考试GPT-4表现尤佳。

图4（考试成绩（按GPT-3.5性能排序）GPT在学术和专业考试中的表现。在每一种情况下，我们都模拟了真实考试的条件和评分。考试将根据GPT-3.5的性能从低到高进行。GPT-4在大多数考试中的表现都优于GPT-3.5。保守地说，我们报告了百分位数范围的低端，但这在AP考试中产生了一些工件，它们有非常宽的评分箱。例如，尽管GPT-4在AP生物学上获得了最高的分数（5/5），但这只在图中显示为第85百分位，因为15%的考生达到了这个分数。

GPT-4在这些专业和学术考试中表现出了人类水平的表现。值得注意的是，它通过了一个模拟版本的统一律师资格考试，得分在考生的前10%（表1，图4）。该模型的考试能力似乎主要源于训练前的过程，并没有受到RLHF的显著影响。在多项选择题上，基本的GPT-4模型和RLHF模型在我们测试的考试中平均表现得同样好（见附录B，本中文翻译报告不提供）。我们还在为评估语言模型而设计的传统基准上评估了预先训练过的基础GPT-4模型。对于我们报告的每个基准，我们对出现在训练集中的测试数据进行了污染检查（关于每个基准污染的详细信息见附录D）。（注释5）在评估GPT-4时，我们对所有基准测试使用了少量提示。（注释6）

GPT-4的性能大大优于现有的语言模型，以及以前的最先进的（SOTA）系统，这些系统通常具有特定于基准测试的手工制作或额外的训练协议（表2）。

解释：SOTA代表最先进技术（State-of-the-Art），是指当前领域内已知最优秀的方法或系统。在机器学习和人工智能领域，SOTA通常是指在某项任务上取得的最高性能水平，通常以评估指标来衡量，例如准确率、F1分数等。在机器学习和人工智能领域，SOTA系统通常指在某个任务或领域中具有最高性能的系统。这些系统通常是由经验丰富的研究人员和工程师设计和实现的，它们通过使用最新的技术和算法来优化性能，并在公开数据集或比赛中获得最佳结果。这些系统通常具有高精度、高速度和高可靠性等特点，可以广泛应用于各种实际场景中。一些常见的SOTA系统包括语音识别系统、自然语言处理系统、计算机视觉系统等。例如，当前在语音识别领域的SOTA系统包括Google的Translatotron、Microsoft的Speech-to-Text、百度的DeepSpeech等。在自然语言处理领域，当前的SOTA系统包括Google的BERT、OpenAI的GPT、Facebook的RoBERTa等。在计算机视觉领域，当前的SOTA系统包括Microsoft的MSRA ResNet、Facebook的Detectron2、Google的EfficientNet等。总之，SOTA系统是指在某个领域或任务中性能最优秀的系统，它们代表着该领域的最新进展和最佳实践，并为相关研究和应用提供了有力的支持

报告注释5：在我们的污染检查中，我们发现部分大台[48]无意中混合到训练集中，我们将其从我们的报告结果中排除。

报告注释6：对于GSM-8K，我们在GPT-4的训练前组合中包含了部分训练集。我们在评估时使用思维链提示。

表2。GPT-4在学术基准上的表现。我们比较了GPT-4与最佳SOTA（与基准特定训练）和LM评估的最佳SOTA。GPT-4在所有基准测试上都优于现有的lm，并且在除DROP之外的所有数据集上通过特定基准测试训练优于SOTA。对于每个任务，我们报告GPT-4的表现以及用于评估的少镜头方法。对于GSM -8K，我们在GPT-4训练前组合中包含了部分训练集（见附录E，本中文翻译报告不提供），并在评估时使用思维链提示。对于多项选择题，我们将所有的答案（ABCD）呈现给模型，并要求它选择答案的字母，类似于人类将如何解决这样的问题。

解释：GSM-8K是一种音频编码格式，也称为GSM Full Rate或GSM 06.10。它是GSM（Global System for Mobile Communications）移动电话标准中用于语音编码的一种格式，旨在在低码率下实现高质量的语音传输。GSM-8K采用了一种名为RPE-LTP（Regular Pulse Excitation - Long Term Prediction）的编码算法，将音频信号分成20毫秒的帧，并对每一帧进行压缩。在编码过程中，RPE-LTP算法将语音信号分成固定和可变的成分，使用线性预测编码（LPC）来处理可变的成分，使用脉冲编码调制（PCM）来处理固定的成分。GSM-8K编码器可以将输入音频信号压缩到每秒13 kbit/s的比特率，并且可以实现语音通话的高质量传输。它被广泛应用于GSM移动通信网络和其他低带宽语音通信系统中，如VoIP、视频会议等。需要注意的是，尽管GSM-8K在低带宽环境下具有较高的音质表现，但它并不是一种高保真度的音频编码格式。在高质量音频应用中，通常采用更高比特率的编码格式，如AAC、MP3等。

许多现有的ML基准测试都是用英语编写的。为了初步了解GPT-4在其他语言中的能力，我们使用 Azure翻译将MMLU基准测试[35,36]——一套跨越57个主题的多重推理问题——翻译成多种语言（参见附录F，例如翻译和提示）。我们发现，在我们测试的大多数语言中，GPT-4和PA-4的性能优于英语语言，包括拉脱维亚语、拉尔士语和[3]语（图5）。

GPT-4在遵循用户意图[63]的能力方面比以前的模型有了显著的改进。在提交给ChatGPT [64]OpenAI API [47]的5,214个提示的数据集上，GPT-4生成的响应比GPT-3.5对70.2%的提示生成的响应更受青睐。（注释7）我们是开源的OpenAI Evals（注释8），我们的框架用于创建和运行基准，以评估像GPT-4这样的模型，同时逐个样本检查性能。Evals与现有的基准测试兼容，并可用于跟踪部署中的模型的性能。我们计划随着时间的推移，增加这些基准的多样性，以代表更广泛的故障模式和一组更困难的任务。

报告注释7：我们收集了通过ChatGPT和OpenAI API发送给我们的用户提示，从每个模型中采样一个响应，并将这些提示和响应发送给人类标签者。标签人员被要求判断响应是否是用户给出提示时想要的。标签者没有被告知哪个反应是由哪个模型产生的，反应呈现的顺序是随机的。我们会过滤掉包含任何类型的不允许或敏感内容的提示，包括个人身份信息（PII）、性内容、仇恨言论和类似的内容。我们也过滤了较短的部分。“ 你好，ChatGPT！”)和过于常见的提示。

报告注释8：https://github.com/openai/evals

图5。GPT-4在多种语言中的性能与之前在MMLU中的英语模型相比。GPT-4在绝大多数测试语言中优于现有语言模型[2,3]的英语语言，包括资源丰富的语言，如拉脱维亚语、威尔士语和斯瓦希里人。

解释：GPT-4在中文方面表现为80.9%，相比GPT3.5英语语言模型相对还高。

4.1视觉输入

GPT-4接受由图像和文本组成的提示，这与仅文本设置平行，允许用户指定任何视觉或语言任务。具体来说，该模型生成给定由任意交错的文本和图像组成的文本输出。在一系列的领域中— —包括带有文本和照片、图表或屏幕截图的文档——GPT-4显示出与它在纯文本输入上类似的功能。表3是GPT-4的视觉输入实例。为语言模型开发的标准测试时间技术(例如。当同时使用图像和文本时，它也同样有效——例子请参见附录G（本中文翻译报告不提供）。

关于一套狭窄的学术愿景基准的初步结果可以在GPT-4的博客文章中找到。我们计划在后续工作中发布更多关于GPT-4的视觉能力的信息。

表3。演示GPT-4的视觉输入能力的示例提示。提示符包含一个关于GPT-4能够回答的具有多个面板的图像的问题。

5.限制

尽管具有能力，但GPT-4与早期GPT模型有类似的局限性。最重要的是，它仍然不是完全可靠的（它“幻觉”事实，并产生推理错误）。在使用语言模型输出时，应该非常小心，特别是在高风险上下文中，使精确的协议符合特定应用程序的需要（如人工审查，附加上下文，或完全避免高风险使用）。详情请参见我们的系统卡。

与之前的GPT-3.5模型相比，GPT-4显著减少了幻觉（这些模型本身也随着持续的迭代而有所改善）。在我们内部的、反向设计的事实性评估中，GPT-4的得分比我们最新的GPT-3.5高出19个百分点（图6）。

图6。GPT-4在9个内部反向设计的事实评估上的性能。y轴表示精度，越高越好。1.0的准确性意味着模型的答案被认为与人类对当时所有问题的理想回答相一致。我们将GPT-4与基于GPT-3.5的三个早期版本的ChatGPT [64]进行了比较；GPT-4比最新的GPT-3.5模型提高了19个百分点，在所有主题上都有显著的提高。

GPT-4在像TruthfulQA [66]这样的公共基准测试上取得了进展，它测试了模型从反向选择的错误语句中分离事实的能力（图7）。这些问题以及实际上不正确的答案。GPT-4的基础模型在这项任务上只比GPT-3稍好一些。5；然而，在RLHF训练后，我们观察到比GPT-3.5有很大的改善。（注释9）表4同时显示了正确答案和错误答案。GPT-4拒绝选择常用的说法（你不能教一个老狗新的技巧），但是它仍然可以错过微妙的细节（埃尔维斯·普雷斯利不是一个演员的儿子，所以帕金斯是正确的答案）。

GPT-4通常缺乏对2021年9月其绝大多数训练前数据被切断后发生的事件的了解（注释10），并没有从它的经验中吸取教训。它有时会犯简单的推理错误，这些错误似乎不符合许多领域的能力，或者过于容易接受用户明显错误的陈述。它可能会像人类一样在硬问题上失败，比如在它生成的代码中引入安全漏洞。

报告注释9：我们没有检查RLHF训练后数据的真实QA污染

报告注释10：训练前和训练后的数据包含了少量的最新数据

GPT-4的预测也可能是错误的，当它可能出错时，它不小心仔细检查工作。有趣的是，预先训练过的模型是经过高度校准的(其预测对答案的信心通常与正确的概率相匹配)。然而，经过训练后的过程后，校准减少了（图8）

GPT-4在其输出中有各种偏差，我们已经努力加以纠正，但这将需要一些时间来充分描述和管理。我们的目标是使GPT-4和我们构建的其他系统具有合理的默认行为，反映了广泛的用户价值，允许这些系统在一些广泛的范围内被定制，并获得关于这些边界应该是什么的公共输入。更多细节请参见OpenAI 。

6.风险和缓解措施

我们在提高GPT-4的安全性和对齐性方面投入了大量精力。在这里，我们强调了我们对领域专家在对抗性测试和红色团队中的使用，以及我们的模型辅助安全管道，以及与之前的模型相比，安全指标的改进。

通过领域专家进行的对抗性测试：GPT-4会与较小的语言模型构成类似的风险，比如生成有害的建议、有错误的代码或不准确的信息。然而，GPT-4的额外能力带来了新的风险表面。为了了解这些风险的程度，我们参与了进来来自长期人工智能对齐风险、网络安全、生物识别和国际安全等领域的50多名专家对该模型进行了反向测试。他们的发现特别使我们能够测试高风险领域的模型行为，这些领域需要利基专业知识来评估，以及评估将与非常先进的ai相关的风险，如权力寻求。从这些专家那里收集的建议和培训数据纳入了我们对模型的缓解和改进；例如，我们收集了额外的数据，以提高GPT-4拒绝关于如何合成危险化学品的要求的能力（表5）。

模型辅助安全管道：与之前的GPT模型一样，我们使用使用人类反馈（RLHF）的强化学习来对模型的行为进行微调，以产生更好地与用户意图相一致的反应。然而，在RLHF之后，我们的模型在不安全的输入上仍然很脆弱，有时在安全和不安全的输入上都表现出不希望的行为。在RLHF管道的奖励模型数据收集部分中，当对标签符的指令未被充分指定时，就会出现这些不希望的行为。当给予不安全的输入时，该模型可能会产生不受欢迎的内容，例如就犯罪提供建议。此外，该模型也可能对安全输入过于谨慎，拒绝无害的请求或过度对冲。为了引导我们的模型在一个更细粒度的水平上走向适当的行为，我们严重依赖于我们的模型本身作为工具。

我们的安全方法包括两个主要组成部分，一组额外的与安全相关的RLHF培训提示，和基于规则的奖励模型（RBRMs）。我们的基于规则的奖励模型（rbrm）是一组零射击的GPT-4分类器。这些分类器在RLHF微调期间为GPT-4策略模型提供了额外的奖励信号

解释：规则的奖励模型（RBRMs）是指基于预定义规则的一种奖励函数，用于在强化学习中对智能体的行为进行评估和奖励。在强化学习中，智能体通过与环境进行交互来学习如何最大化累计奖励。而奖励函数是评估智能体行为的关键因素之一，其目的是为智能体提供一种明确的反馈，指导其学习适当的行为。

正确的行为，如拒绝生成有害的内容或不拒绝无害的请求。RBRM接受三个输入：提示符（可选的）、来自策略模型的输出和一个人工编写的标题(e。g.，一组具有多项选择题风格的规则)，以确定应该如何评估这个输出。然后，RBRM根据标题对输出进行分类。例如，我们可以提供一个标题，指示模型将一个响应分类为： (a)以期望的风格拒绝，(b)以不希望的风格拒绝（例如，回避或杂乱），包含不允许内容的(c)，或(d)是一个安全的非拒绝响应。然后，在一套与安全相关的培训提示中，我们要求提供有害的内容，如非法建议，我们可以奖励拒绝这些请求的GPT-4。相反，我们可以奖励GPT-4不拒绝一个保证安全和负责的提示子集的请求。这项技术与Glaese等人的工作有关。[71]和Perez等人。[72].这一点，结合其他改进，如计算最优RBRM权重，并针对我们想要改进的区域提供额外的SFT数据，使我们能够引导模型更接近所期望的行为。

安全指标上的改进：我们的缓解措施显著改善了GPT-4的许多安全性能。与GPT-3.5相比，我们已经将模型响应不允许内容请求的趋势（表6）降低了82%，并且GPT-4响应敏感请求(e。g., 医疗建议和自残，表7)，根据我们的政策，经常增加29%（图9）。在实际毒物提示数据集上，GPT-4产生毒性产物的几率只有0.73%，而GPT-3。5产生有毒含量的时间为6.48%。

总的来说，我们的模型级干预增加了诱发不良行为的难度，但这样做仍然是可能的。例如，仍然存在“越狱”（例如，对抗性系统消息，参见系统卡中的图10了解更多细节）来生成违反我们的使用指南的内容。只要存在这些限制，就必须用部署时间安全技术来补充它们，比如监控滥用，以及快速迭代模型改进的管道。

GPT-4和后续模式有可能以有益和有害的方式对社会产生重大影响。我们正在与外部研究人员合作，以改进我们理解和评估潜在影响的方式，并对未来系统中可能出现的危险能力进行评估。

我们将很快发布关于社会可以采取的准备人工智能影响的措施的建议，以及预测人工智能可能产生的经济影响的初步想法。

7.结论

我们描述了GPT-4，一个大型的多模态模型，在某些困难的专业和学术基准上具有人类水平的表现。GPT-4在一组NLP任务上优于现有的大型语言模型，并且超过了绝大多数报告的最先进的系统（通常包括特定于任务的微调）。我们发现，改进的能力，虽然通常用英语来衡量，但可以用许多不同的语言来演示。我们强调了可预测的规模如何使我们能够对GPT-4的损失和能力做出准确的预测。

GPT-4由于能力的增加而带来了新的风险，我们讨论了为理解和提高其安全性和对齐而采取的一些方法和结果。尽管仍有很多工作要做，但GPT-4代表了向广泛有用和安全部署的人工智能系统迈出的重要一步。

以上为今天分享的内容，欢迎大家继续关注“律融玫瑰”频道。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.