为你的AI应用程序选择最佳基础模型|ai|上下文|预训练|视频生成模型

分享至

模态、速度、定价、微调等都是你在寻找最佳基础模型为生成式AI驱动应用程序服务时需要考虑的因素。

[Suman Debnath]

发布于2024年4月22日

我一直对生成式AI的潜力着迷，寻找完美的基础模型 (FM) 或大型语言模型 (LLM) 的旅程令人兴奋且充满挑战。在这个过程中，我获得了一些宝贵的见解，我很高兴与你分享它们，尤其是如果你是这个领域的新手。

为你的AI驱动项目选择合适的基础模型不仅仅是一个技术决策，更是要找到一个良好的战略契合。在本指南中，我将带你逐步了解在选择基础模型时我认为重要的关键标准，并使用实际例子来阐明。但是首先，让我告诉你是什么最初点燃了我的热情。

最初的灵感

一切始于一个简单的想法：一个生成式AI驱动应用程序，它可以改变我们与技术互动的方式，让我们的应用程序变得更加智能，如果不是最智能的话。深入探索基础模型的世界后，我意识到这就像盖一栋房子——你需要一个坚实的地基与你的蓝图保持一致并满足你的特定需求。就像你不会在为单户家庭设计的地基上建造摩天大楼一样，选择合适的基础模型对你项目的成功至关重要。你需要一个能够支持你的愿景、适应你的需求并为未来的成长和扩展奠定坚实基础的模型。

定义标准

在我开始搜索之前，我需要制定一系列标准——一份清单列出了确定我项目理想基础模型的关键质量。让我们一一了解它们：

1. 理解模态

定义： 模态指模型处理的数据类型——文本、图像(视觉)或嵌入。

重要原因： 选择的模态应与你正在处理的数据相匹配。例如，如果你的项目涉及自然语言处理，那么文本型模型如Claude、Mistral、Llama 2、Titain Text G1等都是合适的选择。如果你只想创建嵌入，那么Cohere和Titan Embeddings G1这样的模型可能更合适。同样的，对于图像相关任务，像Claude(可处理图像)、Stability AI(SDXL 1.0)和Titan Image Generator G1(生成图像)这样的模型更为贴切。

2. 模型大小及其影响

定义： 这个标准指的是模型中参数的数量。如果你是机器学习新手，让我简单介绍一下参数及其在大型语言模型(LLM)背景下的重要性。参数是模型内部的配置变量，其值在训练阶段通过给定的训练数据进行估计(训练)。参数对于直接定义模型从数据中学习的能力至关重要。大型模型通常拥有超过500亿个参数。

重要原因： 参数数量是衡量模型复杂性的关键指标。更多参数意味着模型能捕捉数据中更复杂的模式和细微差别，通常会带来更佳的性能。然而，这些模型不仅训练成本高昂，运行时也需要更多计算资源。就像选择汽车一样；更大的发动机可能更强劲，但也消耗更多燃料。

例如，Mixtral 8x7B Instruct拥有约460亿个参数。Anthropic的模型像Claude 3一样拥有数十亿个参数，并且这种模型在广泛的自然语言处理任务上都表现出色，包括文本生成、问题回答和语言理解。同样，最新的Llama 3的参数大小范围从8B到70B不等，可支持广泛的使用场景，在推理、代码生成和指令理解等方面也有所改进。

3. 推理速度或延迟

定义： 推理速度或延迟指模型处理输入(通常以tokens计)并返回输出所需的时间。当模型的响应是交互系统(如聊天机器人)的一部分时，这种处理时间就至关重要。

重要原因： 快速响应时间对于实时应用(如交互式聊天机器人或即时翻译服务)至关重要。这些应用程序依赖于模型快速处理和响应提示的能力，以保持流畅的用户体验。尽管较大的基础模型通常可提供更详细和准确的响应，但它们的复杂架构可能导致推理速度较慢。这种较慢的处理可能会令期望即时交互的用户感到沮丧。

为解决这一挑战，作为开发人员的你可能会选择针对快速响应优化的模型，即使这意味着在响应的深度或准确性上做出一定程度的妥协。例如，专门为速度设计的精简模型能够更快地处理交互，从而提高整体用户体验。

例如，Anthropic推出的Claude 3 Haiku就以大型上下文窗口(最高20万tokens)而闻名，能够处理广泛复杂的提示并提供高质量输出。然而，由于其大型体积和处理大量数据的能力，它的速度可能不及Mistral Large这样以速度为优化目标的较小模型，后者虽然上下文窗口仅约32K tokens但推理时间更快。因此，Mistral Large可能更适合需要快速交互的场景，而Claude 3 Haiku则可能更适合需要深度理解和全面上下文的应用场合，即使响应会稍慢一些。

推理速度如此重要，以至于许多模型也针对推理做了优化。例如，Mixtral 8x7B Instruct虽然最多拥有450亿参数，但在推理时只使用约120亿参数，提高了推理吞吐量，代价是需要更多的vRAM。因此，它以与120亿参数模型相同的速度和成本处理输入和生成输出。

4. 最大化上下文窗口

什么是上下文窗口: 在深入探讨为什么上下文窗口很重要之前，我们先来了解它是什么。在大型语言模型的背景下，上下文窗口是指模型在生成响应时可以同时考虑的文本量(以标记计算)。可以将其视为模型在单个处理实例期间的”记忆”。

例如，句子”Hello， world!“可能会被分解为标记[Hello，，， world， !]。将原始文本转换为标记的过程称为标记化。标记化的具体规则和方法可能会有所不同。有些模型可能将文本分解为单词和标点符号，而其他模型则使用子词(单词的一部分)来处理更广泛的词汇范围，而无需为每个可能的单词分配单独的标记。

另一方面，上下文窗口(也称为注意力窗口)是指模型在进行预测时可以一次考虑输入中的最大标记数量。这是一个至关重要的方面，因为它决定了模型可以使用多少信息来理解语境并生成响应或预测。例如，如果一个语言模型的上下文窗口为512个标记，那么在生成下一部分文本时，它只能考虑到它看到的最后512个标记。基本上，它就像模型在执行某项任务时的短期记忆，就像一个善于交谈的人能记住你说过的所有话一样 :)

为什么上下文窗口很重要: 更大的上下文窗口使模型能够一次记住和处理更多信息。这种能力在复杂的任务中特别有价值，例如理解长篇文档、进行详细对话或生成更大范围内连贯且与上下文相符的文本。

例如，在一次对话中，具有更大上下文窗口的模型会记住之前的更多对话内容，从而能够提供与整个对话更加相关和连贯的响应。这将带来更自然和令人满意的用户体验，因为模型能够保持讨论主线而不会失去上下文。

如果我们看看Anthropic的Claude，它拥有高达200K个标记的大型上下文窗口，使它们能够轻松处理复杂、长格式的输入。但是，需要注意的是，更大的上下文窗口通常会增加计算需求并相对降低推理速度。

在选择基础模型时，我们可能需要根据应用程序的特定要求，在上下文窗口大小与其他因素(如推理速度或计算资源)之间权衡考虑。

5. 定价考量

什么是定价: 使用基础模型的成本取决于模型的复杂性和模型提供商的定价结构。

为什么定价很重要: 部署高性能模型通常伴随着高成本，因为需要更多的计算资源。虽然这些模型提供了先进的功能，但其运营费用可能会很高昂，尤其是对于预算有限的初创公司或较小项目。

另一方面，规模较小、资源需求较低的模型提供了一个更加经济实惠的选择，而且性能上的损失并不明显。确保模型的成本与其收益相匹配十分重要，以确保其符合项目的财务限制，从而获得最佳投资回报而不会过度支出。这就像外出用餐，有时候，一顿美味大餐是值得的，但有时候，一顿简单的晚餐就足够了 :)

6. 微调和持续预训练能力

什么是微调和持续预训练: 微调是一种专门的训练过程，其中预先训练过的模型(即在大型通用数据集上训练过的模型)会在较小的特定数据集上进行进一步训练(或微调)。这个过程可以使模型适应新数据的特殊性，提高其在相关任务上的性能。而持续预训练则是在初始预训练阶段的基础上，使用原始训练集中未包含的新出现的数据进行额外训练，帮助模型跟上数据的演变。这些数据通常是未标记的。

为什么微调和持续预训练很重要: 通过微调，您可以提供自己的特定任务标记训练数据集来提高模型准确性并进一步专门化您的基础模型。通过持续预训练，您可以在安全和受管理的环境中使用自己的未标记数据训练模型。持续预训练有助于模型变得更加专门化，通过积累更健壮的知识和适应性超越了最初的训练。

例如，Amazon Bedrock支持微调和持续预训练，这为您提供了强大的工具来不仅个性化，而且随着时间的推移发展您定制的基础模型。但请注意，并非所有模型都支持微调或持续预训练。因此，如果您需要这些功能，您可能需要选择支持微调/持续预训练的合适模型。

7. 响应质量

什么是响应质量: 最后，最重要的标准是响应质量。在这里，您将根据几个质量指标(如准确性、相关性、有毒性、公平性和对抗性攻击的稳健性)来评估模型的输出。

准确性是衡量模型响应正确的频率。相关性评估响应是否与提出的上下文或问题相适应。有毒性检查模型输出中是否存在有害偏见或不当内容。同样地，公平性评估模型的响应是否在不同群体之间没有偏见。最后，稳健性表示模型在处理旨在混淆它的误导性或恶意输入时的表现。

为什么响应质量很重要: 模型输出的可靠性和安全性至关重要，尤其是在直接与用户交互或做出可能影响人们生活的自动化决策的应用程序中。高质量的响应可以确保用户信任和满意度，降低误解的风险，并提升整体用户体验，从而赢得客户的信任。

例如，在客户服务场景中，一个能够持续提供准确和相关响应的模型可以大大缩短解决时间并提高客户满意度。相反，如果一个模型输出有毒或有偏见的响应，则可能会导致客户流失并损害公司的声誉。因此，健壮的机制来检测和减轻有毒性并确保公平性是至关重要的，以防止偏见的延续并确保所有用户群体的公平待遇。

所以，总而言之，在选择基础模型时，不仅要评估其主要功能，还要评估其附加功能和响应质量。这些因素将极大地影响模型在特定环境和用例中的适用性和成功程度。

利用 Amazon Bedrock 的模型评估

为了简化选择过程，您可以使用 Amazon Bedrock 的模型评估功能，它允许对模型进行自动和人工评估。该功能可帮助您根据预定义的指标和主观标准来评估模型，从而做出更明智的决策。虽然这是我在本系列下一篇博客中的主题，但简而言之，Amazon Bedrock 提供了自动评估和人工评估的选择。您可以使用预定义的指标(如准确性、稳健性、一致性等)进行自动评估。您还可以创建自己的指标。

作为开发人员，您现在可以利用 Amazon Bedrock 的模型评估功能来构建基于生成式AI的应用程序。您可以从在沙盒环境中试验不同的模型开始。为了加快迭代速度，可以添加对模型的自动评估。然后，当您准备进行初始发布或有限发布时，可以纳入人工评审以确保质量。更多内容将在下一篇博客中介绍，敬请期待…

结论

在本篇博客中，我们了解了在评估和选择合适的基础模型用于生成式AI项目时需要考虑的关键标准。从理解模型类型和模型大小到评估推理速度、上下文窗口、定价、微调能力和响应质量，每个因素在寻找与特定用例最佳匹配时都发挥着至关重要的作用。选择正确的基础模型不仅是一个技术决策，更是一个战略决策，它可能会极大地影响您应用程序的成功。通过仔细权衡各个方面的折衷，并使模型的能力与您项目的需求相一致，您可以为生成式AI努力奠定坚实的基础。

请记住，选择模型并不是结束阶段。随着生成式AI领域的快速发展，保持开放心态、适应力和掌握最新进展是至关重要的。利用 Amazon Bedrock 及其模型评估功能可以帮助简化选择过程并根据全面评估做出明智决策。凭借合适的基础模型作为底座，您将很好地配备了解锁生成式AI的变革潜力所需的一切。因此，拥抱这段令人兴奋的旅程，让好奇心指导您找到与生成式AI的”知己模型”——一个不仅满足您当前需求，而且能支持您成长和创新愿景的模型 :) 现在就开始构建吧!

本文所表达的任何观点均为作者个人观点，可能不反映亚马逊云科技的观点。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.