贝叶斯上下文大模型在材料催化中的应用|算法|预训练|深度思考模型

分享至

Bayesian Optimization of Catalysis With In-Context Learning

贝叶斯上下文大模型在材料催化中的应用

https://arxiv.org/pdf/2304.05341

摘要

大型语言模型（LLMs）可通过上下文学习（in-context learning）在零样本或小样本条件下实现精准分类。我们将这一能力拓展至带不确定性估计的回归任务，利用冻结的 LLMs（如 GPT-3.5、Gemini），实现了自然语言形式的贝叶斯优化（BO），无需显式模型训练或特征工程。我们将其应用于材料发现领域，把催化剂合成与测试实验流程表示为自然语言提示。

材料发现的关键挑战在于需表征次优候选材料，这延缓了研究进展。尽管贝叶斯优化在探索大型设计空间方面效果显著，但高斯过程等标准代理模型假定数据具有平滑性和连续性，这一假设在多相催化等高度非线性领域并不成立。我们提出的任务无关贝叶斯优化工作流直接在语言空间中操作，无需结构或电子描述符，即可生成具有可解释性和可操作性的预测。

在水溶性和甲烷氧化偶联（OCM）等基准任务上，BO-ICL 方法性能匹配或超越高斯过程。在逆水煤气变换（RWGS）反应的实时实验中，BO-ICL 从 3700 个候选材料中仅通过 6 次迭代就识别出接近最优的多金属催化剂。我们的方法重新定义了材料表示方式，加速了发现进程，在催化、材料科学和人工智能领域具有广泛应用前景。代码链接：https://github.com/ur-whitelab/BO-ICL。

关键词

贝叶斯优化、大型语言模型、上下文学习、催化、材料设计、人工智能

1 引言

Transformer 大型语言模型（LLMs）已对多个领域产生影响，这得益于其与任务无关的训练过程 [1]。通过相同的预训练流程，可在诸多科学领域获得最先进的模型 [2-9]。LLMs 的应用不仅限于自然语言处理，还涵盖医学 [10-14]、材料性质预测 [15-20] 和分子设计 [21-26] 等领域。在建模方法中，LLMs 通过上下文学习（ICL）提升准确性的能力尤为独特 —— 仅需 1 至 5 个示例即可显著提高精度 [27]。在本研究中，我们探索 LLMs 的 ICL 特性能否与优化方法结合，用于设计特定的新型材料。

贝叶斯优化（BO）是约束优化应用中的常用技术 [28]。BO 旨在解决以下问题：

这转化为在设计空间 Ω 中寻找输入 x，使目标函数 f 最大化。贝叶斯优化通常利用概率模型的预测结果和不确定性估计，在搜索最优参数时高效平衡探索与利用 [29-32]。更具体地说，贝叶斯优化通过以下方式对黑箱函数 f (x) 进行无梯度优化：使用代理模型 S (x) 近似 f (x)，并通过采集函数 α(x) 确定下一个评估点。随着关于 f (x) 的新信息不断获取，代理模型会根据采集策略进行更新 [33]。贝叶斯优化的详细描述见第 5 节。

代理函数的常见选择是高斯过程（GP）模型；高斯过程不施加严格的参数假设，且本质上具有概率特性 [33,34]。在本研究中，我们提出使用大型语言模型（LLMs）。大型语言模型可预测其词汇表上的概率分布，从而能够直接提取不确定性估计。可用的置信度分数与大型语言模型在上下文学习（ICL）中的有效性相结合，支持了这些模型可能适用于贝叶斯优化中所需的快速更新这一观点。

将大型语言模型用作代理模型可实现将自然语言作为特征向量。这对于难以建模的领域应用尤其有价值，例如表示催化剂的实验方案 [35-38]。自然语言提供了一种直接的方式，可将相关的定性和定量信息都整合到表示中，然后对这些表示进行优化。基于这一能力，Jablonka 等人 [18] 证明，像生成式预训练 Transformer（GPT）这样的仅解码器模型可以使用语言接口微调（LIFT）来预测材料和化学性质 [27,39]。语言接口微调将表格数据转换为句子，然后使用生成的自然语言表示对大型语言模型进行微调（类似于补充信息中图 S2 的图示）。

LIFT（语言接口微调）在 GPT 模型中的应用已成功实现分类、回归和逆向设计等任务，且无需修改模型架构或训练流程 [39,40]。然而，将 GPT 模型用作贝叶斯优化（BO）的代理模型会引入额外挑战，例如需要大量训练计算资源。在 BO 中，代理模型会随每次观测更新，这在 LIFT 范式下将显著增加 LLM 训练的负担 [41]。

幸运的是，除了在 BO 更新时重新训练 LLM，还可采用上下文学习（ICL）等替代策略 [42]。ICL 通过让模型在推理时观察与查询相关的示例来提升性能 [27]，无需额外权重更新即可使其泛化能力超越原始训练数据 [43,44]。近期研究表明，类似的 ICL 提示技术（如思维链 [45-47] 和使用符号工具（如编程语言）提升准确性 [48,49]）已取得成功。因此，ICL 使模型即使在新数据有限的情况下也能提高预测精度，这对 BO 工作流而言是重要特性。

在我们早期展示预训练 LLM 与 BO 结合的潜力后 [14,50]，该领域已成为研究热点。值得注意的是，Kristiadi 等人 [51] 表明，通过参数高效微调（PEFT）训练的领域特定 LLM 可在较简单的 BO 场景中取得成功。受这些先前研究启发，我们提出一种新方法：通过 ICL 将 LLM 成功用作 BO 策略中的代理模型。图 1 展示了 BO 与 ICL 集成方法的高层示意图，更多细节见图 7。我们的流程引入了 AskTell 算法，将 ICL 作为 BO 过程中更新代理 LLM 知识的主要机制。

AskTell 的含义是：首先通过 “Ask” 向模型查询一个点，然后通过 “Tell” 步骤向模型反馈实验结果。通过在推理时动态构建包含相关上下文的提示，我们避免了资源密集的权重更新 —— 这是新数据到来时更新模型的常见方式。这形成了一种与任务无关、开箱即用的方法，可直接在自然语言空间中操作。

为验证我们的工作流程，我们聚焦于温室气体（GHG）升级回收的材料设计，这是具有全球意义的应用领域。加速该领域的材料发现可减少对原油的依赖，以生产一氧化碳和烯烃等高需求前体 [52]。通过针对 CO2 等 GHG 参与的多相催化反应，我们可能有助于闭合导致大气积累的 GHG 排放生命周期，从而缓解全球升温 [53,54]。增强材料设计与发现有望影响循环碳经济的每个环节，帮助抵消与 GHG 捕获和转化相关的固有熵损失 [54,55]。

鉴于多相催化剂的庞大设计空间和反应条件优化的额外复杂性，催化领域为 BO 框架中使用冻结 LLM 作为代理模型提供了极具说服力的用例 [55]。材料的语言表示使实验人员能够通过简单结构化的输入格式（如合成步骤和反应条件）优化催化性能，并以性质值作为输出（见图 1）。利用预训练 LLM 进行提示级迁移学习，有望提高优化效率、减少实验开销并加速催化剂发现。

在本研究中，我们探究基于先进 GPT 模型的 ICL 是否能在 BO 框架中有效充当代理模型。我们的核心假设是：即使没有领域特定的特征工程，基于语言的表示也包含足够的结构和物理信息，以支持高效的实验设计。我们首先通过两个回归任务评估可扩展性：从 IUPAC 名称预测分子溶解度，以及使用合成和反应条件的自然语言描述预测甲烷氧化偶联（OCM）反应的催化性能（第 2.1 节）。然后，我们在 Nguyen 等人 [56] 的 OCM 数据集和 Gerber 等人 [57] 的合金界面性质数据集上评估 BO-ICL 的样本效率（分别见第 2.2.1 和 2.2.2 节），结果表明仅需标记 30 次实验即可快速收敛至前 1% 的高性能候选。最后，我们将 BO-ICL 应用于指导多金属催化剂的逆水煤气变换（RWGS）反应的实时实验合成与测试，仅 6 次迭代即实现接近热力学平衡的性能（第 2.2.3 节）。这些结果共同支持了我们的目标：为材料设计构建通用的、原生语言的优化工作流。

2 结果与讨论

我们使用四个数据集评估方法性能：估计溶解度（ESOL）[58]、甲烷氧化偶联（OCM）[56]、合金界面相互作用模型（AII）[57]，以及在逆水煤气变换（RWGS）条件下 CO₂加氢反应的内部数据集。这些数据集的详细描述见 S4 节。

首先，我们在 ESOL 和 OCM 数据集上进行回归任务，探究 ICL 方法的性能如何依赖关键超参数：提示中使用的示例数量（k）、用于校准的不确定性缩放因子，以及温度参数（T）（使用位置见 5.3 节和图 7）。我们扩展这些回归实验（2.1 节）以确认模型直接从自然语言表示中学习。为将 LLM 性能与其他常用机器学习模型对比，我们测试了三种基线方法：k 最近邻 [59]（knn）、核岭回归 [60,61]（krr）和高斯过程回归 [62]（GPR）。基线方法的实现细节见 S5 节。

接下来，在 2.2 节中，我们将 LLM 作为代理模型与 ICL 结合进行优化，使用 OCM 和 AII 数据集迭代更新模型知识（RAG 工作流图示见图 7）。我们观察到，BO-ICL 平均仅需不到 30 个新样本，即可达到活性催化剂的前 1% 水平。

最后，我们构建了一个未标记的潜在实验库，包含 RWGS 反应的合成与测试流程，用于内部实验。在 RWGS 催化剂设计空间中，以 CO 产率为目标函数，使用 BO-ICL 迭代指导后续实验选择。结果表明，仅经过 6 次迭代，BO-ICL 即可有效选择接近热力学极限的实验流程（见补充信息 SI S4 节）。所有结果均使用采样实验流程的嵌入式自然语言表示作为输入特征。

2.1 回归分析

我们首先通过回归分析确定关键超参数值，并考察模型记忆中存储的已知示例数量（可用上下文）如何影响预测性能（5.3 节）。基于此探索性分析的结论，后续实验采用每个提示包含 5 个上下文示例、温度设置为 0.7、不确定性缩放因子为 5 的参数组合。图 8 和 S8 展示了使用 gpt-3.5-turbo-0125 模型时，这些超参数对 ESOL 和 OCM 数据集预测性能的影响。

为评估 ICL 方法相对于传统方法的性能，我们将其与 KRR、GPT-3.5-turbo-0125 的微调版本以及 GPR 进行基准对比。图 S9 和图 3 分别展示了在溶解度数据集和 OCM 数据集上的结果。与 ICL 方法相比，基线模型在各数据集上均表现出强劲性能，这与文献 [18] 的先前发现一致。基线模型的性能优势可能源于任务特定的参数更新，而 ICL 设置中则持续重用单个通用 LLM。具体而言，KRR 通过损失正则化处理高维特征空间的能力使其获益。在微调 LLM 的情况下，ICL 若表现更优会令人惊讶，因为二者使用相同模型，仅 ICL 省略了任务特定训练。尽管如此，将 ICL 与通用 LLM 结合无需对模型进行任何调整或额外训练，已被证明是快速使 LLM 适应领域特定问题的有前景方法。文献支持我们的假设，即 ICL 的有效性可能源于类最近邻机制 [63,64]。

由于 KRR 不产生不确定性估计，因此不太适合贝叶斯优化（BO），我们不再进一步探究。此外，鉴于 OpenAI 微调模型的高输出 token 成本以及我们对 ICL 的关注，BO 任务中也未使用微调的 GPT-3.5-turbo-0125 模型 [65]。

在溶解度和 OCM 数据集上的测试表明，随着可用小样本示例数量的增加，常见机器学习性能指标会有所提升（图 2）。例如，在 OCM 数据集上，我们观察到较新的 OpenAI 模型表现更优。具体而言，gpt-3.5-turbo-0125 的平均绝对误差（MAE）为 2.219±0.137，相关系数为 0.555±0.048，而较新的 gpt-4o 模型的 MAE 达到 1.863±0.151，相关系数为 0.649±0.060（完整结果见表 S4）。此外，gemini-2.5-flash 在回归任务中与 OpenAI 模型表现相当，但校准效果更好，这可通过观察到的更小负对数似然来佐证 —— 这对贝叶斯优化（BO）而言是一个有趣的特性。除核岭回归（KRR）外，gpt-4o 在本研究中优于所有其他基线模型（见图 2 和表 S4）。这些结果支持了我们的假设：扩展模型的可访问记忆库（上下文）可增加检索更多查询相关示例的概率，并模拟一种持续学习形式。这种缩放能力对 BO 尤为重要。尽管检索增强型 ICL 方法不像传统学习那样随时间更新模型内部参数，但 ICL 是适应新数据并克服 LLM 固定上下文窗口固有约束的实用有效策略。

我们的回归结果表明，LLM 可从自然语言输入中预测属性并直接生成不确定性估计。此外，在标记数据丰富的场景中，当 ICL 应用于实验流程嵌入时，其性能优于高斯过程回归（GPR）等成熟方法。因此，我们直接在基于语言的表示上应用 BO，以最大化 OCM、AII 和 RWGS 数据集中的材料属性。

2.2 贝叶斯优化

我们首先将 BO-ICL 应用于 OCM 数据集，该数据集为初始评估提供了高保真、无歧义的环境。在此场景中，查询 “黑箱” 函数 f (x) 仅需访问标记数据集。BO-ICL 的术语和算法细节见第 5 节。接下来，为解决潜在的数据泄露问题，我们将 BO-ICL 应用于优化另外两种场景的程序参数：一种是表示合金界面相互作用的合成数据集（AII），另一种是专注于发现最佳合成和反应条件以在 RWGS 反应条件下最大化 CO 产率的内部数据集。

2.2.1 甲烷氧化偶联

在 OCM 数据集上进行测试时，我们应用 BO-ICL 的目标是重新发现可最大化增值 C₂产物产率的最佳实验条件（化学反应式 2）。

因此，在将 Nguyen 等人 [56] 的表格数据集转换为以自然语言表示的未标记候选实验库后，我们发现：将 LLM 用作贝叶斯优化（BO）的代理模型，其性能可与使用相同特征向量表示的高斯过程回归（GPR）相媲美。GPR 作为 BO 应用的经典代理模型，是进行性能分析的合理基线 [66][67][68]。相关结果如图 4 所示，数据集详细信息见 S4 节。

将 BO-ICL 应用于 OCM 数据集的结果表明，相较于 Gemini-2.5-flash，gpt-4-0125-preview 能更快收敛至更高的 C₂产率，这与我们在早期回归实验（2.1 节）中的发现一致。当使用上置信界（UCB）采集函数并对 BO 循环迭代 30 次新样本时，Gemini-2.5-flash 平均能找到数据集中排名前 36 的实验流程，对应 C₂产率 18.16；而 GPT4o 可达到前 12 名，产率 19.08。值得注意的是，尽管 gpt-4-0125-preview 的平均表现优于 Gemini-2.5，但 Gemini 在某次重复实验中成功找到了排名第 1 的流程。相比之下，GPR 选择的最佳点对应 C₂产率 18.19（排名前 33）。平均来看，使用 GPT4o 或 GPR 作为代理模型时，UCB 和贪心（Greedy）采集函数（5 节）最终选择的实验流程相同。但在五次重复实验中，gpt-4-0125-preview 通过贪心函数在三次实验中从约 12.8k 个样本中选出了最优流程。

这些结果表明，基于语言表示优化实验流程是可行的实验设计方法。同时，GPR 使用嵌入表示进行属性预测也颇具成效，且结果具有可重复性。然而，在催化应用中，LLM 可能比 GPR 更具优势 —— 因其无需像 GPR 那样进行核函数调优或复杂超参数优化，却能实现相当的性能。因此，BO-ICL 是一种适用于复杂材料空间属性预测的简单且开箱即用的 BO 策略。

由于 OCM 数据集包含文献中已充分研究的催化参数，领域偏差对 BO-ICL 性能的影响值得探讨。特别是既往甲烷氧化偶联（OCM）催化研究常强调 Mn-Na₂WO₄是高性能催化剂，且许多 OCM 研究在 GPT4o 的知识截止日期前已发表 [56,69,70]。值得注意的是，BO-ICL 常收敛于 Mn-Na₂WO₄/SiO₂催化剂，这引发了一个问题：BO-ICL 的优异表现是否源于数据泄露？尽管表格数据转换为自然语言后已降低泄露风险，且不同研究中催化性能存在差异，我们仍将工作流扩展至 AII 数据集。由于 AII 数据集基于较少使用的界面材料属性分析方程建模（2.2.2 节），我们预期其能最小化数据泄露的影响。

2.2.2 合金界面相互作用估计

根据 Gerber 等人 [57] 提出的电容器模型描述合金界面，我们使用 BO-ICL 将 9k 个合金组成的库中合金材料对与最大单向电荷转移量相关联。该模型仅通过费米能级、转移能隙（定义为合金中最大范德华半径之和）和合金化学计量式（均以自然语言表示）来近似计算电荷转移标记值（详细信息见 S4 节）。

AII 数据集直接解决了数据泄露问题，确保性能提升并非仅由预训练期间可能编码的强烈领域偏差驱动。由于原始数据集在 gpt-4-0125-preview 的知识截止日期后发布，因此 LLM 的预训练数据中不包含 AII 数据集。此外，我们整合了来自 Materials Project 数据库的合金费米能级，因为原始文献未明确提供这些值 [71,72]。此外，描述合金界面电荷转移关系的分析模型刻意排除了自旋轨道耦合效应以简化模型，而该效应已知会影响能带结构和电荷转移。这种简化与电荷转移标记的对数缩放相结合，降低了数据泄露和领域特定训练数据带来偏差的可能性。因此，AII 数据集是评估 BO-ICL 在较不熟悉知识领域中通用有效性的合适应用场景。在 AII 数据集中重新发现前 1% 的材料对，突显了 BO-ICL 在有效指导材料设计方面的稳健性。

使用 AII 数据集时，我们还探索了更适合 BO-ICL 工作流中不同推理步骤的 LLM（结果见图 5 - 中心）；这与在其他数据集上测试 BO-ICL 时每个推理步骤仅使用 gpt-4-0125-preview 的情况不同（图 4）[73]。在此案例中，对于属性值预测和不确定性估计步骤（流程图步骤：A7），我们使用 davinci-002 基础模型，因为与 gpt-4-0125-preview 等通过人类反馈强化学习（RLHF）微调的模型相比，其校准能力更优（即模型预测的不确定性与实际预测误差高度吻合）[73]。RLHF 可能引入偏差，优先考虑符合人类偏好的响应而非严格的概率准确性，这可能削弱模型生成校准良好的不确定性估计的能力 [73]。我们选择整合 davinci-002，源于观察到模型校准对整体性能的重要性（见第 5 节和补充信息）。在回归步骤中使用校准良好的现成模型，避免了训练后校准的需求，并减少了实现满意性能所需的初始标记数据点数量。对于逆向设计生成步骤（流程图步骤：O1），我们继续使用 gpt-4-0125-preview，因为其 RLHF 训练确保输出结构更符合实验流程的自然语言格式。这种一致性在优化循环中的相似性比较和检索步骤中特别有用（图 A2−O3，算法 2、4）。在工作流中使用单一模型（gpt-4-0125-preview）与组合使用基础模型和对话模型（davinci-002 和 gpt-4-0125-preview）时的性能差异，可能进一步突显了在比较上置信界（UCB）轨迹时准确不确定性估计的关键作用（采集函数细节见第 5 节）。需要注意的是，AII 数据集上观察到的性能可能与使用定义明确的分析目标函数有关，而其他依赖实验标记的数据集更容易受到随机测量误差的影响。尽管由于重复实验的限制和模型固有差异，不同数据集和模型之间的直接比较仍然具有挑战性，但在 AII 等复杂数据集上实现超越随机游走基线的性能，已足以推动使用 BO-ICL 指导内部材料合成与测试，以优化催化剂合成和反应条件（2.2.3 节）。

2.2.3 内部 RWGS 实验

为将工作流程扩展到实验结果先验未知的场景，我们将 BO-ICL 应用于一组按需合成和测试逆水煤气变换（RWGS）反应催化剂的实验中（化学反应式见补充信息）。

我们的目标是最大化 RWGS 反应的目标产物 CO 产率。由于 LLM 此前未接触过该特定实验空间，模型的性能主要反映了优化策略利用 GPT 催化领域通用知识的能力。此外，这些实验设置还有助于了解 BO-ICL 在从实验库中选择下一个实验时，对人类实验误差的考量程度。实验设置的更多细节见补充信息（S4 节）。

图 6 展示了三条轨迹：随机游走（紫色）、使用基础模型（gpt-4-32k-0314，绿色）的 BO-ICL，以及对话模型（gpt-4-0125-preview，橙色）的 BO-ICL。随机游走代表通过随机数生成器选择的一系列实验，用于揭示样本空间分布特征。我们使用已停用的 gpt-4-32k-0314 模型应用 BO-ICL，发现当使用贪心（Greedy）采集函数时，性能呈单调提升 —— 这与 Greedy 的设计一致，即忽略预测概率、通过 exploitation 显式优化（5 节）。我们还使用后续发布的 gpt-4-0125-preview 模型在相同样本库上运行 BO-ICL，以确保对话模型的性能可复现。将该对话模型与上置信界（UCB）采集函数结合，表明在实验流程选择中探索（exploration）是优先事项（第 5、6 次迭代）。由于 UCB 将不确定性估计作为参数纳入（5 节），我们为每个流程选择标注了模型的原始平均预测值（星号）和相应的不确定性估计（误差线）。

值得注意的是，每个实验按 BO-ICL 的选择顺序呈现。两种模型均在 6 次实验内实现 CO 产率超过 20%，接近该条件下热力学可达的最大 CO 产率（表 S2）。这些结果有力支持了 BO-ICL 在实际应用中的潜在有效性。

3 局限性

BO-ICL 继承了其组成部分的固有局限性：原理性贝叶斯优化（BO）和大型语言模型（LLMs）的非确定性行为。例如，BO 框架的关键策略之一是确保初始数据集具有足够的多样性 [74,75]。尽管上下文学习（ICL）通常受益于提示示例间的相似性，但 BO-ICL 的早期实现表明，即使通过调整采集函数参数（如 UCB 中的 λ 参数，见第 5 节）来增强探索性，初始上下文池内的多样性不足仍会严重限制探索能力，这可能导致可用数据无法被充分利用。BO-ICL 要求初始上下文池保持平衡，以避免陷入局部最优。为解决这一问题，用户可策略性调整 BO-ICL 的初始化方式，从 N 个多样化的标记数据点开始 —— 具体而言，可先从可用标记数据中随机选择一个点作为参考，使用 λ=0 的最大边际相关性（MMR）算法填充 BO-ICL 的记忆库，以匹配未标记数据池的多样性分布（公式 6）。在每次 BO 实验中，我们采用 N=2 的初始化策略。因此，当存在大量初始标记数据时，建议谨慎平衡数据使用方式：既可微调模型以开发领域特定模型，也可利用可用数据初始化上下文池。

此外，在 BO 中实现全局优化的有效探索需要代理模型提供准确的置信度估计。然而，如前所述，受人类反馈强化学习（RLHF）微调的 SOTA LLMs 常面临校准挑战，若缺乏大量验证数据，将难以生成准确的不确定性估计 —— 这与 BO 以最少数据优化目标的核心优势相矛盾。我们通过以下方式控制这一问题：（1）使用校准更优的模型（如 davinci-002），无需额外校准步骤即可实现与校准模型相当的性能（相关结果见 2.2.2 节）；（2）在可行时利用 LLMs 的迁移学习能力。以方法（2）为例，如第 5 节所示，通过仅从 OCM 数据集采样验证集，使用 Uncertainty Toolbox 推导校准缩放因子，该因子不仅在 OCM 数据集上有效，甚至在其他 BO-ICL 应用（包括 OpenAI 模型）中也持续提升性能（除非特别说明，本研究所有应用均使用同一缩放因子）。这一发现颇具意义，因为校准过程通常被认为具有主观性。我们证明，使用与目标设计空间相似的可用数据集是一种有效方法，可克服对初始数据的需求，从而获得适用于 BO 工作流的校准模型。

就 LLM 特有的缺陷而言，幻觉现象仍是突出问题。在 BO-ICL 的逆向设计阶段（图 7 中步骤 A1-O1），幻觉影响尤为显著：其常导致不相关或不可行的补全结果，降低子库种群的搜索效率（见图 7 工作流步骤 O1-O2）并削弱科学有效性。为规避幻觉影响，可针对目标设计空间使用自定义系统消息，将逆向设计输出限制为预定义设计参数（见 SI S3 节）。这能显著提升模型以样本空间内可操作实验参数组合完成查询的概率，对 BO-ICL 中的检索增强生成（RAG）操作（图 7 步骤 A4-A8）尤为重要。因此，优化系统消息或控制逆向设计的方法可能是有效实施的必要环节。

使用 LLM 时的另一相关挑战是评估难度，源于 token 生成过程的固有随机性。温度参数和采样策略（如 top-k）等超参数可控制变异，但无法完全消除。因此，一对一复现几乎不可能，尤其是在闭源模型场景中 —— 而高斯过程等代理模型具备这一特性。为此，我们通过对每个采集函数运行 5 次重复实验来经验性估计平均性能。尽管 5 次运行可能不足以通过中心极限定理保证正态采样分布，但在统计数据有限的情况下，我们仍可计算点估计值以使用非参数方法进行假设检验。值得强调的是，LLM 输出的随机性也可能对探索和新发现产生积极影响。

将通用模型用作代理的显著优势（也是关键隐患）在于其通过大规模预训练获得的广泛基础知识。尽管这一特性有利于 BO-ICL 的快速优化，但也引入了适应领域特定偏差的风险：预训练模型可能在补全过程中过度偏好领域熟悉的材料设计，从而限制探索范围。在逆向设计阶段，模型可能优先推荐文献中充分研究或主流的材料，将发现局限于已确立的领域。在新材料发现中继续使用这些模型的工作假设是：UCB 等探索性采集函数可在多次优化迭代中抵消此类偏差。此外，先前研究表明，当查询与训练数据相似度较低的示例时，LLM 会更多依赖提供的上下文示例而非基础知识来提升补全准确性 [63,76]。增强新颖设计组合的潜在有效策略是：通过刻意纳入研究较少的材料组合来精心策划设计空间，引导模型探索设计领域的新区域。

然而，该策略凸显了另一重要局限：设计空间构建需对用户认知局限或偏差进行策略性控制。设计空间的盲目采样（尤其是催化等安全敏感领域）可能导致资源浪费甚至危险情况。例如，优化放热反应时，若未考虑热失控风险或材料分解温度而选择反应条件或设备参数，可能引发不良后果。为降低这些风险，强烈建议在策划和测试设计空间前，采用传统科学方法（如积累材料性质先验数据或扩展专家咨询合作）—— 这是探索任何新设计领域的标准要求。

4 结论

本研究提出 BO-ICL 框架，该框架将贝叶斯优化（BO）与基于大型语言模型（LLMs）的上下文学习（ICL）相结合，可直接从自然语言表示中优化实验条件。我们在四个数据集上验证了 BO-ICL 的有效性：溶解度（ESOL）、甲烷氧化偶联（OCM）、合金界面相互作用（AII）和逆水煤气变换（RWGS）。在 OCM 数据集上，BO-ICL 仅通过 10 次额外采样即可达到候选流程的前 1% 水平，性能与使用自然语言嵌入的高斯过程回归（GPR）相当。此外，BO-ICL 成功指导了真实 RWGS 催化剂实验，仅 6 次迭代即实现接近热力学极限的 CO 产率。

研究结果表明，LLM 通过基于示例的推理能力成为 BO 的实用代理模型：其可扩展性优于传统方法。与传统方法不同，BO-ICL 无需特征工程、架构调优或重新训练，是材料科学设计优化的零样本、任务无关解决方案。该框架以自然语言作为通用化学表示，是加速实验设计的可靠且易用的工具 —— 其仅需最少计算资源，无需任务特定微调或特征选择。BO-ICL 框架已开源，代码可从https://github.com/ur-whitelab/BO-ICL获取。

5 方法 5.1 贝叶斯优化

贝叶斯优化（BO）是一种用于优化评估成本较高的黑箱函数 f (x) 的序列无梯度策略 [28]。BO 在目标函数直接评估成本高昂的场景中尤其有用，例如以催化为核心的湿实验室研究。BO 的目标是解决优化问题：

其中 Ω 通常是限制可能实验集合的超矩形域，我们称 Ω 为样本空间。为执行贝叶斯优化，需使用代理模型 S (x) 近似评估成本高昂的黑箱函数 f (x)。代理模型通常具有概率性质，可在推理时提供查询预测及相应的不确定性估计。高斯过程（GP）模型常被用作代理模型（见 S5 节）。

初始时，使用所有已有的数据 D 训练先验模型 S (x)，然后可计算后验概率分布 S (x|D)。在每次迭代中，概率模型用于计算一组后验概率分布，并用采集函数 α(x) 对下一个待评估样本进行排序和选择。大多数采集函数利用预测均值（µ(x)）和不确定性（σ(x)）来平衡输入空间中不确定区域的探索与代理模型预测 f (x) 高值区域的利用。

在本研究中，我们关注三种采集函数：

上置信界（UCB）：通过结合均值和不确定性来平衡探索与利用，公式为：α_UCB (x) = µ(x) + λσ(x)，其中 λ 是控制探索 - 利用权衡的可调参数。
贪心采集函数：始终选择代理模型预测均值最高的点，优先考虑利用，公式为：α_greedy = µ(x)。
随机采样（基线）：使用随机数生成器选择下一个评估点，从样本空间 Ω 中随机选取，即：x_next ∼ Uniform (Ω)。

在序列中，对黑箱函数 f (x) 进行评估以获取所选点的标签，然后将其添加到训练数据集 D 中，用于 BO 策略的下一次迭代。

贝叶斯优化算法的迭代流程如下：

5.2 BO-ICL 工作流程

BO-ICL 利用大型语言模型（LLMs）作为贝叶斯优化（BO）的代理模型，通过上下文学习（ICL）在推理时使用标记示例动态更新后验分布。为确保新数据的可扩展性，我们实现了标记样本的长期记忆机制，支持在构建提示时调用相关上下文。通过动态生成提示，实验表明模型性能可突破其上下文窗口限制（即模型一次能处理的最大输入数据量），并随新数据的获取持续提升（2.1 节）。

在提示生成阶段，我们以目标查询为参考，通过余弦相似度对标记样本库进行下采样。因此，对于每个查询（通常为未标记的实验流程），我们会识别最相关的示例，并在推理时将其作为 ICL 的前缀输入。该提示生成过程结合了 LangChain 框架 [77]、FAISS 向量检索库 [78] 以及 Ada-002 嵌入模型 [79]。

查询输入遵循 LLM 的通用提示结构：{前缀}{小样本模板}{后缀}。其中：

{前缀} 提供任务说明与约束条件（包括预期响应格式），以降低幻觉现象。该步骤通常通过 system_message 实现，对引导对话模型行为尤为关键。将任务描述纳入 system_message 可显著提升性能（见 S3 节）。
{小样本模板} 通过拼接 k 个示例构建上下文，格式为：“Given {表征}. What is {属性名称}? {完成内容}”。图 1 展示了选择 k=1 个示例作为上下文时的提示构建方式。
{后缀} 包含 LLM 需完成的核心查询内容。

对于带不确定性的回归任务，我们采用与 Ahn 等人 [80] 类似的方法，利用 token 概率估计模型不确定性：通过边缘化完成 token 的对数概率，推导 n 次迭代后的离散概率分布（公式 5）。该分布可用于加权不确定性近似，并直接应用于 BO 的采集函数中 [28]。

其中 N 为观测总数，xi 表示第 i 个观测值。我们将观测的加权均值表示为 x̄∗，计算公式为，其中 wᵢ是分配给第 i 个观测的权重，反映其相对重要性或观测概率。

最终，这些方法被整合到 BO 循环中以优化实验参数。这种方法的优势在于 BO 无需传统训练，且推理计算需求极低。BO-ICL 的实现流程图见图 7，伪代码见算法 5。

BO-ICL 首先使用可选的标记数据集 L 填充 LLM 的长期记忆 M（图 7 中步骤 A1）。若 L 不可用，LLM 将在没有实验空间先验知识的情况下启动优化。通常，代理模型需评估所有可能示例的空间 U，但由于 LLM 的计算成本和 API 调用延迟，我们采用嵌入相似度检索方法对 U 进行子采样以执行回归步骤（步骤 A5-A7）。

我们通过最大边际相关性（MMR）创建子库，将逆向设计的完成内容作为检索的参考嵌入 [81,82]。MMR 旨在降低采样集的冗余度，同时确保所选点与查询保持相关性。使用余弦相似度比较 Ada 嵌入表示，MMR 计算如公式 6 所示，伪代码见算法 2。

此处，x' 为逆向设计输入（对象 O1），代表假设的标签大于 y + 的实验。随后，我们以 x' 为参考，通过 MMR 从 U 中检索 n 个相似实验（步骤 A4 和 A5）。这 n 个实验构成子库（对象 O2），并传递至回归步骤（步骤 A7）以选择下一个实验（对象 O3）。与逆向设计步骤类似，我们通过余弦相似度在长期记忆 M 中搜索最相似的示例（步骤 A6），为子库中的每个实验 x 构建动态提示上下文。接着，使用 LLM 为子库中的每个 x 预测标签 y（步骤 A7），并通过采集函数 α 对这些预测结果评分。基于 α 评分，选择前 n 个候选实验（步骤 A8）。

接下来，我们获取所选实验的真实标签（步骤 A9）。对于 ESOL、OCM 和 AII 数据集（见 S4 节），标签直接从可用数据集中查询。而对于内部 RWGS 未标记数据集，BO-ICL 推荐的实验需通过实际运行和分析来确定相应标签（步骤 A9）。优化循环持续进行，直至满足指定的停止标准（例如，当所选样本对应系统中的最大可能性能时）。在此之前，新标记的实验会被添加到长期记忆 M 中，循环继续。当达到停止条件时，从 M 中检索出观测标签 y + 最高的实验。

5.3 超参数调优

我们的算法需要定义关键超参数，包括作为上下文的少样本示例数量（k）和控制 LLM 输出采样的温度参数（T）。为探究这些超参数的影响，我们使用成本较低的 gpt-3.5-turbo-0125 模型，系统研究了 k 和 T 的变化对性能的影响。

在系统研究中，我们首先对 OCM 数据集固定 T=0.05 且 N=1000，对 ESOL 数据集固定 N=700。图 8 中的橙色曲线表明，系统性能受 k 的影响较弱：当 k=5 和 k=10 时，平均绝对误差（MAE）约为 2.5，相关系数约为 0.5，且两组结果无统计学差异（p 值 = 0.985，表 S3）。

这一结果略显反直觉。为进一步探究上下文示例数量为何不影响模型，我们仅向 LLM 记忆中添加 10 个随机示例并重复分析。图 8（蓝色曲线）显示，MAE 从 3.490±0.380 小幅降至 3.224±0.361，相关系数从 0.241±0.114 升至 0.370±0.073，这可能表明在低数据量场景中上下文的重要性。该结果与文献中 “扩展上下文长度的收益递减” 现象一致 [83]。

这些结果与图 2 所示的规律共同表明，模型预训练对不同数据集的熟悉程度会导致偏差差异。例如，GPT-4o 在溶解度数据集上仅用少量示例即可达到 0.9 的相关系数（图 S8），而 OCM 数据集的相关系数约为 0.6，这印证了 “模型在熟悉场景中更依赖先验知识，在陌生测试空间中更依赖上下文数据” 的假设 [76]。

类似地，我们固定 k=5 对温度参数 T 进行系统研究。T 检验表明（表 S3），T 在 0.1 至 1.0 范围内的实验结果无统计学差异，但当 T>1.0 时性能显著下降（图 8），这是由于 LLM 输出的幻觉现象加剧。温度变化的影响还与模型校准程度相关。

我们注意到，本研究中部分模型通过人类反馈强化学习（RLHF）训练，这可能导致推理时概率估计的校准度降低 [73,84]。RLHF 指令微调可能因主观人工标注引入输出概率分布偏差，进而导致置信度估计不准确 [73]。鉴于 BO 策略依赖准确的似然表示，我们首先通过 5.2 节所述方法提取不确定性估计，以量化相关模型的校准度。

为评估不确定性提取方法的校准误差，我们使用 “Uncertainty Toolbox”（UCT）[85,86] 工具包计算校准误差、预测区间覆盖概率等指标。UCT 将验证样本按模型预测的不确定性分组，形成分箱推断值的置信区间，通过评估各区间内样本的预测准确性，分析预测区间与实际结果的吻合程度。基于预测与观测比例的关系绘制校准曲线，并计算误校准面积（MA）以量化与理想单调校准曲线的偏差。

误校准面积（MA）可用于指导不确定性缩放因子的优化，从而提升模型校准度。图 9 展示了应用与未应用该缩放因子时的校准差异，使用 OCM 数据集的 1000 个点进行评估，并对比了上述两种不确定性提取方法的结果。我们从 OCM 数据集中选取 25 个样本组成验证集来优化缩放因子；当验证集样本数超过 25 时，GPT-3.5-turbo 的 MA 变化甚微。有趣的是，在不同数据集上测试 BO-ICL 时，应用该校准因子均持续提升性能（补充信息提供了证据）。这一发现值得关注，因为校准通常被视为主观性过程，参数有效性往往因任务和数据集而异。而仅使用单个数据集的少量样本即可有效校准模型，这进一步表明 SOTA 大语言模型具备迁移学习潜力。

如文献所述，相较于经过偏好或指令微调的模型推断分布 p (yi|θ,xi)，简单一致性方法可提供更高校准度的不确定性估计（图 9）[87,88]。

基于上述分析，我们将超参数设定为 k=5、T=0.7，校准因子为 5。这些参数用于正文呈现的所有 BO 实验。

S4 数据集

为验证该工作流程，我们聚焦具有全球意义的应用领域，例如用于温室气体（GHG）升级回收的催化材料设计。通过利用 CO₂等相关废弃 C1 物种，加速该领域的材料发现可减少对高需求化学前体所需原油的依赖，从而闭合排放循环与生命周期 [54]。催化材料在推动循环碳经济的各个环节中发挥关键作用，有助于抵消相关成本。这些材料可在热力学控制的相关化学过程中选择性利用滞后间隙。例如，无机催化材料已被深入研究用于选择性还原 CO₂（C=O 键分离能 432 kJ/mol），以快速将 CO 转化为有价值的 C₂至 C₈产物（CO₂费托合成）。这些材料的设计空间规模、匹配有效反应条件的必要性，以及相关实验成本，使其成为测试冻结 SOTA 大语言模型作为实用代理模型能力的理想场景。

根据过去十年 CO₂平均浓度变化推断的表面温度波动，若当前碳移除（CDR）效率为每年 130 万吨 CO₂，到 2030 年捕集能力必须提升 30 倍才能满足联合国目标，避免全球变暖的灾难性影响 [89]。因此，若缺乏显著经济激励，必要捕集与转化过程的广泛采用率可能无法匹配对流层温室气体积累的速度。传统催化发现与部署路径的广泛实施周期长达 5-40 年，若目标是寻找可避免对流层温度波动不利影响的材料，这一速度难以接受。

尽管催化信息学作为新兴领域有望提升材料发现效率，但开发用于结构 - 性质近似的模型面临共同挑战：实验数据的可获得性与参数设计空间规模不成比例。将语言作为与贝叶斯优化（BO）兼容的特征空间可能为该问题提供解决方案，因其允许无偏使用材料数据进行设计与性质预测，同时显著降低识别有效材料所需的实验成本。在此场景中，我们可使用 BO-ICL 通过将材料直接表示为标准操作程序（包含合成与测试这些材料的重要杠杆），高效引导我们穿越材料与工艺设计的复杂设计空间。

S4.1 溶解度数据集

估计溶解度（ESOL）[58] 数据集是化学信息学中预测有机小分子水溶性的常用基准，包含以对数摩尔单位（logS）表示的实验测量溶解度值。ESOL 最初以分子的 SMILES [90] 表示和 LogS 值发布，本研究使用 PubChem API [91] 获取 IUPAC 名称，并将其输入 LLM 模型，基线分析采用此类名称的嵌入表示。

S4.2 甲烷氧化偶联数据集

该数据集聚焦甲烷氧化偶联的催化优化（反应式 8）。Nguyen 等人 [56] 评估了 12,708 种实验配置，涵盖不同催化剂活性相、载体类型、化学组成、反应温度和反应物接触时间等参数范围。Nguyen 等人 [56] 报告了 59 种不同催化剂（含参考材料）在甲烷氧化偶联反应条件下的 C₂（%）产率性能。催化剂性能通过高通量筛选仪器测量以确保分析一致性，形成高保真数据集，非常适合 BO-ICL 的早期测试。

原文链接：https://arxiv.org/pdf/2304.05341

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.