清华大学/西南大学等基于大语言模型的连续流系统设计助手|实验|流型|反应器

清华大学/西南大学等基于大语言模型的连续流系统设计助手

2025-06-23 11:48:14　来源: 药时空

湖北举报

分享至

随着化学合成技术的发展，连续流反应器和微反应器在自动化化学合成中变得越发重要，它们能够提升安全性、降低成本并提高稳定性。然而，化学反应的复杂性给微反应器的设计带来了巨大挑战。为了克服这些障碍，清华大学、西南大学、新加坡国立大学等研究人员引入了一种基于大型语言模型（LLM）的工具，用于从科学文献中提取关键的流动信息，以辅助微反应器系统的设计。该研究旨在通过结合机器学习方法和LLM，为合成化学家提供一个易于使用的工具，用于流动反应系统的设计，并为文献相对有限的领域提供应用机器学习方法和LLM的范例。研究成果发表于国际化工期刊《Chemical Engineering Science》。

福利 | 连续流系列白皮书领取

扫码登记信息并留言“连续流白皮书系列”，即可获取由药石科技提供的下列技术资料（工作人员会通过登记的邮箱发送，请务必填写正确信息）：

《Techwhitepaper-flowchemsitry_diazotizationreaction》
《连续光催化技术的研究》
《连续流技术手册》
《药石科技2024年环境、社会及公司治理报告》

研究开发了一个基于LLM的工具，用于从文献中提取关键信息以指导流动反应器的设计。首先，研究者建立了一个基于神经网络的分类器，用于筛选包含流动反应器关键信息参数的文献段落。接着，开发了一个自我优化的工作流程，用于从文献中提取数据，该流程能够随着分析文献数量的增加而不断提高提取效率。在分析了仅10篇研究论文后，提取时间从24秒缩短至16秒。提取的数据经过清理后，被用于训练集成学习模型以对流动模式进行分类，这些模型在验证数据集上实现了超过70%的F1分数。此外，研究者还通过实验验证了该方法在实际反应系统中的应用，并构建了一个向量化的数据库和知识增强型LLM，以指导化学家在设计流动反应器时的决策。最终，该研究还开发了一个支持自然语言查询的前端界面，进一步降低了用户使用该工具的门槛。

本研究成功开发了一个利用LLM从科学文献中提取关键信息以指导流动反应器设计的工具。通过引入“直观神经网络”（Intuitive Neural Network, INN）方法，研究者能够在仅使用10%的数据进行训练的情况下，将假阳性率降低至24%，同时保持95%的真正性率，显著提高了后续步骤的效率。此外，通过自我优化的工作流程，数据提取效率得到了提升，处理时间大幅缩短。在流动模式分类方面，机器学习模型实现了超过70%的F1分数，并且通过可解释性分析验证了模型与人类专业知识的一致性。通过在实际有机反应系统中的应用测试，该方法能够以极小的误差预测流动动态，足以指导实际系统中微反应器的设计。最终，研究者构建了一个向量化的数据库和知识增强型LLM，以促进用户访问和应用。该研究不仅为合成化学家提供了一个高效的微反应器设计辅助工具，还为在文献相对有限的领域中应用机器学习方法和LLM提供了新的范例。

图文导读：

图1. Chat-Microreactor工作流程概述。文献文本首先被向量化并过滤。被认为包含流动信息的段落被发送到LLMs进行信息提取。提取结果经过清洗，然后使用机器学习方法进行分析，而标注信息则用于优化过滤模型。最终，处理过的数据被构建为向量化数据库，并建立知识增强型LLM，以指导合成化学家在设计微反应器时使用。

图2. (a) 使用t-SNE方法对9986个标记的文本嵌入进行3D投影。仅显示包含流动信息的点。第一幅图显示原始数据的分布。第二幅图显示使用全局最优k向量的分类结果。第三幅图显示使用仅训练了10%数据的INN模型的预测结果。(b) 数据在不同余弦相似度值下的分布，针对全局最优k向量。拟合曲线是通过计算数据的概率密度函数（PDF）得到的。(c) 基于神经网络输出的概率值的数据分布，针对仅训练了10%数据的INN。拟合曲线是通过计算数据的概率密度函数（PDF）得到的。(d) INN的训练曲线。(e) 使用text-embedding-3-small进行文本嵌入时，两种方法的ROC曲线。(f) 使用ChatGLM2-6B进行文本嵌入时，两种方法的ROC曲线。(g) 不同模型生成嵌入所需时间随字符数的变化。

图3. (a) 使用对话进行数据提取的示意图。输入由指令和文本部分组成，指令作为任务指导，文本代表要处理的具体段落。鉴于数据结构的复杂性，输出以JSON格式标准化。(b) 使用GPT-4-turbo进行初步提取的结果。(c) 提取特征在不同类别中的分布。(d) 经过INN工作流程过滤后的结果，基于GPT-4-turbo的初步提取。不同颜色的线条代表不同的读者水平。(e) 不同LLMs的提取性能。泡泡的大小对应F1分数，泡泡的颜色代表精确度。(f) 使用GPT-4-turbo进行单位转换和数据清洗的结果。(g) 单位转换后有效数据的分布以及单位转换结果的成功率。

图4. (a) 不同模型的精确率。(b) 不同模型的召回率。(c) 不同模型的F1分数。(d) 不同模型的宏平均性能比较。(e) 不同模型的平均训练时间（针对六个样本）。(f) 从原始数据中预测的流型在参数空间中的分布，使用t-SNE投影。(g) AdaBoost预测的流型在参数空间中的分布，使用t-SNE投影。(h) 跨几个集成学习模型的特征重要性图。特征对模型预测的影响和重要性。(i) SHAP总结图，显示特征对滴落型的贡献。该图显示了特征对模型预测的影响和重要性。点图显示了每个特征在样本中的SHAP值分布，突出显示了变异性和方向性影响。条形图表示每个特征的平均绝对SHAP值，反映了其对模型决策的总体贡献。

图5. (a) 实验与预测结果的比较，实验内容为含氢氧化铝溶胶的水相在有机溶剂中的分散（按类别划分）。该图比较了每个类别的实验和预测结果，使用Capillary number () 和Weber number () 作为特征。上排显示实验数据，下排显示预测结果。(b) 羧苄西林的合成反应以及用于监测合成反应的装置。(c) 不同连续相和分散相流速下的流型图，实心圆圈代表实验分类，实心方块表示通过AdaBoost获得的预测分类。(d) 使用自然语言命令调用的Chat-Microreactor用户界面。

识别微信二维码，可添加药时空小编

请注明：姓名+研究方向！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.