随着化学合成技术的发展,连续流反应器和微反应器在自动化化学合成中变得越发重要,它们能够提升安全性、降低成本并提高稳定性。然而,化学反应的复杂性给微反应器的设计带来了巨大挑战。为了克服这些障碍,清华大学、西南大学、新加坡国立大学等研究人员引入了一种基于大型语言模型(LLM)的工具,用于从科学文献中提取关键的流动信息,以辅助微反应器系统的设计。该研究旨在通过结合机器学习方法和LLM,为合成化学家提供一个易于使用的工具,用于流动反应系统的设计,并为文献相对有限的领域提供应用机器学习方法和LLM的范例。研究成果发表于国际化工期刊《Chemical Engineering Science》。
福利 | 连续流系列白皮书领取
扫码登记信息并留言“连续流白皮书系列”,即可获取由药石科技提供的下列技术资料(工作人员会通过登记的邮箱发送,请务必填写正确信息):
《Techwhitepaper-flowchemsitry_diazotizationreaction》
《连续光催化技术的研究》
《连续流技术手册》
《药石科技2024年环境、社会及公司治理报告》
研究开发了一个基于LLM的工具,用于从文献中提取关键信息以指导流动反应器的设计。首先,研究者建立了一个基于神经网络的分类器,用于筛选包含流动反应器关键信息参数的文献段落。接着,开发了一个自我优化的工作流程,用于从文献中提取数据,该流程能够随着分析文献数量的增加而不断提高提取效率。在分析了仅10篇研究论文后,提取时间从24秒缩短至16秒。提取的数据经过清理后,被用于训练集成学习模型以对流动模式进行分类,这些模型在验证数据集上实现了超过70%的F1分数。此外,研究者还通过实验验证了该方法在实际反应系统中的应用,并构建了一个向量化的数据库和知识增强型LLM,以指导化学家在设计流动反应器时的决策。最终,该研究还开发了一个支持自然语言查询的前端界面,进一步降低了用户使用该工具的门槛。
本研究成功开发了一个利用LLM从科学文献中提取关键信息以指导流动反应器设计的工具。通过引入“直观神经网络”(Intuitive Neural Network, INN)方法,研究者能够在仅使用10%的数据进行训练的情况下,将假阳性率降低至24%,同时保持95%的真正性率,显著提高了后续步骤的效率。此外,通过自我优化的工作流程,数据提取效率得到了提升,处理时间大幅缩短。在流动模式分类方面,机器学习模型实现了超过70%的F1分数,并且通过可解释性分析验证了模型与人类专业知识的一致性。通过在实际有机反应系统中的应用测试,该方法能够以极小的误差预测流动动态,足以指导实际系统中微反应器的设计。最终,研究者构建了一个向量化的数据库和知识增强型LLM,以促进用户访问和应用。该研究不仅为合成化学家提供了一个高效的微反应器设计辅助工具,还为在文献相对有限的领域中应用机器学习方法和LLM提供了新的范例。
图文导读:
图1. Chat-Microreactor工作流程概述。 文献文本首先被向量化并过滤。被认为包含流动信息的段落被发送到LLMs进行信息提取。提取结果经过清洗,然后使用机器学习方法进行分析,而标注信息则用于优化过滤模型。最终,处理过的数据被构建为向量化数据库,并建立知识增强型LLM,以指导合成化学家在设计微反应器时使用。
图2. (a) 使用t-SNE方法对9986个标记的文本嵌入进行3D投影。仅显示包含流动信息的点。第一幅图显示原始数据的分布。第二幅图显示使用全局最优k向量的分类结果。第三幅图显示使用仅训练了10%数据的INN模型的预测结果。(b) 数据在不同余弦相似度值下的分布,针对全局最优k向量。拟合曲线是通过计算数据的概率密度函数(PDF)得到的。(c) 基于神经网络输出的概率值的数据分布,针对仅训练了10%数据的INN。拟合曲线是通过计算数据的概率密度函数(PDF)得到的。(d) INN的训练曲线。(e) 使用text-embedding-3-small进行文本嵌入时,两种方法的ROC曲线。(f) 使用ChatGLM2-6B进行文本嵌入时,两种方法的ROC曲线。(g) 不同模型生成嵌入所需时间随字符数的变化。
图3. (a) 使用对话进行数据提取的示意图。输入由指令和文本部分组成,指令作为任务指导,文本代表要处理的具体段落。鉴于数据结构的复杂性,输出以JSON格式标准化。(b) 使用GPT-4-turbo进行初步提取的结果。(c) 提取特征在不同类别中的分布。(d) 经过INN工作流程过滤后的结果,基于GPT-4-turbo的初步提取。不同颜色的线条代表不同的读者水平。(e) 不同LLMs的提取性能。泡泡的大小对应F1分数,泡泡的颜色代表精确度。(f) 使用GPT-4-turbo进行单位转换和数据清洗的结果。(g) 单位转换后有效数据的分布以及单位转换结果的成功率。
图4. (a) 不同模型的精确率。(b) 不同模型的召回率。(c) 不同模型的F1分数。(d) 不同模型的宏平均性能比较。(e) 不同模型的平均训练时间(针对六个样本)。(f) 从原始数据中预测的流型在参数空间中的分布,使用t-SNE投影。(g) AdaBoost预测的流型在参数空间中的分布,使用t-SNE投影。(h) 跨几个集成学习模型的特征重要性图。特征对模型预测的影响和重要性。(i) SHAP总结图,显示特征对滴落型的贡献。该图显示了特征对模型预测的影响和重要性。点图显示了每个特征在样本中的SHAP值分布,突出显示了变异性和方向性影响。条形图表示每个特征的平均绝对SHAP值,反映了其对模型决策的总体贡献。
图5. (a) 实验与预测结果的比较,实验内容为含氢氧化铝溶胶的水相在有机溶剂中的分散(按类别划分)。该图比较了每个类别的实验和预测结果,使用Capillary number () 和Weber number () 作为特征。上排显示实验数据,下排显示预测结果。(b) 羧苄西林的合成反应以及用于监测合成反应的装置。(c) 不同连续相和分散相流速下的流型图,实心圆圈代表实验分类,实心方块表示通过AdaBoost获得的预测分类。(d) 使用自然语言命令调用的Chat-Microreactor用户界面。
识别微信二维码,可添加药时空小编
请注明:姓名+研究方向!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.