网易首页 > 网易号 > 正文 申请入驻

清华大学/西南大学等基于大语言模型的连续流系统设计助手

0
分享至

随着化学合成技术的发展,连续流反应器和微反应器在自动化化学合成中变得越发重要,它们能够提升安全性、降低成本并提高稳定性。然而,化学反应的复杂性给微反应器的设计带来了巨大挑战。为了克服这些障碍,清华大学、西南大学、新加坡国立大学等研究人员引入了一种基于大型语言模型(LLM)的工具,用于从科学文献中提取关键的流动信息,以辅助微反应器系统的设计。该研究旨在通过结合机器学习方法和LLM,为合成化学家提供一个易于使用的工具,用于流动反应系统的设计,并为文献相对有限的领域提供应用机器学习方法和LLM的范例。研究成果发表于国际化工期刊《Chemical Engineering Science》。

福利 | 连续流系列白皮书领取

扫码登记信息并留言“连续流白皮书系列”,即可获取由药石科技提供的下列技术资料(工作人员会通过登记的邮箱发送,请务必填写正确信息):

  • 《Techwhitepaper-flowchemsitry_diazotizationreaction》

  • 《连续光催化技术的研究》

  • 《连续流技术手册》

  • 《药石科技2024年环境、社会及公司治理报告》


研究开发了一个基于LLM的工具,用于从文献中提取关键信息以指导流动反应器的设计。首先,研究者建立了一个基于神经网络的分类器,用于筛选包含流动反应器关键信息参数的文献段落。接着,开发了一个自我优化的工作流程,用于从文献中提取数据,该流程能够随着分析文献数量的增加而不断提高提取效率。在分析了仅10篇研究论文后,提取时间从24秒缩短至16秒。提取的数据经过清理后,被用于训练集成学习模型以对流动模式进行分类,这些模型在验证数据集上实现了超过70%的F1分数。此外,研究者还通过实验验证了该方法在实际反应系统中的应用,并构建了一个向量化的数据库和知识增强型LLM,以指导化学家在设计流动反应器时的决策。最终,该研究还开发了一个支持自然语言查询的前端界面,进一步降低了用户使用该工具的门槛。

本研究成功开发了一个利用LLM从科学文献中提取关键信息以指导流动反应器设计的工具。通过引入“直观神经网络”(Intuitive Neural Network, INN)方法,研究者能够在仅使用10%的数据进行训练的情况下,将假阳性率降低至24%,同时保持95%的真正性率,显著提高了后续步骤的效率。此外,通过自我优化的工作流程,数据提取效率得到了提升,处理时间大幅缩短。在流动模式分类方面,机器学习模型实现了超过70%的F1分数,并且通过可解释性分析验证了模型与人类专业知识的一致性。通过在实际有机反应系统中的应用测试,该方法能够以极小的误差预测流动动态,足以指导实际系统中微反应器的设计。最终,研究者构建了一个向量化的数据库和知识增强型LLM,以促进用户访问和应用。该研究不仅为合成化学家提供了一个高效的微反应器设计辅助工具,还为在文献相对有限的领域中应用机器学习方法和LLM提供了新的范例。

图文导读:

图1. Chat-Microreactor工作流程概述。 文献文本首先被向量化并过滤。被认为包含流动信息的段落被发送到LLMs进行信息提取。提取结果经过清洗,然后使用机器学习方法进行分析,而标注信息则用于优化过滤模型。最终,处理过的数据被构建为向量化数据库,并建立知识增强型LLM,以指导合成化学家在设计微反应器时使用。

图2. (a) 使用t-SNE方法对9986个标记的文本嵌入进行3D投影。仅显示包含流动信息的点。第一幅图显示原始数据的分布。第二幅图显示使用全局最优k向量的分类结果。第三幅图显示使用仅训练了10%数据的INN模型的预测结果。(b) 数据在不同余弦相似度值下的分布,针对全局最优k向量。拟合曲线是通过计算数据的概率密度函数(PDF)得到的。(c) 基于神经网络输出的概率值的数据分布,针对仅训练了10%数据的INN。拟合曲线是通过计算数据的概率密度函数(PDF)得到的。(d) INN的训练曲线。(e) 使用text-embedding-3-small进行文本嵌入时,两种方法的ROC曲线。(f) 使用ChatGLM2-6B进行文本嵌入时,两种方法的ROC曲线。(g) 不同模型生成嵌入所需时间随字符数的变化。

图3. (a) 使用对话进行数据提取的示意图。输入由指令和文本部分组成,指令作为任务指导,文本代表要处理的具体段落。鉴于数据结构的复杂性,输出以JSON格式标准化。(b) 使用GPT-4-turbo进行初步提取的结果。(c) 提取特征在不同类别中的分布。(d) 经过INN工作流程过滤后的结果,基于GPT-4-turbo的初步提取。不同颜色的线条代表不同的读者水平。(e) 不同LLMs的提取性能。泡泡的大小对应F1分数,泡泡的颜色代表精确度。(f) 使用GPT-4-turbo进行单位转换和数据清洗的结果。(g) 单位转换后有效数据的分布以及单位转换结果的成功率。

图4. (a) 不同模型的精确率。(b) 不同模型的召回率。(c) 不同模型的F1分数。(d) 不同模型的宏平均性能比较。(e) 不同模型的平均训练时间(针对六个样本)。(f) 从原始数据中预测的流型在参数空间中的分布,使用t-SNE投影。(g) AdaBoost预测的流型在参数空间中的分布,使用t-SNE投影。(h) 跨几个集成学习模型的特征重要性图。特征对模型预测的影响和重要性。(i) SHAP总结图,显示特征对滴落型的贡献。该图显示了特征对模型预测的影响和重要性。点图显示了每个特征在样本中的SHAP值分布,突出显示了变异性和方向性影响。条形图表示每个特征的平均绝对SHAP值,反映了其对模型决策的总体贡献。

图5. (a) 实验与预测结果的比较,实验内容为含氢氧化铝溶胶的水相在有机溶剂中的分散(按类别划分)。该图比较了每个类别的实验和预测结果,使用Capillary number () 和Weber number () 作为特征。上排显示实验数据,下排显示预测结果。(b) 羧苄西林的合成反应以及用于监测合成反应的装置。(c) 不同连续相和分散相流速下的流型图,实心圆圈代表实验分类,实心方块表示通过AdaBoost获得的预测分类。(d) 使用自然语言命令调用的Chat-Microreactor用户界面。

识别微信二维码,可添加药时空小编

请注明:姓名+研究方向!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台湾今年1月新生儿不足9000人

台湾今年1月新生儿不足9000人

海外网
2026-02-11 10:23:59
贵州农村乱摆酒席上热搜!当地网友怒斥,一天五六家,各种奇葩席

贵州农村乱摆酒席上热搜!当地网友怒斥,一天五六家,各种奇葩席

火山詩话
2026-02-11 08:55:05
节前,大放水!

节前,大放水!

米筐投资
2026-02-11 23:42:23
郑钦文再退赛惹众怒!反复横跳像作秀,“一姐”位置已然不保

郑钦文再退赛惹众怒!反复横跳像作秀,“一姐”位置已然不保

一枚野球君
2026-02-01 12:39:35
十四届全国人大财政经济委员会副主任委员易炼红被查

十四届全国人大财政经济委员会副主任委员易炼红被查

都市快报橙柿互动
2026-02-11 17:33:26
佛山一大学,发布严正声明!

佛山一大学,发布严正声明!

南方都市报
2026-02-11 17:30:10
吴彦姝和女儿吃火锅被偶遇!女儿断崖式衰老,3年时间像变了个人

吴彦姝和女儿吃火锅被偶遇!女儿断崖式衰老,3年时间像变了个人

林雁飞
2026-02-11 17:02:31
主赞助商退出!京东不续约国安,中赫重现中超,解决俱乐部一难题

主赞助商退出!京东不续约国安,中赫重现中超,解决俱乐部一难题

体坛鉴春秋
2026-02-11 20:32:01
基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

梦在深巷aqa
2026-02-11 08:46:11
吉盛伟邦撤场!这一次,广州人为什么不再期待新地标?

吉盛伟邦撤场!这一次,广州人为什么不再期待新地标?

广州PLUS
2026-02-11 19:48:05
三年内中国可能会少掉30%的工厂,不是倒闭,是搬走,搬去越南。

三年内中国可能会少掉30%的工厂,不是倒闭,是搬走,搬去越南。

流苏晚晴
2026-02-11 18:32:21
深度揭秘 | 封疆大吏罗保铭:贪婪腐化,大办丧事敛财,大搞迷信活动

深度揭秘 | 封疆大吏罗保铭:贪婪腐化,大办丧事敛财,大搞迷信活动

一分为三看人生
2026-02-11 16:18:47
0-0,上海海港提前被淘汰,3新援完成首秀 让克劳德踢后卫像战神

0-0,上海海港提前被淘汰,3新援完成首秀 让克劳德踢后卫像战神

替补席看球
2026-02-11 19:57:20
WTA爆大冷!大满贯冠军0-2惨败,斯瓦泰克轰6-0,中国金花2连败

WTA爆大冷!大满贯冠军0-2惨败,斯瓦泰克轰6-0,中国金花2连败

不写散文诗
2026-02-11 19:24:28
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
捡漏买到二手物品远比新的还要香!网友:‬这比电视剧拍的都要牛

捡漏买到二手物品远比新的还要香!网友:‬这比电视剧拍的都要牛

另子维爱读史
2026-02-11 18:29:27
爱泼斯坦文件曝光,迈克尔·杰克逊被重新审视!

爱泼斯坦文件曝光,迈克尔·杰克逊被重新审视!

达文西看世界
2026-02-09 21:36:38
研究发现高功率超快充电桩会让电动车动力电池的老化速度几乎翻倍

研究发现高功率超快充电桩会让电动车动力电池的老化速度几乎翻倍

cnBeta.COM
2026-02-10 01:06:23
男子在工地和女工友搭伙5年,分开时才知道她的真实身份

男子在工地和女工友搭伙5年,分开时才知道她的真实身份

晓艾故事汇
2025-08-07 17:24:20
比赌博还狠的“隐形毒药”,正慢慢掏空中国家庭,无数人被它拖垮

比赌博还狠的“隐形毒药”,正慢慢掏空中国家庭,无数人被它拖垮

千秋文化
2026-02-10 20:55:47
2026-02-12 00:24:49
药时空 incentive-icons
药时空
生物制药行业相关资讯
3899文章数 121关注度
往期回顾 全部

科技要闻

V4来了?DeepSeek 灰度测试新版本

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

大孤山风波愈演愈烈 超50位明星扎堆

财经要闻

广州前首富被判无期 200亿集资窟窿何偿

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

时尚
健康
本地
教育
公开课

3种美翻天的穿搭,换个方式过春天

转头就晕的耳石症,能开车上班吗?

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

教育要闻

齐鲁时评:炫富、恶搞、擦边球?八部门联合立新规,这次能管住算法伸向孩子的手吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版