网易首页 > 网易号 > 正文 申请入驻

清华大学/西南大学等基于大语言模型的连续流系统设计助手

0
分享至

随着化学合成技术的发展,连续流反应器和微反应器在自动化化学合成中变得越发重要,它们能够提升安全性、降低成本并提高稳定性。然而,化学反应的复杂性给微反应器的设计带来了巨大挑战。为了克服这些障碍,清华大学、西南大学、新加坡国立大学等研究人员引入了一种基于大型语言模型(LLM)的工具,用于从科学文献中提取关键的流动信息,以辅助微反应器系统的设计。该研究旨在通过结合机器学习方法和LLM,为合成化学家提供一个易于使用的工具,用于流动反应系统的设计,并为文献相对有限的领域提供应用机器学习方法和LLM的范例。研究成果发表于国际化工期刊《Chemical Engineering Science》。

福利 | 连续流系列白皮书领取

扫码登记信息并留言“连续流白皮书系列”,即可获取由药石科技提供的下列技术资料(工作人员会通过登记的邮箱发送,请务必填写正确信息):

  • 《Techwhitepaper-flowchemsitry_diazotizationreaction》

  • 《连续光催化技术的研究》

  • 《连续流技术手册》

  • 《药石科技2024年环境、社会及公司治理报告》


研究开发了一个基于LLM的工具,用于从文献中提取关键信息以指导流动反应器的设计。首先,研究者建立了一个基于神经网络的分类器,用于筛选包含流动反应器关键信息参数的文献段落。接着,开发了一个自我优化的工作流程,用于从文献中提取数据,该流程能够随着分析文献数量的增加而不断提高提取效率。在分析了仅10篇研究论文后,提取时间从24秒缩短至16秒。提取的数据经过清理后,被用于训练集成学习模型以对流动模式进行分类,这些模型在验证数据集上实现了超过70%的F1分数。此外,研究者还通过实验验证了该方法在实际反应系统中的应用,并构建了一个向量化的数据库和知识增强型LLM,以指导化学家在设计流动反应器时的决策。最终,该研究还开发了一个支持自然语言查询的前端界面,进一步降低了用户使用该工具的门槛。

本研究成功开发了一个利用LLM从科学文献中提取关键信息以指导流动反应器设计的工具。通过引入“直观神经网络”(Intuitive Neural Network, INN)方法,研究者能够在仅使用10%的数据进行训练的情况下,将假阳性率降低至24%,同时保持95%的真正性率,显著提高了后续步骤的效率。此外,通过自我优化的工作流程,数据提取效率得到了提升,处理时间大幅缩短。在流动模式分类方面,机器学习模型实现了超过70%的F1分数,并且通过可解释性分析验证了模型与人类专业知识的一致性。通过在实际有机反应系统中的应用测试,该方法能够以极小的误差预测流动动态,足以指导实际系统中微反应器的设计。最终,研究者构建了一个向量化的数据库和知识增强型LLM,以促进用户访问和应用。该研究不仅为合成化学家提供了一个高效的微反应器设计辅助工具,还为在文献相对有限的领域中应用机器学习方法和LLM提供了新的范例。

图文导读:

图1. Chat-Microreactor工作流程概述。 文献文本首先被向量化并过滤。被认为包含流动信息的段落被发送到LLMs进行信息提取。提取结果经过清洗,然后使用机器学习方法进行分析,而标注信息则用于优化过滤模型。最终,处理过的数据被构建为向量化数据库,并建立知识增强型LLM,以指导合成化学家在设计微反应器时使用。

图2. (a) 使用t-SNE方法对9986个标记的文本嵌入进行3D投影。仅显示包含流动信息的点。第一幅图显示原始数据的分布。第二幅图显示使用全局最优k向量的分类结果。第三幅图显示使用仅训练了10%数据的INN模型的预测结果。(b) 数据在不同余弦相似度值下的分布,针对全局最优k向量。拟合曲线是通过计算数据的概率密度函数(PDF)得到的。(c) 基于神经网络输出的概率值的数据分布,针对仅训练了10%数据的INN。拟合曲线是通过计算数据的概率密度函数(PDF)得到的。(d) INN的训练曲线。(e) 使用text-embedding-3-small进行文本嵌入时,两种方法的ROC曲线。(f) 使用ChatGLM2-6B进行文本嵌入时,两种方法的ROC曲线。(g) 不同模型生成嵌入所需时间随字符数的变化。

图3. (a) 使用对话进行数据提取的示意图。输入由指令和文本部分组成,指令作为任务指导,文本代表要处理的具体段落。鉴于数据结构的复杂性,输出以JSON格式标准化。(b) 使用GPT-4-turbo进行初步提取的结果。(c) 提取特征在不同类别中的分布。(d) 经过INN工作流程过滤后的结果,基于GPT-4-turbo的初步提取。不同颜色的线条代表不同的读者水平。(e) 不同LLMs的提取性能。泡泡的大小对应F1分数,泡泡的颜色代表精确度。(f) 使用GPT-4-turbo进行单位转换和数据清洗的结果。(g) 单位转换后有效数据的分布以及单位转换结果的成功率。

图4. (a) 不同模型的精确率。(b) 不同模型的召回率。(c) 不同模型的F1分数。(d) 不同模型的宏平均性能比较。(e) 不同模型的平均训练时间(针对六个样本)。(f) 从原始数据中预测的流型在参数空间中的分布,使用t-SNE投影。(g) AdaBoost预测的流型在参数空间中的分布,使用t-SNE投影。(h) 跨几个集成学习模型的特征重要性图。特征对模型预测的影响和重要性。(i) SHAP总结图,显示特征对滴落型的贡献。该图显示了特征对模型预测的影响和重要性。点图显示了每个特征在样本中的SHAP值分布,突出显示了变异性和方向性影响。条形图表示每个特征的平均绝对SHAP值,反映了其对模型决策的总体贡献。

图5. (a) 实验与预测结果的比较,实验内容为含氢氧化铝溶胶的水相在有机溶剂中的分散(按类别划分)。该图比较了每个类别的实验和预测结果,使用Capillary number () 和Weber number () 作为特征。上排显示实验数据,下排显示预测结果。(b) 羧苄西林的合成反应以及用于监测合成反应的装置。(c) 不同连续相和分散相流速下的流型图,实心圆圈代表实验分类,实心方块表示通过AdaBoost获得的预测分类。(d) 使用自然语言命令调用的Chat-Microreactor用户界面。

识别微信二维码,可添加药时空小编

请注明:姓名+研究方向!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
火药味十足!王毅把丑话说明,中方连发两道制裁令,美方罕见失声

火药味十足!王毅把丑话说明,中方连发两道制裁令,美方罕见失声

快乐彼岸
2026-07-02 23:41:22
菲律宾暴动抗议,民众包围总统府要求小马科斯下台,政变重现?

菲律宾暴动抗议,民众包围总统府要求小马科斯下台,政变重现?

月下守候
2026-07-02 23:25:34
德布劳内:只要我和卢卡库还在,我们就不会允许比利时沉沦

德布劳内:只要我和卢卡库还在,我们就不会允许比利时沉沦

懂球帝
2026-07-02 04:20:07
总统的女儿,成为“第一夫人”,又成为总统

总统的女儿,成为“第一夫人”,又成为总统

中国新闻周刊
2026-07-02 18:27:12
太魔幻了!中国空调卖断货后,欧洲人开始互相举报安装空调的邻居

太魔幻了!中国空调卖断货后,欧洲人开始互相举报安装空调的邻居

小柱解说游戏
2026-07-02 20:07:44
汤家凤一语戳破真相:韩红所有公益光环,皆是千万普通人血汗堆起

汤家凤一语戳破真相:韩红所有公益光环,皆是千万普通人血汗堆起

十为先生
2026-07-01 09:38:52
黄金跌价,2026年7月2日,国内各大金店品牌黄金、足金最新价格

黄金跌价,2026年7月2日,国内各大金店品牌黄金、足金最新价格

小陆搞笑日常
2026-07-02 13:27:28
你的公积金是什么段位?

你的公积金是什么段位?

细说职场
2026-07-01 18:46:21
俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

南宗历史
2026-03-17 16:53:10
中国男篮世预赛12人名单出炉!庞峥麟首次入选,徐昕获郭士强重用

中国男篮世预赛12人名单出炉!庞峥麟首次入选,徐昕获郭士强重用

老叶评球
2026-07-02 21:45:24
老干部被外卖媛拿捏了!资本大佬帮肖战拿奖!

老干部被外卖媛拿捏了!资本大佬帮肖战拿奖!

八卦疯叔
2026-07-01 11:10:50
后来才明白,电动车充满电后不拔,不是充电,是在给电池“加班”

后来才明白,电动车充满电后不拔,不是充电,是在给电池“加班”

沙雕小琳琳
2026-07-02 19:46:52
非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

叙说医疗健康
2026-06-16 08:00:21
凯特王妃亮相温网,多套花卉连衣裙尽显优雅英式穿搭美学

凯特王妃亮相温网,多套花卉连衣裙尽显优雅英式穿搭美学

墨薷桃桃
2026-07-01 16:49:15
中国股市,正在进入一个很多人没看懂的新阶段

中国股市,正在进入一个很多人没看懂的新阶段

观察者网
2026-07-02 12:17:34
1950 年,四川地主拿出朱德欠条,朱总司令:马上把他接到北京来

1950 年,四川地主拿出朱德欠条,朱总司令:马上把他接到北京来

纪实文录
2025-06-21 14:47:10
相亲试探套路深啊!女生给男生发200块红包报销路费,里面就0.1元

相亲试探套路深啊!女生给男生发200块红包报销路费,里面就0.1元

火山詩话
2026-07-01 08:44:36
杀进世界杯32强之后,阿根廷迎来一个大喜讯,未来5年无后顾之忧

杀进世界杯32强之后,阿根廷迎来一个大喜讯,未来5年无后顾之忧

零度眼看球
2026-07-02 09:04:34
湖南省委书记沈晓明会见钟掘

湖南省委书记沈晓明会见钟掘

政知新媒体
2026-07-02 14:48:56
37岁女子吃左氧氟沙星治尿路感染,2个月后走了,医生:2个忠告

37岁女子吃左氧氟沙星治尿路感染,2个月后走了,医生:2个忠告

健康之光
2026-07-01 09:02:18
2026-07-03 00:44:49
药时空 incentive-icons
药时空
生物制药行业相关资讯
4900文章数 142关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

多国元首和高官将参加哈梅内伊葬礼 莫迪受邀无法出席

头条要闻

多国元首和高官将参加哈梅内伊葬礼 莫迪受邀无法出席

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

游戏
手机
旅游
公开课
军事航空

国产外设厂"宣布"放弃实体手柄!数字化彻底解决漂移

手机要闻

消息称折叠屏iPhone备货量上调,售价预计2500美元起

旅游要闻

135公里铁丝网围泰山,论证过必要性了吗

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版