《LangChain for Life Sciences and Healthcare》里有个细节让我停了一下。作者Ivan Reznikov在讲化学AI时,提到一个反直觉的事实:那些专门为化学调优的大语言模型,理解分子的方式跟化学家完全不同。
化学家看的是结构、电子云、空间构型。AI呢?它把分子当成一串token序列。SMILES、SELFIES、InChI——这些人类用来描述分子的文本格式,成了模型的"母语"。
![]()
这就引出一个核心问题:哪种分子表示法能让AI最擅长化学推理?
SMILES最流行,紧凑好写,但有个老毛病:歧义太多,立体化学处理不干净,分子上下文经常缺胳膊少腿。SELFIES更鲁棒,生成的每一段序列都能对应一个有效分子,不会跑出"语法错误"的化学结构。InChI标准化程度高,但序列太长太复杂,生成难度陡增。
表示法不只是格式选择,它直接决定了模型怎么学习化学关系。GT4SD(科学发现生成工具包)就是专门啃这块硬骨头的。它聚焦几类任务:化学反应预测、逆合成分析、文字描述转SMILES、SMILES转文字说明,甚至把实验步骤写成可执行指令。
书里测了几款化学专用模型:GT4SD多任务T5、MolT5、CHEMLLM-2b。但真正有意思的,是它们搞砸的时候。
费舍尔酯化反应预测中,好几个模型生成了化学上完全不可能的结构——反应物里根本没有的原子,凭空出现在产物里。这不是小错,是底层逻辑出了问题。
预测分子token,不等于理解化学。真实的化学反应依赖反应机理、热力学、电子转移、立体化学、三维空间相互作用。一维token序列能捕捉的,只是这套现实的碎片。
书里一句话点透了:"不理解化学反应背后的科学原理,模型就只是在猜测可能的解。"
化学AI的下一步,大概不是让语言模型单打独斗。语言模型、图神经网络、三维分子表示、物理约束AI、符号化学推理——这些技术的组合,才可能让AI从"生成化学"走向"理解化学"。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.