网易首页 > 网易号 > 正文 申请入驻

AI大模型驱动的智能化学结构分割框架ChemSAM

0
分享至

近日,「德睿智药」与帝国理工学院的合作论文“Automated molecular structure segmentation from documents using ChemSAM”发表在国际顶级化学信息学期刊Journal of Cheminformatics上。研究团队开发了一种基于深度学习的高性能化学结构分割模型ChemSAM,利用大模型框架从化合物的图形表示中识别其结构。该模型在公开基准数据集和实际任务上取得了当前最优效果,能够高效提取期刊文献以及专利中的化学结构。目前,ChemSAM已成功应用于「德睿智药」内部PROTACT数据库以及PharmKG平台项目研发,加速高质量化学信息收集。



以下为研究概况、数据与方法、实验结果与结论:

1. 研究概况

准确且高效的数据收集是高质量AI药物研发模型研发的基础。传统的人工方法从专利以及科学文献中提取化学结构往往耗时且易错。2023年,通用的图像分割基础大模型SAM(Segment Anything Model)问世并备受瞩目,该模型能够分割给定自然图像中的任何目标。如图1所示,本文研究团队提出的ChemSAM模型通过引入领域知识理解,将SAM模型能力成功扩展至化学领域,在实现化合物结构精准提取的目标上取得了重要突破。


图1. ChemSAM分割过程

2. 数据与方法

2.1 模型架构


图2. ChemSAM模型概览

ChemSAM模型由三部分架构而成:图像编码器、提示编码器和掩码解码器。如图2所示,图像首先经过2D卷积和12层编码器块处理,每层均集成化学知识的适配器,随后利用预训练的视觉变换器(ViT)和遮蔽自编码器(MAE),通过额外的卷积和规范化步骤完成图像嵌入。掩码解码器则结合图像和提示嵌入,利用变换器模型和动态掩码预测头在像素级映射掩码。为了细化识别,团队还引入了特定的适配器模块而非完全微调,通过一系列下投影、激活和上投影操作,最终通过Sigmoid函数进行概率化处理,准确指示出化学结构的像素。

2.2 数据集和训练

基于SAM-B的ChemSAM模型已在包含超过10亿掩码和1100万张图像的SA-1B数据集上进行了训练。在此基础上,研究团队自行收集了合成数据,以进一步优化模型的自动化化学结构识别能力。这些数据包括从专利和学术数据库中获取的PROTAC相关文献,共筛选出550个无化学结构的文档页面。分子数据来自于从美国专利商标局(USPTO)和ZINC15数据库中选取的类药分子。同时,研究团队还从文献中收集了8764个非分子结构的图像作为负样本,以模拟真实的页面布局。图3展示了训练数据中的一个示例。


图3. 合成页面和掩码页面的训练示例

2.3 后处理

在ChemSAM分子结构分割过程中存在三个主要问题。第一,化学结构通常显示在表格中,表格线有时会与化学结构重叠,ChemSAM可能误将表格线视为分子结构的一部分。为此,研究团队使用霍夫变换移除了图像和预测掩码中的长直线。

第二,预测掩码可能未完全覆盖原始化学结构,导致覆盖不完整或增加多余掩码。团队就此开发了一种自定义掩码更新算法。具体来看,团队首先对图像进行自适应阈值二值化,然后应用膨胀处理来连接间隙。接着以膨胀掩码为起点,进行掩码的添加和删除,以捕获完整的分子结构。如图4所示,通过对掩码和像素页的覆盖,对初始点对应的像素进行迭代检查,收集邻近的黑色像素直至没有更多。这一步骤确保了掩码准确反映分子结构。最终通过移除过小的区域并对掩码进行精细调整,从原始输入中裁剪出单个结构的图像。


图4. 掩码更新过程

第三是误报检测。在一些特殊情况下,ChemSAM无法识别并分离非化学部分,这可能是由于合成训练数据集中缺乏类似数据。为此,研究团队开发了一个内部过滤模型,将分割结果作为输入来确定图像是否代表化学结构。

3. 实验结果

研究团队评估了MolMiner-ImgDet、DECIMER和ChemSAM在化学结构分割上的性能,考虑因素包括分割完整性和结构识别准确性。如图5所示,MolMiner在单个分子分割上存在不足,有时将多个分子错误分组。相比之下,DECIMER在分割稳健性上表现更好,但也存在识别错误的问题,如将手性氢误识为甲基。而ChemSAM展现出精准的分割能力,正确识别了分子结构及其相关标签。


图5. 期刊页面扫描案例

为了系统评估模型从专利和论文中进行结构分割的能力,研究团队还构建了一个化学结构数据集作为测试基准,对DECIMER和ChemSAM进行了比较评估。如图6所示,ChemSAM以98.43%的高准确率显著超越DECIMER的90.15%,展示了其在化学结构分割完整性方面的优势。DECIMER在识别过程中存在2.54%的冗余,可能影响数据的准确录入。在识别彩色背景下的化学结构时,ChemSAM的表现比DECIMER高出近10%。此外,ChemSAM在识别专利中的马库什结构和分割3D分子图像方面也展现出显著优势,能够直接在像素级预测掩码并识别化学结构。


图6. 基准数据集的直方图统计结果


图7. 彩色分子结构图像检测与分割


图8. 3D分子结构图像检测与分割

4. 结论

论文研究团队提出了一种基于深度学习和视觉变换器模型的化学结构分割方法ChemSAM。该模型在基准数据集上表现出卓越性能,能够从复杂文本源中自动化准确分割化学结构。这一创新解决方案有望广泛应用于化学信息学多个领域,推动化学结构识别的高效准确化,加速创新药物研发。

论文链接:https://doi.org/10.1186/s13321-024-00823-2

关于德睿智药

德睿智药是一家临床阶段AI驱动的创新药物研发公司。公司愿景是通过推动人工智能和新药研发领域多种前沿技术渗透融合,持续输出兼具差异化和高临床价值的候选药物,从而让更多生命重获健康。

公司AI医药解决方案曾被欧美权威机构Deep Pharma Intelligence评为“2018-2020全球最重要的11个AI药物研发突破性成就”之一。2023年入选福布斯“Forbes Asia 100 to Watch”榜单,中国大陆仅11家初创公司上榜。

更多信息请访问网站:www.mindrank.ai

合作:bd@mindrank.ai

其他:info@mindrank.ai

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
158000元,那个比8848还牛的手机,杀回来了

158000元,那个比8848还牛的手机,杀回来了

锋潮评测
2024-05-28 17:06:10
第一次穿丝袜

第一次穿丝袜

娱乐八卦木木子
2024-05-28 15:58:40
美日军演越发频繁,日本为阻止中国统一,再次赌上了“国运”

美日军演越发频繁,日本为阻止中国统一,再次赌上了“国运”

薛兴林TALK
2024-05-28 16:30:52
111岁!全球在世最长寿男性!长寿秘诀他说了2个字,很多人做不到

111岁!全球在世最长寿男性!长寿秘诀他说了2个字,很多人做不到

趣知史馆
2024-05-27 11:10:02
急了!中国宣布对镓、锗的管制后,美国称本国没有镓的储备

急了!中国宣布对镓、锗的管制后,美国称本国没有镓的储备

波澜呀
2024-05-28 05:41:32
终于,又有贪官领死!

终于,又有贪官领死!

融通天下
2024-05-28 19:51:57
火车上的秘密:为何乘务员晚上要强制拉窗帘?火车还会停在半路上

火车上的秘密:为何乘务员晚上要强制拉窗帘?火车还会停在半路上

史小纪
2024-05-27 15:24:59
西安楼市全军覆灭,西安雁塔区房价从21000元降至18000元

西安楼市全军覆灭,西安雁塔区房价从21000元降至18000元

有事问彭叔
2024-05-28 16:39:56
回顾北京一研究生娶清华女博士为妻,3个月后才知妻子的真实身份

回顾北京一研究生娶清华女博士为妻,3个月后才知妻子的真实身份

田间农人阿馋
2024-05-23 07:15:12
他出身黑道,曾是高官的司机和白手套,迎娶小燕子,后花十年洗白

他出身黑道,曾是高官的司机和白手套,迎娶小燕子,后花十年洗白

阿胡
2024-04-29 11:49:43
炸裂!沈阳处级干部逆行撞死一人,20天毫无进展,被曝仍在上班!

炸裂!沈阳处级干部逆行撞死一人,20天毫无进展,被曝仍在上班!

校长侃财
2024-05-28 23:45:24
40000枚炮弹运往俄罗斯,美国的铁盟叛变援俄!拜登却敢怒不敢言

40000枚炮弹运往俄罗斯,美国的铁盟叛变援俄!拜登却敢怒不敢言

早日发达
2024-05-28 14:05:02
西甲官方:阿雷索角球区神仙球破门当选为赛季最佳进球

西甲官方:阿雷索角球区神仙球破门当选为赛季最佳进球

直播吧
2024-05-29 02:56:50
加沙是人间地狱!轰炸拉法引公愤,内塔尼亚胡会下台吗?专家:法理上很难

加沙是人间地狱!轰炸拉法引公愤,内塔尼亚胡会下台吗?专家:法理上很难

红星新闻
2024-05-28 20:48:24
重庆冠军赛!男单签表出炉:樊振东下下签,梁靖崑连遇恶战

重庆冠军赛!男单签表出炉:樊振东下下签,梁靖崑连遇恶战

知轩体育
2024-05-28 16:50:09
汪小菲领证透露了三个信息:大s后路被断干净了

汪小菲领证透露了三个信息:大s后路被断干净了

股票短线实盘指导操作
2024-05-28 15:58:06
70岁老头风流成性,把十多个会所小姐带回家当保姆,最后动了真心

70岁老头风流成性,把十多个会所小姐带回家当保姆,最后动了真心

叶天辰故事会
2024-05-22 15:49:25
还剩7600亿美债,中国对美开出第三张罚单,沙利文一语激起千层浪

还剩7600亿美债,中国对美开出第三张罚单,沙利文一语激起千层浪

王大健美食日常
2024-05-29 00:39:10
钟薛高创始人回应直播带货还债:目前拖欠729位员工薪资

钟薛高创始人回应直播带货还债:目前拖欠729位员工薪资

财联社
2024-05-28 20:09:14
热搜第一!千万粉丝网红塌房!本人、公司回应

热搜第一!千万粉丝网红塌房!本人、公司回应

极目新闻
2024-05-27 08:53:54
2024-05-29 03:26:44
德睿智药
德睿智药
AI驱动创新药物研发
52文章数 1关注度
往期回顾 全部

科技要闻

4月中国手机需求回升 iPhone出货量增长52%

头条要闻

安徽坍塌居民楼结构脆弱 专家称其"像积木搭在墙上"

头条要闻

安徽坍塌居民楼结构脆弱 专家称其"像积木搭在墙上"

体育要闻

安帅:赛前我总会紧张但哨响后就会冷静;球队仅一种风格不行

娱乐要闻

昆凌晒三胎正面照,2岁妹妹超像周杰伦

财经要闻

东方通收购藏雷 花6亿买来"业绩变脸"

汽车要闻

三联屏/纯电续航318km 岚图FREE 318官图发布

态度原创

本地
旅游
艺术
公开课
军事航空

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

旅游要闻

画面曝光!五台山保安与游客起冲突 有人用手捂头

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

公开课

近视只是视力差?小心并发症

军事要闻

以军装甲部队进入加沙地带南部城市拉法市中心

无障碍浏览 进入关怀版