网易首页 > 网易号 > 正文 申请入驻

上海药物所DDDC团队摘取Kaggle分子翻译国际挑战赛冠军

0
分享至

责编丨迦溆

药物研发需要化学、生物、药理、毒理、临床等多学科的协作和多领域知识的综合运用。通常,一个药物的研发数据多达数千至数万页,而且这些海量的原始数据是以各种各样的形式散落在不同的地方,如文献、专利、网页、图片、纸质印刷物等等。如何在海量研发原始数据中快速获取真正有参考价值的“有效数据”是药物研发人员所面临的巨大挑战。

近日,由国际制药公司百时美施贵宝发起的“百时美施贵宝-分子翻译”(Bristol-Myers Squibb – Molecular Translation,https://www.kaggle.com/c/bms-molecular-translation)挑战比赛在著名数据科学竞赛平台Kaggle(见附注)落下帷幕。作为生物医药大数据挖掘领域里最具挑战性的问题之一,这场比赛得到了广泛关注,吸引了来自世界各地的上千名数据科学家,共计874支参赛队伍。经过三个多月的激烈角逐,最终来自中国科学院上海药物所药物发现与设计中心的研究生钟飞盛和熊嘉诚以及阿尔脉生物医药科技的刘小红博士组成的“SIMM DDDC”队伍,获得了此次大赛的第一名(见图1,奖金为5万美金),团队指导是来自中国科学院上海药物研究所的郑明月研究员和蒋华良院士。

图1. Kaggle分子翻译挑战赛最终排名情况

这次分子翻译挑战赛的目标是从图片中识别化学结构,并将其转换为文本形式的国际化合物标识(International Chemical Identifier, InChI)。在期刊和专利等出版物中,有机化合物通常以化学分子结构式的图片形式来表示。因此,自动从此类图像文件中识别成化学结构,可以使化学家快速地获取有参考价值的“化学数据”。此外,分子图像翻译得到的InChI文字化学式可以视作包含丰富语义的文本数据,可以与同样是文本形式描述的生物、药理、毒理、药代、甚至临床试验等其他数据和信息更方便的进行整合。比如,通过使用常规的自然语言处理技术就可以考虑专利中某个分子结构所处的复杂语境,从而加深AI模型对该化学结构和性质的理解。

在分子翻译挑战赛中,施贵宝构建了一个超过四百万的分子结构图像数据集,以3:2划分训练和测试集。按照Kaggle比赛规则,在计算得分的时候有Public Leaderboard和 Private Leaderboard之分,其中测试集中的25%的数据开放给参赛选手计算得分和排名,实时显示在 Public Leaderboard上。这个结果主要作用是为选手提供及时的反馈和动态展示比赛的进行情况,供选手参考调整比赛策略。测试集的剩余75%数据用于计算参赛选手提供模型的最终得分和排名,此即为 Private Leaderboard,在比赛结束后揭晓。比赛从2021年3月2日开始后不久,“SIMM DDDC”团队在Public Leaderboard一直稳定排在前三名左右,在进入5月份之后开始稳定占据榜首位置,并且在最终截止日(6月4日)以较大领先优势同时斩获Public 和Private Leaderboard的冠军。值得一提的是,这次比赛吸引了众多专家(Expert)、大师(Master)甚至宗师(Grandmaster)级别的资深Kaggle数据科学家,而最终夺冠的“SIMM DDDC”队伍中的三名选手都是第一次参加Kaggle比赛的新手玩家(Novice)。

“分子翻译”本质是化学结构式图像识别(Optical Chemical Structure Recognition,OCSR)这一经典问题,距今已经有三十多年的研究历史。大多数 OCSR 技术遵循基于规则的方法,其中关键步骤是图片矢量化之后将线条和节点解释为键和原子,涉及到图像分割、图像细化、线条增强、光学字符识别 (OCR) ,以及最终重建的分子图形或其他表示(见图2)。近年来,也有一些基于深度学习的解决方案。例如采用编码器-解码器架构的MSE-DUDL模型,其中编码器使用卷积神经网络,将包含化学图的图像编码到固定长度的嵌入表示,然后解码器使用循环神经网络将它们解码成文本形式的分子结构。

图2. 基于规则的化学结构式图像识别方法

然而,真实世界中的化学结构图像不仅大小不同、格式各异,而且可能存在各种噪声。比如旧纸质文档扫描得到的电子文档普遍存在失真问题。如何处理诸如模糊、部分缺失、扭曲变形等问题是OCSR技术的难点。比如,图3是化学专家一般可以正确识别的分子结构,仅凭经验即可对缺失的化学键或原子进行补全。但这类问题对计算机模型通常非常具有挑战,模型一般很难凭空构建图片中不存在(缺失)的部分。

图3. 存在噪声的分子结构图片

下图以一张有噪声的分子结构图片为例,显示了一款化学反应式图像识别软件和本次比赛的冠军模型的结果对比:

图4. 化学结构图片识别软件与本次分子翻译比赛的冠军模型的结果对比。a)一张带有噪声的分子结构图片;b)某款化学反应式图像识别软件的识别结果;c)本次比赛的冠军模型识别并重建的分子结构;d)冠军模型分子翻译输出InChI编码

可以看出,现有的一些化学结构图片识别工具仍存在明显的局限性,尚达不到解决真实世界问题的技术需求。与此相比,此次冠军团队开发的模型可以很好的解决化学结构图片的噪声问题,并且正确的重构分子的结构图(图4c)。此外,从分子翻译输出的文本编码来看,国际化合物标识InChI具有严格的语法规则,任一字符出错都会大概率导致整体编码无效。因此,与常规化学结构式图像识别任务不同,这次挑战赛要求更高:参赛模型不仅要识别分子图像,而且要输出正确有效,符合InChI语法的分子结构(图4d)。

数据、算法和算力是人工智能技术发展的基础要素。近年来,人工智能在算法和算力方面突飞猛进,数据已逐渐成为限制人工智能技术进一步发展的短板。在药物研发和化学研究领域,数据匮乏的问题更加明显,如何有效地提取和整合可用于AI建模的高质量数据是亟待解决的问题。上海药物所团队开发的分子翻译算法能从带有噪声的图像中准确地提取化合物结构信息,可以用于真实世界的化学和药学文献以及专利数据的自动挖掘和分析,这将极大地促进生物医药和化学大数据的构建,进而为后续人工智能算法的开发奠定坚实的基础。蒋华良院士将这种使用AI技术挖掘数据,并在此基础上构建AI算法的思路称为AI2。这一思路展示了AI通过自主“进化发展”实现从功能向能力转变的特征,是通往强人工智能道路上的积极尝试。

附注:

Kaggle比赛介绍:Kaggle是国际上最著名的数据科学竞赛平台之一,由于其受众广、影响深远和赛制公平,被视为是机器学习算法检验的试金石。许多企业、科研院所或政府机构会根据自己所关注的问题在kaggle平台组织竞赛,通过悬赏高额奖金向全世界的研究者寻求解决方案。该平台举办的比赛一般是为了解决某领域面临的共性问题或探索未来的发展方向,因此比赛的意义重大。其中,一些Kaggle竞赛的结果甚至为学界提供新的研究方向。以2012年Merck公司发起的“分子活性预测”挑战赛为例,在比赛中绝大部分队伍使用的是传统机器学习方法如随机森林模型,而Dahl和Hinton团队使用了当时新发展的深度神经网络。最终Hinton团队的深度学习模型从两百多只队伍中脱颖而出,赢得了这一赛事的冠军,这次比赛后来也成为人工智能领域的标志性事件之一。自此之后,利用深度神经网络预测药物分子性质受到越来越多的关注,推动了人工智能在药物研发领域的发展。近年来,Kaggle平台举办的与药物研发相关的竞赛逐渐增多,如斯坦福大学组织的“开放疫苗:COVID-19mrna疫苗降解预测”,哈佛大学组织的“药物作用机制预测”, Human Protein Atlas 组织的“人类蛋白图谱-单细胞分类”挑战赛,以及最近刚落下帷幕的有百时美施贵宝组织的 “Bristol-Myers Squib-分子翻译” 等多项竞赛。这些比赛的主题一方面彰显了机器学习社区对医药领域浓厚的兴趣,另一方面说明通过构建AI模型能切实解决该领域面临的实际问题。未来,随着数据的积累和算力、算法的进一步发展,可以预见AI在药物研发领域将起到越来越重要的作用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝张雪峰去世细节!倒在跑步机上,留上亿存款,生前已想好墓志铭

曝张雪峰去世细节!倒在跑步机上,留上亿存款,生前已想好墓志铭

裕丰娱间说
2026-03-24 22:52:30
美军地面部队近期大概率要下场了

美军地面部队近期大概率要下场了

新潮沉思录
2026-03-24 20:08:55
国际油价23日大跌逾10%

国际油价23日大跌逾10%

证券时报
2026-03-24 07:22:02
悲催!200万存款无房贷,80后夫妻原本计划备孕,双双被裁焦虑了

悲催!200万存款无房贷,80后夫妻原本计划备孕,双双被裁焦虑了

火山詩话
2026-03-24 05:38:02
伊朗公布战争结束条件,怂了!赔偿都不要了!

伊朗公布战争结束条件,怂了!赔偿都不要了!

廖保平
2026-03-24 15:03:15
房价,大涨了40%?

房价,大涨了40%?

科学发掘
2026-03-23 17:18:35
味多美被指拒招北京本地人,HR先称“公司规定”后改口否认,求职者:首次因户籍被拒

味多美被指拒招北京本地人,HR先称“公司规定”后改口否认,求职者:首次因户籍被拒

潇湘晨报
2026-03-24 18:09:12
3月国际比赛国家队身价榜:英格兰16.2亿第1,阿根廷7.77亿第8

3月国际比赛国家队身价榜:英格兰16.2亿第1,阿根廷7.77亿第8

懂球帝
2026-03-24 19:03:47
今天上午平凉路近兰州路一男子因家庭纠纷当街殴打妻子 当事人已被刑拘

今天上午平凉路近兰州路一男子因家庭纠纷当街殴打妻子 当事人已被刑拘

上观新闻
2026-03-24 20:06:04
大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

墨印斋
2026-03-24 21:34:56
废旧手机回收迎来“火热期”!有市民一次性卖五六部变现近千元

废旧手机回收迎来“火热期”!有市民一次性卖五六部变现近千元

闪电新闻
2026-03-24 14:50:40
4月1日起慢病医保彻底变天,三类慢病手机办理,报销比例直接拉满

4月1日起慢病医保彻底变天,三类慢病手机办理,报销比例直接拉满

老特有话说
2026-03-23 15:36:01
2个月前清仓21吨银条,狂赚近2.5亿元,广州那家物业公司如今回头“抄底”:买2.5吨白银!

2个月前清仓21吨银条,狂赚近2.5亿元,广州那家物业公司如今回头“抄底”:买2.5吨白银!

每日经济新闻
2026-03-24 21:37:14
苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值!

苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值!

共工之锚
2026-03-24 01:31:15
深夜!黄金、白银拉升,油价直线跳水!

深夜!黄金、白银拉升,油价直线跳水!

证券时报e公司
2026-03-24 23:12:38
果然视频|“亡母被结婚案”最新进展:生父首度发声指认遗嘱伪造

果然视频|“亡母被结婚案”最新进展:生父首度发声指认遗嘱伪造

齐鲁壹点
2026-03-24 16:27:12
拔出萝卜带出泥!释永信“开光”内幕曝光,这4位女星被流言害惨

拔出萝卜带出泥!释永信“开光”内幕曝光,这4位女星被流言害惨

潮鹿逐梦
2026-03-24 12:44:49
太尴尬了!广州男子用百元酒水招待朋友,可孩子突然拿出一瓶茅台

太尴尬了!广州男子用百元酒水招待朋友,可孩子突然拿出一瓶茅台

火山詩话
2026-03-24 05:15:33
中央公布重要文件,养老金调整方向定了,取消工龄挂钩调整行吗?

中央公布重要文件,养老金调整方向定了,取消工龄挂钩调整行吗?

有范又有料
2026-03-24 10:10:21
一夜之间,微信为何失守?

一夜之间,微信为何失守?

虎嗅APP
2026-03-24 16:50:56
2026-03-25 04:15:00
BioArt incentive-icons
BioArt
探索生物艺术之奥秘
9538文章数 18503关注度
往期回顾 全部

科技要闻

年仅41岁,教育名师张雪峰猝然离世

头条要闻

张雪峰去世 猝死前身体的3个求救信号别忽视

头条要闻

张雪峰去世 猝死前身体的3个求救信号别忽视

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

艺术
房产
游戏
旅游
健康

艺术要闻

300米!非洲最高全钢混住宅,中国建造又破纪录!

房产要闻

北上广深二手房集体回暖!三月小阳春行情全面兑现

余霜管泽元官宣怀孕!“小队新成员” 来了

旅游要闻

联袂演绎江南风华,浦东多个古镇将集中亮相2026上海旅游产业博览会

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版