本文简要介绍了OCSR的三种技术路线,并对InDraw、KingDraw、Img2Chem以及Collector这4种流行的基于深度学习方法的OCSR工具进行了对比测试。
1.光学化学结构式识别技术
在日常办公中,相信很多人会接触到OCR一类的软件,它能很好地从扫描文档、图片上提取文字,可以大大地提升办公效率。OCR(Optical Character Recognition)全称为光学字符识别,一般的英文字符、数字以及标点符号都能很好地被识别。对于化学结构而言,它与传统的字符有很大的区别,主攻文字处理类的OCR在此就很难啃下这块硬骨头。
在科学研究过程中,有关化合物的信息往往是以文本和化学结构的形式呈现的,化学结构式是以表示化学键的“连接线”和表示化学元素的“英文字符”通过一定的组织方式所形成的分子图。随着研究的进行,文献中化学结构式的数量与日俱增,如果单纯地靠纯人工的方式,从前人的文献中提取并再次加工化学结构则会举步维艰。其一,单篇文献中的化合物数量往往不少;其二,对于诸如药物研发类的文献中的化学结构往往比较复杂,所包含的信息较多;其三,在进行提取和加工过程中所涉及的文献繁多。基于此,在上个世纪90年代,针对化学结构式的识别技术逐步发展,这类技术称为OCSR(Optical Chemical Structure Recognition),即光学化学结构式识别。
▲OCSR技术示意图
在对文献中的化合物信息进行提取时,文本形式的信息可以通过命名实体(NER)识别,而图片形式(化学结构式)的信息则需要通过OCSR的方法进行提取。在成熟的OCR技术加持下,文本信息的提取倒不是难事,对于图片形式的信息,如何高效、准确地识别化学结构式是OCSR技术的重中之重。
2.三种技术路线的对比
OCSR的技术路线可以分为三种,基于规则、机器学习、深度学习。对于一张图片中的化学结构式,OCSR处理其中化学键、结点的位置和类型,将其转化为图结构,最后生成诸如.mol、.smi等保留化学结构信息的字符串结构的文件,这类文件能很好地被用于信息检索并再加工。
▲OCSR三种技术路线及工具示例
早期OCSR技术路线走的是规则方法,其步骤可分为图片预处理、分离及分割、文字识别、矢量化、线段分类、结点识别、组装、后处理等。诸如SimBioSys开发的CLiDE Pro、NCI开发的OSRA、GGA Software Services开发的Imago这三种有名的OCSR工具,都是通过人工设计规则的方式来识别化学结构。
以CLiDE Pro为例,其对化学结构式的处理流程为:初始识别、文本分组、解释组装。在初始处理中,根据图片的像素点来获取连通图轮廓、宽度、高度等信息,将化学结构式拆分为图形、楔形键、字符;在文本分组中,根据单个字符共线情况,拼成单词、句子、小段落;最后在解释组装中,将前两步的信息合成Graph结构。
▲基于规则的工作流程——以CLiDE Pro为例
基于规则的OCSR工具更新和维护比较麻烦,并且优化成本高,随着机器学习方法的流行,OCSR中期发展走的是机器学习的路线。相比硬性的“卡阈值”的基于规则方法,人工设计特征,然后用一些模型进行分类的机器学习方法则显得更加灵活和准确。诸如Fraunhofer SCAI开发的ChemOCR工具就是采用的机器学习方法。
ChemOCR处理流程主要包含预处理、OCR、矢量化、重建、化学知识校准五个部分。接受图像输入后进行二值化、连通图检测等预处理;然后利用支持向量机模型(SVM)进行分类,识别出文本部分;去掉文本后的图中,识别线段及结点;用相应的规则给矢量化的线段进行分类,并且将文本等部分合并成结点,完成重建,最后将上部的Graph转换成SDF格式,同时对内部的化学键、电荷等部分进行矫正。
▲基于机器学习的工作流程——以ChemOCR为例
近期,OCSR也顺应时代潮流,走进了深度学习领域。其思想就是利用各种模型去提取图像的信息特征,然后用特征映射的方法映射到想要的分类中去。相对于基于规则的方法,其样本量更大,并且更有普适性,在后期维护和优化比较灵活。由于识别精度高,目前市面上流行的OCSR工具大多走的是深度学习的技术路线,诸如上海鹰谷的InDraw、青岛清原的KingDraw、广州费米子的Img2Chem、望石智慧的StoneMIND Collector。
KingDraw主要是采用了各种识别器来识别化学结构,这些识别器包含结点目标识别器、手写字体识别器、化学键识别器、箭头目标识别器。
▲基于深度学习的工作流程——以KingDraw为例
简而言之,这三种技术路线,机器学习和深度学习的方法都比硬性的基于规则的识别精度要高,同时也方便后期进行优化,进行训练的样本数越大时,其识别效果也更好,更具有普适性。
▲OCSR采用的三种技术方法对比
3.市面上流行的AI结构式识别工具对比
为了比较目前市面上的OCSR工具的识别效果,笔者就InDraw、KingDraw、Img2Chem、StoneMIND Collector这四种基于人工智能技术的OCSR工具进行了相关测试和评估。测试时间为2022年5月24日,最终结果仅代表该时间段、该版本的软件的识别效果,这四种工具的基本信息如下表。
▲测试工具基本信息
3.1样本来源
为了更好模拟日常工作中的提取需求,笔者从论文、专利、教学PPT、扫描书籍、网页等渠道收集了100个化学结构式样本进行识别测试。这些样本具有一定的代表性,比如图片的清晰度、化学结构式的风格、结构的复杂程度均不一样。在样式上,有些是纯粹的键线式,有些则烷基缩写较多、有些的字符占比较大。特别是对于苯环而言,笔者选取了凯库勒式(交替的单双键画法)和鲍林式(圆形大π键画法)两种样式的样本。
就样本的来源和样式而言,可以比较贴近用户在日常办公中的识别结构的情景,在一定程度上可以反映OCSR工具面对真实应用的表现情况。
▲测试样本的风格示意
3.2测试方法
对于每个测试样本,放大到相同的倍数,分别用这四种OCSR工具进行识别测试,尽可能控制每种OCSR工具的识别框大小一致,并保证样本能够准确地被框选到识别框中。每个样本测试3次,选取错误量最少的结果作为最后的识别成绩。
3.3评分标准
考虑到识别工具有可能只是识别错几个原子或者化学键,用户可以通过内置的结构式编辑器来进行修正,如果按照识别完全正确的评分标准,有失偏颇,并且不能真实反应OCSR工具的性能。根据OCSR工具的识别原理,笔者引入了可视原子数(VAN, visible atomic number)、可视键数(VBN, visible bond number)、可视原子错误数(VAE, visible bond error count)、可视键错误数(VBE, visible bond error count)、可视原子及键错误数(VABE, visible atom and bond error count)、可视原子及键错误率(VABER, visible atom and bond error rate)六种概念来进行评估。
对于同样的一种化学结构,如果画法不一样,虽然分子本身有着固定的原子数和化学键数,但是对于OCSR工具而言所处理的图形则完全不一样,因为OCSR工具只是根据图片中所呈现的原子和化学键来进行提取和识别。
▲对于同样的分子,不同的画法所直接呈现的原子(基团)数和化学键数是不一样
笔者在实践过程中发现,如果识别结果中的可视原子及键错误数(VABE)小于3个,那么结果修改起来较为容易,因为只用修改不到3个的原子或者化学键就可以了。如果VABE大于5,那么修改起来就较为麻烦。鉴于此,笔者根据VABE来评估OCSR工具的识别效果,并且制定了精确率(完全识别正确(VABE=0)的样本,占总测试样本的比率)、优秀率(VABE<3的样本,占总测试样本的比率)和良好率(VABE<5的样本,占总测试样本的比率)三个标准。同时,笔者制定了可视原子及键错误率(VABER,整体样本中错误的可视原子及键总数量/可视原子及键总数量),以评估OCSR工具的在数据挖掘中的应用前景。
▲OCSR工具的精确率、优秀率、良好率和VABER的标准和解释
3.4结果与讨论3.4.1 整体精度对比
经过测试后发现,整体的识别效果InDraw是最好的,然后依次是Img2Chem、StoneMIND Collector和KingDraw。InDraw的精确率达到了0.94,远超另外三种识别工具,其次是Img2Chem,其精确率为0.66;然后是StoneMIND Collector,其精确率为0.60;最后是KingDraw,其精确率略低,只有0.48.
在可视原子及键错误率(VABER)上,InDraw最小,仅仅只有0.21%,也就相当于识别100个原子或者键,正确识别可以达到99.79个;其次是Img2Chem,为1.91%,Collector为2.10%位居第三,而KingDraw为3.16%。第一名和第二名之间的分水岭还是很大,也反映了InDraw的识别精准度确实卓越,同时这四款工具VABER均低于3.5%,也就意味着识别100个原子或者键,这四款工具正确识别可以达到96.5个以上。这几款工具,均可用于数据挖掘,用于批量分析论文或专利中的化学结构图片,其中以InDraw挖掘的效果最佳,将可用于AI制药、CADD等虚拟筛选需要的大量分子结构数据库来源。
▲InDraw、KingDraw、Img2Chem、StoneMIND Collector的VABER对比
考虑到识别工具需要一定的容错率,用优秀率可以比较真实反应工具在实际应用中的效果,这四种识别工具的优秀率均大于0.7,都有不俗的表现。另外这四种识别工具的良好率均大于0.85,较为完整地识别化学结构的能力不低。
▲InDraw、KingDraw、Img2Chem、StoneMIND Collector的精确率、优秀率、良好率对比
3.4.2 典型案例对比
(1)关于苯环的鲍林式的识别
就目前的版本而言,只有InDraw能够准确识别鲍林式的苯环,另外三种工具均不能识别鲍林式的苯环。
样本98这个案例体现了InDraw在苯环的鲍林式图像上的识别精度上显著由于其他3个软件,在其他很多个包含鲍林式的图片中KingDraw、Img2Chem和Collector也表现不理想。
(2)关于羟基氨基等含氢原子的基团和凯库勒式苯环的识别
在一些常见情况中,KingDraw经常会未能识别出羟基氨基等包含氢原子的基团,而Collector会在少数情况不能完整识别凯库勒式苯环。
(3)关于羟基中氢原子和凯库勒式苯环的识别
在这个案例中,除了InDraw之外的三个软件对于最常见于药物分子中的苯环凯库勒式、羧基和氢原子也不能保证稳定的准确识别。
(4)关于复杂且不规范的化学结构的识别
对于一些分子结构比较复杂,而分子式图片又恰巧绘画的不是很规范的情况,所有4个软件都会识别不准。
(5)关于单键的识别
对于最基本的碳碳单键,也不是每个软件都能完美识别,在这个样本71这个案例上,KingDraw和Collector都丢失了一个很明显的碳碳单键。
3.4.3 识别效果对比
毫无疑问InDraw在本次测试的4个软件中的准确性是最好的,用户不仅通过截图,也可以直接将图片粘贴至InDraw画布中进行识别,有更多的自由度,而其他软件只能通过自带的截图工具直接从屏幕上截取图像。对于非常复杂的分子InDraw也能很准确的识别出绝大多数细节,远胜于其他3个参与测试的软件。
KingDraw经常会出现羟基、双键等常见基团识别错误的情况,对于一个结构式识别工具来说这是一个比较大的缺点,其对于分子量较大的复杂分子的识别也存在较多错误,但是KingDraw是4个软件中唯一一个拥有移动端APP的版本。
Img2Chem是4个软件中最轻量化的,但是结构式识别精度较为普通,其单薄的结构式编辑功能也使得用户在手动修正识别结果的时候要多费一些力气。对于软件占用的空间非常敏感的用户是一个可用的选择。
Collector在本次测试中的的识别中的精确率为0.6,但是鉴于测试用的分子图像质量都属于比较高的,这样的成绩也只能算是差强人意。在结构式编辑功能方面,Collector与Img2Chem完全相同,都是只有最基本的几个简单选项,但是Collector有批量识别功能,可以直接提取整个文档中的所有化合物,但是鉴于识别精度,批量识别之后可能需要花费较大的精力来校正识别结果。
3.4.4 软件功能性对比
与化学结构编辑器界的老大哥——ChemDraw相比,只有InDraw和KingDraw具备完善的化学结构编辑功能选项和快捷键操作,UI设计也更加人性化,方便用户上手使用,而Img2Chem和Collector的编辑功能就相对比较简陋。
在与办公软件的对接上,InDraw凭借完备的cdx文件格式支持和InDraw for Excel插件的加持,掌握IUPAC中英文命名技术,可以实现快速、精准和方便的化合物结构批量处理,如批量生成结构图、批量名称转结构等,可以完整地替代ChemDraw的办公功能,已被华为、国家知识产权局采购使用,无知识产权问题。除此之外InDraw还可以背靠鹰谷公司的ELN电子实验记录本、库存管理、化合物注册系统、试剂采购系统等其他产品构成的生态系统发挥更大的作用。
KingDraw拥有移动端APP,更擅长多端协同办公,同样也刚开始有自己的电子实验记录本系统。
Collector则是依托AI药物分子设计平台StoneMIND® (Master of Intelligent Novel Design)配合药物研发人员进行信息提取、知识挖掘和药物分子设计。
4.结语
本文简要介绍了OCSR的三种技术路线,目前流行的OCSR工具采用的都是基于深度学习的技术路线,相较于基于规则的技术路线,采用深度学习方法的OCSR工具识别效果更好、维护更加灵活和方便。
此外对InDraw、KingDraw、Img2Chem以及Collector这4种流行的基于深度学习方法的OCSR工具进行了对比测试,发现其InDraw在化合物识别精度和结构编辑器功能上都是最优的选择。而Img2Chem则最为简洁,适合需求简单并且对软件占用资源较为敏感的用户使用。KingDraw虽然结构式编辑功能全面但是化合物识别精度较差,也不失为一款优秀的化合物结构编辑器。Collector的批量识别和收藏夹可以方便用户便捷的管理自己的工作内容,但是受限于识别精度,批量识别之后需要人工校正。
最后,笔者希望自己的测试能够为国产OCSR工具提供一定的指导,不断优化,更好地服务科研工作者。
参考文献
[1] Rajan K, Brinkhaus H O, Zielesny A, et al. A review of optical chemical structure recognition tools[J]. Journal of Cheminformatics, 2020, 12(1): 1-13.
[2] Ibison P, Jacquot M, Kam F, et al. Chemical literature data extraction: the CLiDE Project[J]. Journal of Chemical Information and Computer Sciences, 1993, 33(3): 338-344.
[3] Zimmermann M. Chemical Structure Reconstruction with chemoCR[C]//TREC. 2011.
[4] 青岛清原精准农业科技有限公司. 一种基于深度学习图像识别技术的化学信息识别方法:CN201810098220.0[P]. 2018-07-27.
[5] 邓光辉,裴剑锋,来鲁华,徐优俊,胡启万,孙潭霖,谢兆同,陈宇,孙美建,王力恒,晋峰,李巧,朱华军,邓超辉,许艳. 一种化学结构式的智能识别方法[P]. 上海:CN108062529A,2018-05-22.
[6] 蚁佳才,张小琛,刘丹.基于深度学习的化学结构识别研究[J].中南药学,2022,20(02):247-253.
[7] 杨赵朋,李建华.DeepOCSR:一种用于光学化学结构识别的深度编码-解码网络[J/OL].华东理工大学学报(自然科学版):1-9[2022-06-10].DOI:10.14135/j.cnki.1006-3080.20210916002.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.