![]()
2025年初,清华大学研究团队在预印本平台ChemRxiv上发表了一项名为《ReactionSeek: LLM-Powered Literature Data Mining and Knowledge Discovery in Organic Synthesis(ReactionSeek:大语言模型支持的有机合成文献数据挖掘和知识发现,下文简称ReactionSeek)》的重磅研究。他们开发的这套文献挖掘系统,成功处理了《Organic Syntheses》杂志自1921年以来的全部文献,自动构建出可供AI学习的、有机合成知识库,准确率超过95%。
而这项研究的图像识别模块,使用的正是鹰谷信息的InDraw结构式编辑器,它负责将文献中的分子结构图像精准转换为机器可读的SMILES表达式。
一、清华研究的“化学之眼”:InDraw如何助力AI读懂百年文献
在有机合成、药物研发等领域,科研人员常面临两大痛点:一是文献里的分子结构图片难以编辑复用,二是海量文献数据手动提取耗时耗力。《ReactionSeek》研究直面本挑战:如何让计算机“看懂”文献中复杂的化学结构图像,从而高效利用?
清华团队选择了InDraw的OCSR(光学化学结构识别)功能,将文献图片中的分子结构转换为SMILES码。结果显示,InDraw在识别化合物标识符及其在反应中的角色方面准确率极高,为后续的数据分析和知识发现奠定了坚实基础。
清华这项工作的重要意义在于:它首次系统性地将复杂多样的百年级化学文献转化为结构化数据,为AI驱动的化学发现打开了知识宝库。而InDraw在其中承担了关键的“化学视觉”功能,让机器第一次真正“看懂”了化学结构。
二、不只是“识别”:InDraw的硬核技术矩阵
作为鹰谷信息自主研发的专业级化学结构式编辑器,InDraw的价值远不止于图像识别。经过12年的技术积累,它已构建起完整的技术护城河:
1. 全球领先的IUPAC命名能力
·全球首家实现中文IUPAC命名
·全球第四家实现英文IUPAC命名
·经1600万化合物测试,准确率高达99.55%
2. 精准的AI图像识别
在UO85740测试集上,识别准确率达99.75%,能够快速将图片格式的复杂化学结构转换为可编辑结构。
3. 全面的大分子编辑
独有的HELM大分子编辑器,支持蛋白质、DNA、RNA、多糖等复杂结构的绘制与展示。
4. 无缝的国际兼容
实现与ChemDraw、Word、Excel的三向互通,支持主流期刊的绘图样式,已有数百篇使用InDraw绘制的论文在Nature、JMC等顶级期刊发表。
三、从结构识别到知识挖掘:InPaper智能进阶
基于同样的技术底蕴,鹰谷还推出了InPaper文献结构化工具,将化学文献的智能解析推向新高度:
·精准提取:自动识别文献中的化学结构、反应式和生物活性数据
·智能转换:将文本中的化学名称自动转为可编辑的结构式
·构效分析:自动构建结构-活性关系表(SAR),为药物研发等提供数据支撑
·批量处理:支持大量文献的快速解析、在线修正另存、Excel导出
InPaper的出现,让科学家从繁琐的数据提取中解放出来,将更多精力投入到创新发现中。
四、国产科研软件的破局之路
从被国际巨头垄断,到被清华大学顶级研究选用,InDraw的成长轨迹映射出国产科研软件的崛起之路。
目前,InDraw已拥有超过100万用户,覆盖国内外各大高校、科研院所和企业单位,被华为、艾力斯、中海油、国家知识产权局等知名机构采用。2025年底即将推出的7.0版本,在保持大部分功能免费的同时,将为企业用户提供更强大的专业功能。
鹰谷团队坚信:科研工具不应成为制约创新的瓶颈;通过我们持续的技术攻关,我国科学家必然“用得上、用得起、用得好”。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.