网易首页 > 网易号 > 正文 申请入驻

中科院让AI读懂分子图像:像教机器人识别化学"文字"一样

0
分享至

这项由上海人工智能实验室联合华东师范大学、北京大学等多所知名院校的研究团队发表于2025年6月的最新研究,完整论文题为《GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition》,发表在arXiv平台(论文编号:2506.07553v1),有兴趣深入了解的读者可以通过该编号在arXiv网站上访问完整论文。这项研究就像是在教计算机学会"读懂"化学分子的图像,正如我们教孩子认字一样,只不过这次要识别的不是汉字或英文字母,而是复杂的化学分子结构图。

想象一下,你面前有一张复杂的化学分子结构图,里面有各种原子、化学键,还有一些简写符号比如"Ph"代表苯环。对于化学家来说,这些图就像是一种特殊的"文字",能够准确描述分子的结构。但对于计算机来说,这就像是让一个从未见过汉字的外国人去读中文书一样困难。研究团队要解决的核心问题是:如何让人工智能准确地"读懂"这些化学分子图像,并将它们转换成计算机能够理解和处理的标准格式。

这项研究的重要性远远超出了学术范围。在现代化学研究中,大量的分子结构信息被储存在学术论文和专利文档中,这些信息大多以图像形式存在。就像一个巨大的图书馆里堆满了珍贵的书籍,但这些书都被锁在玻璃柜里无法阅读一样,这些分子图像对于需要大规模数据分析的现代药物研发、新材料发现等领域来说,几乎无法直接使用。研究团队开发的技术就像是制造了一把万能钥匙,能够打开这些"玻璃柜",让储存的知识重新流动起来。

研究团队的创新之处在于提出了两个关键的设计理念。第一个理念叫做"图遍历视觉思维链",这听起来很复杂,但实际上就像是模仿人类识别分子结构的思维过程。当化学家看到一个分子结构图时,他们不会一次性处理所有信息,而是像走迷宫一样,一步一步地识别每个原子,然后识别连接这些原子的化学键,最后把整个结构拼接起来。传统的计算机方法就像是要求计算机同时处理所有信息,这往往会导致混乱和错误。

第二个理念叫做"忠实识别所见",这个概念可以用一个简单的例子来解释。假设你在看一张照片,照片上写着"Ph"这个缩写,你应该记录下"Ph",而不是自动脑补成"苯环"的完整结构。但现有的很多系统会自动进行这种"脑补",导致识别结果与原图不符。研究团队认为,计算机应该老老实实地记录它看到的内容,这样才能确保准确性。

为了实现这些理念,研究团队开发了一个名为GTR-Mol-VLM的人工智能模型。这个模型就像是一个经过特殊训练的"学生",它学会了像人类专家一样阅读化学分子图像。为了训练这个"学生",研究团队准备了一个包含130万个样本的巨大"教科书",叫做GTR-CoT-1.3M数据集。

这个数据集的构建过程就像是编写一本超级详细的化学识别教科书。研究团队首先从公开的化学数据库中收集了100万个分子结构,然后用专业软件将这些结构转换成图像,这部分被称为GTR-CoT-PubChem-1M。接着,他们又从美国专利商标局收集了约68万个真实的专利文档中的分子图像,经过精心筛选和修正后,得到了35.1万个高质量样本,这部分被称为GTR-CoT-USPTO-351K。

在处理专利数据时,研究团队遇到了一个有趣的问题。专利文档中的分子图像经常使用各种缩写,比如用"Ph"代表苯环,用"Et"代表乙基,这就像是化学家们使用的"速记符号"。但是,这些图像对应的标准答案(也就是所谓的"标注")却是完全展开的形式,没有任何缩写。这就像是考试题目用简写,但标准答案却用全称,肯定会让学生感到困惑。

为了解决这个问题,研究团队设计了一套复杂的数据修正流程。他们首先使用光学字符识别技术(OCR)来检测图像中的所有文字,就像是用放大镜仔细查看每一个缩写符号。然后,他们建立了一个缩写与完整结构的对应表,最后用规则化的方法将标注中的完整结构替换回原图中使用的缩写形式。这个过程就像是重新编写标准答案,确保题目和答案使用同样的"语言"。

研究团队还创建了一个新的评估基准,叫做MolRec-Bench。传统的评估方法就像是只看学生的最终答案是否正确,而不关心解题过程。但化学分子识别更像是解数学题,解题过程(也就是如何识别每个原子和化学键)同样重要。MolRec-Bench就像是一套更加全面的考试系统,不仅检查最终答案,还要检查学生是否真正理解了分子的结构。

这个基准包含两个测试集。第一个叫MolRec-USPTO,包含5423个来自专利的分子图像。第二个叫MolRec-Abb,包含9311个含有缩写的分子图像。这就像是准备了两套不同难度的考试:一套是普通考试,一套是专门测试处理缩写能力的高难度考试。

在实际测试中,GTR-Mol-VLM的表现就像是一个优秀的学生在各科考试中都取得了顶尖成绩。在处理普通分子图像时,它的准确率达到了91.19%,而在处理含有缩写的复杂分子图像时,准确率也达到了84.50%,比第二名高出了约14个百分点。这个差距就像是班级第一名比第二名的考试成绩高出了14分,是一个相当显著的优势。

研究团队还进行了详细的对比实验,就像是同时让多个不同水平的学生参加同一场考试。他们测试了专业的化学识别模型(如MolScribe和MolNexTR)、化学领域的通用AI模型(如ChemVLM)以及知名的商业AI模型(如GPT-4o)。结果显示,专业模型在处理普通图像时表现不错,但在面对含有缩写的图像时就明显力不从心,准确率下降到了20%左右。而那些知名的商业AI模型虽然在其他任务上表现出色,但在这个专业任务上的表现却令人失望,准确率几乎接近于零。

这种巨大的性能差异可以用一个生动的比喻来理解。如果把化学分子识别比作翻译一种特殊的外语,那么GTR-Mol-VLM就像是专门学习了这门语言语法和习语的专业翻译,而其他模型要么是只学了基础语法的初学者,要么是擅长其他语言但对这门特殊语言一窍不通的语言学家。

为了验证他们设计理念的有效性,研究团队还进行了详细的消融实验,这就像是通过移除汽车的不同部件来测试每个部件的重要性。他们发现,使用"图遍历视觉思维链"方法比直接预测最终答案的准确率提高了2.31%。而采用他们特有的图遍历策略比传统的"先识别所有原子,再识别所有化学键"的方法准确率提高了2.86%到3.11%。这些看似不大的数字改进,在人工智能领域已经是相当可观的进步了。

这项研究的实际应用前景非常广阔。在药物研发领域,制药公司可以利用这项技术快速数字化大量的化学文献和专利文档,加速新药发现过程。在材料科学领域,研究人员可以更容易地搜索和分析相关的分子结构信息,推动新材料的开发。在化学教育领域,这项技术可以帮助构建更加智能的化学学习系统,让学生能够通过拍照上传分子结构图来获得即时的反馈和解释。

值得注意的是,这项研究不仅解决了一个技术问题,更重要的是它展示了如何将人工智能的通用能力与专业领域知识相结合。研究团队没有简单地套用现有的AI技术,而是深入理解了化学专家的工作方式,然后设计出模仿这种工作方式的AI系统。这种"以人为师"的设计思路为其他专业领域的AI应用提供了宝贵的借鉴。

从技术发展的角度来看,这项研究还展示了数据质量对AI系统性能的关键影响。研究团队花费大量精力来修正训练数据中的不一致问题,这个看似"笨拙"的工作实际上是整个项目成功的关键。这提醒我们,在AI时代,高质量的数据往往比复杂的算法更加重要。

当然,这项研究也有其局限性。研究团队坦诚地指出,他们的模型在处理一些特殊情况时仍然会出错,比如对缩写位置的判断、对复杂分子结构的理解等。这就像是即使是最优秀的学生也会在某些难题上犯错一样。但重要的是,这项研究为未来的改进指明了方向,也为其他研究者提供了坚实的基础。

研究团队已经承诺将他们的代码、数据集和模型公开发布,这意味着全世界的研究者都可以在他们的基础上继续改进和创新。这种开放的研究态度就像是在科学的花园里播下种子,相信会有更多美丽的花朵在未来绽放。

说到底,这项研究的意义远远超出了技术本身。它展示了人工智能如何能够真正理解和模仿人类专家的思维过程,如何通过细致的工程化努力来解决实际问题,以及如何在追求技术进步的同时保持科学研究的严谨性。对于我们普通人来说,这项研究预示着一个更加智能化的未来,在这个未来里,AI将能够帮助我们更好地理解和利用人类积累的科学知识,推动整个社会的进步。

归根结底,这项研究告诉我们一个简单而深刻的道理:最好的AI不是要替代人类专家,而是要学会像人类专家一样思考和工作。当机器真正学会了人类的智慧,它就能成为我们最好的助手,帮助我们在科学探索的道路上走得更远、更快。有兴趣的读者可以通过arXiv:2506.07553v1查阅完整的研究论文,深入了解这项令人兴奋的技术突破。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苹果官方确认:iPhone关掉这3个设置,电池续航翻倍!老机型必关

苹果官方确认:iPhone关掉这3个设置,电池续航翻倍!老机型必关

小柱解说游戏
2026-07-01 11:19:07
“感觉眼熟,一对比感觉就是”,一网友发图指认:观复博物馆铜佛像与海口失窃

“感觉眼熟,一对比感觉就是”,一网友发图指认:观复博物馆铜佛像与海口失窃

大象新闻
2026-07-03 11:30:03
世体:穆帅已通知多人归队,皇马将于7月13日开启季前训练

世体:穆帅已通知多人归队,皇马将于7月13日开启季前训练

懂球帝
2026-07-03 16:43:05
给10位“毛主席扮演者”排座次:刘烨第8,唐国强第3

给10位“毛主席扮演者”排座次:刘烨第8,唐国强第3

电影聚焦
2026-06-28 10:32:34
中国男篮惨败日本,诞生3个意想不到和2个不争事实,最新排名如下

中国男篮惨败日本,诞生3个意想不到和2个不争事实,最新排名如下

侃球熊弟
2026-07-03 20:30:19
3000枚导弹锁定美航母,1200万军队3天拿下台湾?撕开口嗨的真相

3000枚导弹锁定美航母,1200万军队3天拿下台湾?撕开口嗨的真相

流史岁月
2026-07-03 18:30:05
1937年,他下令活埋2609名红军,12年后被认出:你化成灰我也认得

1937年,他下令活埋2609名红军,12年后被认出:你化成灰我也认得

磊子讲史
2026-07-02 15:30:38
摩纳哥王室:两代绝美王妃改善王室基因,王子公主都是高颜值

摩纳哥王室:两代绝美王妃改善王室基因,王子公主都是高颜值

小书生吃瓜
2026-07-02 20:01:52
“可惜699分”全网热议:韩雅平敲定清华卓医班—全网喊“亏”的背后,是百万医者的集体沉默

“可惜699分”全网热议:韩雅平敲定清华卓医班—全网喊“亏”的背后,是百万医者的集体沉默

医客
2026-07-01 13:19:16
一等功臣郭兴福灭门案始末

一等功臣郭兴福灭门案始末

河山历史
2026-07-02 12:02:19
大家提前做好准备,如果一切正常,26年7月开始,国内恐出5大趋势

大家提前做好准备,如果一切正常,26年7月开始,国内恐出5大趋势

巢客HOME
2026-07-01 09:30:05
世界杯7月4日预测:阿根廷无压力,加纳或取胜,亚洲独苗有望爆冷

世界杯7月4日预测:阿根廷无压力,加纳或取胜,亚洲独苗有望爆冷

刘哥谈体育
2026-07-03 18:56:56
还嘴硬?男篮惨败郭士强公开担责,一句话堵死归化路,杨瀚森表态

还嘴硬?男篮惨败郭士强公开担责,一句话堵死归化路,杨瀚森表态

萌兰聊个球
2026-07-03 22:43:01
刚刚 | 突发6.2级地震!多地震感强烈!不少人感到头晕,窗户、灯都在晃动…

刚刚 | 突发6.2级地震!多地震感强烈!不少人感到头晕,窗户、灯都在晃动…

天津广播
2026-07-03 13:44:12
演员黄政民戒酒后状态回春,网友:“完全是美少年”

演员黄政民戒酒后状态回春,网友:“完全是美少年”

韩小娱
2026-07-03 11:08:21
中国男篮惨败日本19分!1人正负值-22太辣眼,下场若再输就出局

中国男篮惨败日本19分!1人正负值-22太辣眼,下场若再输就出局

老吴说体育
2026-07-03 21:36:03
国家修的路,凭啥不让走?甘肃景区设卡拦车,官方回应:可自驾!

国家修的路,凭啥不让走?甘肃景区设卡拦车,官方回应:可自驾!

观史搜寻着
2026-07-03 11:43:57
湖人第二大引援!格莱姆斯值得4年6000万吗?

湖人第二大引援!格莱姆斯值得4年6000万吗?

篮球实录
2026-07-03 22:52:09
宗馥莉公开露面,穿蓝色短裙乘坐劳斯莱斯,气场十足

宗馥莉公开露面,穿蓝色短裙乘坐劳斯莱斯,气场十足

微微热评
2026-07-03 12:04:15
好刺激,东北已经人人都能上大学了

好刺激,东北已经人人都能上大学了

松龄茶馆
2026-07-02 13:29:19
2026-07-03 23:23:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19861文章数 49713关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

44岁独居男子病重昏迷 亲生母亲取不出儿子的"救命钱"

头条要闻

44岁独居男子病重昏迷 亲生母亲取不出儿子的"救命钱"

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

亲子
教育
健康
时尚
军事航空

亲子要闻

总觉得哪里有点不对~

教育要闻

中考几何题,求正方形面积,学霸一眼看穿题目

听说少吃点能抗衰老?专家讲解!

这位顶流的美商绝了!我的穿搭思路直接被打开

军事要闻

俄大使馆遇袭 2年多遭袭击次数已超25次

无障碍浏览 进入关怀版