网易首页 > 网易号 > 正文 申请入驻

蛋白质领域的 ChatGPT,首次使用对比学习准确预测酶功能

0
分享至

编辑 | 紫罗

蛋白质功能注释高度依赖于计算注释方法。尽管目前已经开发了许多计算工具,然而,大多数现有工具无法准确预测功能注释。因此,蛋白质的功能注释仍然是蛋白质科学中的一个巨大挑战。

近日,来自伊利诺伊大学厄巴纳香槟分校(UIUC)赵惠民(Huimin Zhao)团队,开发了一种名为「启用对比学习的酶注释」(CLEAN,Contrastive Learning–enabled Enzyme Annotation)的机器学习算法,可以根据酶的氨基酸序列预测酶的功能,即使这些酶尚未被研究或了解甚少。

研究人员表示,这款名为 CLEAN 的 AI 工具在准确性、可靠性和灵敏度方面超过了最先进的工具(BLASTp)。更好地理解酶及其功能将有利于基因组学、化学、工业材料、医学、制药等领域的研究。

「就像 ChatGPT 使用书面语言的数据来创建预测文本一样,我们正在利用蛋白质的语言来预测它们的活动,」研究负责人、UIUC 化学和生物分子工程教授赵惠民说。「几乎每个研究人员在处理新的蛋白质序列时,都想立即知道蛋白质的作用。此外,在为任何应用(生物学、医学、工业)制造化学物质时,该工具将帮助研究人员快速确定合成化学物质和材料所需的适当酶。」

该研究以「Enzyme function prediction using contrastive learning」为题,于 2023 年 3 月 30 日发布在《Science》上。

蛋白质功能注释面临挑战

蛋白质功能注释高度依赖于计算注释方法。然而,基于社区的蛋白质功能注释的批判性评估(CAFA)发现约 40% 使用现有计算工具自动注释的酶被错误注释。因此,蛋白质的功能注释仍然是蛋白质科学中的一个巨大挑战。特别是,未充分研究和混杂蛋白质( promiscuous proteins)的蛋白质注释不平等阻碍了生物医学进步和药物发现。

酶学委员会 (Enzyme Commission,EC) 编号是最著名的酶的数字分类方案,它用四位数字指定酶的催化功能,即酶催化的反应类型。由于目标酶功能的实验表征通常既费力又昂贵,因此开发了许多用于酶功能注释的计算工具。它们包括但不限于基于序列相似性、基于同源性、基于结构和基于机器学习 (ML) 的方法。

其中,基于序列相似性的蛋白质基本局部比对搜索工具 (BLASTp) 是使用最广泛的工具。然而,BLASTp 等比对工具仅根据序列相似度来标注功能,导致在序列相似度较低时预测结果的可靠性较低。另一方面,几乎所有现有的 ML 模型都是基于多标签分类框架,并且受到生物学中常见的有限且不平衡的训练数据集的影响。

因此,需要一种准确性更高和 EC 覆盖率更广的工具来释放当前未表征蛋白质的潜力,并了解蛋白质功能的范围。

CLEAN 优于最先进的 ML 模型

在此,赵惠民团队开发了一个名为 CLEAN 的 ML 模型,用于酶功能预测。CLEAN 基于 UniProt 的高质量数据进行训练,将氨基酸序列作为输入,并输出按可能性排序的酶功能列表(以 EC 编号为例)。

与之前开发的将 EC 数量预测任务构建为多标签分类问题的 ML 算法不同,CLEAN 使用对比学习框架。其训练目标是学习欧几里得距离反映功能相似性的酶的表示空间。

图 1:CLEAN 对比学习框架。(来源:论文)

为了验证 CLEAN 的准确性和稳健性,研究人员进行了大量的计算机实验。此外,还向 CLEAN 提出挑战,要求其为内部收集的所有未表征的卤代酶(总共 36 个)数据库注释 EC 编号,然后进行体外实验验证的案例研究。在这些任务中,CLEAN 优于其他 EC 编号注释工具,包括 BLASTp 和最先进的 ML 模型。

「我们不是第一个使用 AI 工具来预测 EC 数量的人,但我们是第一个使用这种称为对比学习的新深度学习算法来预测酶功能的人。我们发现这种算法比其他人使用的 AI 工具要好得多。」赵惠民说。「我们不能保证每个人的产品都会被正确预测,但我们可以获得比其他两种或其他三种方法更高的准确率。」

计算和体外实验验证

研究人员通过计算和体外实验验证了他们的工具。发现该工具不仅可以预测以前未表征的酶的功能,还可以纠正被领先软件错误标记的酶,并正确识别具有两种或多种功能的酶。

首先,为了系统研究 CLEAN 的预测性能, 研究人员将 CLEAN 与六种最先进的 EC 数字注释工具 [即 ProteInfer、DeepEC、BLASTp、DEEPre、CatFam 和 ECPred] 进行比较。

图 2:CLEAN 与最先进的 EC 数预测工具的定量比较。(来源:论文)

对 New-392 和 Price-149 数据集(两个未包含在任何模型开发中的独立数据集用于提供公平和严格的基准研究)的评估表明,在预测新发现蛋白质的功能方面,CLEAN 比以前开发的基于 ML 的模型更精确和可靠,尤其是那些没有已知酶功能的蛋白质。

接下来,研究人员验证 CLEAN 在使用卤化酶作为概念验证研究分配 EC 编号时的预测准确性。

卤化酶因其出色的催化剂控制选择性而越来越多地用于生物催化 C-H 功能化。这些卤化酶要么在 UniProt 中用未表征/假设的蛋白质标记,要么在文献中有相互矛盾的注释。卤化酶数据集特别具有挑战性,因为卤化酶家族尚未得到充分研究,并且数据库中只有有限数量的卤化酶可用。通过后来的专家策划和实验验证,所有 36 种卤化酶都用 EC 编号进行了保密注释。

总的来说,与其他六种常用的计算工具(例如,DeepEC 中的 ~11.1% 和 ProteInfer 中的 11.1% 到 61.1%)相比,CLEAN 实现了更好的预测精度(86.7% 到 100%)。结果表明,即使在类似的生物催化反应范围内,CLEAN 也可以区分酶的功能。

在 36 种卤化酶中,三种名为 MJ1651、TTHA0338 和 SsFlA 的酶显示出相互矛盾的功能。CLEAN 在这三种情况下预测了新的 EC 数量,表明可能会出现其他潜在功能。因此,研究人员进行了体外实验来验证这些预测。

图 3:CLEAN 对未表征的卤化酶的实验验证。(来源:论文)

研究发现 CLEAN 相对于其他常用计算工具具有更好的预测准确度,能够高质量的完成以下任务:注释未被充分研究的酶,纠正错误标记的酶,以及识别具有两个或更多 EC 数字的混杂酶。

未来将预测所有蛋白质功能

该团队正在让其他研究人员可以在线访问 CLEAN,以确定一种酶的特征或确定一种酶是否能催化所需的反应。

赵惠民表示:「我们相信 CLEAN 将成为预测查询酶催化功能的强大工具,可以极大地促进功能基因组学、酶学、酶工程、合成生物学、代谢工程和逆转录生物合成的研究。此外,通用语言模型表示加上 CLEAN 使用的对比学习工作流程可以很容易地适应其他预测任务,不限于酶活性。」

赵惠民说:「我们希望这个工具能被广泛的研究团体广泛使用。通过网络界面,研究人员只需在搜索框中输入序列,就像搜索引擎一样,就能看到结果。我们计划扩展 CLEAN 背后的 AI 来表征其他蛋白质,比如结合蛋白。希望进一步开发 ML 算法,以便用户可以搜索所需的反应,AI 将指出合适的酶来完成这项工作。我们希望预测所有蛋白质的功能,这样我们就可以知道一个细胞的所有蛋白质,更好地研究或设计整个细胞,用于生物技术或生物医学应用。」

论文链接:https://www.science.org/doi/10.1126/science.adf2465

参考内容:https://phys.org/news/2023-03-ai-enzyme-function-tools.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演员任敏在南极跳水,称是一个非常“疯狂”的决定

演员任敏在南极跳水,称是一个非常“疯狂”的决定

韩小娱
2025-12-17 16:03:35
12345不能瞎打了!刚落地的新规,到底是管我们还是帮我们?

12345不能瞎打了!刚落地的新规,到底是管我们还是帮我们?

今朝牛马
2025-12-17 22:04:44
他本应被军委授予一级战斗英雄,却因作战太惨烈,军区先授了荣誉

他本应被军委授予一级战斗英雄,却因作战太惨烈,军区先授了荣誉

大运河时空
2025-12-17 07:40:03
柬埔寨洪森73岁二十几个孙辈,难怪他不敢退休,小女婿是宋布提武

柬埔寨洪森73岁二十几个孙辈,难怪他不敢退休,小女婿是宋布提武

纪中百大事
2025-12-16 21:15:53
布里吉特很难两全!泳装镜头罕见曝光,真实的身材马克龙也不欣赏

布里吉特很难两全!泳装镜头罕见曝光,真实的身材马克龙也不欣赏

夜深爱杂谈
2025-12-17 22:27:27
大伯送我一套房结婚,12年后拆迁补偿380万,我想给钱时妻子却阻止

大伯送我一套房结婚,12年后拆迁补偿380万,我想给钱时妻子却阻止

张道陵秘话
2025-12-12 14:54:20
去向迟迟未定,澳篮博主:曾凡博正在耗掉的是自己宝贵的时间

去向迟迟未定,澳篮博主:曾凡博正在耗掉的是自己宝贵的时间

懂球帝
2025-12-17 10:11:32
武汉发布橙色预警,提醒市民:少在室外停留

武汉发布橙色预警,提醒市民:少在室外停留

极目新闻
2025-12-17 19:06:26
最大分裂危机!一旦旁遮普邦独立成功,印度离“散装”就不远了

最大分裂危机!一旦旁遮普邦独立成功,印度离“散装”就不远了

何氽简史
2025-12-15 23:32:08
今天下午3点,U15东亚杯焦点战:中国vs日本,1-0=爆冷,央5不播

今天下午3点,U15东亚杯焦点战:中国vs日本,1-0=爆冷,央5不播

大秦壁虎白话体育
2025-12-18 00:58:41
从0到5000,翻身只要三年,格林伍德想冠军,曼联想分成?

从0到5000,翻身只要三年,格林伍德想冠军,曼联想分成?

95帕尔马
2025-12-18 08:33:51
陈小群被资本做局了?帝王运股票扑街!先被“李鬼”,又被概念附身

陈小群被资本做局了?帝王运股票扑街!先被“李鬼”,又被概念附身

金石随笔
2025-12-18 00:09:34
梁晓声:中国富豪家庭92%将子女送往英美私校,既规避教育内卷...

梁晓声:中国富豪家庭92%将子女送往英美私校,既规避教育内卷...

清风拂心
2025-09-14 13:15:08
湖南省第四工程有限公司永州分公司经理谭亚波被查

湖南省第四工程有限公司永州分公司经理谭亚波被查

三湘都市报
2025-12-17 10:39:57
邻居把排污管接我院子里,我不争天天种菖蒲,2月后他主动赔6000

邻居把排污管接我院子里,我不争天天种菖蒲,2月后他主动赔6000

卡西莫多的故事
2025-12-16 10:29:36
北京暴雪实测:Model Y连跑4小时不打滑,车友点赞性能远超预期

北京暴雪实测:Model Y连跑4小时不打滑,车友点赞性能远超预期

寒律
2025-12-18 01:10:17
何晴去世3天后,许亚军“捂脸痛哭”视频流出,却出现扎心的一幕

何晴去世3天后,许亚军“捂脸痛哭”视频流出,却出现扎心的一幕

冷紫葉
2025-12-17 20:18:14
他又“疯”了?马斯克凌晨发战争警告,称所有人都无处可逃!

他又“疯”了?马斯克凌晨发战争警告,称所有人都无处可逃!

达文西看世界
2025-12-16 17:20:43
接!霉霉全球巡演结算狂发14亿奖金!有员工拿到500万当场激动爆哭!

接!霉霉全球巡演结算狂发14亿奖金!有员工拿到500万当场激动爆哭!

英国报姐
2025-12-15 21:25:29
巨亏超千亿,某车企遭重创!

巨亏超千亿,某车企遭重创!

电动知家
2025-12-16 21:16:58
2025-12-18 09:28:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1183文章数 221关注度
往期回顾 全部

科技要闻

Gemini3 Flash来了:性能不输Pro 成本仅1/4

头条要闻

李在明多次发表涉华积极表态:汉字得学

头条要闻

李在明多次发表涉华积极表态:汉字得学

体育要闻

短短一年,从争冠到0胜垫底...

娱乐要闻

狗仔曝热播剧姐弟恋真谈了???

财经要闻

重大改革,身关14亿人的政策彻底变了!

汽车要闻

一车多动力+双姿态 长城欧拉5上市 限时9.18万元起

态度原创

艺术
家居
教育
旅游
时尚

艺术要闻

当代书法家凭3件作品获兰亭奖,展现高质量创作实力。

家居要闻

温馨独栋 驼色与浅色碰撞

教育要闻

五年级求面积,很多学生用加法,面积关系

旅游要闻

假日酒店深耕中国50载:从“全球经验”到“中国经验”

今年一定要拥有这件“爆火单品”,让你美出新高度

无障碍浏览 进入关怀版