撰文 | 十一月
“AlphaFold确定了覆盖几乎整个人类蛋白质组(98.5%的所有人类蛋白,即Uniprot里所有2700aa以下的蛋白)的蛋白质的结构”
就在一周前,即7月16日,Deepmind团队在Nature上发表文章Highly accurate protein structure prediction with AlphaFold,公布了CASP14中AlphaFold的源代码(该版本也称为AlphaFold2,与CASP13中的AlphaFold完全不一样的模型,详见BioArt报道:Nature特别关注丨AlphaFold2—“它来了,它来了,它带着源代码过来了”,预测的蛋白结构达原子水平的准确度)。CASP14是2020年5-7月举办,在该场比赛中,AlphaFold就表现异常亮眼,大AI或结构爱好者跃跃欲试,等待源代码公布,直到该篇Nature祭出。在朋友圈对AlphaFold的激情还没有减下去的档口,Deepmind团队又带来了巨大的惊喜,尽管我们知道“它”终将会来,但却没想到仅隔了一周。
2021年7月22日,DeepMind团队再次在Nature发表了文章Highly accurate protein structure prediction for the human proteome,描述了AlphaFold对人类蛋白质组(人类基因组编码的所有蛋白质的集合)的准确结构预测。由此得到的数据集涵盖了人类蛋白质组近60%氨基酸的结构位置预测,且预测结果具有可信度。预测信息将通过欧洲生物信息研究所(EMBL-EBI)托管的公用数据库免费向公众开放。
确定蛋白质的结构能为理解生物学过程提供宝贵信息,并有望指导药物研发。考虑到理解人类蛋白质组对健康和医药的重要性,研究人员付出了大量努力来确定这些蛋白质结构。虽然开展了数十年的研究攻关,但通过实验方法确定的结构只覆盖了人类蛋白质组17%的氨基酸——氨基酸是连接起来形成蛋白质的亚单位。利用实验方法解析结构需要跨越诸多十分耗时的障碍,因此,扩大蛋白质组覆盖面仍是一项艰巨挑战。
Kathryn Tunyasuvunakool、John Jumper、Demis Hassabis和同事利用前沿机器学习方法AlphaFold确定了覆盖几乎整个人类蛋白质组(98.5%的所有人类蛋白,即Uniprot里所有2700aa以下的蛋白)的蛋白质的结构。作者发现,AlphaFold能对人类蛋白质组58%的氨基酸的结构位置给出可信预测。其中,对35.7%的结构位置的预测达到了很高的置信度,是实验方法覆盖的结构数量的两倍。在蛋白水平上,AlphaFold对43.8%的蛋白的至少四分之三的氨基酸序列给出了可信预测。
作者认为,大规模的准确结构预测将成为一种重要工具,让我们能从结构的角度解答新的科学问题,而AlphaFold的预测结果将帮助进一步阐明蛋白质的作用。
原文链接:
https://doi.org/10.1038/s41586-021-03828-1
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.