DeepMind于12月初宣布了一项重大突破,他们的AI系统AlphaFold已经解决了“蛋白质折叠问题”,这是生物学中已经困扰了科学家50年的巨大难题。
蛋白质折叠问题的突破可以帮助我们了解疾病并发现新的药物。生物学家安德烈·卢帕斯(Andrei Lupas)告诉《自然》(Nature),这是在 “改变游戏规则”。 他补充道,“这将改变医学,改变研究,改变生物工程。甚至改变一切。”
DeepMind是一家人工智能(AI)研究实验室,在2014年被Google收购,现在已经成为Google母公司Alphabet的独立全资子公司。
DeepMind这家公司听起来陌生,但实际上大家对它的产品应该还算熟悉:大名鼎鼎的围棋界超级无敌大黑马阿尔法狗(AlphaGo)就是由他们开发的。仔细看看,就能发现,AlphaFold与AlphaGo的命名方式如出一辙。毕竟围棋在西方就叫做“Go”,而蛋白质折叠翻译成英语则是“Protein folding”。
蛋白质是一种大分子,与核酸、多糖等一起被称为生物大分子。它是在细胞中完成工作的基本组成部分,约占人体全部质量的18%。最重要的是,蛋白质帮助人们维持正常代谢功能,与生命中的各种现象有关。
人体内蛋白质的种类很多,性质功能各不相同,但都是由20种基本氨基酸(Amino acid)按不同比例组合而成的,并在体内不断进行代谢与更新。它们最开始时是一串氨基酸(可以想象成一条穿着珍珠的项链),但很快就会折叠成一个独特的三维形状(想象一下将这串珍珠项链弄乱)。
如果为了更好地理解后续AlphaFold所做出的贡献和成就,就需要展开说得更详细一些,得从蛋白质的一级结构、二级结构和三级结构讲起了。
蛋白质的基本组成单位是氨基酸。而蛋白质的一级结构指的就是其氨基酸序列。氨基酸通过脱水缩合连成肽链,多肽主链骨架原子沿一定的轴盘旋或折叠而形成的特定的构象就是二级结构。
一条或者多条多肽链组合在一起,便组成了蛋白质三级结构。具体一点地说,蛋白质会由所含氨基酸残基的亲水性、疏水性、带正电、带负电等特性通过残基间的相互作用而折叠成一个立体的三级结构。本文要讲的蛋白质折叠问题就是跟这三级结构的折叠情况有关。
根据1972年的诺贝尔化学奖得主安芬森提出的著名假设,蛋白质分子的一级结构决定其立体结构。也就是说,如果从蛋白质的一级结构就能知道它的三级立体结构,那么就可以直接从基因推测其编码蛋白质所对应的生物学功能。
但现在的问题是,虽然蛋白质可以在短时间内,从一级结构折叠至三级立体结构,研究者却无法在短时间中从氨基酸序列开始,计算出蛋白质结构,甚至无法得到准确的三维结构。因此,研究蛋白质折叠的过程,可以说是破译折叠密码的过程。
这个折叠后的三维形状至关重要,因为它决定了蛋白质的工作方式。如果开发新药物的科学家知道蛋白质的形状,他就更容易找到一个可以与之结合的分子,使这个蛋白质可以改变它的行为。问题在于,很难预测蛋白质将会呈现哪种形状。
用疫情中的冠状病毒来举例这个过程的话,病毒的序列不但显示了它的来源,还将显示将来会呈现的形状及导致的身体状况,或者说是生物现象。所以从序列开始,就需要做出计算来获知它的立体结构,并通过寻找一个结合的分子去改变这个结构,从而改变这个结构带来的生物现象。但是,这个蛋白质变化很快,计算却太难,需要大量的时间。
研究这些形状预测问题的研究人员为了更好的交流,每隔两年,都会提交有关某些蛋白质未来形状的预测来证明自己的能力以及想要获得进步。他们会在一个“结构预测的关键评估”(Critical Assessment of Structure Prediction / CASP)会议上进行同行评审。所以,这个会议因为那些奇奇怪怪的预测,有时候会被认为是成年人之间的科幻比赛。
到了2018年,DeepMind的AI作出的预测已经超越了这个CASP会议里的每个人,让这些人类研究员感到了恐慌以及郁闷。毕竟,那是一种要被抢去饭碗的不妙感。DeepMind在那一年赢得了明显的胜利,但它距离解决蛋白质折叠问题差得还是太远了。
令人惊叹的是,短短两年过去,现在,DeepMind的AlphaFold系统已经能够以惊人的速度和准确性预测出氨基酸串会折叠成什么样子的立体形状。AI当然并不完美,但是在这件事上却做得非常出色:当它出现错误时,通常也只有一个原子的宽度。这与科学家在实验室中进行实验时所犯的错误差不多大,只是这些科学家的实验速度会慢得多,费用也高昂得多。
“这很重要,” CASP的共同创始人和负责人约翰·穆尔特(John Moult)告诉《自然》。“从某种意义上说,问题已经解决。”
现在我们来说说这个AI技术的进步对生物学来说有多重要。虽然AlphaFold的技术仍然有待完善,但假设研究人员能够精准实现这一目标,这一突破将可能加快并提高我们开发新药的能力。
让我们来看看AI在提升研发速度方面的真正能力。为了更了解AlphaFold可以在多大程度上促进科学家的工作,我们可以举个人类科学家的例子来说明:德国Max Planck研究所的进化生物学家Andrei Lupas花了十年,试图弄清楚一种蛋白质的形状。但是,无论他在实验室中尝试了什么,都无法得到真正的结果。于是他试用了AlphaFold,在半小时内得到了答案。是的,就是这么令人沮丧又令人惊喜。
看了以上这些,很多人仍然不明白这项AI 技术对我们普通人来说意味着什么。实际上,许多疾病都是由错误折叠的蛋白质引起的。例如阿茨海默症(老年痴呆)、囊性纤维病变、家族性高胆固醇症、家族性淀粉样蛋白症、某些肿瘤、白内障等。
而从阿茨海默症到目前的冠状疫情大流行,AlphaFold都会有影响。它可以帮助我们了解疾病,找到新的治疗方法,还可以帮助我们快速确定哪些现有药物可以有效地应用于新的或变异的病毒。换句话说,花了人们一整年的时间去研究的新冠疫苗,如果在一年前就有了这个AI的帮助,指不定全球疫情都快要结束了。
未来,当另一种从未见过的疫情发生时,在我们的后兜里安装一个像AlphaFold这样的系统,可能会让我们像会分析对方战力的超级机器人那般,无所惧怕。但是要使这些成为可能,DeepMind必须与科学家共享技术。这家实验室目前表示,正在探索实现这一目标的方法。
接着我们来讲讲这个在生物方面的探索为什么对人工智能来说也很重要。在过去的几年中,DeepMind通过玩游戏而举世闻名。他们建立的AI系统不断传出胜绩,使得像国际象棋、围棋和星际争霸这样的战略游戏中的专业游戏玩家倍受打击。就像IBM的Deep Blue和Garry Kasparov之间的国际象棋比赛一样,这些比赛主要用来证明DeepMind可以使AI超越人类的能力。
现在,DeepMind用AlphaFold证明它已经成长,从玩电子游戏逐渐升级为解决具有现实意义的生死攸关的科学问题。就像是一个只会玩游戏到处挑战的熊孩子,现在终于长大成人,成为了一个实验室里为人类做贡献的科学家。
解决蛋白质折叠问题就是这一个完美的证明DeepMind的AI长大了的方案。目前,DeepMind是构建神经网络的全球领导者。神经网络是一种受人脑神经元启发的人工智能。这种AI的优点在于它不需要人类使用很多规则对其进行预编程,只需向神经网络提供足够的某些事例或者案例即可。它可以学习并检测这些案例中的数据或模式,然后基于此得出推论。
例如,可以为这个AI显示成千上万个氨基酸串,并显示它们会折叠成什么形状。逐渐地,它给出的氨基酸串折叠方式趋于成形并进行验证,随后基于该检测模式,一直做更新的尝试。由于人力的关系,可能会得出一些人类专家未检测到的规律或模式。因而,它可以预测其他更多蛋白质的折叠方式。
显然,这些不断尝试的过程,正是神经网络擅长的方面。而DeepMind明显也意识到了这一点,将正确类型的AI与正确类型的谜题结合在一起。甚至,还整合了一些更复杂的知识,例如关于物理学和与进化相关的氨基酸序列方面的知识。由于DeepMind仍在准备发表同行评审的论文,所以细节比较少,但想来离公布不远了。
其他实验室其实也已经利用神经网络的力量在生物学上取得了一定的突破。今年年初,AI研究人员通过向神经网络提供有关已知具有抗菌特性的2335个分子的数据来训练神经网络。然后,他们用它来预测在1.07亿种可能性中,还有哪些其他分子也具有这些特性。通过这种方式,他们确定了新型的抗生素。
DeepMind的研究人员正在用跟人类息息相关的成就来结束这一年,这项成就表明了AI的成熟程度。对于整个2020年以及整个世界来说,都是个极致的好消息。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.