网易首页 > 网易号 > 正文 申请入驻

预训练模型的在蛋白质结构建模中的应用及挑战

0
分享至

蛋白质结构建模的预训练
在自然语言的理解与生成中,对语言的建模本质上是对序列的建模,因此,以上提到的预训练技术也可以应用到其他序列建模任务中。除了自然语言和时间序列,人们第一时间想到的另一种长序列就是生物中的蛋白质序列。蛋白质是组成人体一切细胞、组织的重要成分,机体所有重要的组成部分都需要有蛋白质的参与。对蛋白质进行科学的序列建模,能够直接造福于临床医学、制药等事关人类生命健康的重要产业。蛋白质和基因序列预训练模型将蛋白质和基因序列作为训练输入,以此为基础探索人工智能在生命科学中的应用。人类在生物和医学等领域丰富的研究成果积累了大量蛋白质和基因序列数据,为构建这样的模型系统提供了坚实的基础。具体来说,通过对蛋白质的预训练,我们可以探索预训练模型在以下几个方向的应用。
蛋白质结构预测:蛋白质研究中最重要的问题之一是蛋白质二级结构预测。蛋白质的二级结构是了解蛋白质功能的一个重要特征,特别是当感兴趣的蛋白质在进化上与具有已知结构的蛋白质不相关时。蛋白质二级结构预测工具通常用于为更高级别的模型构建提供更丰富的输入特征。从机器学习的角度来看,蛋白质二级结构预测可以看成是一种序列到序列(seq2seq)的任务,从输入的氨基酸映射到表示螺旋或折叠的标签。预训练好的大规模蛋白质语言模型只需通过少量相应的数据进行微调即可。
蛋白质和药物设计:蛋白质结构预测任务是通过已知的氨基酸序列预测结构。除此之外,更难的蛋白质设计任务是已知蛋白质结构来推导氨基酸序列,或者在两者皆不确定的情况下同时设计结构和序列。这样的任务可以在抗体设计中找到应用。如果我们将设计目标定位为生成小分子而不是蛋白质大分子,那么就可以在制药任务中找到应用。除上述两个方向之外,预训练蛋白质模型还可以应用在细胞分类、基因调控关系发现、细菌耐药性分析等任务中,前景广阔。
在这一方向上,Facebook AI Research(FAIR)在2020年发布了具有十亿参数规模的ESM模型。ESM在近2.5亿蛋白质序列上进行了训练,并在一系列蛋白质下游监督学习任务中取得了显著的效果。2021年,FAIR又进一步发布了基于生物学多序列比对(Multiple Sequence Alignment,MSA)的ESM-MSA-1模型,以更少的参数量再次刷新原ESM模型的结果。


预训练模型的应用挑战
虽然现有的预训练模型已经在多个领域上实现了应用,但是层出不穷的任务领域、千变万化的应用场景,也为预训练模型提出了更多挑战。
领域适配:预训练模型的一大特点是其可以通过学习大规模通用领域上的知识,获得一个较好的初始化点,通过微调来向不同的下游任务领域进行适配。但是,当预训练数据的领域和真实的下游任务数据的领域相差太远时,模型便难以在这些任务上取得较好的表现。同时,随着模型参数量的增大,有限的下游领域数据也逐渐难以支撑这些参数的微调。虽然有一些研究工作尝试解决这些领域适配难题,但是由于真实场景中不同领域之间的差异难以衡量,各种下游领域的数据量有很大不同,使得很 难有一种通用的方法覆盖所有领域适配问题,仍然需要根据不同情况进行有针对性的设计。另外,预训练模型在向特定领域适配时,有可能产生“灾难性遗忘”现象,即丢失了在预训练阶段储备的“知识”,限制了预训练技术的优势。如何让模型在微调的时候“不忘本”,是一个十分值得研究的问题。

任务适配:
模型在预训练过程中的任务通常是针对大规模无监督文本设计的,但是其下游任务通常是有监督任务,这就造成了模型预训练目标和在下游任务上使用的训练目标有较大的差异。如何构造更通用、更容易向下游任务进行适配的预训练目标,或者设计中间的训练过程来弥补这种差异,是非常值得探索的问题。
另一方面,尽管相比于预训练数据,下游任务领域的数据通常比较少,可以通过微调模型进行适配,但是日益增大的模型参数量使得微调也成为了一个十分消耗资源的过程,提升了普通人使用预训练模型的门槛,也限制了预训练模型在更多场景下的应用。并且,对于超大参数量的模型,现有的微调方法很容易在下游数据较少的情况下使模型产生过拟合。因此,许多人尝试设计更有效的微调方法或采用零样本或少样本学习的方法实现超大规模预训练模型的应用,避免繁重的微调过程。这类方法的研究现在还处于起步阶段,还有很大的发展空间,十分值得我们进一步探索和研究。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国女留学生新加坡坠亡前细节披露!近期还与父亲聊考试升学

中国女留学生新加坡坠亡前细节披露!近期还与父亲聊考试升学

南方都市报
2024-05-31 12:49:03
AI教父现身台湾!英伟达、台积电与14名科技界大佬齐聚 “TA”未获邀参宴感触深

AI教父现身台湾!英伟达、台积电与14名科技界大佬齐聚 “TA”未获邀参宴感触深

FX168北美财经圈
2024-05-31 15:20:07
时隔18个月,中美防长面对面聊得怎样?

时隔18个月,中美防长面对面聊得怎样?

直新闻
2024-05-31 23:15:22
曝网红铁头靖国神社石柱前撒尿!油漆写“厕所”,网友评论两极化

曝网红铁头靖国神社石柱前撒尿!油漆写“厕所”,网友评论两极化

裕丰娱间说
2024-06-01 17:43:13
0比2输了!羽球女皇被打得毫无还手之力,还敢对中国队嚣张吗?

0比2输了!羽球女皇被打得毫无还手之力,还敢对中国队嚣张吗?

体坛知识分子
2024-06-01 12:55:34
我国第一条双层双向8车道超级高速要来了,计划年内开工,工期5年

我国第一条双层双向8车道超级高速要来了,计划年内开工,工期5年

起喜电影
2024-06-01 11:33:49
代煎药的内幕

代煎药的内幕

张景岳中医书友会
2024-05-25 08:54:26
北京今日正式入汛!今晚局地雷阵雨+大风

北京今日正式入汛!今晚局地雷阵雨+大风

北青网-北京青年报
2024-06-01 16:37:04
世界排名:中国女排1-3守住第6,日本爆冷升至第7,荷兰重返前10

世界排名:中国女排1-3守住第6,日本爆冷升至第7,荷兰重返前10

侃球熊弟
2024-05-31 21:31:28
涨了!养老金继续提高!15年和25年,退休金差别有多大?

涨了!养老金继续提高!15年和25年,退休金差别有多大?

天下纵览
2024-06-01 13:50:43
曼晚列曼联建队核心7人组:B费、奥纳纳、达洛特、利马、3名小将

曼晚列曼联建队核心7人组:B费、奥纳纳、达洛特、利马、3名小将

懂球帝
2024-06-01 16:28:08
三名高官被判死刑,其中一人自称“总统”,他是谁...

三名高官被判死刑,其中一人自称“总统”,他是谁...

坦然风云
2024-05-31 23:19:35
珠峰上,排队的人群,一眼看不到头

珠峰上,排队的人群,一眼看不到头

大象新闻
2024-06-01 10:55:06
林毅夫教授,网民喊您兑现“光刻机三年之约”……

林毅夫教授,网民喊您兑现“光刻机三年之约”……

故园老丁
2024-05-30 19:33:58
前央行行长承认,这次房地产下跌的速度超出了决策者的预期

前央行行长承认,这次房地产下跌的速度超出了决策者的预期

琼瑶史事
2024-05-31 17:03:49
正部级“老虎”董云虎落马,背后的神秘“夫人”是她

正部级“老虎”董云虎落马,背后的神秘“夫人”是她

天闻地知
2024-05-27 14:13:56
《庆余年2》:看懂悬空庙之局,才知陈萍萍为什么会被凌迟处死?

《庆余年2》:看懂悬空庙之局,才知陈萍萍为什么会被凌迟处死?

子芫伴你成长
2024-05-31 22:58:43
闹大了!司马南裸体丑闻黑料遭曝光!最新检讨

闹大了!司马南裸体丑闻黑料遭曝光!最新检讨

飞哥AI矩阵
2024-06-01 12:23:20
新闻背后:文学院院长喝死了,长沙师范学院多名教师证实匡某死亡

新闻背后:文学院院长喝死了,长沙师范学院多名教师证实匡某死亡

肖飞说
2024-05-30 03:11:31
外蒙古,已经沦为韩国老男人们的“海外青楼”?

外蒙古,已经沦为韩国老男人们的“海外青楼”?

乌鸦校尉
2024-05-31 10:32:03
2024-06-01 19:18:44
我是天边飘过一朵云
我是天边飘过一朵云
科技改变未来,未来生活更美好
903文章数 896关注度
往期回顾 全部

科技要闻

余承东:不卷价格!雷军:将双班制生产!

头条要闻

知名瑜伽品牌宣布永久闭店:负责人失联 称无退费能力

头条要闻

知名瑜伽品牌宣布永久闭店:负责人失联 称无退费能力

体育要闻

"失业"一年了 33岁的德赫亚路在何方

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

实锤!普华永道,危!

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

时尚
健康
游戏
艺术
教育

将“简单款”穿出高级感的女人,我只服她们,年过四十也优雅

晚餐不吃or吃七分饱,哪种更减肥?

恭喜记得!重返LPL!解说LPL夏季赛揭幕战,疑似和骆歆成功复合

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

教育要闻

反反复复试了无数次,还是找不到相应的符号来解答?太难了

无障碍浏览 进入关怀版