专访博德研究所计算科学家邵斌：用DNA语言模型破译和设计生命丨未来百科022期|序列|dna|噬菌体

分享至

撰文丨李黎

编辑丨王聪

关于未来百科：未来百科（Next Biotech）是嘉程资本携手生物世界联合发起的访谈100位中美优秀Biotech科学家的项目，旨在真实访谈开启未来的100位Biotech领域科学家，探讨生物科技/生命科学领域的全球最新技术和商业趋势，展现华人生物科技科学家在该领域的贡献与成就，剖析创新的生物科技公司的最佳商业实践，共同推进生物科技/生命科学行业在中国的茁壮成长。第022期未来百科的访谈嘉宾，是MIT&哈佛Broad研究所邵斌博士。

近日，MIT&哈佛Broad研究所邵斌博士在预印本平台 bioRxiv 发表了一篇题为：A long-context language model for deciphering and generating bacteriophage genomes 的论文【1】。

受大语言模型（LLM）成功的启发，邵斌博士开发了一种用于基因组的长上下文生成式模型——MegaDNA。这一多尺度Transformer模型在未注释的噬菌体基因组上以单碱基精度进行预训练。该研究展示了MegaDNA模型的基本能力，包括对必需基因的预测、研究遗传变异的影响、调控元件的活性预测和未注释序列的分类。此外，MegaDNA模型能够从头生成长达96K碱基对的噬菌体基因组序列，其中包含功能性调控元件和具有噬菌体相关功能的新蛋白质。

这在生命科学领域是一个创新方向，也是当前各种AI模型涌现趋势中，为数不多的生命科学分支里的垂直模型。为让大家更深入地了解该论文的主旨，由嘉程资本和生物世界联合发起的《未来百科》访谈了论文作者邵斌博士，为业界呈现他在AI大模型与生物科技结合领域的最新研究。以下是正文部分：

未来百科：感谢邵斌博士接受采访，请你先对读者介绍一下自己的经历。

邵斌：我在MIT&哈佛Broad研究所做全职科研工作，我的官方职位叫Computational Method Developer，这是专属于我的一个职位，大概相当于计算科学家，做一些算法开发工作。

我是在北京大学物理学院读的本科和博士。在高中时，我对物理和生物都比较感兴趣，但那时候我觉得物理学现在能做的突破似乎不是特别多了，剩下都是一些硬骨头。我想可能生物学更好一点，尤其当时还有一种说法是“21世纪是生命科学的世纪”，于是在高考报志愿时第一志愿是北京大学生物系，第二志愿是北京大学物理系。结果那年我们省的生物系录取分数比物理系高，就这样阴差阳错去了物理系。去了物理系读书时，我还是对生物比较感兴趣，想做跟生物有关的研究，当时物理系主要做生物相关研究就是欧阳颀院士，当时我就跟着欧阳老师做一些生物学相关研究，后来他也成了我的博导。我的博士课题研究的是自然界中生物系统基因之间相互作用的一般规律，探索对生物体进行工程化改造应该遵循的原则。在欧阳老师实验室，我经历了非常全面的实验和理论训练，这对我后来在MIT做博士后的帮助很大。在博士后阶段我做的是对生物系统标准化问题的研究，开发了单分子水平的针对DNA和mRNA的精确测量手段，还包括一些理论工作，通过深度学习对生物大数据进行一种标准化处理，从而去除其中的噪声或偏差。

2016年来到美国在MIT和哈佛做过一段时间博士后，之后就留在了Broad研究所工作。我现在的研究方向主要是生成式人工智能，探索生成式人工智能和在生物系统中设计的应用，例如应用语言模型来从头设计一些自然界的生物体系，我们现在是从简单的生命形式噬菌体开始进行设计。

未来百科：在你做科研的过程中，遇到过最大的困难是什么？

邵斌：第一个遇到困难是没钱，因为波士顿的生活成本比较高，尤其是MIT所在的剑桥市。尤其是在前几年，而我和我夫人都在学术界，钱成了一个非常大的问题。最近两年有了改善，因为Broad研究所给了我一个固定研究职位，这缓解了我的生活压力，也让我有余力做一些自己感兴趣的研究，包括我发在bioRxiv的这项工作。

第二个遇到的困难是时间不够用，我爱人在去年3月份怀孕，当时就我们两个人自己在这里，这让我工作之余的时间一度变得非常紧张，去年11月我妈妈过来帮忙，才让我多了一些时间，如果没有她过来，这个语言模型可能就没影了。实际上，12月份我爱人去医院生孩子，我就在去医院前把这篇文章上传到了bioRxiv。

未来百科：要做好科研需要具备哪些能力？

邵斌：我的导师欧阳颀院士在很久之前有一个采访中提到一点，他大意是说做科研如果能让你觉得有趣，觉得好玩，这是一个很重要的品质，我非常认同。能够在做科研的时候享受智力上的探索乐趣，这其实是很好的动力。

未来百科：你发表的这篇基因组语言模型的论文，主要做了哪些工作？

邵斌：这项工作是我和一个长期合作者闫嘉伟博士一起做的。这项工作其实就是回答一个技术问题——能不能把GPT模型应用在DNA序列上。众所周知，ChatGPT在对人类自然语言的处理上非常成功，可以说是前所未有的。而DNA的序列跟自然语言很像，它们都是某种语言，只不过人类的语言由几千乃至几万个词组成，而DNA是由ATCG这4个碱基组成，它们都是序列数据。所以能不能把这种语言模型用在对DNA的处理上，我觉得是一个很重要的问题，如果我们能用类似于ChatGPT的方法去理解DNA，能够实现对DNA的交互设计，实现对DNA的知识挖掘，我觉得是非常有潜力的。因为DNA承载着所有的我们已知的遗传信息。

于是我们从最简单的生物，也就是噬菌体开始，作为一类针对细菌的病毒，噬菌体的基因组很小，只有几千到几万个碱基对。我就想能不能把类似于GPT的语言模型用在噬菌体这种简单的模式生物上，看能不能帮助我们理解这些模式生物，以及对这些模式生物进行工程化改造，甚至帮助我们去创造出一些前所未有的生物基因组序列。

未来百科：现在这个模型有什么潜在应用场景？

邵斌：目前它的潜在应用场景都还跟噬菌体相关，例如用来对噬菌体进行工程化改造，如果能改造针对特定细菌的噬菌体，可用来开发噬菌体疗法，治疗耐药菌感染。它还将可能在农业生产上有应用潜力，帮助工程化改造噬菌体来防治病虫害。此外，还可以帮助解决生物发酵工程中经常面临的杂菌污染问题。当前的基因治疗主要依赖病毒载体，这个模型还具有帮助改进病毒递送载体的潜力。

未来百科：AI领域的哪些进步，让这个基因组语言模型成为可能？

邵斌：传统的语言模型有一个很重要问题，就是它的文本长度（context length）非常受限。例如，在使用ChatGPT或其他大语言模型时，都会遇到文本长度的限制，也就是输入和输出文本长度不能超过一个特定限制。而提高文本长度，会极大地增加模型的对于GPU显存的消耗。直到去年出现的几项工作给了我们如何提高语言模型文本长度限制的新思路，其中一项重要工作是Meta公司的余莉莉博士做出的，她是我的本科同学，也是长文本语言模型的顶尖专家，她的工作让我意识到全基因组规模的语言模型是可行的，当时我是在Twitter上关注到她的这项工作的。

未来百科：相比前人的成果，你的这个模型是实现了更长的文本长度，从而可用于破译和从头生成噬菌体基因组？

邵斌：是的，如果像GPT4一样，暴力增加计算资源也可以做到这种长文本，但是我没有那么多计算资源，所以只能用一些消耗计算资源较少，但是也能做同样事情的方法。实际上，我只自费使用了一张英伟达A100 GPU。

未来百科：那如果你用更多的GPU，效果会更好一点吗？

邵斌：不限制资源可能会更好，但如果用2块、4块GPU会更好吗？我不觉得。模型还是这么大，训练数据还是这么大，其实没有什么特别大区别。如果想有一个质的飞跃，可能是更多的训练数据，更大的模型，需要更多的A100，这是正常的套路。但如果只单纯的增加几块，我觉得不会有多少帮助。

未来百科：在这个基因组模型的训练中，输入的数据是什么？

邵斌：输入的是噬菌体的基因组数据，选择公开数据集中高质量的噬菌体基因组数据，也就是那些完整的噬菌体基因组，至少是完整度＞95%的噬菌体基因组数据。

未来百科：如何评估这个语言模型的性能呢？

邵斌：主要从两个方面来评估，首先是评估它的生成性，这就像评估GPT模型能不能生成一些有意义的语义片段，尤其是能不能生成长文本。所以我们用这个模型来生成一些基因组序列，看这些序列是不是有意义的。分析显示，模型生成的序列包括基因编码序列，它是从ATG （起始密码）开始，到GGA或TAA （终止密码）结束，而在这些编码序列的前面还有核糖体结合位点（RBS）序列，总体来说，生成的这些基因组序列是有意义的。用生物信息学工具来分析生成序列，发现它们能够被生物信息学工具识别为噬菌体，说明其中包含足够的噬菌体标志基因。甚至还能用一些工具预测这些生成序列的能够感染哪一类细菌。从已有的生物信息学工具来看，我们生成的序列看起来就像是一个噬菌体。

其次是我们可以用它来帮助理解噬菌体基因组，挖掘一些噬菌体基因组中基因的具体功能，包括如果基因有一些突变（mutation），会怎么影响蛋白质功能，我们也做类似的，基础性的研究工作，发现这个模型也有一些应用价值。主要是从两方面去探讨它的性能。

未来百科：在模型的训练与搭建方面，你得下一步计划是什么，会从现在的噬菌体拓展到其他物种吗？

邵斌：对于真核生物而言，基因组中大约99%是非编码序列，其中包含了大量的“垃圾”序列，用语言模型来生成真核基因组还有难度。而噬菌体和细菌的基因组非常紧凑，基本都是编码序列和调控序列，无意义序列很少。所以我们下一步可能会先把语言模型拓展到细菌基因组。不过，前不久Arc研究所的Brian Hie和Patrick Hsu开发了一个可生成细菌基因组的Evo模型【2】。

未来百科：Evo模型跟你们的模型有哪些不一样？

邵斌：Evo模型跟我们的模型有一些区别，Evo模型参数量很大，它是一个70亿参数模型，它训练数据集是原核生物基因组，包括噬菌体基因组。它有两个我们没有做的应用，一个是生成CRISPR-Cas系统，一个是生成转座子系统，如果进一步在实验上验证和优化，可以为基因编辑带来新工具。Evo模型是一个不错的长读长模型，读长是131kb，也就是10万碱基对水平，但原核生物基因组一般是百万碱基对水平，例如大肠杆菌MG1655菌株是460万碱基对，相差了一个数量级，读长不足以整个细菌基因组，所以可能会带来一些问题。Arc研究所是西海岸新成立的一个研究所，预算比较充足，Evo模型参数比我们大50倍，它用了100块A100 GPU。此外，Evo模型的技术路线和我们完全不一样。

未来百科：Evo模型有什么值得借鉴的地方？

邵斌：Evo模型在数据训练、模型设计上都做得很好。从生物学角度来讲，优点在于尝试生成了CRISPR-Cas系统和转座子系统这两个极具应用前景的工具。

未来百科：生命科学领域还有哪些模型呢？

邵斌：生命科学领域的模型有几个层次，对于DNA序列的生成模型，目前就只有我们的MegaDNA模型，以及Evo模型。对于广义的DNA语言模型，就已经非常多了，但它们不是生成模型，而是做一些帮助理解基因组的工作。实际上，生命科学领域的AI模型已经很“泛滥”，尤其是DNA非生成式语言模型，以及单细胞测序领域的AI模型。

未来百科：我们可以预见，生命科学领域还会出现更多AI模型，它们应该集中去解决哪些问题？

邵斌：在我看来，我比较关注生命科学领域的基础模型（foundation model）。就像ChatGPT这样能够处理很多事情的模型。在生命科学领域，已经提出了一些所谓的基础模型，但我个人认为这些所谓的基础模型都还没有达到自然语言领域基础模型的水平，主要由于它们没有打通不同的数据模式，都还局限在某个数据模态内，例如现在还没有一个基础模型能够同时帮助我们处理 DNA序列、单细胞测序，以及疾病的影像学问题。我相信未来会有基础模型能够学会所有生物学知识，但目前大家还不知道如何实现这一点，因为它跟自然语言差距还是很大。

未来百科：如果MegaDNA模型有“幻觉”怎么办？怎么去纠正这种错误呢？

邵斌：这是个好问题，对大模型领域而言，“幻觉”是很重要的，这会使得它构思一些本不存在的事物。从生物设计角度来讲，我们有时希望模型要有一些幻觉，但要控制在一定程度内。比如，去生成一些生物序列，在自然界中不存在也无所谓，只要它有功能就可以。但不要让“幻想”太过分，控制在一定程度内，让它生成一些不存在的，但有生物学意义的蛋白，这还是很有趣的。在学术领域，这对于设计蛋白和基因组也有启发作用。

未来百科：AI可以设计、生成一些人类难以想象的实验方案，但最终是否需要和实验融合在一起？

邵斌：实验非常重要，我们的工作可能仅仅是一个开始，我希望能看到后来者做一些设计上的工作，把实验流程跟模型迭代紧密结合。这个想法不限于DNA模型，实际上任何一个AI模型，如果能和实验紧密地结合在一起，我觉得都会产生更好的效果。

未来百科：有哪些细分垂直领域，你觉得它们的产业和应用要“呼之欲出”了？

邵斌：在我比较熟悉的领域。首先是噬菌体，如果按照底层设计，蛋白质设计可能“呼之欲出”，因为做蛋白质设计比较好的实验室和公司已经不少。我认为，看一个领域做得好不好、是不是“呼之欲出”，一个重要的标准是看这个领域是公司做得好，还是高校做得好。如果是高校做得好，说明这个领域还处在前期孵化阶段；但如果该领域的公司的力量超过了高校，而且趋势在逐渐增长，这个领域就可能“呼之欲出”。例如，2019年之前，蛋白质设计领域David Baker实验室做得最好，基本上没有公司去做。但是最近，已经有几个公司做得越来越好，并且能够在Nature等顶尖期刊发表论文，说明有大量顶尖研究者进入这个领域并创立公司，还得到了大量风险投资的支持。因此，我认为蛋白质设计可能已经“呼之欲出”了。

未来百科：像David Baker实验室从头设计和生成新的蛋白质，你们的MegaDNA的系统则是生成DNA，DNA碱基只有4种，远小于组成蛋白质的氨基酸种类，从头生成DNA序列和生成蛋白质序列之间在难度上有什么分别？用MegaDNA模型生成DNA序列对未来设计、改造、优化或工程化蛋白有哪些帮助？

邵斌：原则上，对DNA的设计是包含所有设计的。理想的情况是，我们能把所有DNA承载的东西（包括RNA、蛋白质等）都设计好，但暂时我们还没有达到这个程度。David Baker实验室深耕蛋白质设计领域很多年，在蛋白质模型领域已经做得很好了。刚才提到，语言模型的读长限制是很重要的，但蛋白质通常不是很长，是一个非常适合语言模型和传统生物学工作的一个领域，所以语言模型很早用在蛋白质上。这个领域工作特别多，表现也不错。我希望DNA模型走到把所有都设计好、把蛋白质的调控序列都设计好的程度。这样一来，实际过程中会省掉很多技术问题，比如设计好蛋白之后怎么进行蛋白质的递送和表达，或者如何解决实际的生产问题。我希望我们可以往这个方向发展和进步，让DNA模型越来越好，去匹配现在的蛋白质设计模型。

另外，能不能通过已有的以DNA为基础的语言模型，去帮助更好地设计蛋白质，值得进一步探索。还有一些很有趣的问题，比如，DNA模型跑出来的很多蛋白质跟自然界的蛋白质非常不一致，在DNA模型还没有达到很好水平的前提下，这些能不能帮助设计一些功能蛋白质？还有，像Evo模型展示的，DNA模型也可以设计CRISPR-Cas系统、转座子系统等蛋白质+核酸的系统。现阶段，在蛋白质设计上，目前蛋白质模型做得比DNA模型更好，但在应用场景、未来发展以及在对已有工具的补充上，DNA模型应该有很大的潜力。当然除了生成式任务之外，DNA语言模型的优势还包括对已有基因组的注释，挖掘和对调控元件的定量预测。我们的文章中对这些问题也有所探讨。

论文链接：

1. https://www.biorxiv.org/content/10.1101/2023.12.18.572218v3

2. https://www.biorxiv.org/content/10.1101/2024.02.27.582234v2

关于未来百科未来百科（Next Biotech）是嘉程资本携手生物世界联合发起的访谈100位中美优秀Biotech科学家的项目，旨在真实访谈开启未来的100位Biotech的科学家，探讨生物医药领域的全球最新技术和商业趋势，展现华人生物科技科学家在该领域的贡献与成就，剖析创新的生物科技公司的最佳商业实践，共同推进生物科技/生命科学行业在中国的茁壮成长。

欢迎各位生物科技/生命科学创业公司CEO和科学家报名参加访谈。访谈和发稿免费，仅为推动产业发展，弘扬最新科技和产业趋势，优质内容优先，杜绝任何商业利益捆绑。

主持人：嘉程资本创始合伙人李黎

嘉程资本是极度崇尚科技驱动商业创新的早期投资基金，其创始合伙人李黎拥有科技财经领域担任记者/主编10年经历，曾受邀赴美独家专访亚马逊创始人贝索斯，撰写封面报道《亚马逊的三个顾客》，获贝索斯和中美科技界好评。李黎2009年于中信出版社出版《轻公司》一书，获当年商业财经畅销书。

2011年进入风险投资行业以来，李黎主导投资了超过百家创业公司早期阶段，并伴随乐信（NAS：LX）、团车（NAS：TC）、老虎证券（NAS：TIGR）等公司从早期走向纳斯达克，投资的牛股王、PingCAP、云丁智能、核桃编程等公司也迅速成长为独角兽。

主理人：生物世界创始人王聪

《生物世界》是中文媒体中顶尖的生物科技自媒体矩阵，在微信、今日头条、网易新闻、澎湃新闻等全渠道发布，全网有近100万专业读者关注，该自媒体矩阵备受中文华语市场最顶级的科学家、专家、产业界高层等关注，也由此形成了一个高质量的生物科技前沿趋势、学术成就、产业动态等方面的讨论社区。《生物世界》创始人王聪在生物科技领域从业10年，熟悉全产业链结构，通过建立自媒体矩阵的方式，旨在为推动中国的Biotech领域发展做出贡献。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.