2020年,李彦宏牵头,跨界成立了百图生科。
凭借近30年来对AI赋能生命科学的持续关注,李彦宏坚信,计算能力的提高、基因测序成本的下降,会为生命科学研究带来新的可能。
而在当时,对于这样一家“另类”公司,行业里看热闹的很多,看懂的并不多。
出乎很多人意料的是,正是这家初创,在短短数年间,创造了中国乃至世界AIForLifeScience的奇迹。
2022年和2023年,公司先后发布xTrimo V1、V2,实现了世界首个千亿参数的生命科学基础大模型,参数量较第二名高7倍以上,在数十个任务上超越行业达到SOTA水平。
2024年,全新一代生命科学基础大模型xTrimo V3诞生,参数拓展至2100亿,覆盖蛋白质、DNA、RNA等七大生命科学主流模态,在200余个任务中取得SOTA水平。
而传奇还在继续。
近日落幕的全球首届虚拟细胞挑战赛(Virtual Cell Challenge)上,百图生科凭借自主研发的模型xTrimoSCPerturb,从来自全球114个国家、1200余支队伍中脱颖而出,夺得冠军。
面对这一结果,百图生科副总裁、AI研发负责人张晓明并不特别惊讶,早在四年之前,百图生科就已布局虚拟细胞,此次夺冠正是多年深厚积累的回报。
“我们这次参赛并没有投入特别多额外精力”,张晓明说。
虚拟细胞并非全新概念,但近年来随着多组学数据快速增长以及AI技术的突破,这一领域正酝酿着新一轮爆发。
展望未来,张晓明认为,虚拟细胞的“AlphaFold时刻”有望在未来3–5年内到来,这个领域与AI蛋白质一样,有望改变研究范式,具备冲击诺奖的潜力。
从更大的视角来看,百图生科构建的多尺度、跨模态的生命科学基础模型体系日渐完善。张晓明将其比作“点亮一棵圣诞树”:从底层分子尺度逐步向上扩展至细胞、组织、器官。
这是一件极具想象力的壮举,同时也伴随着巨大的挑战。
现实中,高质量的数据极度稀缺,跨尺度机制尚不清晰,从算法创新到实验验证的转化链条既漫长又复杂,令许多科技巨头知难而退。
针对这些根本性挑战,百图生科正逐一探索破解之道,并已在多个具体应用场景中获得了验证,赢得了跨国药企、Biotech等客户们的高度认可。
百图生科的发展历程,是中国科技企业在前沿交叉领域中,以长期技术深耕推动范式变革的一个样本。
透过这篇10000字的访谈,一项前沿技术、一家创新公司、一个新兴产业的轮廓更加清晰。
![]()
以下是我们与百图生科副总裁、AI研发负责人张晓明的对话。
张世晨:首先恭喜百图生科获得全球首届虚拟细胞挑战赛的冠军,参加本届大赛,团队最大的收获是什么?夺得冠军在你们的预期之中吗?
张晓明:说实话夺冠超出了我们的预期,因为比赛有很多不确定性,并且全球的竞争对手们都挺强的。
但我们一开始就坚信会取得不错的成绩,因为尽管虚拟细胞挑战赛今年才首次举办,但百图在该方向上的技术积累始于四年前。早在2021年,我们就已启动单细胞预训练大模型的研发,并着手构建用于靶点扰动预测的专用模型。我们还建立了专门的细胞实验室,来进行数据生产与实验验证,形成了模型迭代的闭环能力。
相较于荣誉,我们最大的收获是进一步坚定了我们对整体技术战略方向的判断,也明确了我们在全球的技术身位,证明了百图在多业务并发的前提下,仍然拥有一支能够攻坚前沿科研高峰的技术团队。如果用一个词来概括这次感受的话,那就是“技术自信”。
张世晨:提到虚拟细胞,很多人还会觉得非常陌生,但其实虚拟细胞并不是一个新鲜的概念,你觉得这个领域再度火热,与之前有什么不同?
张晓明:虚拟细胞是通过计算的方式,构建一个可以运行、模拟和预测的细胞系统。现在这个概念特别火,背后是AI的推动。
AI虚拟细胞(AIVC)的做法是这样的:它把基因组、转录组、蛋白组等这些多组学数据整合起来,建立起一个多模态、多尺度的统一模型。有了这个模型,就可以模拟各种扰动——比如用药、敲除某个基因——然后看细胞会怎么反应。更重要的是,它还能结合机制推理和生成式AI,去“预测”出那些尚未被实验观测到的细胞状态。
说白了,就是用AI来模拟细胞。而一旦我们能把细胞模拟精准,下一步就可以模拟组织、器官。
百图生科在大模型上的技术布局,和AI虚拟细胞在理念上其实是高度契合的,这也正是我们布局虚拟细胞的原因。
张世晨:虚拟细胞到底能对生物医药带来什么影响?
张晓明:有了虚拟细胞之后,我觉得药物研发范式会发生根本性的变革,带来几个颠覆性影响。
第一,药物研发的周期会大幅缩短。
因为虚拟细胞可以在计算空间里完成上千万次的细胞扰动和机制验证,直接突破了传统实验在通量和成本上的瓶颈。以前可能要花几个月才能做完的实验验证,现在可能几天、甚至几小时内就能模拟出来,而且成本也大大降低。
第二,创新药物的发现能力会大幅提升。
有了这么高效的“搜索引擎”,我们就可以在超大的化学和生物分子空间里去探索,甚至能找到自然界里根本不存在的分子。这样一来,不仅能更快地找到新药,还能发现一些具有全新作用机制、价值巨大的候选药物。
第三,可以设计出更复杂、更精准的创新疗法。
虚拟细胞的系统框架支持跨尺度、跨时间序列的治疗策略设计,过去我们可能只能在某一个分子或某一个细胞层面做干预,那现在我们可以在不同尺度、不同时间序列中设计药物的组合。最终让治疗策略可以从原来的“单点作用”,进化成一种跨通路、跨细胞、甚至是跨时空的联合干预方案。
第四,也是特别关键的一点:它能够帮助跨越药物研发中从临床前到临床阶段的“死亡之谷”。
虚拟细胞再进一步,发展成虚拟组织、虚拟器官,那么很多原本要等到临床阶段才能验证的问题——比如毒性、耐药性等等——其实都可以提前在虚拟系统里预演。
这就相当于在AI里先跑一遍临床试验,大幅提高进入真实临床阶段的药物质量,从而显著降低后期失败率和整体研发成本。
归根结底,所有这些改变,最终都是为了让更多的疾病可以被治愈。
张世晨:2024年,百图发布了学术版单细胞大规模基础模型scFoundation,这一重要成果对百图、对行业有怎样的意义?
张晓明:scFoundation的发布,其实是百图生科大模型家族版图中非常关键的一块拼图。它标志着我们从原来的分子尺度(比如蛋白质)预训练,正式升级到了细胞尺度的大规模预训练。
scFoundation也为后续构建多模态、跨尺度的统一模型架构打下了基础,这项成果已经成为我们在AI虚拟细胞中的技术底座。依托它,我们在细胞领域快速构建了包括扰动预测在内的一批效果领先的下游任务模型,并在靶点发现等实际业务场景中取得了不错的进展。
同时,我们已经把模型能力和实验验证相结合,借助“干湿闭环”进行持续迭代和升级。
对整个行业来说,我们已经把scFoundation 的推理能力对外开放,并且开源了它的推理代码。
这样一来,就能帮助更多团队更快地迈入“单细胞预训练”时代——让正在快速增长的单细胞多组学数据,能够被更高效地分析、更充分地利用。
scFoundation已成为AI虚拟细胞发展的一个重要成果,在很多前沿研究中都能看到它的身影。
张世晨:百图本次参赛的xTrimoSCPerturb模型有哪些核心创新点?相较于其他模型最重要的突破是什么?
张晓明:这是一个非常好的问题。我们这次参赛的模型叫xTrimoSCPerturb,它是一个基于单细胞预训练构建的扰动预测模型。
它之所以能取得这么好的效果,一个关键原因在于:它用到了百图生科内部尚未对外发布的xTrimo v4中的两个全新基础大模型。
一个是scFoundation的2.0版本。相比上一代,它在模型架构、训练数据规模和训练策略上都做了全面优化,因此对细胞状态和基因表达的表征能力更强。
另一个是我们自研的下一代蛋白质预训练大模型——xTrimoProteinNext。它能对扰动所涉及的蛋白质序列进行更深层次的理解。
基于这两个模型,xTrimoSCPerturb实际上构建了一个跨模态的扰动预测系统。
同时,我们还对扰动数据集进行了更精细、更严格的质量控制,确保模型能充分吸收大量高质量扰动数据中的关键信号,并以此指导训练过程。
可以说,上述创新构成了我们和其他参赛队伍之间最核心的差异点。
张世晨:训练xTrimoSCPerturb,百图用了多久?
张晓明:我们这次参赛并没有投入特别多额外精力。一个重要的原因在于我们前期已经有比较扎实的技术积累——比如scFoundation 2.0和xTrimoProteinNext。
这些底层的高质量、高精度的表征模型,在我们参赛之前就已经准备好了。所以比赛期间,我们只需要在这些现成的基础上,快速构建并训练一个扰动预测模型就行。
张世晨:本次挑战赛前三名中除了百图都是来自高校的团队,您怎么看学术界和产业界在虚拟细胞这个领域上的思路差异?各自的侧重点有什么不同?
张晓明:如果从发展阶段来看,虚拟细胞目前确实还处于一个以前沿学术探索为主、产业落地为辅的中间阶段。不过有意思的是,在底层技术原理和基础模型构建的思路上,学术界和产业界的理解正在越来越趋近。
产业界因为有明确的业务落地需求,所以在任务定义、数据选择和模型训练的整个链路中,会更强调清晰的业务导向。也因此,产业界通常会优先寻找那些能够形成小闭环的场景,先跑通、再迭代——通过局部模型的快速验证和优化,一步步夯实能力,最终把整个虚拟细胞的链条推向真正可落地、可规模化应用的状态。
而学术界则更倾向于尽快覆盖虚拟细胞在不同尺度、不同模态上的建模能力,哪怕某些环节之间的机制推导还不完全连贯,或者暂时无法形成完整闭环。这种“先铺开、再填空”的策略,有助于在早期科研布局中抢占先机。
张世晨:您觉得目前虚拟细胞在技术路径上,是还处于发散阶段,还是已经开始出现一些收敛的趋势了?
张晓明:我觉得虚拟细胞在不同尺度上,其实呈现出不同的状态。
比如在分子尺度,大家的技术路径已经比较清晰,理念也相对接近,共识度比较高。
到了细胞尺度,虽然整体还在同一个大的技术方向里,但已经开始出现一些分化,会在具体的小方向上做不同的尝试。
而一旦超出单个细胞,进入细胞间相互作用、微环境这些层面,不确定性就明显增加了,方法也开始出现明显差异。
再往上,到了组织甚至器官层面,目前几乎还没有形成清晰的大模型构建路径。可以说,整个技术路线是从底层到上层,越往上越发散,在不确定性中逐步探索。
张世晨:百图怎么定义虚拟细胞的“AlphaFold时刻”,以及我们离这个时刻还有多远?
张晓明:AlphaFold解决的是一个困扰生物学界几十年的难题——蛋白质折叠。它不仅预测效率极高,更难得的是,在高效率的同时达到了实验精度的水平。
所以我们说“AlphaFold时刻”,其实是因为:这是AI第一次在一个明确、可量化、可验证的生物任务上,实现了质变式的突破,并真正重塑了整个领域的科研与工程范式。
那么对于虚拟细胞来说,我认为,当一个虚拟细胞模型能够在计算机中持续、可重复地模拟细胞在关键生物学过程中的真实行为,并且这些模拟结果能在实验中被系统性地验证——那么,就可以说是虚拟细胞的“AlphaFold时刻”到来了。
目前来看,无论是学术界还是产业界,大家对这个愿景是有高度共识的,也在积极投入。而技术本身也正在快速演进。
从算法上看,目前生命科学基础大模型的能力在不断提升,正快速覆盖从分子、细胞到组织的不同尺度和多模态数据,模型性能也在持续增强;并且大家不再只依赖纯数据驱动的大模型,而是开始把真实的生物机制融入到模型架构和训练过程中,让AI 更“懂”生物学。
从数据上看,生命科学数据本身还在指数级增长,这和其他领域(比如通用语言模型)很不一样——我们有非常扎实的数据基础。
更重要的是,行业对虚拟细胞的态度,已经从“想试试看”变成了“战略必选项”。
当然,目前全链路的虚拟细胞产业落地还比较少,但在一些局部场景已经出现了成功的验证案例,这对整个领域是很大的鼓舞。
如果按照现在的趋势发展下去,我们预计虚拟细胞的“AlphaFold时刻”有望在未来3到5年内到来。
当然,如果我们把愿景放得更远——比如最终实现虚拟器官——那可能还需要更长时间。
AlphaFold获得了2024年诺贝尔化学奖,我们也有理由相信,一旦虚拟细胞真正迎来它的“AlphaFold时刻”,同样会催生诺奖级别的突破。
张世晨:百图是全球极少数将虚拟细胞落地产业应用的公司之一,从探索走向落地,这个过程中最大的障碍是什么?百图又做了哪些努力?
张晓明:我们总结下来,主要有两大挑战:
第一个是数据本身的复杂性。
生命科学的数据本质上是多组学的——包括基因组、转录组、蛋白组等等,而且还是多尺度的:从分子、细胞,到组织、器官,甚至时间维度和空间位置。要在这样一个高维、异构、稀疏的体系中,把不同来源、不同尺度的数据在时间和空间上完全对齐,目前几乎是不可能的。
虽然局部可能有对齐的数据集,但覆盖全尺度、高质量、大规模的对齐数据仍然极度稀缺。尤其是系统性的扰动数据,不仅少,分布也很稀疏。
这构成了虚拟细胞技术落地最基础、也最现实的瓶颈。
第二个是技术到应用的转化链路太长。
虚拟细胞的整个技术链条本身就很长,而一旦要对接真实产业场景,比如药物研发,这个链条就更长了。
很难指望一步到位实现从科研到应用的跨越。因此,必须先构建一个小而闭环的验证路径,在有限尺度内完成“预测→实验验证→反馈优化”的迭代,再逐步扩展到更复杂的模态和尺度。
针对这两个挑战,百图在过去几年做了两方面关键尝试:
首先,在数据层面,我们构建了一个跨模态、跨组学、跨尺度的生命科学知识图谱。
通过这张图,不同来源的数据——哪怕原始格式完全不同——也能基于生物学关系相互连接,在逻辑上形成一张“可互通”的全景网络。同时,我们还建立了一个多组学、多模态的高维向量索引矩阵,让不同类型的数据能在统一的表征空间里进行对齐、检索、排序和关联。这相当于为虚拟细胞打下了一个可计算、可扩展的数据底座。
其次,在系统层面,我们打造了单细胞领域的“干湿闭环”能力。
具体来说,就是用大模型做扰动预测,然后立刻通过自有细胞实验室进行高通量实验验证,再把结果反馈回模型进行迭代优化。这个闭环目前主要在单细胞尺度运行,但我们正在逐步扩展到跨尺度、跨模态的场景。
正是通过这样的“小闭环起步、持续扩展”的策略,我们才有可能一步步把虚拟细胞从一个科研概念,变成真正能驱动药物研发等产业价值的技术引擎。
张世晨:当百图用虚拟细胞赋能跨国药企和Biotech时,客户的反应如何?
张晓明:反应来说,变化还是蛮大的。
最早我们跟客户沟通时,更多是向他们解释什么是虚拟细胞,这项技术能带来哪些业务价值,特别是在靶点发现、药物设计等关键环节可能产生的变革。我们也会结合具体场景,详细说明从技术到落地的路径规划。
但随着技术不断成熟,尤其是我们在实际项目中跑通了一些验证闭环之后,客户的认知和态度发生了很大转变。现在,很多海内外客户非常看好这项技术的落地前景,甚至明确提出:希望利用虚拟细胞,为自己打造一套全新的研发引擎。
相应地,我们的沟通方式也变了——不再是“要不要用”,而是“为什么是我们”。客户会更深入地问:你们的技术到底领先在哪里?这其实反映出一个关键变化:客户对虚拟细胞技术本身的认同感越来越强。
张世晨:从蛋白质、DNA、RNA到虚拟细胞,构建覆盖多生物层级的跨模态基础模型体系,是一项极其复杂且全球范围内都极为稀缺的能力。百图是如何系统性规划并逐步实现这一技术体系的?
张晓明:百图的大模型体系建设,其实是按照不同生物尺度和不同数据模态,一步一步系统性布局的。同时,在推进过程中,我们也始终结合产业落地的实际节奏,确保技术既能前沿,又能实用。
我们的起点是蛋白质。因为蛋白质在抗体药物等研发场景中具有最直接的业务价值,所以首先构建了我们在分子尺度上的第一个预训练大模型、也是业内规模最大的蛋白质大模型——xTrimoProtein。
随后,我们拓展到了支持超长序列的基因组大模型xTrimoDNA以及集理解与生成于一体的大模型xTrimoRNA。
因为中心法则的存在,对蛋白质、DNA、RNA的建模,能够帮助增强我们对分子尺度不同模态的理解,提升了下游任务性能。
到了细胞尺度,我们构建了单细胞预训练大模型scFoundation,并在此基础上开发了扰动预测模型 xTrimoSCPerturb。
可以说,目前我们已经初步搭建起一个从分子到细胞、从序列到功能、从静态表征到动态扰动的跨尺度、跨模态基础模型体系。而在这过程中,我们也把越来越多的生物机制深度融入到模型之中,更好地提升理解和推理能力。
张世晨:展望未来,这套生命科学基础大模型体系会有怎样的想象空间?比如,我们是否可以期待一个真正打通底层、覆盖所有生物分子乃至整个生命系统的“统一生物大模型”?
张晓明:我觉得是完全可以期待的。打比方来说,整个生命科学大模型体系就像一棵正在被点亮的圣诞树:最底层是分子尺度——我们已经逐步构建了DNA、RNA 和蛋白质的预训练大模型;往上一层是细胞尺度——通过 scFoundation 这样的单细胞大模型,我们开始理解细胞的状态与行为;再往上,我们会继续构建细胞间相互作用的模型,然后是组织、器官。
这就是一个从底层到高层、逐层点亮的过程。而在这个过程中,我们不仅会在同一尺度内,把每个单模态的模型与其具体应用场景结合起来,形成可落地的小闭环;还会推动同一尺度下不同模态之间的协同,比如整合基因组、转录组和蛋白组数据,构建多模态融合的闭环能力;更进一步,我们也在探索跨尺度、跨模态的“干湿结合”闭环,并紧密对接真实的产业需求,真正实现技术到价值的转化。
张世晨:在生物领域,跨尺度建模是相当困难的,百图有哪些好的经验?
张晓明:这次虚拟细胞(VC)挑战赛中的模型,其实就是一个典型的跨模态、跨尺度的建模范例。
我们的模型xTrimoSCPerturb 同时融合了两个关键部分:一方面,它调用了蛋白质预训练大模型(xTrimoProtein),对扰动所涉及的靶点蛋白进行分子尺度的深度表征;另一方面,它又基于 scFoundation 这个单细胞大模型,在细胞尺度上进行模拟。
换句话说,这个模型本质上是在分子尺度和细胞尺度之间架起了一座桥梁——通过联合两种不同尺度、不同模态的表征能力,实现了更精准的扰动预测。
我们认为,这种能够在尺度之间建立有效连接的“桥梁型”模型,正是解决生物领域跨尺度建模难题的一个关键思路。未来我们也会沿着这个方向,继续探索更多跨尺度的协同方法。
张世晨:百图过往的实践已验证了Scaling Law(规模法则)在生命科学领域的有效性,而最近AI圈关于ScalingLaw面临瓶颈的讨论越来越多,您是否也观察到类似的趋势正在生命科学领域出现?百图是如何应对的?
张晓明:关于Scaling Law的讨论,确实在通用大模型领域已经变得非常紧迫,但在生命科学领域,我觉得还是很不一样的。
因为生命科学的数据仍在爆发式增长。这背后是新一代组学和测序技术的快速进步。比如,单细胞测序的成本在过去十年里从每个细胞几美元降到了几美分,而整体数据量则增长了近一万倍。
这意味着,我们离“数据饱和”还非常遥远,Scaling Law在生物领域的瓶颈,至少在可预见的未来,还会来得更晚一些。
但是,通用大模型领域对Scaling Law瓶颈的反思,其实也帮我们提前做了预警。所以百图现在的策略是“两手抓”:
一方面,我们仍然在积极拥抱Scaling Law 的红利——继续扩大数据规模、模型参数,只要数据还在高速增长,这一法则就依然有效。但另一方面,我们也在主动探索Scaling Law的“范式升级”,不再只依赖“更大更多”的训练,而是把重点逐步从训练阶段延伸到推理阶段。
更重要的是,生物数据本身具有天然的结构和高维性,不像自然语言那样需要经过人类语言的压缩和简化。
通用大模型看到的世界,其实是被“翻译”成人类语言后的版本,存在信息损失;而我们的模型直接处理的是 DNA 序列、RNA 表达谱、蛋白质结构等原始生物信号——这是生命系统最本真的语言。
因此,我们其实在尝试一件更根本的事:在超高维的微观尺度上,构建一个尽可能完整的针对生命体的世界模型。
张世晨:按照科学问题和工程问题的划分,目前看虚拟细胞更像是一个科学问题。那AI蛋白质呢?是不是已经变成了一类工程问题?
张晓明:我觉得答案是肯定的。
相比虚拟细胞,AI蛋白质的研发路径已经非常清晰,落地节奏也日趋成熟。AI在这里能发挥的价值,既具体又可衡量。
举个例子,我们现在可以用蛋白质生成式大模型进行de novo(从头)蛋白设计。这些设计出的分子,很多已经远远超出了自然界已知蛋白的空间——这意味着我们能发现大量传统实验方法根本触及不到的全新候选药物。
这只是一个起点。在此基础上,AI还能对每一个设计出的蛋白序列,同时预测多个关键属性——比如亲和力、稳定性、表达量等。通过这种多目标联合优化,我们在进入实验阶段之前,就已经筛掉大量低潜力分子,只把综合表现最优的一小部分送进湿实验。
这就解决了传统药物研发中的一个老大难问题:过去常常是先花大量时间优化亲和力,结果到后期才发现表达量太低、成药性差,不得不推倒重来。而现在,我们在设计初期就把这些工程化属性一并考虑进去,大幅提升了整体成功率。
不仅如此,实验验证产生的高质量反馈数据,又能回流到模型中,驱动下一轮迭代——形成一个高效、可重复、可扩展的“干湿闭环”。
所以整体来看,AI蛋白质已经不再是“能不能做”的问题,而是“如何做得更快、更好、更省”的工程实践。
张世晨:本次挑战赛前三名均为华人团队,您如何看待这一现象?有哪些因素,促成了中国团队在AI+生命科学的领先实力?
张晓明:确实,这次比赛的前三名都是华人团队。虽然比赛结果有一定偶然性,但我觉得这背后并非纯粹巧合,而是长期积累和沉淀的必然结果,有这么几个因素:
首先,中国在生命科学数据和前沿技术上的投入非常扎实。近年来,国内在大规模组学数据(比如单细胞测序、空间转录组等)的采集能力上快速提升,以高通量实验平台为代表的基础设施为构建高质量、大规模的生物数据底座打下了坚实基础。
其次,中国在AI大模型领域的发展势头强劲,人才储备深厚。这一点从国际顶级AI 会议就能看出来——华人作者的占比持续攀升。
同时,生物产业在中国正处于高速发展阶段,生物制造、生物医药对AI驱动的新范式有强烈需求,为AI+生命科学提供了天然的快车道。
最后,也是特别重要的一点:AI原生的跨学科人才正在快速崛起。现在加入科研和产业一线的年轻一代,很多都是既熟悉AI,又系统学习了生物学知识。
这种既懂AI又懂生命科学的复合型背景,让他们能真正打通两个领域的语言,在科研探索和工程落地中不断带来突破。我相信,这样的优势还会在未来持续放大。
张世晨:百图始终秉持着科技普惠的价值观,在推动技术开源和生态共建方面做了很多工作,未来,百图还将会有哪些举措?
张晓明:百图从构建生命科学基础大模型起,我们就坚信一个理念:这些底层能力必须走向普惠。
只有当整个行业都基于大模型的技术底座去创新,上层应用才能加速发展;而应用端的反馈,又会反哺底层模型持续迭代——形成一个正向循环,这样才能真正赋能产业。
为此,我们已经做了大量开源实践:无论是蛋白质大模型还是单细胞大模型,我们都已开放源代码和推理能力。这些开源项目收到了大量开发者和科研团队的积极反馈,也帮助我们不断优化模型性能。
不少客户正是从使用我们的开源模型起步,在内部场景中验证效果后,逐步建立起对百图技术的信任,并进一步拓展到业务合作。可以说,开源不仅是一种分享,更是信任与合作的起点。
面向未来,我们想要打造生命科学发现的“操作系统”。在这个系统之上,构建数据-模型-实验的全链路闭环能力,尝试打造一个智能体(Agent)驱动的开放生态。
在这个生态中,研究者在便捷调用各类组件的同时,也能贡献自己的智慧,一起来丰富这个生态。
我们尤其期待在抗体/蛋白设计、合成生物学等场景,与全球伙伴展开更深度的技术与生态合作。通过共建共享,一起推动生命科学发现进入一个更智能、更高效的新阶段。
张世晨:科研智能体也是目前非常火热的领域,您怎么看待它的发展?
张晓明:我觉得它的未来空间非常巨大,但要真正落地,必须建立在一个高质量、全链路、且基于生物机制的AI体系之上。
比如,我们之前在知识领域发布了“发现助手”,它能帮助用户高效搜索海量文献,深入分析某个靶点的研究潜力,甚至自动生成生信分析代码。这其实是在研究前端提供深度洞察的能力。
未来还有很多工作要做。比如,要实现由智能体驱动的蛋白质设计,这个智能体不仅需要调用强大的生成式大模型来设计分子,还要在多个关键属性上进行多目标协同优化。并且,它得能自动规划并驱动后续的湿实验,获取高质量的验证数据,并将这些反馈用于模型的闭环迭代。
整个过程涉及大量子智能体的紧密协作,而每一个子智能体所依赖的底层模型,都必须具备足够高的精度和可靠性,才能最终支撑起端到端的、真正智能化的生命科学发现流程。
当下的智能体其实很多还停留在用语言驱动工具的阶段,但在生命科学领域,工具本身的智能化才是关键。
张世晨:过去,生命科学由90%的湿实验和10%的计算构成,由此催生了市场庞大的生物试剂和实验设备市场,有观点认为,未来这一比例将发生逆转,变成90%计算+10%湿实验,您如何看待这一趋势?
张晓明:我认同这一转变正在发生。过去,生命科学是以湿实验为主,AI或计算部分更多是辅助角色,只在少数环节提供支持,所以才形成了“90%湿实验 + 10%计算”的格局。
但随着AI的快速发展,整个研发范式正在发生根本性转变。现在,湿实验的核心目的越来越聚焦于验证AI设计的效果。甚至很多时候,我们做湿实验并不是为了直接产出最终答案,而是为了获取高质量反馈数据,用来迭代和优化模型。
长远来看,随着虚拟细胞技术不断深入,未来我们可能不仅能模拟单个细胞,还能构建虚拟组织、虚拟器官。到那时,连临床前乃至部分临床阶段的验证,都有可能在数字系统中完成。这样一来,湿实验在整个研发链条中的角色,就会从“主导”逐渐转变为“辅助”,其从属性会越来越明显。
所以,计算与实验比例的此消彼长,是一个必然演进的方向。这个过程或许需要时间,但它一定会发生。
张世晨:回看您在AI+生命科学领域的经历,一路走来,最大的感悟是什么?
张晓明:我是从2022年开始从通用AI切入AI for Life Science,到现在差不多三年时间。回看这段旅程,最大的感受是:我们对 AI 的认知,经历了一个典型的“成长曲线”。
一开始,大家充满热情,觉得AI似乎能解决一切科学难题。但很快,现实给了我们一课,面对生命系统的极端复杂性,AI很难直接攻克那些挑战,于是进入一段反思甚至有些低谷的阶段。
而走到今天,我们终于开始精准地知道AI 能解决什么问题、能解决到什么程度,更重要的是,清楚下一步该做什么技术布局,才能让AI真正发挥价值。
简单说,就是从“以为AI无所不能”,到“怀疑AI几乎什么都不能”,再到如今“知道它能做什么,并且知道如何让它做得更多”。
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.