人工智能生物模型背后训练数据的安全风险|序列|实验

分享至

2025年6月30日，兰德公司（RAND）发布了题为《数据与人工智能驱动的生物设计：生物训练数据的相关风险与治理机遇》（Data and AI-Enabled Biological Design：Risks Related to Biological Training Data and Opportunities for Governance）的专家洞察报告。该报告系统评估了生物训练数据与人工智能模型能力之间的内在联系，深入剖析了特定生物数据在催生危险能力（如设计新型病原体）方面的潜在风险，并为全球政策制定者、人工智能模型开发者和生物安全研究机构提出了一系列数据治理的战略选择与具体建议。启元洞见编译整理了其中的核心内容，以供读者参考。

一、人工智能与生物学结合
的“双刃剑”

当前，通过对海量生物数据的学习，人工智能模型正展现出前所未有的强大能力。这些被称为“人工智能-生物模型”（AI-bio models）的系统，在蛋白质折叠预测、基因序列生成及高阶功能推演等领域取得了革命性突破，深刻改变着生命科学的研究范式。基因组测序与计算资源成本的持续下降，共同推动了生物数据量的爆炸式增长，使得在更大规模数据集上训练模型成为可能。

人工智能-生物模型无疑为科学研究与人类健康带来了巨大福祉，例如协助发现新疗法，或是在基础科研中预测复杂的分子行为。然而，其中一些模型具有典型的“双重用途”属性，其潜在的危险能力不容忽视。这些能力包括设计毒素、改造现有病原体以增强其毒力，甚至是“从头”设计一个全新的病毒。正如美国国家科学院等权威机构所警示的，一个掌握了前沿人工智能生物模型的不法分子，或许有能力设计出具有更强传播性等有害表型特征的病原体。

尽管已有研究对人工智能-生物模型的危险能力进行了评估，但一个关键环节常被忽视：模型的各项能力与其所使用的训练数据紧密相关。训练数据的内容直接决定了模型的能力边界与知识盲区。因此，对用于训练人工智能-生物模型的数据进行有效治理，可能是在推动有益科学研究的同时，防范潜在危险能力的核心途径。本报告旨在深入探讨生物数据与人工智能-生物模型能力之间的关联，并在此基础上提出一系列旨在限制这些危险能力的战略建议。

二、生物数据与人工智能-生物
模型：能力、风险与挑战

生物数据通常包括序列、结构和功能三个核心类别，它们是训练人工智能-生物模型的基础。全球各大公共生物数据库正以前所未有的速度扩张，为人工智能-生物模型提供了源源不断的“养料”。

（一）数据如何塑造模型能力？

模型的能力随着训练数据量的增加而提升，这似乎已成为一种共识。更重要的是，训练数据的多样性和类型对模型能力的塑造起着决定性作用。以下几个人工智能模型的实例清晰地揭示了这一点：

1. AlphaFold系列（蛋白质结构预测）：AlphaFold2通过学习数万个已知蛋白质结构，实现了原子级的精准预测。但由于其训练数据排除了非蛋白质成分，它最初无法预测蛋白质与DNA/RNA复合物的结构。直到后续版本在更复杂的数据上进行专门训练后，才弥补了这些能力“缺口”。这表明，训练数据的局限性会直接导致模型能力出现空白区。

2. Evo系列（基因组语言模型）：其前身Evo 1仅在微生物基因组上训练，而Evo 2的训练集扩展至涵盖所有生命领域的超过12.8万个基因组。这种数据广度的巨大提升，使得Evo 2具备了Evo 1所不具备的新能力，例如分析人类基因变异和设计真核生物基因。这个例子有力地证明，更广泛、更多样的训练数据能够直接转化为更强大的模型能力。

3. ProGen（蛋白质序列生成）：ProGen在约2.8亿个自然蛋白质序列上训练后，经过对特定酶家族序列的微调，成功设计出了与任何已知蛋白质仅有约30%同源性的人工酶，但这些人工酶却能表现出与天然酶相近的催化活性。这说明，海量的进化序列数据能赋予生成模型创造全新且功能正常的蛋白质的能力。

4. RoseTTAFold diffusion（结构引导的蛋白质设计）：该模型通过学习大量已知蛋白质结构，能够设计出满足特定结构标准的新型蛋白质。相较于早期仅在序列上训练的模型，RFdiffusion的设计效率实现了巨大飞跃，这彰显了结构信息在指导蛋白质三维结构设计中的关键作用。

（二）生物安全视角下的“双重用途
关切研究”

生命科学领域中，一些成果可能被滥用的研究被称为“双重用途关切研究”（Dual-Use Research，DURC）。我们可以借助DURC的框架来审视人工智能-生物模型可能带来的危险能力。例如，能够预测病原体毒力、传播性的人工智能工具，可能被用于设计更危险的病原体。这类预测能力本身是双重用途的——它既可以帮助我们指导疫苗开发，也可能被恶意利用。

要实现对病原体能力的预测，模型需要从已知病原体的特征中学习。因此，在包含病原体信息（如序列、结构或功能注释）的数据集上训练模型，是其获得双重用途应用的前提。一个令人担忧的可能性是，如果一个模型在除了天花病毒之外的所有痘病毒数据上都进行了充分训练，它或许有能力推断并预测出天花病毒的功能性变异。

（三）赋予危险能力的数据特征

并非所有数据都具有同等的风险。某些类型的数据子集因其特定属性，在催生人工智能-生物模型危险能力方面扮演着更直接的角色。这些属性包括：

1. 独特性（Unique）：数据难以在公开领域获取，也难以通过其他数据推断。掌握这类数据将赋予使用者独特的预测优势。

2. 功能准确性（Functionally accurate）：数据被精确地功能标记，并与实验验证结果高度相关。这类数据可能使快速、准确地预测功能成为现实，从而简化制造危险病原体的过程。

3. 高致病性（Highly pathogenic）：数据本身涉及高风险病原体。从一个危险病原体出发进行设计，其产物是危险的可能性远高于从一个无害的起始物出发。

4. 能力增强性（Capability-enhancing）：数据的加入能显著提升模型预测的准确性和特异性。例如，一个能精准预测哪个特定的点突变会增加传播性的模型，其危险性远大于只能模糊预测的模型。

值得注意的是，尽管已经开始尝试限制模型接触特定数据集，但其效果仍有待评估，且可能被后续的“微调”所规避。

三、数据治理：降低危险能力
的备选方案

鉴于数据在人工智能-生物模型能力发展中的核心地位，数据治理成为一个关键的干预点。以下是几个主要的治理方案类别。

（一）对实验和数据创造过程的治理

这是从源头上控制危险数据产生的方法，旨在通过限制特定类型的实验或数据收集活动，防止有潜在危险的生物数据被用于训练人工智能模型。

限制创造新数据或新病原体的科学实验：这种治理方式已有先例，可通过经费控制（如限制对“功能增益”研究的资助）、法律法规（如多国禁止人类胚胎基因研究）和国际公约（如《禁止生物武器公约》）等手段实现。例如，美国曾因安全和滥用风险的争议终止了旨在搜寻新病毒的DEEP VZN项目，这引发了关于如何监管此类潜在危险实验的广泛讨论。

限制从非实验样本中生成数据：大规模生物监测项目旨在对病原体提供预警，但其产生的病原体数据也可能被用于训练人工智能模型。因此，对此类项目产生的数据进行发布限制，是另一种潜在的治理方式。

（二）对现有数据的访问、整理和
使用的治理

对于已经存在的数据，治理的重点在于控制其访问、聚合与使用。

1. 控制对现有数据集的访问：限制对敏感数据的访问已有成熟先例，如人类基因组数据。在新冠大流行期间，GISAID数据库就要求用户注册并提供机构信息才能访问。对于包含特定敏感数据的数据库，可借鉴金融领域的“了解你的客户”（KYC）原则，设立访问控制，对用户的身份和意图进行验证。然而，控制当前已完全公开数据库的访问将面临巨大挑战。

2. 对数据整理和聚合的治理：即使单个数据集本身不构成威胁，但当多个数据集被组合时也可能产生危险能力。因此，一种治理思路是限制不同数据集的聚合。然而，对限制现有非管制数据聚合的定义和执行将非常困难。

3. 对模型训练使用数据的治理：这是治理的最后一道防线，旨在规范数据在模型训练中的使用。可以要求模型开发者披露其训练数据，或设置模型规模上限并禁止超限模型在特定类型的数据（如毒素结构）上训练。

四、给开发者与政策制定者
的建议

基于以上分析，我们为人工智能模型开发者和政策制定者提出以下核心建议。

（一）对开发者的建议

人工智能模型开发者应主动探索和明确训练数据与模型能力之间的关系，并实施与数据相关的风险缓解措施。具体包括：深入研究生物数据类型与危险能力之间的关联；开展限制性测试，评估移除特定数据对模型能力的影响；监控病原体序列、结构和功能数据的收集与聚合情况，建立态势感知。

（二）对政策制定者的建议

政策制定者应为使用政府资助的生物数据集训练人工智能模型的行为制定使用指南。具体包括：评估控制使用公共资助数据集的成本与收益；为使用政府资金或数据的研究人员提供指南，建议其避免产生双重用途能力；响应NASEM报告的号召，加强对生物数据集作为战略资产的管理，保护其在人工智能训练中的使用和质量。

（三）对开发者和政策制定者的共同建议

在收集、聚合病原体数据以及利用这些数据训练模型时，双方都应联合进行能力评估。这项评估应包括对模型能力的预测，以及对将功能性病原体数据公之于众可能产生后果的分析。

需要特别关注那些最有可能促进DURC能力发展的数据，包括：潜在高致病性病原体（PEPP）的序列数据、将基因型与危险表型相关联的功能数据，以及涉及“关切序列”的数据库。应监控此类数据的创建和聚合，并在必要时实施访问控制。同时，在收集、聚合或使用这些数据训练人工智能模型时进行风险评估。

总之，人工智能与生物学的深度融合正开启一个充满希望与挑战的新时代。要驾驭这股强大的力量，确保其始终为人类福祉服务而非构成威胁，对作为其能力基石的“生物训练数据”进行审慎而有效的前瞻性治理，将是我们无法回避的核心议题。

免责声明：本文转自启元洞见。文章内容系原作者个人观点，本公众号编译/转载仅为分享、传达不同观点，如有任何异议，欢迎联系我们！

转自丨启元洞见

研究所简介

国际技术经济研究所（IITE）成立于1985年11月，是隶属于国务院发展研究中心的非营利性研究机构，主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题，跟踪和分析世界科技、经济发展态势，为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号，致力于向公众传递前沿技术资讯和科技创新洞见。

地址：北京市海淀区小南庄20号楼A座

电话：010-82635522

微信：iite_er

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

人工智能生物模型背后训练数据的安全风险