来源:市场资讯
(来源:小张聊科研)
AI与数据
AI的能力提升基于一个简单的逻辑:数据集越大、越多样,模型就越准,盲点就越少。算力和算法固然重要,但最终决定AI水平的,还是训练数据的质量。
近些年,全球范围内对高质量健康数据和基因组数据的争夺越来越激烈。这种趋势带来几个现实问题:数据归属问题?贡献数据的病人和志愿者,他们的利益怎么保障?当个人健康数据被拿去做AI开发,医学本身又会变成什么样呢?
从开放科学到数据保护
过去几十年,科学界普遍提倡“开放科学”,鼓励跨国、跨机构的数据共享。但这个理念最近慢慢被“数据主权”所取代,即敏感数据集应保持在本地或国家控制之下,外部访问需要满足严格的条件。不少国家和地区开始给本国健康数据使用加以限制,担心这些数据被无序利用。
当然,这对医学AI的发展并不是很友好,数据不能从多方面进行验证,则做出来的模型就容易带偏见。并且缺少独立验证的AI工具,用到临床上可能会出现问题。对于许多生物医学科学家来说,医学AI可能成为在有限的数据隔离环境下训练出来的产品:强大但脆弱,缺乏外部验证,并带有隐藏的偏见。
关于数据保护,欧洲的做法是推出“RAISE”计划,以协调各成员国的AI数据。同时也收紧外部访问,数据的使用需走受控流程。有些项目甚至要求合作方符合特定的安全条件。美国则启动了国家AI行动计划,为了保护个人健康信息,收紧了对基因组数据库的管理。这些动作说明,国外大环境也都在强调数据本地控制。
在我国,研究人员正在积极推动“人工智能+医疗卫生”的应用。国家队列和注册中心(如国家癌症中心)被视为重要的临床基础设施,影响着AI工具的开发、验证和转化。但与此同时,我国的许多健康数据对外部人员仍然难以访问,部分数据对本国研究人员也存在一定的管理限制。一些学者表达了参与国际合作的愿望,这也需要遵守国内的数据管理规定。
技术出路
在“数据主权”的情况下,一种可行的研究方法是“将计算移动到数据上”,而不是将数据移动到研究人员那里。如UK Biobank将分析转移到一个基于云的研究分析平台上,该平台通常不允许研究人员下载个人级别的数据。另有一些团体正在试验可信研究环境和联邦学习:算法不暴露原始记录,但最终汇总结果。以某制药公司数十年的药物发现数据为基础训练AI模型,采用数据收集和分析模式,AI开发者将公司内部数据与外部数据结合起来,并允许第三方公司访问模型,只要它们随后回馈数据。这些技术方案能够在保护数据隐私和安全的同时,实现跨机构、跨区域的协作。它们为在数据主权时代继续推进医学AI的发展提供了可行的路径。
AI辅助遗传研究的发展速度很快,必须确保数据的使用不超出最初同意的范围,并且数据的贡献者能够从中受益。许多AI创新者现在都在利用大型生物数据库的数据,这些数据库的管理机构也在不断审查和完善自己的AI政策。
结语
AI将改善所有人的医疗保健这一承诺,其基础并非仅仅在于算法,而在于那些能使医疗保健和生物医学数据的安全、互惠和有价值的共享成为可能的规则。这对医学的回报将是巨大的。但要实现这一目标,需要在众多国家和地区之间更好地整合和协调数据。
当前医学AI发展面临的核心挑战是数据共享与数据保护之间的平衡。一方面,开放的数据能够促进科学进步,提高AI模型的性能和可靠性;另一方面,合理的数据保护能够维护患者隐私和国家利益,避免数据被滥用。解决这一矛盾的技术途径亦在快速发展,而法律和伦理框架也需要同步完善。
推动医学AI健康发展的关键在于建立安全、互惠、有价值的数据共享规则。这既是科学问题,也是伦理问题。只有在保护贡献者权益、确保公平受益的前提下,AI技术才能真正实现改善所有人医疗健康的承诺。
来源:Nature News
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.