位于美国马萨诸塞州的Elucidata已经在生物信息学领域深耕多年。其专业核心在于解读复杂的生物医学数据。他们开发的MLOps(机器学习运营)平台Polly旨在帮助生命科学团队在药物发现和诊断工作流程中连接和分析多模态数据集。这种对数据可靠性的专注如今正向着一个更加雄心勃勃的方向扩展。随着本周AI实验室的启动,Elucidata正在将这一基础延伸至生物医学AGI(通用人工智能)领域。
![]()
在生物医学领域,创建能够适应并推理碎片化和混乱生物数据的AI系统一直是一个持续的挑战。Elucidata旨在通过AI实验室克服这一挑战。
AI系统在遇到与其训练数据完全不同的数据时往往举步维艰。Elucidata将其称为分布外(OOD)问题。这可能导致不可靠的预测和遗漏生物信号——而这正是它们本应支持的复杂场景类型。
"传统AI默认生产数据与训练数据相似;GenAI只能从其底层分布进行建模,这是一个数学真理。"联合创始人兼首席执行官Abhishek Jha表示。"在生物医学研发中,这一假设在最关键的领域会失效:罕见亚群、意外反应和异常信号。如果我们能够可靠地检测和解释分布外观测结果,我们就能构建经得起现实世界考验的AI。AI实验室是我们在这一前沿领域下的赌注。"
AI实验室将增强负责数据摄取和标准化的现有Polly组件,包括Scout和Xtract等模块。目标是超越基本数据处理,实现更复杂的多模态生物医学数据提取和结构化。
![]()
通过AI实验室,Elucidata还希望进一步开发专为生物医学研究设计的基础AI组件。这包括构建在精选生物医学数据上训练的领域感知基础模型。此外,公司计划开发虚拟细胞系统和精选知识图谱,帮助AI模型在生物学背景下工作,而不是将数据视为不相关的输入。
根据Elucidata的说法,借助AI实验室,它正在"组建一支精通生物学、化学、药物发现、软件工程、数学和业务的世界级团队,将这些能力转化为现实影响。"
AI实验室的推出恰逢大型语言模型(LLM)和基础模型越来越多地部署在现实世界生物医学环境的时期。在一个高度监管的行业中,不确定条件下的可靠性和可解释性往往比原始模型性能更重要。
生物医学AI在严格监管下运作(FDA、EMA、HIPAA、GxP)。这意味着AI实验室必须专注于透明度和可追溯性。系统需要展示结果是如何产生的以及不确定性存在的位置。这比模型准确性更为重要。
Elucidata并非将生物医学AGI定位为人类专业知识的近期替代品,而是瞄准能够在这些限制内工作的AI系统。目标是支持研究人员,而非取代他们。这包括检测不确定性并标记任何需要注意的罕见信号。这有助于在现实世界数据与训练数据不同时保持结果可靠。
![]()
在AI实验室之外,Elucidata还通过少量合作项目保持活跃。2025年,该公司与Sapien Biosciences合作,帮助准备大型生物样本库数据集,用于AI驱动的研究。该合作的目标是将复杂的生物数据转化为更易用的形式。
Elucidata还与Auron Therapeutics在癌症研究方面建立了合作伙伴关系,其平台正在活跃的药物发现项目中使用。这些努力表明,公司的工作与广泛的研究环境相关联,在这些环境中数据不完美且结果至关重要。
该领域的其他公司包括Recursion、Tempus和BenevolentAI。这些公司的核心目标是利用海量数据集进行大规模建模和模式发现以推动预测。
Elucidata的方法不同。它更重视数据结构和生物学背景。借助AI实验室,公司正在这一基础上构建,更加注重能够处理现实世界生物医学工作流程。
![]()
"AI实验室是我们十年历程中的自然下一步,"联合创始人兼首席技术官Swetabh Pathak表示。"我们看到科学数据中的信号不处于边缘,它存在于三个标准差之外,即'正常'之外。我们的使命是构建能够检测、清理和利用这些边缘案例信号的AI系统,而不是丢弃它们。"
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.