网易首页 > 网易号 > 正文 申请入驻

阿里推出统一科学语言基础模型——LOGOS,打造AI for Science新入口

0
分享至


撰文丨王聪

编辑丨王多鱼

排版丨水成文

在药物研发实验室里,科学家们还在为解析蛋白质三维结构头疼;材料学家们正对着金属有机框架的复杂构型反复试错;化学家们则在海量反应路径中筛选最优解。

而现在,这些看似割裂的自然科学场景,可能被阿里通义实验室的一个大模型彻底打通——科学本身就有自己的“语法”,只要让 AI 学会这门科学语言,它就能像写文章一样,生成符合科学规律的蛋白质、小分子、新材料...。


该研究提出了全球首个基于统一“科学语法”的多领域生成式基础模型——LOGOS(Language Of Generative Objects in Science),它基于共享的“科学语法”,在单一的自回归框架内统一了自然科学中的异构任务,不需要依赖显式的 3D 坐标或几何神经网络,仅通过序列建模就能完成蛋白质设计、配体生成、逆合成预测、材料创造等跨领域任务,性能甚至超过多个领域专用模型,为“一个模型适用于所有”(one model fits all)在自然科学中的可行性提供了初步证据。

更重要的是,LOGOSAI for Science(AI4S)指明了一条新路径——不必为科学任务单独搭建技术栈,而是可以和通用大语言模型共享架构、训练范式和推理基础设施,将科学基础模型与大语言模型深度对齐,从而使大语言模型真正成为 AI4S 的新入口。

为什么我们需要“科学语言”?

过去十年,AI 在自然科学领域的应用大多基于预训练语言模型 BERT 的预训练-微调范式:先在大规模无标注数据上学习掩码重建或对比学习,再适配下游任务。但这套方案存在天然短板:预训练目标和真实任务语义不对齐,编码器架构也缺乏原生的条件生成能力,往往需要额外加装生成模块。

后来学界尝试用自回归大语言模型破局,比如 ProGen2、Evo 系列等蛋白质生成模型,ProtGPT2 等核酸生成模型,但都局限于单一生物学领域,无法捕捉蛋白质、小分子、抗体等不同模态间的协同关系——而真实的生物过程,恰恰是这些多类分子复杂互作的结果。

还有研究试图用自然语言作为跨域接口,比如 NatureLM 把各类科学任务包装成“指令-响应”格式。但问题在于:生物化学数据的体量远小于自然语言,强行用自然语言做中介,模型容易偏向通用语言模式,反而忽略了科学对象本身的结构规律;而且氨基酸序列、SMILES 式等科学表示和自然语言的组成规则、语义机制差异极大,存在天然的模态鸿沟。

研究团队认为,既然蛋白质、小分子、材料、反应系统虽然符号表示不同,但都遵循特定的组成规则、结构约束和互作语义,那它们完全可以视为同一种“科学语言”的不同“方言”。

于是LOGOS的核心思路呼之欲出:给自然科学设计一套统一的“语法”,把所有科学对象和它们的互作都编码成共享词汇表下的 token 序列,用同一个自回归框架解决所有生成任务。


LOGOS概述:一种基于统一“科学语法”的多领域生成框架

LOGOS 是怎么说“科学语言”的?

这套“科学语法”的设计非常巧妙,核心是把空间互作关系“离散化、语法化、token 化”,塞进纯序列生成的框架里。

第一步:搭起七模态的知识版图

研究团队围绕“蛋白质-小分子”这两个核心科学实体,构建了覆盖 7 大模态的预训练语料库:

  • 生物大分子层蛋白质(来自UniRef90数据库)、抗体(来自OAS数据库);

  • 化学实体与转化层小分子(来自PubChemQC数据库)、化学反应(来自ORD和ECReact数据库)、材料(以金属有机框架MOF为代表,来自hypothetical MOF结构库);

  • 跨域互作层蛋白质配体结合位点(来自PDB数据库,用P2Rank预测)、蛋白质-配体复合物(来自Q-BioLiP数据库);

每种模态都有专属的边界 token,比如蛋白质用 >和< ProteinE>包裹,小分子用 >和< MoleculeE >包裹,既明确区分实体类型,又能在共享词汇表中无缝衔接。

第二步:把 3D 互作“翻译”成序列

最精彩的设计在于对空间关系的处理。以蛋白质结合口袋为例,传统方法必须输入 3D 原子坐标,而 LOGOS 给出了四种递进的序列表示:

1、氨基酸级口袋标注:在蛋白质线性序列中,用 >和< ProteinE>直接标记口袋残基的位置;

2、小分子扩展口袋序列:把口袋残基的侧链展开成对应的 SMILES 片段,直接在 token 层面架起蛋白质和化学空间的桥梁;

3、氨基酸-小分子转换序列:引入 >定向 token,把前两种形式拼接成转换任务,让模型学习“氨基酸标识符→分子结构”的映射;

4、结合位点识别序列:加入任务语义 token ,把“从蛋白质序列预测结合位点”变成生成任务:输入完整蛋白序列+ ,输出带口袋标注的序列。

这样一来,原本需要 3D 坐标描述的“哪些残基结合哪个配体”,就变成了一段符合语法的 token 序列。蛋白质-配体复合物的表示则更进一步:先按上述方式标记口袋残基并展开为 SMILES,再在蛋白序列末尾拼接配体的 SMILES,完整编码互作关系。

第三步:站在大语言模型肩膀上,但不被自然语言“绑架”

LOGOS 的基础架构直接复用 Qwen3-8B、Llama3.2-1B/3B 等成熟的大语言模型,继承 Transformer 的序列建模能力——实验证明,继承全部预训练权重的配置,在配体生成任务上的 Vina 评分(-7.43)远优于随机初始化(-6.91)或仅继承嵌入层(-6.78)的方案,说明自然语言预训练学到的长程依赖捕获、上下文推理能力,和科学序列的建模规律存在抽象共性。

但研究团队同时发现:如果在持续预训练阶段混入大量自然语言语料,模型在科学任务上的性能会持续下降。毕竟参数总量固定,分给自然语言理解的能力多了,留给科学模态建模的容量就少了。因此,LOGOS 选择完全聚焦科学原生表示,不把自然语言作为跨模态接口,把有限的参数容量用在刀刃上。

训练流程分为两步:先在七模态语料上做持续预训练,优化标准下一 token 预测目标;再用少量下游任务数据做监督微调(SFT),且采用多任务联合训练——实验证明,这种跨域联合微调比单任务独立训练在所有任务上都表现更好,因为不同领域的知识可以互相补充:逆合成预测的键断裂重组规律,能帮助配体生成的骨架构建;口袋识别任务学到的序列-结构-功能关系,能提升配体生成对口袋约束的理解。

效果有多惊艳?

研究团队在 6 个代表性科学任务上验证了 LOGOS 的性能,结果堪称“降维打击”——

1、口袋条件配体生成(药物设计核心任务)

在 PDBBind 数据集中,LOGOS-8B 的 Vina 对接得分达到 -7.76(越低结合亲和力越强),不仅超过了 DiffBP(-7.28)、TargetDiff(-7.38)等依赖 3D 坐标的领域专用模型,也远超用 8 张 7B 卡堆叠的 NatureLM(-6.91)。更惊人的是,仅 1B 参数的 LOGOS-1B 就拿到了 -7.64 的得分,参数量只有 NatureLM 的 1/56,参数效率优势明显。同时在药物相似性(QED)、合成可及性(SAS)等指标上也全面领先。

2、蛋白质配体结合位点识别

在 COACH420 和 HOLO4K 两个基准数据集上,LOGOS-8B 的表现仅次于 P2Rank(其预训练标注来源就是 P2Rank 的预测结果),超过了 Fpocket、DeepSite 等其他所有基线方法。关键是,所有对比方法都需要输入蛋白质 3D 结构,而 LOGOS 仅用一维氨基酸序列就能完成预测,把口袋识别的适用范围从“有解析结构的蛋白质”扩展到了所有已知序列的蛋白质——后者数量是前者的几个数量级。

3、逆合成预测

在 USPTO-50K 数据集上,LOGOS-8B 的 Top-1 准确率达到 74.8%,超过了 NatureLM(8x7B,71.9%)和 EditRetro(60.8%)等模型。Top-1 准确率直接关系到合成路线规划的实用性,说明 LOGOS 对化学转化的键断裂、重组模式有着更精准的概率建模。

4、无条件 MOF 材料生成

在 MOF 生成任务上,LOGOS-8B 的化学有效性(Valid,45.19%)、新颖性(VNU,39.02%)和新构件比例(NBB,17.78%)全部刷新 SOTA。尤其是 NBB 指标,比此前最好的 MOFFlow-2(10.10%)相对提升了 76%,意味着模型不仅能组合已知构件,还能生成训练中从未见过的全新化学结构单元,真正拓展了材料设计的探索空间。

5、泛化到未见过的任务格式

更有说服力的是对预训练未覆盖任务的泛化能力:

  • 蛋白质编辑:在 AAV 和 GFP 两个基准数据集上,LOGOS 的优化后序列适应度(Fitness)大幅超过 GGS 等专用方法,且在难度更高的 Hard 设置下性能几乎不下降。

  • 抗体 CDR 区设计:在 SAbDab 数据集上,LOGOS-8B 在 CDR1 和 CDR2 区的氨基酸恢复率(AAR)和结构一致性(scRMSD)均优于所有逆折叠基线方法;虽然 CDR3 区因高度多样性略逊于依赖 3D 结构的模型,但其生成的序列在抗体语言模型 AntiBERTy 的合理性评分(Plausibility)上表现最优,说明模型生成的是符合天然抗体分布的合理变体,而非单纯拟合参考序列。


LOGOS 的基准性能

这仅仅是开始

LOGOS 已经初步验证了“一个模型适配所有自然科学任务”的可行性,但研究团队也坦承,目前的版本还有不少拓展空间:比如尚未纳入基因组、转录组等核酸相关模态;预训练语料仅覆盖了公开数据的子集;完全基于序列的建模在部分对 3D 结构高度敏感的任务上仍有提升空间。

不过它的意义已经远超一个模型的成功:它证明了科学基础模型和通用大语言模型可以走深度对齐的路线,而不是各自搭建独立的技术栈。未来,随着数据规模的扩大、模型参数的提升,以及序列建模与显式几何信息的融合,这类通用科学大模型很可能成为 AI4S 的核心基础设施,让大语言模型真正成为科学家探索未知的新入口。

正如论文结尾所说——我们的目标是构建一个真正通用的科学基础模型,实现跨域、跨尺度、跨模态的统一理解、预测和设计。而 LOGOS,已经迈出了坚实的第一步。

论文链接:

https://arxiv.org/abs/2606.16905





特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
将新疆贪腐厅官拉下马后,举报人因“敲诈勒索”等获刑6年10个月

将新疆贪腐厅官拉下马后,举报人因“敲诈勒索”等获刑6年10个月

塔子山评说
2026-06-30 15:30:05
审计署抽查60县,平均每个县翻出10个亿问题资金

审计署抽查60县,平均每个县翻出10个亿问题资金

风向观察
2026-06-30 10:44:34
凌晨2时导弹雨倾泻!伊朗发动大规模报复,美方连夜空袭回击?

凌晨2时导弹雨倾泻!伊朗发动大规模报复,美方连夜空袭回击?

流史岁月
2026-06-30 10:12:33
耻辱出局!荷兰世界杯爆冷头号罪人!愚蠢操作葬送全队

耻辱出局!荷兰世界杯爆冷头号罪人!愚蠢操作葬送全队

澜归序
2026-06-30 13:54:48
韩红已退出名下多家公司

韩红已退出名下多家公司

雷达财经
2026-06-30 16:13:15
谎话连篇、假慈善贪污上亿、高调炫富,韩红身上标签哪些才是真的

谎话连篇、假慈善贪污上亿、高调炫富,韩红身上标签哪些才是真的

不似少年游
2026-06-29 16:44:05
楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

千秋文化
2026-06-27 19:40:09
近500万粉吃播宝宝米乐翻车!拿娃健康换流量太离谱

近500万粉吃播宝宝米乐翻车!拿娃健康换流量太离谱

一口娱乐
2026-06-30 09:15:46
今年高温时间大变!最热不在七月初,熬完20天就凉快

今年高温时间大变!最热不在七月初,熬完20天就凉快

宝哥精彩赛事
2026-06-29 19:08:40
重磅签约!谢谢你,维金斯!1.1亿降至6400万

重磅签约!谢谢你,维金斯!1.1亿降至6400万

篮球实战宝典
2026-06-30 19:04:23
81岁菜农被博主买下所有菜后回家路上遇车祸离世 家属发声:别寒了好人的心

81岁菜农被博主买下所有菜后回家路上遇车祸离世 家属发声:别寒了好人的心

封面新闻
2026-06-30 18:08:22
日本亲手搞砸名古屋亚运会,自断千亿财路,网友:纯属自作自受!

日本亲手搞砸名古屋亚运会,自断千亿财路,网友:纯属自作自受!

故事终将光明磊落
2026-06-30 13:43:58
比生育率暴跌更可怕的事发生了,20年后这些父母求来的娃结局已定

比生育率暴跌更可怕的事发生了,20年后这些父母求来的娃结局已定

菁妈育儿
2026-06-30 08:06:30
放假通知:中秋节、国庆节连休出炉!

放假通知:中秋节、国庆节连休出炉!

阿芒娱乐说
2026-06-30 12:09:45
法拉利被当滑梯后续:家长只愿赔五百,警方介入,车主硬气维权

法拉利被当滑梯后续:家长只愿赔五百,警方介入,车主硬气维权

史料布籍
2026-06-29 18:20:42
百吨王闯卡后续!警方介入,车辆全被扣,女子真容曝光,恐要坐牢

百吨王闯卡后续!警方介入,车辆全被扣,女子真容曝光,恐要坐牢

社会日日鲜
2026-06-30 15:01:51
明天三场世界杯大胆预测:法国挪威获胜,厄瓜多尔有望掀翻东道主

明天三场世界杯大胆预测:法国挪威获胜,厄瓜多尔有望掀翻东道主

宝哥精彩赛事
2026-06-30 14:48:25
确认彻底告别德国队,诺伊尔:是的,以这种方式结束很痛苦

确认彻底告别德国队,诺伊尔:是的,以这种方式结束很痛苦

懂球帝
2026-06-30 18:49:08
宣布了!准备重返NBA!状元郎直接点名热火

宣布了!准备重返NBA!状元郎直接点名热火

篮球实战宝典
2026-06-30 21:12:05
保时捷女销冠再获2026年上半年销冠,本人回应:虽然累,但从未经历倦怠期,希望冲刺全球销量排名

保时捷女销冠再获2026年上半年销冠,本人回应:虽然累,但从未经历倦怠期,希望冲刺全球销量排名

极目新闻
2026-06-30 15:19:55
2026-06-30 21:24:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
9649文章数 145112关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

日本队世界杯出局后 韩媒来劲了

头条要闻

日本队世界杯出局后 韩媒来劲了

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

本地
时尚
亲子
手机
旅游

本地新闻

贵州小城的新目标:举办“村超”世界杯!

“复古波点”又流行回来了!夏天简单穿就很时髦

亲子要闻

✨闪闪小葵花 成长正当时✨ 「寻找闪亮小主角」才艺展示活动 表演现场高光集锦,见证萌娃的舞台魅力~

手机要闻

苹果疑似加大打击力度 iPhone 18 Pro泄露测试视频在社交平台迅速消失

旅游要闻

“渝郴”携手拓客源 郴州旅游产品推介会在重庆举办

无障碍浏览 进入关怀版