网易首页 > 网易号 > 正文 申请入驻

TOXRIC: 全面的毒理学数据与基准数据库

0
分享至

近日,军事科学院军事医学研究院的伯晓晨、何松课题组Nucleic Acids Research杂志发表了题为TOXRIC: a comprehensive database of toxicological data and benchmarks的文章,开发了一个全面且实用的化合物毒理学数据库TOXRIC(https://toxric.bioinforai.tech/),提供全面的毒理学数据与基准测试结果。

化合物对环境、人类和其他生物产生的毒性效应包括多种类别,例如肝毒性、心脏毒性、致癌性、生态毒性等,这一直是药物发现、生态学等许多研究领域的焦点问题。在化合物/药物发现的早期阶段评估其潜在的毒性效应至关重要。

为了加速毒理学、化合物/药物发现与化合物毒性的计算预测研究,军事医学研究院的伯晓晨、何松课题组开发了化合物毒理学数据库TOXRIC,提供全面的毒理学数据与基准测试结果。TOXRIC存储的毒理学数据涵盖113372个化合物,13种毒性类别,1474个体内、体外毒性终点与39种化合物属性数据,均可通过TOXRIC在线网站(https://toxric.bioinforai.tech/)检索与下载。所有毒性终点、化合物属性数据集已整理成机器学习(ML)算法可直接使用的数据格式,可用作ML预测算法的输出与输入数据。此外,TOXRIC为每个毒性终点数据集提供了特征数据基准测试、算法基准测试与分子表示可视化结果。基于这些结果,研究人员可以针对不同终点预测任务选择最优的特征类型、分子表示和基线算法。

1 方法

1.1 数据收集与整理

TOXRIC储存了113372个化合物的13种毒性类别数据,包含急性毒性、致癌性、致突变性、发育和生殖毒性、肝毒性、心脏毒性、呼吸道毒性、内分泌紊乱、刺激性和腐蚀性、生态毒性、临床毒性、ToxCast/Tox21 Assay、CYP450,涉及超过15种物种上测定的1474种体内、体外毒性终点。数据主要来源包括ToxCast/Tox21、LTKB、ChemIDplus数据集及Jain et al.等研究。数据整理过程包括化合物筛选、多源数据整合和单位标准化等。提供的毒性终点数据集已整理成ML算法可直接使用的数据格式,包括分类与回归任务数据集。每个化合物分配唯一标识符TAID。

此外,TOXRIC提供化合物的39种属性数据,包含7种分子指纹、靶标、3种药物扰动的转录组数据、代谢反应、两种药物属性与25种Chemical Checker(CC)描述符。上述数据可直接用作ML算法的输入特征数据。

1.2 基准建立

TOXRIC为所有终点数据集提供两种基准测试结果,即特征数据基准测试与算法基准测试,系统评估了36种特征类型作为输入、4种典型机器学习/深度学习算法的性能结果。分类数据集使用F1作为性能评估指标。回归数据集使用RMSE与R2作为评估指标。RMSE值越小、或R2/F1值越高表示预测性能越高。使用五折交叉验证测试,提供指标平均值与标准差结果。

在特征数据基准测试中,测试了7种分子指纹、靶标数据、3种转录组数据、25种CC描述符分别作为输入特征数据,在XGB算法上的预测性能。在算法基准测试中,将PubChem指纹和RDKit2D描述符(具有最高平均预测性能)拼接作为模型输入,评估了XGB、RF、SVM和DNN 4种典型算法的性能。

1.3 分子表示可视化

通过t-SNE散点图展示了14种分子表示在分类数据集上的聚类效果与数据分布。分子表示包括11种原始特征数据与3种ML算法生成的表示。原始特征包括7个分子指纹、靶标和3个转录组数据。ML算法生成的表示指通过DNN、RF、XGB进行表示学习或特征选择得到的数据。

2 数据库的内容与使用

TOXRIC包含8个页面:

Home、Search页面提供化合物检索/批量检索功能;

Data Collection页面展示所有毒理学与属性数据集的概况;

Statistics页面提供数据集的统计结果;

Benchmark&Representation页面展示基准测试与分子表示的可视化结果;

Download页面提供所有数据集的下载链接;

用户可以通过Contribute页面上传自己的毒理学数据;

Contact&About页面提供网站所有功能的分步使用手册。

2.1 数据浏览

1)浏览数据集概况:Home页面提供TOXRIC数据集概况(图1),用户可通过点击字段链接到相应的数据集描述。

图1 Home页面的数据集概况

2)浏览数据集基本信息:Data Collection页面提供了毒性类别、毒性终点、特征空间数据集的基本信息,包括数据集描述、化合物数量、来源和特征维度等。用户可以点击Details按钮查询数据集的详细信息。在详细信息页面上,数据集中包含的所有化合物以分子图的形式列出(图2A)。点击化合物将打开化合物信息页面。

3)浏览数据集统计结果:Statistics页面以饼图和条形图的形式展示数据集的多维度统计结果。

2.2 数据检索

1)检索方式:在Home页面的搜索框或Search页面可以通过TAID、化合物名称、IUPAC名称、PubChem CID、SMILES、InChIKey和InChI标识符检索化合物,支持模糊搜索与批量搜索(Search页面)。

2)检索结果展示:化合物信息页面由三个模块组成,即化学信息、毒性类别和特征空间。化学信息模块提供了七种常用的标识符类型和化合物的物理化学性质(图2B)。毒性类别模块展示了该化合物在13个毒性类别下的毒性终点值(图2C)。在特征空间模块(图2D),化合物的靶标、类别和代谢反应以文本格式展示,靶标在KEGG通路、GOBP的富集结果以气泡图形式展示(图2E),转录组、分子指纹和CC描述符的特征向量需下载使用。用户可以通过单击右上角的Download按钮下载化合物的毒性终点或特征数据。

图2 化合物检索结果

2.3 基准测试结果与分子表示可视化展示

Benchmark&Representation页面展示了特征数据基准测试、算法基准测试和分子表示的可视化结果。

1)Benchmarks for Feature Types页面以条形图的形式展示了分别利用36种特征类型作为输入的性能评估结果(图2F)。特征类型包括7种分子指纹、靶标数据、3种转录组数据、25种CC描述符。

2)Benchmarks for Algorithms页面展示了4种典型算法的基准测试结果,包括XGB、RF、SVM和DNN(图2G)

3)T-SNE Embedding of Molecular Representations页面展示了14种分子表示在分类数据集上的聚类效果与数据分布(图2H)。通过t-SNE散点图展示结果。

2.4 数据下载

所有数据集下载无需注册或登录。各终点、特征类型数据提供单独下载。

2.5 数据贡献

用户可通过Contribute页面或联系我们(hes1224@163.com)上传毒理学数据。

3 案例分析

3.1 TOXRIC使用方法

本节以mouse_intraperitoneal_LD50终点数据集为例,介绍如何使用TOXRIC进行化合物毒性的计算预测(图3)

1)在Download页面下载该终点数据集作为标签数据(图3A)

2)在Benchmark&Representation页面查看特征数据基准测试结果,MACCS分子指纹在该终点上具有最优性能(RMSE指标)(图3B)

3)在Download页面下载MACCS指纹数据集作为输入特征(图3C)

4)在Benchmark&Representation页面查看算法基准测试结果,发现RF算法在该终点上具有最优性能(RMSE指标)(图3D)。选择RF为开发新ML算法的基线。

毒性预测的逐步应用示例请参阅补充数据和Contact&About页面。

图3 TOXRIC使用示例

3.2 基准测试结果分析

对于计算预测,根据基准结果选择合适的特征类型和基线算法至关重要,这两种测试结果被提供在TOXRIC的Benchmark&Representation页面。以回归数据集为例,在特征数据基准测试结果中,对每个特征类型的RMSE值取平均,分子指纹特征显示出显著的性能优势。大多数情况下,RDKit2D描述符和PubChem指纹获得最优性能。然而,在特定终点上,转录组数据可能取得最优。此外,算法基准测试结果显示,XGB获得了最优F1结果,RF获得了最佳RMSE结果。但在某些特定的数据集中,SVM或DNN可以获得最佳性能。研究人员应该根据基准测试结果为不同的终点选择最优的特征类型。

3.3 分子表示特征分析

与ML模型训练后生成的表示相比,原始特征很难展示聚类效果。在将原始特征映射到新的特征嵌入空间之后,DNN可以更好地学习输入数据中的规则。此外,靶标和转录组谱的特征显示出与分子指纹完全不同的分布,这可能为相关研究提供化合物表征的新见解。

3.4 应用场景

1)单个化合物的毒性信息检索和下载可用于毒理学研究、毒理学机制解释和化合物/药物发现。每种化合物的毒性值、化学信息、转录反应谱、代谢反应方程式、靶标及其通路富集结果等都可通过TOXRIC网站查询与下载。

2)TOXRIC提供多种分子表示的可视化结果,便于研究人员更好地理解在不同空间的分子表示,包括原始特征、靶标、转录组空间与经过ML算法学习后生成的表示空间。

3)TOXRIC提供了ML算法可直接使用的毒性终点、输入特征数据集和两种计算基准测试结果,便于毒性计算预测算法的开发。终点、特征类型数据集可下载并直接用作ML模型的输出与输入。两种基准测试结果可以帮助研究人员为每个毒性终点预测任务选择适当的特征类型和基线算法。

4 与现有数据库的对比

现有的毒理学数据库可被划分为四类:toxicity category-centric、toxic feature-centric、compound-centric、ML task-centric,统计结果如下表。本文与该四类涉及的20个毒理学及其相关数据库进行了详细对比,展示了TOXRIC的独特优势。

天津大学博士生武连莲、复旦大学博士生颜博威为该论文的共同第一作者,军事医学研究院伯晓晨研究员、何松副研究员为该论文的共同通讯作者。

伯晓晨研究员/何松副研究员课题组一直致力于利用生物医学大数据与人工智能的多种计算模型研究癌症等复杂疾病的致病机理和药物治疗方案, 在Nature、Nature Microbiology、Molecular Cell、Nucleic Acids Research、Genome Biology、Briefings in Bioinformatics等杂志发表多篇论文。

课题组长期招收硕士、博士研究生及博士后,欢迎感兴趣的同学加入或来函咨询,联系邮箱:hes1224@163.com。

制版人:十一

参考文献

Lianlian Wu, Bowei Yan, Junshan Han, Ruijiang Li, Jian Xiao, Song He, Xiaochen Bo, TOXRIC: a comprehensive database of toxicological data and benchmarks, Nucleic Acids Research, 2022;, gkac1074, https://doi.org/10.1093/nar/gkac1074.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

流史岁月
2026-01-17 10:42:51
回声报:利物浦认为不是签格伊的好机会,不会尝试截胡曼城

回声报:利物浦认为不是签格伊的好机会,不会尝试截胡曼城

懂球帝
2026-01-17 15:09:34
三星长公主没想到,自己下嫁保安丢的面子,竟被18岁儿子找了回来

三星长公主没想到,自己下嫁保安丢的面子,竟被18岁儿子找了回来

削桐作琴
2026-01-08 21:22:07
24岁国乒名将退出国家队,曾获WTT赛事男单亚军,被誉为希望之星

24岁国乒名将退出国家队,曾获WTT赛事男单亚军,被誉为希望之星

米修体育
2026-01-17 17:20:45
寒风中的记者会:加拿大总理卡尼在京释放中加关系暖意

寒风中的记者会:加拿大总理卡尼在京释放中加关系暖意

澎湃新闻
2026-01-17 10:44:28
台湾终极解决方案:土地回归中国,人员往来自由,两岸统一新路径

台湾终极解决方案:土地回归中国,人员往来自由,两岸统一新路径

叹为观止易
2026-01-16 10:20:22
多地接连发生醉驾肇事致多死恶性事故,公安部提示:抵制酒驾

多地接连发生醉驾肇事致多死恶性事故,公安部提示:抵制酒驾

澎湃新闻
2026-01-16 11:05:12
保不准,人民币会闪击6.8!

保不准,人民币会闪击6.8!

米筐投资
2026-01-17 07:45:55
怒斥央视领导,醉酒后打人,娶上海主持为妻,现定居上海生活低调

怒斥央视领导,醉酒后打人,娶上海主持为妻,现定居上海生活低调

洲洲影视娱评
2026-01-17 16:15:31
ESPN记者:热火暂停莫兰特交易谈判,目标是2028年大牌自由球员

ESPN记者:热火暂停莫兰特交易谈判,目标是2028年大牌自由球员

懂球帝
2026-01-17 11:39:27
1972年陈毅追悼会,江青故意无视宋庆龄,毛主席当场下一死命令,事后宋庆龄感慨:主席真聪明

1972年陈毅追悼会,江青故意无视宋庆龄,毛主席当场下一死命令,事后宋庆龄感慨:主席真聪明

寄史言志
2025-12-17 16:08:14
惨败上海后!广东队被逼补强,朱芳雨下重本,强挖NBA乐透中锋?

惨败上海后!广东队被逼补强,朱芳雨下重本,强挖NBA乐透中锋?

绯雨儿
2026-01-17 11:00:38
西部排名大乱斗!火箭队超湖人重返第5 快船14战12胜北伐杀入前十

西部排名大乱斗!火箭队超湖人重返第5 快船14战12胜北伐杀入前十

锅子篮球
2026-01-17 16:47:58
王静逼聂卫平跟孔祥明离婚,7年后聂卫平嫌儿子太笨,埋怨王静

王静逼聂卫平跟孔祥明离婚,7年后聂卫平嫌儿子太笨,埋怨王静

百态人间
2026-01-16 16:02:25
宋佳素颜的样子,感觉有点不像了,没有电视上那么靓丽

宋佳素颜的样子,感觉有点不像了,没有电视上那么靓丽

TVB的四小花
2026-01-17 15:18:02
2 月富贵盈门,横财频发,钞票多得装麻袋,富得流油的生肖

2 月富贵盈门,横财频发,钞票多得装麻袋,富得流油的生肖

人閒情事
2026-01-17 16:31:05
根本不算男人!清朝太监回忆:妃子洗澡不用手和避讳太监,侮辱人

根本不算男人!清朝太监回忆:妃子洗澡不用手和避讳太监,侮辱人

云舟史策
2026-01-15 21:56:36
血战三年,俄罗斯最恨的居然不是乌克兰,也不是美国,那又是谁?

血战三年,俄罗斯最恨的居然不是乌克兰,也不是美国,那又是谁?

回京历史梦
2026-01-17 16:44:53
美国:发明三三战术不是人,是神!看起来人山人海,其实仅有27人

美国:发明三三战术不是人,是神!看起来人山人海,其实仅有27人

古史青云啊
2026-01-17 16:16:48
左小青这状态,鲨疯了!明媚动人,若隐若现

左小青这状态,鲨疯了!明媚动人,若隐若现

只要高兴就好
2025-12-10 19:09:26
2026-01-17 18:08:49
BioArtMED
BioArtMED
BioArt旗下科普媒体
4237文章数 2466关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

媒体:加拿大总理访华时称"世界变了" 这番话耐人寻味

头条要闻

媒体:加拿大总理访华时称"世界变了" 这番话耐人寻味

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

家居
时尚
旅游
教育
健康

家居要闻

岁月柔情 现代品质轻奢

岁月不败美人,50岁她们比20岁更好看

旅游要闻

从冬日童话到四季可赏 科技让雾凇美景不再“可遇不可求”

教育要闻

五年级求面积,缺少条件? - 副本

血常规3项异常,是身体警报!

无障碍浏览 进入关怀版