网易首页 > 网易号 > 正文 申请入驻

史上最强生物数据库震撼登场!近10万亿token专为AI而生,联合英伟达打造生物版GPT!

0
分享至

AI+生物学的关键瓶颈——数据,迎来重大进展!

近日,Basecamp Research宣布推出生物序列数据库BaseData™,包含超过9.2万亿个Token的基因组数据以及98亿条经过严格筛选与校对的蛋白质序列,其中许多来自公司所发现的超过100万个新物种

负责人表示,这是迄今为止规模最大、增长最快的生物序列数据库,也是首个专为基础模型(Foundation Model)训练而构建的数据库,采集自26个国家及地区的120多个站点

Basecamp Research成立于2019年,专注于利用人工智能和全球生物多样性数据来解决生命科学领域的重大挑战,通过构建专有知识图谱来发现和设计新型蛋白质及生物系统,以开发新的药物、生物材料或优化工业酶,已与强生、宝洁、英伟达等公司建立合作。

其发表的预印本论文中分享了这项成果的更多细节,公司计划向感兴趣的生命科学研究人员提供早期访问权限。

史上最强生物数据库,专为AI打造

能够捕捉整个生物领域通用表征的基础模型有望彻底改变人类理解、编程和改造生物系统的能力。然而,最新研究表明相关模型的发展速度正在放缓。

造成这一情况的主要原因是缺乏足够多样化且经过整理的生物数据,当前生物领域的基础模型(如AlphaFold、ESM)严重依赖公共数据库进行训练,但这些数据库存在明显局限性。

例如,68%的SRA数据仅来自5个物种,且70%的数据集中在10个国家,反映出严重的采样偏差。更严峻的是,UniRef50等核心数据库的年增长率已降至10%以下,规模长期停滞不前。

数据增长的受限与多样性的匮乏已经成为阻碍当下生命科学研究的关键瓶颈。

为此,研究团队推出BaseData™,这个专为基础模型训练而打造的生物序列数据库拥有多项优势:

  • 规模最大

    :在基因组和蛋白质数据规模上都达到了前所未有的水平,拥有
    9.2
    万亿个
    token
    的核苷酸,是此前最大公开数据集
    OpenGenome2
    1.04
    倍;拥有
    9.8
    亿条高质量蛋白序列,
    UniRef21.5

图: BaseData™规模 超过主流 基因组和蛋白质数据集

  • 增长最快

    BaseData
    ™的数据采集和更新速度远超传统数据库,
    每月新增20亿条高质量蛋白序列

  • 多样性强

    :通过全球采样网络,
    发现超过100万个新物种
    ,极大扩展了已知蛋白质和基因组的覆盖范围

  • 信息丰富

    :采用专门设计的提取和测序技术,产生的组装序列更长,
    18%
    contigs
    长度超过
    100kb
    每个序列还包含深层元数据层,记录了环境、化学、物理参数及基因组宏基因组上下文

此外,BaseData™从底层架构就为AI训练进行了专门优化,其数据组织形式显著降低了冗余度,经过50%相似度聚类后仍保留2.0亿个非冗余蛋白簇,是传统数据库的10倍以上。

数据库还特别注重保留完整的生物学背景信息,如基因共表达网络、水平基因转移事件等,这些高阶生物关系对于提升模型的泛化能力至关重要。

图:BaseData™的全球采样网络

实践证明,在相同参数规模下,使用BaseData™训练的模型在ProteinGym等基准测试中展现出更优越的零样本预测性能,特别是在处理远缘物种和新型蛋白家族时优势明显。

牛津博士创业,打造生物版GPT

Basecamp Research成立于2019年,创始人为两位牛津大学博士:合成生物学家Glen Gowers和生物医学工程师Oliver Vince

公司的核心理念——“超越已知生物学”,源于两人一次共同的极地探险经历。2018 年,两位创始人在冰岛的瓦特纳冰川完成了人类历史上首次在极地环境中完全离网的DNA测序。

图:Glen Gowers(左)和Oliver Vince(右)

这次探险不仅验证了在偏远地区进行复杂生物实验的可能性,更让他们深刻认识到地球上仍有大量未被探索的生物多样性,蕴藏着巨大的未知生物信息和潜力。

受到这次探险的启发,Basecamp Research于2019 年在伦敦成立,迄今已累计获得8500万美元融资,投资者包括一些知名企业高管,如罗氏公司副董事长André Hoffmann、飞利浦公司董事长兼帝斯曼前首席执行官Feike Sijbesma和联合利华前首席执行官Paul Polman。

两位创始人认为,要训练出真正强大的生物学GPT,首先需要一个庞大、多样且高质量的生物数据基础,公开可用的生物数据库远不足以捕捉自然界真正的生物复杂性。

Basecamp Research的愿景是构建一个前所未有的生物蛋白质序列知识图谱,通过从地球上最极端、生物多样性最丰富的环境中收集样本,来发现和设计全新的蛋白质及生物系统。

为了构建BaseData™,公司采取了一种根本不同的方法。该方案建立在完全独立、专门设计和可扩展的数据供应链基础上,通过结构化的商业伙伴关系获取生物多样性,这些伙伴关系建立在公平的双边准入和惠益分享协议基础上,覆盖26个国家和自治区域的120多个实地站点。

图:Basecamp Research围绕生物数据建立了一种新的经济模式

所有数据采集均通过预先谈判的商业使用授权协议完成,并建立了透明的利益分配机制,通过嵌入式的数据溯源系统,能够精确追踪每个序列的商业化使用情况,并按照使用量比例向数据来源方分配收益。

这种模式不仅解决了传统公共数据库的法律模糊性问题,更创造了可持续的生物数据经济生态。截至2024年底,BaseData™已向19个国家的52个受益方支付商业化分成。

模型层面,Basecamp Research开发了名为BaseFold™的深度学习模型,用于预测蛋白质的3D 结构,特别是针对大型和复杂的蛋白质。

公司表示BaseFold™ 在准确性方面优于DeepMind的AlphaFold2,尤其是在处理公共数据集中代表性不足的蛋白质时,其准确性可达AlphaFold2的六倍

Basecamp Research已经与英伟达建立合作关系,包括将BaseFold™ 适配英伟达BioNeMo平台,以及加入英伟达Inception计划,以获得最新开发工具、GPU计算资源以及专业技术支持。

此外,Basecamp Research还与巴塞罗那分子生物学研究所Ferruz实验室合作,推出了ZymCTRL,这是首个基于文本的酶设计生成式AI模型

ZymCTRL的突破性在于,它是一个端到端的蛋白质大型语言模型 (LLM),用户只需通过简单的文本输入(例如,酶的识别码或期望的催化活性),即可从头生成全新的酶序列。

令人印象深刻的是,ZymCTRL能够生成与训练数据中已知序列仅有30%相似度,但仍具有功能活性的酶序列,这表明模型不仅仅是复制现有知识,而是具备真正的创造能力,能够探索广阔的蛋白质序列空间。

ZymCTRL已被证明能够成功设计出用于工业实践的酶,例如用于冷水洗涤的高效清洁酶,Basecamp Research还将ZymCTRL开源,以促进全球研究人员的合作和应用。

—The End—

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
切尔西去年1.4亿欧签下“三叉戟”,结果三人在英超共打进2球

切尔西去年1.4亿欧签下“三叉戟”,结果三人在英超共打进2球

懂球帝
2026-05-25 02:51:18
母猫在交配之后为何会满地打滚,攻击公猫?

母猫在交配之后为何会满地打滚,攻击公猫?

宇宙时空
2026-05-19 15:25:08
大意了!张雪峰不同时段坐姿,证明他越来越疲惫了,可惜错过了

大意了!张雪峰不同时段坐姿,证明他越来越疲惫了,可惜错过了

魔都姐姐杂谈
2026-03-26 10:53:11
“全家福”来了!中国航天员完成第8次“太空会师”

“全家福”来了!中国航天员完成第8次“太空会师”

扬子晚报
2026-05-25 07:16:11
张召忠曾预测:如果中国不用核武器,4小时就能拿下日本!

张召忠曾预测:如果中国不用核武器,4小时就能拿下日本!

贱议你读史
2026-05-24 00:17:43
刚转正就被打脸!曼联叫停卡里克亿元引援,头号目标直接被抢走

刚转正就被打脸!曼联叫停卡里克亿元引援,头号目标直接被抢走

奶盖熊本熊
2026-05-25 02:14:14
江青康生绝密信曝光,草书笔迹生硬引发热议!

江青康生绝密信曝光,草书笔迹生硬引发热议!

书画相约
2026-04-15 07:37:41
事出反常必有妖!中国已断供日本稀土4个月,日方却还没出现危机

事出反常必有妖!中国已断供日本稀土4个月,日方却还没出现危机

最新声音
2026-05-24 21:54:16
11字腹肌超清晰!全智贤片场啃芹菜 影迷见本人跪了:近看太惊人

11字腹肌超清晰!全智贤片场啃芹菜 影迷见本人跪了:近看太惊人

ETtoday星光云
2026-05-25 17:14:05
93年辽宁整箱77式手枪被盗,北京严令节前破案,凶手竟是守库武警

93年辽宁整箱77式手枪被盗,北京严令节前破案,凶手竟是守库武警

鉴史录
2026-05-24 14:07:32
让窦骁来演“花花公子”的人,真是一个天才!

让窦骁来演“花花公子”的人,真是一个天才!

八卦南风
2026-05-25 17:02:45
中美法德都派人赴俄,泽连斯基暴怒:普京连话都说不清了,还打!

中美法德都派人赴俄,泽连斯基暴怒:普京连话都说不清了,还打!

小莜读史
2026-05-25 11:37:46
机构为什么敢把科创50拉到三倍?把寒武纪、海光信息拉到近万亿?

机构为什么敢把科创50拉到三倍?把寒武纪、海光信息拉到近万亿?

别人都叫我阿腈
2026-05-19 05:20:18
交易方案出炉!勇士送走追梦,冠军锋线空降金州,库里第五冠稳了

交易方案出炉!勇士送走追梦,冠军锋线空降金州,库里第五冠稳了

体育大朋说
2026-05-25 15:00:03
于娜节目公开胖到230斤的原因,和妈妈同住,不吃主食一顿吃5个菜

于娜节目公开胖到230斤的原因,和妈妈同住,不吃主食一顿吃5个菜

另子维爱读史
2026-05-20 21:05:14
孙颖莎陪练打疯了!何卓佳率队3-0斩获欧冠冠军!汉娜被44岁削球老将韩莹打哭

孙颖莎陪练打疯了!何卓佳率队3-0斩获欧冠冠军!汉娜被44岁削球老将韩莹打哭

好乒乓
2026-05-25 19:05:25
肆意凌辱女儿,屡屡把魔爪伸向儿媳,66岁老汉忍无可忍怒杀女婿!

肆意凌辱女儿,屡屡把魔爪伸向儿媳,66岁老汉忍无可忍怒杀女婿!

易玄
2026-05-23 15:09:57
世界杯近百年首次!西班牙队无皇马球员:6名候选 0人合格

世界杯近百年首次!西班牙队无皇马球员:6名候选 0人合格

叶青足球世界
2026-05-25 19:45:29
被嘲南方口音、被同行欺负,54岁患重病后袁立说:终于懂了绝望!

被嘲南方口音、被同行欺负,54岁患重病后袁立说:终于懂了绝望!

叨唠
2026-05-24 02:10:00
中美谈妥,美联储新主席上台,对华立场不简单,黄金价格暴涨3倍

中美谈妥,美联储新主席上台,对华立场不简单,黄金价格暴涨3倍

影孖看世界
2026-05-24 21:12:45
2026-05-25 20:35:00
智药局 incentive-icons
智药局
我们更懂药物创新
1184文章数 216关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

牛弹琴:伊朗现在哭笑不得 美官员让伊别理特朗普推文

头条要闻

牛弹琴:伊朗现在哭笑不得 美官员让伊别理特朗普推文

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

纸包火的秘密:前发审委员的冒险游戏

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

本地
亲子
教育
时尚
军事航空

本地新闻

用云锦的方式,打开江苏南京

亲子要闻

卵泡长不大而且少怎么办?促排期间如何让卵泡发育好?

教育要闻

两个问题:23456志愿的选择与班型比较

薄底鞋失宠!“这双鞋”突然爆火,夏天穿时髦又好看

军事要闻

俄军出动“榛树”导弹袭击乌克兰

无障碍浏览 进入关怀版