网易首页 > 网易号 > 正文 申请入驻

DNA测序20年攒下4亿条数据,科学家终于找到「翻译器」

0
分享至


全球基因数据库里躺着超过4亿条测序记录,但人类能读懂的不到1%。这个尴尬比例维持了整整二十年——直到有人把Transformer(一种深度学习架构)塞进了生物实验室。

把基因当代码读

Living Models这家公司做的事情,本质上和ChatGPT没什么区别:都是找规律、做预测。区别只在于训练材料——一个用互联网文本,一个用ATCG四字母写成的生命指令。

「地球上每个活着的东西都运行在同一套编程语言上。」Living Models联合创始人这样形容DNA。这话听起来像科幻设定,但技术路径很实在:把基因序列当成字符串处理,让模型自己学出哪些片段组合会产生什么生物学效应。

传统方法里,科学家要针对特定基因设计实验、培养细胞、观察表型,周期以月计算。AI模型的介入把这个过程压缩到几分钟——输入一段未知序列,输出预测的功能标注。不是替代实验,是先帮你筛掉99%的无效假设。

测序成本暴跌催生了数据海啸,但解读工具还停留在手动时代。

2001年人类基因组计划花了27亿美元,现在1000美元就能测完全基因组。代价是数据堆积速度远超分析能力:一个中等规模的植物研究所,硬盘里可能存着几十种作物的全基因组,却没人知道哪些变异真正影响了抗旱性。

Living Models的解法是把「理解基因」重新定义为「预测序列的上下文关系」。这和GPT预测下一个词是同一套数学——只不过基因序列的「语法」比人类语言保守得多,四碱基组合玩了35亿年,规则相对固定。


植物育种进入「预筛选」模式

农业是这类技术最先落地的场景。培育一个新品种平均要7到10年,其中大部分时间花在「试错的代际传递」上:杂交、种植、观察、再杂交。基因模型能提前标记出哪些亲本组合可能产生目标性状,把田间试验的基数砍掉一个数量级。

具体怎么操作?研究人员输入目标作物的参考基因组,模型会标注出与产量、抗病、耐旱相关的序列特征。这些标注不是因果解释,而是统计关联——「这段序列历史上经常和高产一起出现」。对育种家来说,这就够了。

更激进的用法是直接生成。和文本模型能续写句子类似,基因模型可以「续写」DNA:给定启动子区域,补出可能的增强子序列。这在设计全新代谢通路时有用,比如让植物自己合成某种药物前体。

但生成式生物学的监管框架还是空白。

合成一条自然界不存在的基因序列并导入活体,目前各国法规的覆盖程度参差不齐。Living Models的应对策略是暂时只做分析不做合成——帮客户读懂已有数据,而不是造新东西。这个边界让他们避开了最敏感的伦理争议,但也限制了商业想象空间。

数据壁垒比技术更难打破

模型效果取决于训练数据的质和量。Living Models的核心资产不是算法,是过去三年积累的私有数据集——与多家育种公司和研究机构合作获取的表型-基因型配对记录。这些数据的获取成本极高:不仅要测基因,还要在标准化条件下种植、观测、记录性状,一套流程下来比纯测序贵两个数量级。


这解释了为什么农业巨头先动起来。拜耳、先正达们手里握着几十年的田间数据,缺的是把数据连起来的工具。初创公司的机会在于中立性——不像竞争对手那样同时卖种子,客户更愿意把数据托付给第三方。

技术层面真正的挑战是泛化。一个在大豆上训练的模型,迁移到水稻上表现会打折扣,因为基因组的「语法」虽有共性,词汇表差异很大。Living Models的解决思路是分层预训练:先用所有已知物种的序列学通用规则,再用特定作物数据微调。这和多语言模型的训练策略如出一辙。

植物生物学的论文引用量正在追赶医学,但产业转化速度明显滞后。

过去五年,CRISPR基因编辑在作物上的应用案例屈指可数,监管审批是主因。AI辅助育种走的是另一条路:不修改基因组,只是更精准地选择天然变异。这绕开了转基因标签的争议,但也意味着天花板更低——你能加速自然选择,却造不出自然选择造不出来的东西。

从「可读」到「可写」还有多远

Living Models的路线图分三个阶段:现在的重点是「读」——注释和理解现有序列;明年推出「预测」服务,模拟特定编辑的后果;最终目标是「写」,即设计全新序列并验证功能。每个阶段的难度指数级上升。

「读」只需要统计相关性;「预测」要建模因果关系,比如某个突变如何改变蛋白质结构进而影响酶活性;「写」则要求模型内化生物物理约束,知道什么序列在细胞环境里真的能用,而不是数学上自洽就行。

目前行业停留在第一阶段和第二阶段的交界处。2024年有几篇预印本论文展示了模型预测蛋白质-配体相互作用的能力,但预测准确率和实验验证之间还有明显落差。对农业客户来说,这个落差意味着模型建议的候选品种仍需田间测试,省时间但不省钱。

更深层的问题是生物学知识的表示方式。语言模型处理的是人类创造的符号系统,基因模型面对的是进化雕刻的化学实体。前者有语法书,后者只有遗迹——我们看到的序列是35亿年筛选的幸存者,失败的设计早已消失。这种「幸存者偏差」让模型很难学到「什么不行」,而知道边界往往和知道可能性同样重要。

如果基因模型最终能像编译器检查代码语法那样,实时标记出「这段序列会导致阅读框移位」或「这个启动子强度不足以驱动目标表达」,植物育种会变成什么形态?田间试验不会消失,但可能从「大海捞针」变成「定向打捞」。那时候,育成一个新品种的时间会不会从十年压缩到两年——而决定成败的,不再是谁能种更多亩地,而是谁的数据标注更细致?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗女孩一语戳穿:西方白左的“觉醒”,从来都是双标的表演

伊朗女孩一语戳穿:西方白左的“觉醒”,从来都是双标的表演

老马拉车莫少装
2026-03-23 00:01:28
刚刚,特朗普亲口说出真相,打伊朗原来是要夺取两件东西

刚刚,特朗普亲口说出真相,打伊朗原来是要夺取两件东西

张牧之
2026-03-31 07:35:03
抢走王朔,睡遍京圈,定居国外7年的“坏种”徐静蕾,成最终赢家

抢走王朔,睡遍京圈,定居国外7年的“坏种”徐静蕾,成最终赢家

她时尚丫
2026-03-30 20:45:12
1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

唠叨说历史
2026-03-24 18:52:24
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
我查了张雪峰多年捐款,看完真的沉默了。

我查了张雪峰多年捐款,看完真的沉默了。

岁月有情1314
2026-03-30 10:52:27
伊朗谴责以色列袭击科威特海水淡化厂

伊朗谴责以色列袭击科威特海水淡化厂

看看新闻Knews
2026-03-30 23:51:05
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

静若梨花
2026-03-01 16:25:46
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

寻墨阁
2026-03-25 11:39:10
《隐身的名字》结局:罪恶源头不是葛文君,是藏了20年的她

《隐身的名字》结局:罪恶源头不是葛文君,是藏了20年的她

怂熊剧场
2026-03-31 05:50:22
经纪公司官宣:中国男篮国手王俊杰申请转校 在旧金山不受重视

经纪公司官宣:中国男篮国手王俊杰申请转校 在旧金山不受重视

醉卧浮生
2026-03-30 21:16:10
杜锋捡漏!沈梓捷晒球衣回归广东,焦泊乔心态崩了去北控重生?

杜锋捡漏!沈梓捷晒球衣回归广东,焦泊乔心态崩了去北控重生?

天光破云来
2026-03-31 00:09:54
统治欧洲10年,如今转会费暴跌!西甲的崩塌,全是特巴斯的锅?

统治欧洲10年,如今转会费暴跌!西甲的崩塌,全是特巴斯的锅?

佳佳说奇事故事
2026-03-31 07:32:20
4月即将上市的7款重磅新车,最后一款大概率凉凉?

4月即将上市的7款重磅新车,最后一款大概率凉凉?

汽车天涯
2026-03-29 10:51:42
广东汕头一男子路过妈祖庙,将妈祖金身佩戴的黄金耳环偷走,拿回家给家中供奉的神像佩戴!法院以盗窃罪判处有期徒刑6个月并处罚金3000元

广东汕头一男子路过妈祖庙,将妈祖金身佩戴的黄金耳环偷走,拿回家给家中供奉的神像佩戴!法院以盗窃罪判处有期徒刑6个月并处罚金3000元

洪观新闻
2026-03-30 15:25:31
丰田终于被当作真电车!铂智7预售破万,用户对比最多的是Model 3

丰田终于被当作真电车!铂智7预售破万,用户对比最多的是Model 3

言车有徐
2026-03-29 21:20:33
速效救心丸、硝酸甘油、阿司匹林,关键时刻用哪个?答案跟你想的不一样

速效救心丸、硝酸甘油、阿司匹林,关键时刻用哪个?答案跟你想的不一样

人民日报健康客户端
2026-03-27 21:12:30
市委书记都来撑场!“粤BA”卷出圈

市委书记都来撑场!“粤BA”卷出圈

广东发布
2026-03-30 16:18:59
开国少将重伤入院,女护士越看越熟悉:这不是我拜了堂的丈夫吗?

开国少将重伤入院,女护士越看越熟悉:这不是我拜了堂的丈夫吗?

何氽简史
2026-02-24 16:53:06
被驱逐的伊朗大使拒离境后被强行从馆内拖出,头部疑被打

被驱逐的伊朗大使拒离境后被强行从馆内拖出,头部疑被打

番外行
2026-03-31 08:38:30
2026-03-31 09:32:49
碳基打工人
碳基打工人
坐标北京,靠咖啡续命,靠小红书下饭的普通人类。
543文章数 4关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

牛弹琴:中东新的大麻烦来了 特朗普又盯上了新目标

头条要闻

牛弹琴:中东新的大麻烦来了 特朗普又盯上了新目标

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了,每天只吃一顿饭

财经要闻

助贷被约谈背后:谁在「吞噬」你的借款?

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

本地
旅游
家居
教育
军事航空

本地新闻

用Color Walk的方式解锁城市春日

旅游要闻

山东肥城:赴一场桃花之约

家居要闻

东方法式美学 现代简约

教育要闻

“伪热门”专业,90%家长都踩坑了!(二)法学专业#新学期超给力

军事要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

无障碍浏览 进入关怀版