来源:市场资讯
(来源:华大智造MGI)
每天餐桌上的一块猪肉、一颗鸡蛋、一根玉米,背后藏着怎样复杂的遗传密码?
从AlphaGo到ChatGPT,人工智能正在重塑每一个行业。在农业育种领域,AI也展现出了惊人的潜力——基于基因组数据预测动植物生长性能、筛选最优育种方案,已成为全球种业竞争的焦点。但长期以来,机器学习始终绕不开一个核心难题:它是“不稳定的黑箱”。模型能给出预测结果,却在不同群体、不同性状中的结果波动大,更无法清晰解释“哪些基因在起作用”。对于育种科学家来说,只知道“是什么”远远不够,唯有搞懂“为什么”,才能指导实际的选种决策。
近日,中国农业大学胡晓湘/王宇哲团队在经典自然指数期刊Genome Research发表最新研究,开发的AIGP(Artificial Intelligence Genomic Prediction)工具包,首次实现可解释AI(Explainable AI)与自动化基因组预测的全流程一体化,让算法不仅能“算得准”,更能“说得清”。这一突破也是将AI应用于农业基因组学的重要进展,华大智造T7平台为该研究提供了核心技术支撑,为后续AI模型的精准构建筑牢了数据根基。
![]()
01
12种AI模型同台竞技,谁才是育种预测"最优解"?
研究团队没有停留在理论推演,而是拿出了实打实的"大考"数据——来自猪、鸡、马、玉米四大农业物种、6 个种群、覆盖20个重要经济性状的真实育种数据,遗传力跨度从0.19到0.87。同时设计多组模拟实验,系统测试不同遗传力、QTL数量、效应分布和上位效应对预测精度的影响。
在这场12种机器学习模型与传统统计方法(GBLUP、BayesR)的同台竞技中,Boosting类算法尤为亮眼:LightGBM和CatBoost几乎包揽了机器学习的最优解。在I/II类性状(QTL效应可解释大部分遗传力)中,机器学习在91%的情况下击败传统方法;其中LightGBM相对GBLUP的精度平均提升83.15%。
这意味着,对于受主效QTL控制的复杂性状,AI展现出传统方法难以企及的优势。
![]()
图2:20个性状上14种预测方法的精度对比。I/II类性状中,LightGBM和CatBoost等Boosting算法全面领先传统方法
02
SHAP打开AI"黑箱",每个SNP的效应都看得见
预测精度只是第一步,育种家更需要知道,究竟是哪些位点在驱动表型变异?
为此,研究团队创新引入SHAP(Shapley Additive Explanations)方法,对AI模型的预测结果进行逐层拆解。通过SHAP值,不仅能识别关键QTL区域(与GWAS结果高度吻合,Top5/10/20 位点重叠率分别达 60%、50%、70%),还能绘制群体水平的效应分布图谱,直观展示每个SNP的加性效应、显性效应、超显性效应乃至上位效应。
更具突破的是,SHAP还能深入到个体层面“讲故事”:清晰呈现同一个位点在不同个体中的基因型差异,如何推高或拉低了预测值。这种从群体到个体的多层次可解释性,架起了算法优化与生物育种应用之间的关键桥梁。
![]()
03
从"海量标记"到"精准特征",特征工程再升级
再好的模型,也离不开高质量的输入。研究团队在鸡28号染色体上发现了一个有趣的"多效QTL":它同时影响公鸡睾丸重(TW)和母鸡开产日龄(AGG)两个重要繁殖性状,但TW位点附近的标记密度偏低,导致AI模型的性能无法充分发挥。
针对这一问题,研究团队通过针对性增加QTL区域标记密度,并结合SLDP全基因组特征选择策略,让LightGBM和CatBoost的预测精度实现显著跃升,甚至反超传统最优方法。这揭示了一个重要启示:AI的潜力并非来自盲目堆砌数据,而是通过生物学驱动的特征工程来释放,让AI精准布局关键区域。
![]()
04
麻雀搜索算法+并行加速,让AI育种工具"开箱即用"
为了让复杂的AI模型真正落地育种应用,研究团队集成了麻雀搜索算法(SSA)进行超参数自动优化。相较于单参数调优和网格搜索,SSA不仅在精度和稳定性上实现全面超越,更显著提升了计算效率。
最终,所有模型、优化策略、解释框架被整合为开源AIGP工具包,既支持在没有遗传先验信息的数据上一键式全输出,也可以有针对性地进行各类参数优化。即便没有深厚的 AI 背景,育种工作者也能轻松上手,快速将 AI 技术应用到实际育种工作中。
![]()
数据之源:华大智造T7为智慧育种筑基
这项研究的高质量基因组数据,离不开底层测序技术的支撑。研究中的鸡、猪群体样本,正是通过华大智造DNBSEQ旗舰机型T7测序平台完成低深度全基因组测序,结合基因型填充技术,为后续的AI建模提供了高密度、高可靠性的SNP基础数据。
T7平台以其超高通量、稳定的数据产出能力,正在成为全球农业基因组学研究的重要基础设施。从基因组数据生产,到AI模型构建,再到育种决策落地——高质量的数据起点,是一切智能分析的基石。
让AI读懂生命密码,让科技扎根中国大地
从“黑箱预测”到“透明解释”,AIGP的问世标志着AI在育种领域的应用进入全新阶段。它不只是一个算法工具,更是一种研究范式的转变:用可解释的智能,架起连接数字模型与生物现实的桥梁。
在生物育种国家战略的指引下,从自主可靠的测序平台到开源共享的AI工具,中国科研力量正携手构建一条完整的“数据-算法-应用”创新链条。当人工智能真正读懂生命的语言,农业的明天必将更加智慧、高效、可持续。
01
原文信息
Wei L, Jiang Z, Fan B, et al. Automated interpretable artificial intelligence genomic prediction with AIGP. Genome Research. 2026. doi: 10.1101/gr.281006.125.
02
https://github.com/CAU-LEI/AIGP_soft.git
注:本文基于公开发表的学术研究进行科普解读,相关实验数据与分析方法详见原文。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.