近日,中国农业科学院植物保护研究所联合扬州大学、湖南农业大学等多家单位在中国工程院主刊 Engineering (专业顶刊)上以绿色植物保护创新(Green Plant Protection Innovation)为方向发表了题为《Development of Machine Learning Methods for Accurate Prediction of Plant Disease Resistance》的研究成果。该研究通过优化多种机器学习流程,开发了基于高通量基因型数据的作物抗病表型精准预测方法,实现了对水稻稻瘟病、纹枯病、黑条矮缩病,以及小麦麦瘟病、条绣病抗性的精准预测。
传统抗病育种往往通过筛选已知抗病(R)基因、依据病圃抗性鉴定来选择抗病新品种。在作物对不同病害抗性研究中,已知的抗病基因数量还十分有限,加上近年研究发现,不少感病(S)基因突变、能塑造植物健康微生物组的M基因等对作物的最终抗性表型均起到了重要贡献。因此,高效选育抗病品种需要充分考虑和利用全基因组信息,但目前基于作物高通量基因型数据筛选作物抗病表型的高效精准方法报道较少。
为此,本研究以水稻主要病害稻瘟病、纹枯病和黑条矮缩病,以及小麦麦瘟病(CIMMYT已发表数据)和条锈病为研究对象,利用水稻、小麦自然品种资源的高通量基因型数据、表型数据、通过全基因组关联分析挖掘抗病关联位点信息,通过多种机器学习方法对抗病关联位点基因型和表型进行训练以构建预测模型,基于该模型实现了基于个体基因型精准预测其抗病性水平,解决了传统抗病育种中通常仅依赖少数抗病基因而不能精准选择抗病新材料的问题。
在整体设计中,本研究将小麦和水稻核心群体(各包含超过300个代表性品种)进行多种病害抗性鉴定,对不同病害的抗性分为R(抗病)和S(感病)两种类型(去除部分抗感不确定品种),将复杂的群体数量抗性问题简化为二分类问题;在机器学习训练过程中,对取样过程进行干预,将亲缘关系(K)加入到取样过程,使其每次取样在群体中的分布由随机改为均匀,避免训练过程中的取样不均。研究结果表明,在适当P阈值范围内(P值代表全基因组关联分析获得的抗病关联SNP标记的关联值),随机森林分类(RFC)、支持向量机分类(SVC)、以及轻量级梯度提升机器学习(lightGBM)、深度神经网络(DNNGP)、稠密连接卷积网络(DenseNet)等机器学习算法均能实现较高准确性预测。其中,当RFC、SVC、以及lightGBM结合亲缘关系均匀取样训练情况下,即RFC_K、SVC_K、以及lightGBM_K方法(与未结合K取样方法相比较)均能显著提高预测准确性,本研究对水稻稻瘟病抗性的预测准确性最高达95%,跨群体预测结合人工接种鉴定确定的准确性也高达91%。另外,对小麦麦瘟病和条锈病的预测准确性分别达到90%和94%。对水稻纹枯病和水稻黑条矮缩病两种公认难以准确鉴定抗病性的病害,其预测准确性都达到85%。上述结果说明本研究开发的基于基因型精准筛选表型的机器学习方法对于作物多种病害抗性表型预测具有广适性,未来合理利用可显著提高作物抗病育种效率。
中国农业科学院植物保护研究所研究生刘琪、扬州大学/生物育种钟山实验室左示敏教授为共同第一作者,中国农业科学院植物保护研究所康厚祥副研究员为通讯作者。湖南农业大学李魏教授、中国农业科学院作物科学研究所李慧慧研究员和熊叶辉研究员、中国农业大学杨俊教授、海南大学林润茂副教授、扬州大学冯志明副教授等也参与了数据分析、论文修改等工作。植保所彭莎莎、彭烨博士,作物所张昊博士也为该研究做出了重要贡献。该研究受到国家自然科学基金国际合作项目(32261143468)、国家重点研发计划(2021YFC2600400)、江苏省种业振兴计划(JBGS(2021)001)等项目的联合资助。
文章链接:https://www.sciencedirect.com/science/article/pii/S2095809924002431