System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种作物生长状态监测方法、系统、设备和介质技术方案_技高网

一种作物生长状态监测方法、系统、设备和介质技术方案

技术编号:44217999 阅读:0 留言:0更新日期:2025-02-11 13:26
本发明专利技术提供了一种作物生长状态监测方法、系统、设备和介质,属于生物信息领域,包括获取作物基因表达数据集以及对应作物的基因的表达量值,形成基因-样本表达矩阵。对作物基因表达数据集按照样本类型进行分类,形成不同的独立数据子集。对独立数据子集按比例随机抽样形成训练集,通过计算训练集参数得到高可变基因集合,进而构建机器学习模型,对作物的作物表型和生长状态进行监测。该方法不仅能作为良好的作物生长预后方法,而且在实现作物生长智能检测的同时节约农业资源,具有重要的农业管理和应用价值。

【技术实现步骤摘要】

本专利技术属于生物信息领域,具体涉及一种作物生长状态监测方法、系统、设备和介质


技术介绍

1、近年来,随着全球气候变化,极端天气频繁出现,粮食安全问题日益突出,为了进一步提高作物生长状态监测效率,机器学习与人工智能技术被引入到作物生产安全检测中。在农业实践中,作物表现出的某种异常表型可能来源于多种情况,例如,植物叶片发黄有可能是光照不足、水肥问题、所处环境温度异常以及病虫害等因素造成。

2、现有的技术主要是利用田间植物表型数据来对植物生长状态进行建模和预测,然而该技术只能用于区分植物生长状态是否正常,如果不结合其他环境因素、作物生理指标测定等方法,则很难识别出导致其异常表型性状的影响因素。因此在农业实践中,该方法对作物精准管理的应用价值非常有限。某些研究从少数转录组测序样本中筛选得到一些差异表达基因并以此对作物表型进行预测,而这种方法往往对所选取的样本比较敏感,使得构建的模型没有泛化能力。随着高通量测序技术的发展和测序成本的降低,一种更先进的方法是对某种作物不同条件下的大规模基因表达谱进行特征筛选,然而这种方法对于特征筛选阈值的选取非常敏感,需要对基因表达数据做大量的统计分析,对于缺少统计学知识的人员来讲不易实施,同时选出来的基因只是在统计学上有意义,在生物学意义上缺少可解释性。还有些基于表型的机器学习模型虽然能够区分作物表型异常与否,但不能够进一步解释异常表型的分子机制,因此不能够提供精准的农业决策和指导。此外,尽管部分研究试图通过个别研究得到的差异表达基因进行生长状态的评估,但是考虑到作物在不同的环境下基因表达变化复杂,作物遗传多样性影响基因表达等多种实际情况,使得这种方法使用效率较低,缺少不同作物的通用性。


技术实现思路

1、为了解决基因表达数据在作物表型和生长状态监测的应用问题,本专利技术提供了一种作物生长状态监测方法及系统。

2、为了实现上述目的,本专利技术提供如下技术方案:

3、一种作物生长状态监测方法,包括以下步骤:

4、获取作物基因表达数据集;对所述作物基因表达数据集按照样本属性进行分类,形成不同的独立数据子集;

5、对每一个所述独立数据子集按比例随机抽样形成训练集,计算所述训练集中数据的错误发现率fdr值,对所述错误发现率fdr值进行过滤,得到高可变基因集;

6、将所述训练集中的样本数据作为响应变量,将高可变基因集作为预测变量,对监测机器学习模型进行训练,得到作物生长状态监测模型;

7、将待检测的作物数据输入所述作物生长状态监测模型中进行作物的表型预测,根据作物表型得到作物的生长状态。

8、优选地,所述监测机器学习模型包括支持向量机模型、极限梯度提升xgboost模型、深度神经网络模型、随机森林模型以及朴素贝叶斯模型。

9、优选地,对所述错误发现率fdr值进行过滤,得到高可变基因集,具体是通过对每个基因的错误发现率fdr值与基因平均表达量进行拟合,最后选取显著偏离拟合线的基因作为高可变基因集。

10、优选地,还包括对所述监测机器学习模型的准确度进行评估,通过绘制受试者操作特征曲线roc,即绘制假阳性和假阴性相关曲线,进而计算出auc数值,来评估模型的准确度。

11、优选地,所述获取基因表达数据集,具体是从ncbi、plantexp公共数据库中收集rna-seq数据,并将所述rna-seq数据转化为tmp基因表达量。

12、优选地,对所述作物基因表达数据集按照样本属性进行分类,具体的分类标准包括组织类型、不同品种或品系、发育时期和环境胁迫。

13、本专利技术提供一种作物生长状态监测系统,具体包括:

14、数据模块,用于获取作物基因表达数据集;对所述作物基因表达数据集按照样本属性进行分类,形成不同的独立数据子集。

15、训练模块,用于对每一个所述独立数据子集按比例随机抽样形成训练集,计算所述训练集中数据的错误发现率fdr值,对所述错误发现率fdr值进行过滤,得到高可变基因集。

16、机器学习模块,用于将所述训练集中的样本数据作为响应变量,将高可变基因集作为预测变量,对监测机器学习模型进行训练,得到作物生长状态监测模型。

17、监测模块,用于将待检测的作物数据输入所述作物生长状态监测模型中进行作物的表型预测,根据作物表型得到作物的生长状态。

18、本专利技术还提供一种计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现所述一种作物生长状态监测方法中所述的步骤。

19、本专利技术还提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,该计算机程序被处理器加载时,能够执行所述一种作物生长状态监测方法中所述的步骤。

20、本专利技术提供的一种作物生长状态监测方法具有以下有益效果:

21、本专利技术提出从大规模基因表达数据库中获取作物基因表达数据集,并按照样本类型进行分类,形成不同的独立数据子集,考虑基因数据对植物生长状态的影响。对每一个独立数据子集按比例随机抽样形成训练集,计算训练集的基因表达变异程度,并对数据进行过滤,得到高可变基因集合,所得到的基因数据不仅在生物学意义上解释性强,而且可以快速选择出有意义的特征基因集合。以高可变基因作为预测变量构建作物生长状态监测模型,基于基因表达数据进行作物的生长状态进行监测,在作物生长智能检测的同时节约农业资源,能够指导农业管理和应用价值。

本文档来自技高网...

【技术保护点】

1.一种作物生长状态监测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种作物生长状态监测方法,其特征在于,所述监测机器学习模型包括支持向量机模型、极限梯度提升XGboost模型、深度神经网络模型、随机森林模型以及朴素贝叶斯模型。

3.根据权利要求1所述的一种作物生长状态监测方法,其特征在于,对所述错误发现率FDR值进行过滤,得到高可变基因集,具体是通过对每个基因的错误发现率FDR值与基因平均表达量进行拟合,最后选取显著偏离拟合线的基因作为高可变基因集。

4.根据权利要求2所述的一种作物生长状态监测方法,其特征在于,还包括对所述监测机器学习模型的准确度进行评估,通过绘制受试者操作特征曲线ROC,即绘制假阳性和假阴性相关曲线,进而计算出AUC数值,来评估模型的准确度。

5.根据权利要求1所述的一种作物生长状态监测方法,其特征在于,所述获取基因表达数据集,具体是从NCBI、PlantExp公共数据库中收集RNA-Seq数据,并将所述RNA-Seq数据转化为TMP基因表达量。

6.根据权利要求1所述的一种作物生长状态监测方法,其特征在于,对所述作物基因表达数据集按照样本属性进行分类,具体的分类标准包括组织类型、不同品种或品系、发育时期和环境胁迫。

7.一种作物生长状态监测系统,其特征在于,包括:

8.一种计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至6任一项所述方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器加载时,能够执行权利要求1至6任一项所述方法的步骤。

...

【技术特征摘要】

1.一种作物生长状态监测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种作物生长状态监测方法,其特征在于,所述监测机器学习模型包括支持向量机模型、极限梯度提升xgboost模型、深度神经网络模型、随机森林模型以及朴素贝叶斯模型。

3.根据权利要求1所述的一种作物生长状态监测方法,其特征在于,对所述错误发现率fdr值进行过滤,得到高可变基因集,具体是通过对每个基因的错误发现率fdr值与基因平均表达量进行拟合,最后选取显著偏离拟合线的基因作为高可变基因集。

4.根据权利要求2所述的一种作物生长状态监测方法,其特征在于,还包括对所述监测机器学习模型的准确度进行评估,通过绘制受试者操作特征曲线roc,即绘制假阳性和假阴性相关曲线,进而计算出auc数值,来评估模型的准确度。

5.根据权利要求...

【专利技术属性】
技术研发人员:武泽峰孙亚丽牛伊宁
申请(专利权)人:甘肃农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1