本发明专利技术提供一种基于决策树的作物育种评价方法,该方法包括:以育种目标为筛选条件,构建作物育种评价数据集,所述数据集共享相同的育种目标,其中,所述数据集中的每个数据均以四元数据类型{实验材料编号,性状特征集合T,所属实验e,实验结果r}来表示;对所述数据集中的性状特征集合T进行预处理,得到预处理后的数据集;根据所述预处理后的数据集,使用决策树构建性状特征与实验结果间的模型,得到针对育种目标的基于决策树的作物育种评价模型;根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析,并获得评价结果。上述方法能利用育种过程中的评价结果信息,以实现后续的作物育种的评价。
【技术实现步骤摘要】
本专利技术设及作物育种
,尤其设及一种。
技术介绍
作物育种技术通过改良作物的遗传特性,选择培育高产优质品种,是种业创新和 发展的根本动力,对促进我国农业长期稳定发展、保障国家粮食安全具有十分重要的意义。 作物育种评价从培育品种中评价、选择满足育种目标的优良品种,是作物育种技术的重要 环节,是对育种效果的有效保证。 随着我国粮食生产形势的变化,作物育种评价从W产量为主的方式向综合考虑产 量、品质、抗逆性等因素转变。与此同时,关联分析、主成分分析、层次分析法、模糊综合评 价、灰色关联评价等多种信息技术皆在作物育种中发挥了重要的作用。该些技术通过对作 物性状数据的分析利用有效提升了作物育种评价技术的数据化、信息化程度,推动作物育 种评价从经验化育种向数据化、信息化育种转变。然而,育种过程中的评价结果信息作为重 要的专家经验,却仍未用在作物育种评价的过程中。本专利技术使用决策树对育种评价结果信 息与作物性状信息构建模型,提出一种。 鉴于此,如何利用育种过程中的评价结果信息,W实现后续的作物育种的评价成 为当前需要解决的技术问题。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种,将作 物育种过程中的评价数据引入育种评价模型的训练中,作为构建育种评价决策树的指导数 据,可W有效地利用已有育种经验数据指导后续育种工作,辅助育种家实现后续的作物育 种的评价工作。 第一方面,本专利技术提供一种,包括:W育种目标为筛选条件,构建作物育种评价数据集,所述数据集共享相同的育种 目标,其中,所述数据集中的每个数据均W四元数据类型{实验材料编号,性状特征集合T, 所属实验e,实验结果r}来表示; 对所述数据集中的性状特征集合T进行预处理,得到预处理后的数据集; 根据所述预处理后的数据集,使用决策树构建性状特征与实验结果间的模型,得 到针对育种目标的基于决策树的作物育种评价模型; 根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分 析,并获得评价结果。 可选地,所述对所述数据集中的性状特征集合T进行预处理,得到预处理后的数 据集,包括: 对所述数据集中的性状特征集合T中的每种性状进行规范化处理; 对经过规范化处理之后的性状特征集合T进行去噪处理; 对经过去噪处理之后的性状特征集合T进行归一化处理,得到预处理后的数据 集。 可选地,所述规范化处理包括;统一量化方式,和/或统一计量单位,和/或统一表 现形式。 可选地,所述对经过规范化处理之后的性状特征集合T进行去噪处理,包括: 判断经过规范化处理之后的性状特征集合T中的性状特征所对应的数据是否在 该性状特征的预设性状参考值范围内,若否,则将不在该性状特征的预设性状参考值范围 内的经过规范化处理之后的性状特征集合T中的性状特征所对应的数据从所述数据集中 剔除; 将经过规范化处理之后的性状特征集合T中的离群性状特征对应的数据从所述 数据集中剔除; 其中,所述离群性状特征为满足第一公式的性状特征,所述第一公式 其中,与.为Tj.的平均值,0为性状特征Tj.的标准差,K为预设参数,Tj.为离群性 状特征,j为不大于性状特征集合T中元素个数的任一正整数。 可选地,所述对经过去噪处理之后的性状特征集合T进行归一化处理,具体包括: 根据第二公式,对经过去噪处理之后的性状特征集合T进行归一化处理; 其中,所述第二公式为: Ti为性状特征集合T中第i个性状特征,i为不大于性状特征集合T中元素个数的 任一正整数,T'i为Ti经归一化处理后的结果,min(Ti)为性状特征Ti中的最小值,max(Ti) 为性状特征Ti中的最大值。 可选地,所述根据所述预处理后的数据集,使用决策树构建性状特征与实验结果 间的模型,得到针对育种目标的基于决策树的作物育种评价模型,包括: S1、将预处理后的数据集记为D。,D。中的特征集合记为T。,根据D。与T。生成根节 点root,并令所述根节点root作为当前节点; S2、根据第S公式,计算得到D。的基巧Gini指标; S3、判断D。是否小于预设阔值G或T。中性状的个数是否为0,若D。小于预设阔值且 T。中性状的个数为0,则将当前节点标记为叶子节点,取Pi中的最大值对应的实验结果为 该节点的实验结果;若D。大于等于预设阔值且T。中性状的个数不为0,则执行步骤S4-S7 ; S4、计算T。中各性状特征与实验结果的排序相关性; S5、取T。中与实验结果排序相关性最大的性状特征作为当前节点的划分性状 S6、根据划分性状L计算划分阔值V,,并根据Vj尋D。划分为两个集合D1、化; S7、从T。中移除T,,分别令Di、〇2作为D。,重复S2至S7建立其对应的决策树模型, 并将结果分别作为当前节点的左、右子树;其中,所述第S公式为: 其中,a为所述实验结果r中不同取值的个数,Pi为D。中数据对应实验结果的 概率。可选地,所述步骤S4,具体包括:S41、根据所属实验e将D。划分为k个子集,每个子集中的数据是同一次实验的数 据,记为Sm,lk;S42、从T。中选择性状特征t。,并根据所述性状特征t。,将Sm中的数据的大小进行 排序,将升序排序结果记为瑞,将降序排序结果记为乂i;S43、根据实验结果r,分别对所述瑞和义中的t。取值相同的数据进行降序微 调;S44、根据所述*5,^和义;和第四公式,分别计算所述Sm中数据的性状特征t。与实验 结果r的相关性;S45、根据第走公式,获取D。中性状特征tn的相关性《 (n);S46、重复步骤S42至S45,直至获取所述T。中所有性状特征的相关性; 其中,所述第四公式为: 其中,DCG(n,m)是通过第五公式计算得到的,IDCG(n,m)是通过第六公式计算得 到的,所述第五公式为: 其中,q为所述Sm中实验材料的编号,r(P)为所述巧或&中第P位置的实验材料 对应的实验结果,r*(p)为是所述Sm中实验材料根据实验结果降序排序时第P位置对应的 实验结果,《 (n,m)依其使用所述巧或Si中的排序结果分别记为《°(n,m)或《i(n,m); 所述第走公式为: ? (n) =max{ ?° (n), ? 1 (n)}, 其中,《°(n)是通过第八公式计算得到的,《i(n)是通过第九公式计算得到的,所 述第八公式为: 所述第九公式为:[00则其中,|Sm|是Sm中实验材料的个数。 可选地,所述步骤S6,具体包括: 根据所属实验e将D。划分为k个子集,每个子集中的数据是同一次实验的数据, 记为S。,1《m《k;[006。 根据所述划分性状T曲大小,将所述Sm中的数据进行升序排序; 根据筛选条件,对排序后的Sm中的数据进行筛选; 根据满足所述筛选条件的Sm(n),通过第十公式计算候选划分阔值Vm(X); 针对所有候选划分阔值Vm(X),通过第十一公式计算使用所有候选划分阔值Vm(X) 进对所述Sm进行划分后的Gini指标Gini,(Vm(x)); 对所述Sm,获取使Gini,(Vm(X))取最小值的Vm(X),根据使Gini,(Vm(X))取最小值 的Vm(X),通过第十二公式计算V, (m); 根据所述V, (m),通过第十S公式计算划分阔值V,: 判断D。中的数据是否满足第一条件,将D。中满足所述第一条件本文档来自技高网...
【技术保护点】
一种基于决策树的作物育种评价方法,其特征在于,包括:以育种目标为筛选条件,构建作物育种评价数据集,所述数据集共享相同的育种目标,其中,所述数据集中的每个数据均以四元数据类型{实验材料编号,性状特征集合T,所属实验e,实验结果r}来表示;对所述数据集中的性状特征集合T进行预处理,得到预处理后的数据集;根据所述预处理后的数据集,使用决策树构建性状特征与实验结果间的模型,得到针对育种目标的基于决策树的作物育种评价模型;根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析,并获得评价结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:赵向宇,刘忠强,王书锋,潘守慧,王志彬,王开义,
申请(专利权)人:北京农业信息技术研究中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。