当前位置: 首页 > 专利查询>邱建林专利>正文

基于聚类-决策树的玉米良种选育方法技术

技术编号:4244879 阅读:299 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于聚类-决策树的玉米良种选育方法,包括数据预处理、建立决策树、根据形成的决策树,系统判断所输入的属性值属于哪个分类,并通过计算这个三维点和所属分类中其他点的距离,得到一个距离最小的点,这个点所具有的属性就是最接近于输入玉米品种的玉米属性,从子女表中查询出这个玉米品种的父类和母类,即完成玉米选育的功能。本发明专利技术结合聚类和决策树算法,可根据要求对玉米的生育信息、生长信息和收获信息等进行玉米良种的优选,可达到降低劳动强度,提高决策效率的目的。

【技术实现步骤摘要】

本专利技术涉及一种玉米良种选育方法。
技术介绍
聚类是一种常见的数据分析工具,是指用数学的方法研究和处理给定对象,是多 元统计分析的一种。基于物以类聚的思想,它把大量数据点的集合分成若干类或簇,使 得每个类中的数据之间最大程度地相似,而不同类中的数据最大程度地不同,从而发现全 局的分布模式以及数据属性之间的相互关系。聚类分析的一个突出特点是处理巨大、复杂 的数据集,而且还可作为其他算法的预处理步骤。目前常用的聚类算法还有k-平均、k-模、 k-中心点、DIANA、 AGNES、 STING、 COBWEB等。 这些经典的聚类算法只能处理简单的、一般的数据,对于大型的、复杂的数据集效 果欠佳,于是很多改进的和新的算法不断被提出。比如,有文献提出了一种进化的基于多中 心的动态聚类算法,其中簇的数目不用预先制定,对于不同的簇可选择多个中心点,且由两 个目标函数进行评估,提高了算法对于具有特殊特性和特殊分布的数据集的应用;CUZ算 法改进了代表点的计算,不仅能有效地鉴别非圆形、非矩形形状的数据,还可以处理表面非 凸起形状的簇;GriDBSCAN算法通过在数据空间构造网格,先局部采用密度算法,后聚合产 生真正的簇,大大提高了DBSCAN的效率,降低了复杂度。还有一些新的算法,比如Yu Wei 等人提出的凝聚层次聚类算法,采用了 84维的空间序列来表示对象,通过对由两两对象间 的皮尔森系数构成的矩阵进行凝聚,最终可获得较有效的系统树图;在种群算法和智能体 的基础上提出的较新颖的蚂蚁算法,不必事先规定簇的数目,并且可通过计算局部的对象 而非全部对象的方法来减少算法整个的计算量,能够发现任意形状的簇。 决策树方法是分类方法中应用较广泛的逻辑方法之一,它从一组无次序、无规则 的实例中推理出决策树表示形式的分类规则,它采用自顶向下的递归方式,利用信息论中 的互相信息(信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再 根据字段的不同取值检查树的分支,在每一个分支子集中,重复建立树的下层结点和分支 的过程。从决策树的根到叶节点的一条路径就对应着一条合取规则,整棵决策树就对应着 一组析取表达式。常用的方法有C4. 5、 ID3、CLS等。 目前已经提出了很多改进的决策树算法,比如Ding Rongtao等人在计算信息熵以 鉴别属性的相关度时引入了用户的兴趣参数以减少属性间的冗余,加快了信息熵减少的速 度;Fadila Bentayeb等人提出一种新的基于决策树的数据挖掘算法,通过在数据挖掘处理 之前对数据进行的预处理,建立一张可能性表,并对此实施新的ID3算法和信息增益公式, 简化了算法的复杂度,最终达到决策树分类的目的;关系分类方法RDC算法,使用ID数组传 播来更新多关系决策树,可防止建立过大冗余的关系表,有效地防止了信息的丢失,优化了 树结构,增强了算法的正确性。 信息技术已经在我国农业生产中得到广泛的应用,它大大推进了我国农业生产的 发展,成为发展现代农业生产的重要支撑力量。在玉米良种的选育方面,存储着大量信息,3如株高、穗高、全生育期、小区产量等,若能从中挖掘出正确的、可靠的、有用的规则,将对农 业的发展与改革产生指导性的作用。
技术实现思路
本专利技术的目的在于提供一种可根据要求对玉米的生育信息、生长信息和收获信息 等进行玉米良种的优选,可达到降低劳动强度,提高决策效率的基于聚类-决策树的玉米 良种选育方法。 本专利技术的技术解决方案是 —种基于聚类_决策树的玉米良种选育方法,其特征是包括下列步骤 (1)数据预处理将选择的三个属性对应成空间中的三维点,利用聚类算法中的k-平均算法,计算子女表中所有的记录点和重心之间的距离,比较大小,最终将所有的记录聚为两个簇,并使每个簇内的记录有较大的相似度,而不同的簇有较大的相异度; (2)建立决策树先离散化所选的三个属性的属性值,将它们分区成三类,并将千粒重作为分类属性,划分类别标记为低产、中产、高产,在输入全生育期、千粒重和小区产量这三个属性之后,根据欧氏距离公式 龟,,.,)《(Xf 即可判断这个三维点属于哪个聚类簇,得出结论后,对这个簇进行ID3算法的数 据挖掘,计算出全生育期属性和小区产量属性的信息增益值,并将具有较大增益的属性作 为测试属性,在测试属性分段的子节点处,引出分支,划分整个记录集,再依次进行即可形 成一个精简的决策树,其中属性Sk的信息增益公式为G(S《)=A》,)-£ (丄x (- Z丄x tog 2 (丄))》 其中nj是总节点的出现次数, 是预测属性值为Vk的子节点的出现次数,nik是分 类属性为&的预测属性值为Vk的子节点的出现次数; (3)根据形成的决策树,系统判断所输入的属性值属于哪个分类,并通过计算这个 三维点和所属分类中其他点的距离,得到一个距离最小的点,这个点所具有的属性就是最 接近于输入玉米品种的玉米属性,从子女表中查询出这个玉米品种的父类和母类,即完成 玉米选育的功能。 本专利技术结合聚类和决策树算法,可根据要求对玉米的生育信息、生长信息和收获信息等进行玉米良种的优选,可达到降低劳动强度,提高决策效率的目的。 基于聚类_决策树的玉米良种选育方法是根据所输入的玉米属性要求,利用数据挖掘中聚类和决策树的算法,找出与该属性最相似相近的玉米品种,然后再从子女表中找出这该玉米品种的父类和母类,并将父类和母类的基本信息进行输出,从而获得输入的玉米属性要求的父类和母类的良种。 本玉米良种选育方法是基于计算机软件辅助实现,极大的减少了人工良种选育中 劳动强度,提高了玉米良种选育的决策效率和准确性。 下面结合附图和实施例对本专利技术作进一步说明。 附图说明图1是实施例的最终决策图。 图2是聚类算法描述图。 图3是决策树算法描述图。具体实施例方式①选择样本集; 原有样本集来自于某农业信息组2006年所选品种实验年终汇总(Y组)数据表。 由于原有样本集数据信息量大,玉米品种较多,为方便说明描述,现只选Y1-Y8这八条记录进行讨论,所列举的选取样本集如下表1所示。表1选择样本集 次平均值平均值产生的新新平均新平均数(簇l)(簇2)簇值值(簇l)(簇2)1(100,(101,{Yl, Y7} , {(100,(跳33,200.8,269.8,Y2, Y3, Y4,213. 9,275. 23,6. 73)7. 83)Y5, Y6, Y8}6. 555)7. 67)2(100,(跳33,{Yl, Y6, Y7(100,(跳4,213. 9,275. 23,} , {Y2, Y3, Y212. 87,288.12,76. 555)7. 67)4, Y5, Y8}6. 75) 782)3(100,(跳33,{Yl, Y6, Y7(100,(跳4,213. 9,275. 23,} , {Y2, Y3, Y212. 87,288.12,76. 555)7. 67)4, Y5, Y8}6. 75) 782) 表2聚类全过程 玉米 品种代 码Period (周期)Weight (重Yield (产Yl100200. 86. 73Y2101269. 87. 83Y399287. 36. 70Y4101303. 57. 54Y51002本文档来自技高网
...

【技术保护点】
一种基于聚类-决策树的玉米良种选育方法,其特征是:包括下列步骤:    (1)数据预处理:将选择的三个属性对应成空间中的三维点,利用聚类算法中的k-平均算法,计算子女表中所有的记录点和重心之间的距离,比较大小,最终将所有的记录聚为两个簇,并使每个簇内的记录有较大的相似度,而不同的簇有较大的相异度;    (2)建立决策树:先离散化所选的三个属性的属性值,将它们分区成三类,并将千粒重作为分类属性,划分类别标记为低产、中产、高产,在输入全生育期、千粒重和小区产量这三个属性之后,根据欧氏距离公式:    d(x↓[i],y↓[j])=(*(x↓[ik]-x↓[jk])↑[2])↑[1/2]    即可判断这个三维点属于哪个聚类簇,得出结论后,对这个簇进行ID3算法的数据挖掘,计算出全生育期属性和小区产量属性的信息增益值,并将具有较大增益的属性作为测试属性,在测试属性分段的子节点处,引出分支,划分整个记录集,再依次进行即可形成一个精简的决策树,其中属性S↓[k]的信息增益公式为:    G(S↓[K])=h↓[s](s↓[j])-*(n↓[k]/n↓[j]×(-*n↓[ik]/n↓[k]×log↓[2](n↓[ik]/n↓[k])))    其中n↓[j]是总节点的出现次数,n↓[k]是预测属性值为V↓[k]的子节点的出现次数,n↓[ik]是分类属性为C↓[i]的预测属性值为V↓[k]的子节点的出现次数;    (3)根据形成的决策树,系统判断所输入的属性值属于哪个分类,并通过计算这个三维点和所属分类中其他点的距离,得到一个距离最小的点,这个点所具有的属性就是最接近于输入玉米品种的玉米属性,从子女表中查询出这个玉米品种的父类和母类,即完成玉米选育的功能。...

【技术特征摘要】
一种基于聚类-决策树的玉米良种选育方法,其特征是包括下列步骤(1)数据预处理将选择的三个属性对应成空间中的三维点,利用聚类算法中的k-平均算法,计算子女表中所有的记录点和重心之间的距离,比较大小,最终将所有的记录聚为两个簇,并使每个簇内的记录有较大的相似度,而不同的簇有较大的相异度;(2)建立决策树先离散化所选的三个属性的属性值,将它们分区成三类,并将千粒重作为分类属性,划分类别标记为低产、中产、高产,在输入全生育期、千粒重和小区产量这三个属性之后,根据欧氏距离公式 <mrow><mi>d</mi><mrow> <mo>(</mo> <msub><mi>x</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>y</mi><mi>j</mi> </msub> <mo>)</mo></mrow><mo>=</mo><msup> <mrow><mo>(</mo><munderover> <mi>&Sigma;</mi> <mrow><mi>k</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></munderover><msup> <mrow><mo>(</mo><msub> <mi>x</mi> <mi>ik</mi></msub><mo>-</mo><msub> <mi>x</mi> <mi>jk</mi></msub><mo>)</mo> </mrow> <mn>2</mn></msup><mo>)</mo> </mrow> <mfrac><mn>1</mn><mn>2</mn> </mfrac></msup> </mrow>即可判断这个三维点属于哪个聚类簇,得出结论后,对这个簇进行ID3算法的数据挖掘,计算出全生育期属性和小区产量属性的信息增益值,并将具有较大增益的属性作为测试属性,在测试属性分段的子节点处,引出分支,划分整个记录集,再依次进行即可形成一个精简的决策树,其中属性Sk的信息增益公式为 <mrow><mi>G</mi><mrow> <mo>(</mo> <msub><mi>S</mi><mi>K</mi> </msub> <mo>)</mo></mrow><mo>=</mo><msub> <mi>h</mi> <mi>s</mi></msub><mrow> <mo...

【专利技术属性】
技术研发人员:邱建林季丹陈建平顾翔李芬
申请(专利权)人:邱建林季丹陈建平顾翔李芬
类型:发明
国别省市:32[中国|江苏]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利