一种融合遗传算法和决策树算法的知识提取方法技术

技术编号:31701435 阅读:52 留言:0更新日期:2022-01-01 11:02
一种融合遗传算法和决策树算法的知识提取方法,涉及基于遥感影像的分类、数据挖掘等领域。本发明专利技术包括准备遥感分类结果与分类特征数据;分层随机抽取训练样本集;初始化遗传算法,通过随机产生的基因组合和样本构建决策树,模拟随机森林的随机特征和随机样本特性;对构建的任意一棵决策树筛选感兴趣类别的规则链,并根据规则获取分类结果;将筛选的分类结果与现有分类结果进行比对计算错误率作为评估函数的适应度,记录规则链和对应的错误率;迭代遗传算法至指定次数或满足收敛条件,将一系列规则按错误率从小到大排序,将错误率最小的规则作为显式知识。本发明专利技术能有效地将隐式知识转化为可理解的显式知识,具有一定的可重复性和鲁棒性。重复性和鲁棒性。重复性和鲁棒性。

【技术实现步骤摘要】
一种融合遗传算法和决策树算法的知识提取方法


[0001]本专利技术涉及一种融合遗传算法和决策树算法的知识提取方法,涉及基于遥感影像的分类、数据挖掘等


技术介绍

[0002]随着Google Earth Engine等云平台的兴起,基于不同数据和算法的遥感分类结果不断增加。在应用这些遥感分类结果方面,现有方法多在这些结果中选取样本,并继续基于具有黑箱属性的算法产生新的分类结果。在这个过程中,分类相关的知识通过样本隐式地传递给新的分类,而人们无法获取、理解和应用这些知识,从而阻碍了认知的进步。
[0003]在这些具有黑箱属性的算法中,决策树分类接近于人对事物的简单描述。以遥感分类中的水体识别为例,人们通过归一化水体指数(NDWI)的阈值threshold可分离水体和非水体,这一方式可简化表述为NDWI>threshold,而决策树算法产生的规则形式与此相同。对于阈值,人们的阈值通过大量实践总结而来,决策树的阈值通过算法计算得到。那么,在现有分类结果的基础上构建决策树,可获取其中的知识。
[0004]由于决策树的构建使用了贪心搜索策略,无法保证全局最优,即提取的知识存在偏差。通过样本随机和特征随机的方式,以一系列决策树组合而成的随机森林算法具备相对决策树更好的分类表现。但是,聚合了一系列决策树的随机森林算法给出的规则过于繁冗。

技术实现思路

[0005]为了解决从现有分类结果中获取可理解的显式知识的问题,本专利技术提供一种融合遗传算法和决策树算法的知识提取方法。本专利技术以遗传算法模拟样本随机和特征随机,并创建一系列决策树以筛选其规则,可以将隐式知识有效转化为人们可以理解的显式知识。
[0006]本专利技术为解决技术问题所采用的技术方案如下:
[0007]本专利技术的一种融合遗传算法和决策树算法的知识提取方法,包括以下步骤:
[0008]步骤一、准备现有遥感分类结果数据与遥感分类特征数据,利用Google Earth Engine云平台获取遥感分类结果区域的遥感分类特征影像作为遥感分类特征数据;
[0009]步骤二、根据现有遥感分类结果数据以分层随机抽样方式获取训练样本集;
[0010]步骤三、初始化遗传算法,取基因数量为遥感分类特征数量;通过遗传算法的迭代产生的不同基因组合模拟随机森林算法的特征随机;
[0011]步骤四、创建遗传算法的评估函数,并在此函数中以随机抽样方式在训练样本集中获取样本,所获取的样本比例介于50%到90%之间,用于模拟随机森林算法的样本随机;
[0012]步骤五、在遗传算法的评估函数中,以随机特征和随机样本构建决策树,提取该决策树产生的规则;
[0013]步骤六、在遗传算法的评估函数中,遍历该决策树产生的规则,并筛选与感兴趣地类相关的规则;参照这些规则对相关遥感分类特征进行分类,以获取随机特征和随机样本
下感兴趣地类规则所对应的分类结果;
[0014]步骤七、在遗传算法的评估函数中,将基于规则得到的分类结果与现有遥感分类结果进行比较,根据规则链计算得到的分类结果与现有遥感分类结果采用逐像素比较的方式计算错误率,并将该错误率作为评估函数的适应度;
[0015]步骤八、重复步骤三至步骤七迭代遗传算法,直至达到指定迭代次数或满足收敛条件时停止迭代,得到一系列规则和对应的错误率;按错误率从小到大对规则进行排序,得到最贴近现有遥感分类结果的规则,将错误率最小的规则作为显式知识。
[0016]进一步的,步骤一中,选择2020年吉林向海国家级自然保护区的部分湿地解译结果作为现有遥感分类结果数据;利用Google Earth Engine云平台获取2020年吉林向海国家级自然保护区的5月到10月的Sentinel

1SAR影像、Sentinel

2MSI影像并分别进行中值合成,计算各分类特征并与波段特征合并为遥感分类特征影像,得到遥感分类特征数据。
[0017]进一步的,步骤二中,利用R语言raster包的sampleStratified函数,根据现有遥感分类结果数据以分层随机抽样方式进行随机抽样;对2020年吉林向海国家级自然保护区的湿地和非湿地类别按照等比例进行随机采集,得到总样本容量为20000的训练样本集;用rowFromCell函数和colFromCell函数遍历训练样本集,根据位置获取样本对应的特征。
[0018]进一步的,步骤三中,利用R语言genalg包rbga.bin函数初始化遗传算法;基因数量设为分类特征数量,种群规模设为200,迭代次数设为100,变异率设为0.01。
[0019]进一步的,步骤四中,编写遗传算法的evalFunc函数,利用R语言createDataPartition函数获取75%的样本用于训练决策树,剩余部分直接丢弃,以此模拟样本随机。
[0020]进一步的,步骤五中,在evalFunc函数中,利用R语言rpart包的rpart函数构建决策树,得到特征随机和样本随机情况下的一棵决策树。
[0021]进一步的,步骤六中,在evalFunc函数中,遍历该决策树的产生规则,选取湿地有关的规则对遥感分类特征数据进行分类,得到分类结果。
[0022]进一步的,步骤七中,在evalFunc函数中,将按规则得到的分类结果与现有遥感分类结果进行比较,并计算错误率作为evalFunc函数的适应度。
[0023]进一步的,步骤八中,运行rbga.bin函数,不断迭代优化,直至达到指定迭代次数或满足收敛条件时停止迭代,得到一系列规则和对应的错误率,错误率最小的规则即为表征湿地的显式知识。
[0024]本专利技术的有益效果是:
[0025]本专利技术基于现有遥感分类结果与遥感分类特征,以分层随机抽样方式获取训练样本集,利用遗传算法模拟随机森林算法的特征随机和样本随机,通过随机产生的基因组合和随机选取部分样本构建决策树以获取其分类规则;对于构建的任意一棵决策树,筛选感兴趣类别所对应的规则链,并根据规则获取分类结果,将按规则得到的分类结果与现有分类结果之间的错误率作为评估函数的适应度,从而使遗传算法向最优规则方向(即与现有分类结果最贴近的方向)迭代演化。通过对感兴趣类别所对应的规则按照错误率排序,即可得到最优规则(可理解的显式知识)。
[0026]本专利技术能有效地将隐式知识转化为可理解的显式知识,解决从现有分类结果中获取可理解的显式知识的问题以及解决了仅使用决策树算法获取知识所带来的偏差和使用
随机森林算法获取的知识过于繁冗而不可用的问题。
[0027]本专利技术一种融合遗传算法和决策树算法的知识提取方法快捷有效,具有可重复性和鲁棒性,对遥感分类、数据挖掘等领域具有极其重要的意义。
附图说明
[0028]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例共同用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0029]图1为2020年本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合遗传算法和决策树算法的知识提取方法,其特征在于,包括以下步骤:步骤一、准备现有遥感分类结果数据与遥感分类特征数据,利用Google Earth Engine云平台获取遥感分类结果区域的遥感分类特征影像作为遥感分类特征数据;步骤二、根据现有遥感分类结果数据以分层随机抽样方式获取训练样本集;步骤三、初始化遗传算法,取基因数量为遥感分类特征数量;通过遗传算法的迭代产生的不同基因组合模拟随机森林算法的特征随机;步骤四、创建遗传算法的评估函数,并在此函数中以随机抽样方式在训练样本集中获取样本,所获取的样本比例介于50%到90%之间,用于模拟随机森林算法的样本随机;步骤五、在遗传算法的评估函数中,以随机特征和随机样本构建决策树,提取该决策树产生的规则;步骤六、在遗传算法的评估函数中,遍历该决策树产生的规则,并筛选与感兴趣地类相关的规则;参照这些规则对相关遥感分类特征进行分类,以获取随机特征和随机样本下感兴趣地类规则所对应的分类结果;步骤七、在遗传算法的评估函数中,将基于规则得到的分类结果与现有遥感分类结果进行比较,根据规则链计算得到的分类结果与现有遥感分类结果采用逐像素比较的方式计算错误率,并将该错误率作为评估函数的适应度;步骤八、重复步骤三至步骤七迭代遗传算法,直至达到指定迭代次数或满足收敛条件时停止迭代,得到一系列规则和对应的错误率;按错误率从小到大对规则进行排序,得到最贴近现有遥感分类结果的规则,将错误率最小的规则作为显式知识。2.根据权利要求1所述的一种融合遗传算法和决策树算法的知识提取方法,其特征在于,步骤一中,选择2020年吉林向海国家级自然保护区的部分湿地解译结果作为现有遥感分类结果数据;利用Google Earth Engine云平台获取2020年吉林向海国家级自然保护区的5月到10月的Sentinel

1SAR影像、Sentinel

2MSI影像并分别进行中值合成,计算各分类特征并与波段特征合并为遥感分类特征影像,得到遥感分类特征数据。3.根据权利要求2所述的一种融合...

【专利技术属性】
技术研发人员:赵传朋王宗明贾明明任春颖毛德华
申请(专利权)人:中林信达北京科技信息有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1