一种基于随机森林模型的历史耕地分布重建方法技术

技术编号:31804007 阅读:26 留言:0更新日期:2022-01-08 11:05
本发明专利技术公开了一种基于随机森林模型的历史耕地分布重建方法,包括以下步骤:S1:历史耕地数据资料查询,空间数据搜集。S2:对各时段耕地面积数据进行校准、插值和验证,以获得统一标准下的分县耕地面积数据集。S3:选取影响耕地分布的自然和社会区位因子,结合当代遥感影像,对随机森林分类模型进行训练;基于各影响因素对模型的贡献程度,筛选模型特征参数。S4:基于训练得到的随机森林分类模型以及预处理后的耕地面积,对耕地面积进行空间分配,并进行迭代。本发明专利技术优点是:实现由耕地重建垦殖率数据向布尔型数据的转变,大幅度提高了耕地空间布局重建的分辨率与精度,解决了与现有及未来高分辨率遥感影像的衔接。来高分辨率遥感影像的衔接。来高分辨率遥感影像的衔接。

【技术实现步骤摘要】
一种基于随机森林模型的历史耕地分布重建方法


[0001]本专利技术涉及耕地重建
,特别涉及一种能解决高维输入参数、高效可靠的基于随机森林模型的历史耕地空间分布重建方法。

技术介绍

[0002]近百年来,由于人口激增对食物和原材料的需求不断增长,土地利用和覆被变化(LUCC)过程发生了巨大的变化。耕地是土地资源利用中最为活跃的方式之一,对农业粮食生产、全球变化、区域生态系统服务具有重大影响。长时间耕地时空数据集可以为理解区域农业发展轨迹提供一个全面的视角,对于提出未来环境或经济战略具有重要意义。同时,重建的数据集也可应用于国家和全球碳排放核算和陆地生态系统生态模拟中。然而,目前所广泛使用的是基于传统方法开发的中低分辨率农田数据集。因此,迫切需要一个长时序、高分辨率的农田数据集,以提高生态模拟精度并为未来决策服务。
[0003]近年来,在LUCC、BIOME300等研究计划的推动下,定量重建历史土地覆被的工作取得重大突破,尤其是一些区域和全球土地覆被数据集的建立。耕地空间布局的重建建立在数量重建的基础上,即将数量重建的结果在研究区范围内进行分配。其中最常用的方法是“自上而下”的静态配置模型,该模型根据土地适宜性、人口密度或当代土地利用模式将定量重建的历史LUCC数据分配到相应的空间网格中,具有代表性的全球尺度产品之一是全球环境历史数据库(HYDE),但它从人口和消费等社会经济参数中间接得出,因此在局部地区的分辨率较低。另一种方法是通过“自下而上”的空间演化模型,在传统配置模型的基础上考虑了元胞状态或人类土地利用活动方式。在局部或区域尺度上,通过元胞自动机模型或融入了耕地利用主体行为规则的多智能体模型,通过循环迭代完成耕地空间布局的模拟。当前,国内耕地格局重建主要用到的模型或方法包括网络化重建模型、分区网络化模型、垦殖倾向指数模型、基于土地适宜性的空间分配模型、比例修正法等。
[0004]然而现有广泛使用的传统分配方法无法处理高维的数据、存在主观效应;它不仅需要对影响土地利用的因素进行选择、量化和归一化,还需要采用数学语言建立抽象函数或一系列模型来描述特征,计算成本较高,并且在时间或空间尺度上的扩展性有限。近来,机器学习算法正在成为模拟土地利用变化最强大的工具。随机森林(RF)模型是利用多棵树对样本进行训练并预测的一种分类器,该分类器可以输入大量变量,快速学习后输出高准确度的分类或回归结果,同时评估变量的重要性,不会产生过拟合问题。RF模型在处理高维输入数据集方面被证明是有效的,具有不考虑多重共线性、避免过拟合问题、运算速度快和可靠性高等优点,也已成功应用于预测短期土地利用变化。随着辅助数据类型和数量的增加,更需要RF等机器学习方法来处理这些高维、高分辨率的数据。RF算法通过客观训练,使得模拟结果从百分比形式向布尔型数据形式的转化成为可能;同时随机森林算法对变量共线性问题不敏感,在处理高维数据时无需进行降维,也无需对自变量进行标准化处理;随机森林算法的随机性大大减少了模型的过拟合现象;此外,随机森林算法可以对变量进行重要性排序,利于对影响耕地空间分布的因子贡献率进行分析解释。将随机森林为代表的机
器学习方法引入到耕地空间布局建模方法中,是耕地重建领域与新兴信息技术结合的一次尝试,充实了耕地空间布局重建的方法体系。

技术实现思路

[0005]本专利技术针对现有技术无法处理高维数据、主观色彩较重、变量解释性差、百分比形式的预测结果难以精确展现耕地空间分布的缺点,提供了一种基于随机森林模型的历史耕地分布重建方法,解决了现有技术存在的缺陷。
[0006]为了实现以上专利技术目的,本专利技术采取的技术方案如下:
[0007]一种基于随机森林模型的历史耕地分布重建方法,包括以下步骤:
[0008]S1:历史耕地数据资料查询,空间数据搜集。分区县搜集研究区民国时期地方志、民国和现代时期农业普查、调查资料、统计年鉴中的耕地面积记载数据;同时,搜集对耕地分布具有影响的自然和社会因素的矢量和栅格数据,包括地势地貌、气候、河流水文、土壤、自然灾害、道路、农村居民点、历史人口数据,并对数据进行预处理。
[0009]S2:耕地面积重建。对各个时段耕地面积数据进行校准、插值和验证,以获得统一标准下的分县耕地面积数据集。
[0010]S3:RF模型训练。在对历史耕地进行重建前,就研究区实际情况,选取影响耕地分布的自然和社会区位因子,结合当代遥感影像,对随机森林分类模型进行训练,以保障模型拟合优度;同时,基于各影响因素对模型的贡献程度,筛选模型特征参数。
[0011]S4:耕地历史分布重建。基于训练得到的各区县随机森林分类模型以及预处理后的耕地面积,在ArcGIS Pro下的Python3环境中,对各区县耕地面积进行空间分配,并进行迭代,最终得到各年份历史耕地空间分布。
[0012]进一步地,S3的具体子步骤如下:
[0013]S31:将所有空间数据转换成统一投影坐标系以及参考椭球体。
[0014]S32:对历史耕地分布具有影响的自然和社会区位因子进行空间量化处理。得到10个影响耕地分布的当代和历史自然和社会区位因素,包括:高程、坡度、地形起伏度、气候生产潜力、邻域耕地数量、与农村聚落的距离、与河流距离、洪涝风险、土壤侵蚀模数和土壤养分指数。
[0015]S33:训练随机森林分类模型。在随机森林分类模型中,以当代遥感解译的耕地分布作为因变量,影响耕地分布的自然和社会区位因素为自变量,对模型进行训练拟合。在训练模型前,按照8:2的比例将数据划分为训练集和测试集,便于对模型性能进行科学评估。在随机森林分类训练时,需要对n_estimators和max_features两个重要参数进行设定。n_estimators为随机森林建模过程中决策树的生长规模,随着n_estimators的增大,模型的收敛程度增加到一定水平时会趋于平稳,但模型运行时长也会相应增加。max_features为决策树的叶子节点在探寻最佳分枝时设定的变量个数。
[0016]S34:利用随机森林分类模型,通过对各影响因子对模型拟合的重要性进行排序。
[0017]进一步地,S4的具体子步骤如下:
[0018]S41:由于统计来源的耕地面积和遥感耕地面积存在差异,使用调和算法将耕地面积重建结果调整至遥感数据水平,调和算法如下:
[0019][0020][0021]以当代遥感影像年份作为起始年进行回溯调和,其中t1是当前年份;t2是当前年份的上一年(t2=t1

1);k是县份指数;是k县在t1年的耕地面积重建结果;是k县在t2年的耕地面积重建结果;是k县在t1年调和后的耕地面积;是k县在t2年调和后的耕地面积;α(k)是相对异常的权重,而1

α(k)是绝对异常的权重。
[0022]S42:将耕地起始年网格化数据、影响耕地空间分布的特征参数集、训练择优后的随机森林分类模型以及待重建年份的区县耕地面积导入到分配模型中。
[0023]S43:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于随机森林模型的历史耕地分布重建方法,其特征在于,包括以下步骤:S1:历史耕地数据资料查询,空间数据搜集;分区县搜集研究区民国时期地方志、民国和现代时期农业普查、调查资料、统计年鉴中的耕地面积记载数据;同时,搜集对耕地分布具有影响的自然和社会因素的矢量和栅格数据,包括地势地貌、气候、河流水文、土壤、自然灾害、道路、农村居民点、历史人口数据,并对数据进行预处理;S2:耕地面积重建;对各个时段耕地面积数据进行校准、插值和验证,以获得统一标准下的分县耕地面积数据集;S3:RF模型训练;在对历史耕地进行重建前,就研究区实际情况,选取影响耕地分布的自然和社会区位因子,结合当代遥感影像,对随机森林分类模型进行训练,以保障模型拟合优度;同时,基于各影响因素对模型的贡献程度,筛选模型特征参数;S4:耕地历史分布重建;基于训练得到的各区县随机森林分类模型以及预处理后的耕地面积,在ArcGIS Pro下的Python3环境中,对各区县耕地面积进行空间分配,并进行迭代,最终得到各年份历史耕地空间分布。2.根据权利要求1所述的历史耕地分布重建方法,其特征在于:S3的具体子步骤如下:S31:将所有空间数据转换成统一投影坐标系以及参考椭球体;S32:对历史耕地分布具有影响的自然和社会区位因子进行空间量化处理;得到10个影响耕地分布的当代和历史自然和社会区位因素,包括:高程、坡度、地形起伏度、气候生产潜力、邻近耕地、与最近的居民点距离、与河流距离、洪涝风险、土壤侵蚀和土壤肥力;S33:训练随机森林分类模型;在随机森林分类模型中,以当代遥感解译的耕地分布作为因变量,影响耕地分布的自然和社会区位因素为自变量,对模型进行训练拟合;在训练模型前,按照8:2的比例将数据划分为训练集和测试集,便于对模型性能进行科学评估;在随机森林分类训练时,需要对n_estim...

【专利技术属性】
技术研发人员:王启熊敏高雪松李豪李启权张文英陈建兴
申请(专利权)人:四川农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1