本发明专利技术公开了基于改进聚类算法优化随机森林的人口空间化方法及系统,涉及人口空间化技术领域,解决了现有训练集数据分布不均衡,影响模型预测精度的问题,其技术方案要点是:采集多个对人口空间分布有影响的特征因子数据,预处理后按区域进行统计,得到各区域中各个特征因子数据的平均值和人口密度数据,分析各个特征因子数据与人口密度数据的相关性,筛选相关性高的特征因子数据构建模型特征库,在模型特征库内划分训练集和测试集;模型构建时,先对训练集进行聚类处理,降低训练集的非均衡性,再构建随机森林模型,可以提高模型对大差异人口密度区域预测的准确性。大差异人口密度区域预测的准确性。大差异人口密度区域预测的准确性。
【技术实现步骤摘要】
基于改进聚类算法优化随机森林的人口空间化方法及系统
[0001]本专利技术涉及人口空间化
,更具体地说,它涉及基于改进聚类算法优化随机森林的人口空间化方法及系统。
技术介绍
[0002]人口数据空间化是通过构建与人口空间分布相关的指标体系,利用数学模型将基于行政区划的人口数据分配到规则格网,从而反演人口数据的空间分布。对于生态环境保护、灾害评估与救援、商业决策及城市规划与管理等方面具有重要的指导意义。
[0003]多年来,众多学者对人口数据空间化展开了深入研究,经历了从简单的空间插值方法到结合机器学习方法进行建模、从单一数据支撑到多源数据融合的发展阶段。目前,很多学者利用机器学习方法开展人口数据空间化研究,如卷积神经网络、深度神经网络、随机森林模型等,其中随机森林模型应用最多且效果较佳,然而该模型在处理非平衡数据集时存在局限,非平衡数据表现为各个类别的样本数目相差巨大,多数类样本在数量上占据优势,现有的随机森林模型在构建过程中采用bootstrap随机采样,在一定概率的情况下,随机抽取的数据均来自于多数类,使得训练集数据的分布不具有代表性,从而影响随机森林模型的预测精度。
[0004]人口空间分布非均衡性是人口分布的重要特征,基于此特征下的人口数据构建模型就会出现与非平衡数据相同的问题,导致模型对人口密度差异大的区域预测准确率较低。
技术实现思路
[0005]本专利技术的目的是提供基于改进聚类算法优化随机森林的人口空间化方法及系统,弥补上述随机森林模型进行人口数据空间化时的不足。
[0006]本专利技术的上述技术目的是通过以下技术方案得以实现的:包括
[0007]S1、获取人口密度数据和影响人口空间分布的多个特征因子数据;
[0008]S2、对所述多个特征因子数据和人口密度数据进行预处理,并对预处理后的多个特征因子数据和人口密度数据按区域进行统计,得到区域尺度下各特征因子数据的平均值和人口密度数据;
[0009]S3、对所述区域尺度下各特征因子数据的平均值和人口密度数据进行筛选处理,构建模型特征库,对所述模型特征库内的数据进行归一化处理,并将所述模型特征库内的数据划分为训练集和测试集;
[0010]S4、对所述训练集进行聚类处理,得到k类数据,通过所述k类数据构造训练子集,训练高精度随机森林模型;
[0011]S5、将所述测试集输入所述高精度随机森林模型,得到预测的各区域的人口密度数据。
[0012]采用上述技术方案,采集多个对人口空间分布有影响的特征因子数据,预处理后
按区域进行统计,得到各区域中各个特征因子数据的平均值和人口密度数据,分析各个特征因子数据与人口密度数据的相关性,筛选相关性高的特征因子数据构建模型特征库,在模型特征库内划分训练集和测试集;模型构建时,先对训练集进行聚类处理,降低训练集的非均衡性,再构建随机森林模型,可以提高模型对大差异人口密度区域预测的准确性,最后再通过测试集验证随机森林模型。
[0013]进一步的,所述对所述多个特征因子数据和人口密度数据进行预处理,包括:对所述多个特征因子数据和人口密度数据进行投影、拼接裁剪和重采样,所述重采样的像元大小为网格尺度,所述网格尺度为最小乡镇面积/街道面积的10%的平方根。
[0014]采用上述技术方案,将多个特征因子数据和人口密度数据细化到网格尺度,可确定各个网格内的多个特征因子数据和人口密度数据,便于按区域进行统计,得到区域尺度下各特征因子数据的平均值和人口密度数据。
[0015]进一步的,所述对所述区域尺度下各特征因子数据的平均值和人口密度数据进行筛选处理,构建模型特征库,包括:计算各特征因子数据与人口密度数据的Pearson相关性系数以及显著性检验值;提取显著性检验值小于0.05的特征因子数据,构建模型特征库。
[0016]采用上述技术方案,筛选相关性较好的特征因子数据构建模型特征库,排除低相关性数据的干扰。
[0017]进一步的,所述计算各特征因子数据与人口密度数据的Pearson相关性系数,通过如下公式进行:
[0018][0019]其中,R为Pearson相关性系数,n为区域的个数,x
i
为第i个区域的特征因子数据的特征值,y
i
为第i个区域的人口密度数据,为n个区域的特征因子数据的平均值,为n个区域的人口密度数据的平均值。
[0020]进一步的,所述对所述训练集进行聚类处理,得到训练子集,通过以下步骤得到:
[0021]S411、通过Elbow method计算所述训练集的最佳聚类数K;
[0022]S412、从训练集中随机选择一个点作为第一初始聚类中心,计算训练集中各点与所述第一初始聚类中心的距离以及各点被选为下一个聚类中心的概率,采用轮盘法选出概率最大的点作为下一个聚类中心,直至选出K个聚类中心;
[0023]S413、计算各点到各聚类中心的欧氏距离,将其划分给最近聚类中心所代表的簇中;计算各簇中所有点的均值作为新的聚类中心;
[0024]S414、迭代步骤S413直至聚类中心不再变化,输出k类数据。
[0025]进一步的,所述各点被选为下一个聚类中心的概率,通过以下公式计算:
[0026][0027]其中,X为训练集,x为训练集中的一点,P为该点被选为下一个聚类中心的概率,D
(x)
为各点与聚类中心的距离中的最短距离。
[0028]采用上述技术方案,将训练集内的数据通过聚类算法分为K类,在K类数据中选取训练子集,可以有效的降低训练集内数据的非均衡性,避免非均衡数据对随机森林模型的
影响,提高随机森林模型的预测精度;且,聚类算法中,通过随机选择第一个聚类中心,计算各点到聚类中心的距离以及各点作为下一个聚类中心的概率,通轮盘法选择概率最大的点为下一个聚类中心,重复上述步骤直至确定K个聚类中心,可以避免聚类算法中,因初始聚类中心选取不当陷入局部最优解的问题。
[0029]进一步的,通过所述k类数据构造训练子集,训练高精度随机森林模型,通过以下步骤得到:
[0030]S421、通过Bootstrap重抽样法从所述k类数据中随机抽取等量数据,构成包含n个样本数据和k个特征的训练子集;
[0031]S422、按Gini指标从所述k个特征中选择最佳分割属性特征作为分割节点,通过所述n 个样本数据构建决策树;
[0032]S423、将步骤S422重复t次,构建t棵决策树,形成随机森林分类模型,所述t棵决策树的算术平均值为所述随机森林分类模型的输出;
[0033]S424、采用网格搜索法确定所述随机森林分类模型的最优参数,所述最优参数包括:决策树的棵数、决策树的最大深度以及决策树的最大特征数,得到高精度随机森林模型。
[0034]进一步的,还包括计算所述高精度随机森林模型的评价指标,所述评价指标包括平均绝对误差MAE、平均绝对误差百分比MAPE、均方根误差RMSE和决定系数本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于改进聚类算法优化随机森林的人口空间化方法,其特征是:包括S1、获取人口密度数据和影响人口空间分布的多个特征因子数据;S2、对所述多个特征因子数据和人口密度数据进行预处理,并对预处理后的多个特征因子数据和人口密度数据按区域进行统计,得到区域尺度下各特征因子数据的平均值和人口密度数据;S3、对所述区域尺度下各特征因子数据的平均值和人口密度数据进行筛选处理,构建模型特征库,对所述模型特征库内的数据进行归一化处理,并将所述模型特征库内的数据划分为训练集和测试集;S4、对所述训练集进行聚类处理,得到k类数据,通过所述k类数据构造训练子集,训练高精度随机森林模型;S5、将所述测试集输入所述高精度随机森林模型,得到预测的各区域的人口密度数据。2.根据权利要求1所述的基于改进聚类算法优化随机森林的人口空间化方法,其特征是:所述对所述多个特征因子数据和人口密度数据进行预处理,包括:对所述多个特征因子数据和人口密度数据进行投影、拼接裁剪和重采样,所述重采样的像元大小为网格尺度,所述网格尺度为最小乡镇面积/街道面积的10%的平方根。3.根据权利要求1所述的基于改进聚类算法优化随机森林的人口空间化方法,其特征是:所述对所述区域尺度下各特征因子数据的平均值和人口密度数据进行筛选处理,构建模型特征库,包括:计算各特征因子数据与人口密度数据的Pearson相关性系数以及显著性检验值;提取显著性检验值小于0.05的特征因子数据,构建模型特征库。4.根据权利要求3所述的基于改进聚类算法优化随机森林的人口空间化方法,其特征是:所述计算各特征因子数据与人口密度数据的Pearson相关性系数,通过如下公式进行:其中,R为Pearson相关性系数,n为区域的个数,x
i
为第i个区域的特征因子数据,y
i
为第i个区域的人口密度数据,为n个区域的特征因子数据的平均值,为n个区域的人口密度数据的平均值。5.根据权利要求1所述的基于改进聚类算法优化随机森林的人口空间化方法,其特征是:所述对所述训练集进行聚类处理,得到k类数据,通过以下步骤得到:S411、通过Elbow method计算所述训练集的最佳聚类数K;S412、从训练集中随机选择一个点作为聚类中心,计算训练集中各点与聚类中心的距离以及各点被选为下一个聚类中心的概率,采用轮盘法选出概率最大的点作为下一个聚类中心,直至选出K个聚类中心;S413、计算各点到各聚类中心的欧氏距离,将其划分给最近聚类中心所代表的簇中;计算各簇中所有点的均值作为新的聚类中心;S414、迭代步骤S...
【专利技术属性】
技术研发人员:赵真,郭红梅,张莹,江雪梨,鲁长江,张威,龙建宇,何宗杭,
申请(专利权)人:四川省震灾风险防治中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。