基于改进聚类算法优化随机森林的人口空间化方法及系统技术方案

技术编号：35102422 阅读：42 留言：0更新日期：2022-10-01 17:10

本发明专利技术公开了基于改进聚类算法优化随机森林的人口空间化方法及系统，涉及人口空间化技术领域，解决了现有训练集数据分布不均衡，影响模型预测精度的问题，其技术方案要点是：采集多个对人口空间分布有影响的特征因子数据，预处理后按区域进行统计，得到各区域中各个特征因子数据的平均值和人口密度数据，分析各个特征因子数据与人口密度数据的相关性，筛选相关性高的特征因子数据构建模型特征库，在模型特征库内划分训练集和测试集；模型构建时，先对训练集进行聚类处理，降低训练集的非均衡性，再构建随机森林模型，可以提高模型对大差异人口密度区域预测的准确性。大差异人口密度区域预测的准确性。大差异人口密度区域预测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于改进聚类算法优化随机森林的人口空间化方法及系统

[0001]本专利技术涉及人口空间化
，更具体地说，它涉及基于改进聚类算法优化随机森林的人口空间化方法及系统。

技术介绍

[0002]人口数据空间化是通过构建与人口空间分布相关的指标体系，利用数学模型将基于行政区划的人口数据分配到规则格网，从而反演人口数据的空间分布。对于生态环境保护、灾害评估与救援、商业决策及城市规划与管理等方面具有重要的指导意义。
[0003]多年来，众多学者对人口数据空间化展开了深入研究，经历了从简单的空间插值方法到结合机器学习方法进行建模、从单一数据支撑到多源数据融合的发展阶段。目前，很多学者利用机器学习方法开展人口数据空间化研究，如卷积神经网络、深度神经网络、随机森林模型等，其中随机森林模型应用最多且效果较佳，然而该模型在处理非平衡数据集时存在局限，非平衡数据表现为各个类别的样本数目相差巨大，多数类样本在数量上占据优势，现有的随机森林模型在构建过程中采用bootstrap随机采样，在一定概率的情况下，随机抽取的数据均来自于多数类，使得训练集数据的分布不具有代表性，从而影响随机森林模型的预测精度。
[0004]人口空间分布非均衡性是人口分布的重要特征，基于此特征下的人口数据构建模型就会出现与非平衡数据相同的问题，导致模型对人口密度差异大的区域预测准确率较低。

技术实现思路

[0005]本专利技术的目的是提供基于改进聚类算法优化随机森林的人口空间化方法及系统，弥补上述随机森林模型进行人口数据空间化时的不足。...

【技术保护点】

【技术特征摘要】
1.基于改进聚类算法优化随机森林的人口空间化方法，其特征是：包括S1、获取人口密度数据和影响人口空间分布的多个特征因子数据；S2、对所述多个特征因子数据和人口密度数据进行预处理，并对预处理后的多个特征因子数据和人口密度数据按区域进行统计，得到区域尺度下各特征因子数据的平均值和人口密度数据；S3、对所述区域尺度下各特征因子数据的平均值和人口密度数据进行筛选处理，构建模型特征库，对所述模型特征库内的数据进行归一化处理，并将所述模型特征库内的数据划分为训练集和测试集；S4、对所述训练集进行聚类处理，得到k类数据，通过所述k类数据构造训练子集，训练高精度随机森林模型；S5、将所述测试集输入所述高精度随机森林模型，得到预测的各区域的人口密度数据。2.根据权利要求1所述的基于改进聚类算法优化随机森林的人口空间化方法，其特征是：所述对所述多个特征因子数据和人口密度数据进行预处理，包括：对所述多个特征因子数据和人口密度数据进行投影、拼接裁剪和重采样，所述重采样的像元大小为网格尺度，所述网格尺度为最小乡镇面积/街道面积的10％的平方根。3.根据权利要求1所述的基于改进聚类算法优化随机森林的人口空间化方法，其特征是：所述对所述区域尺度下各特征因子数据的平均值和人口密度数据进行筛选处理，构建模型特征库，包括：计算各特征因子数据与人口密度数据的Pearson相关性系数以及显著性检验值；提取显著性检验值小于0.05的特征因子数据，构建模型特征库。4.根据权利要求3所述的基于改进聚类算法优化随机森林的人口空间化方法，其特征是：所述计算各特征因子数据与人口密度数据的Pearson相关性系数，通过如下公式进行：其中，R为Pearson相关性系数，n为区域的个数，x
i
为第i个区域的特征因子数据，y
i
为第i个区域的人口密度数据，为n个区域的特征因子数据的平均值，为n个区域的人口密度数据的平均值。5.根据权利要求1所述的基于改进聚类算法优化随机森林的人口空间化方法，其特征是：所述对所述训练集进行聚类处理，得到k类数据，通过以下步骤得到：S411、通过Elbow method计算所述训练集的最佳聚类数K；S412、从训练集中随机选择一个点作为聚类中心，计算训练集中各点与聚类中心的距离以及各点被选为下一个聚类中心的概率，采用轮盘法选出概率最大的点作为下一个聚类中心，直至选出K个聚类中心；S413、计算各点到各聚类中心的欧氏距离，将其划分给最近聚类中心所代表的簇中；计算各簇中所有点的均值作为新的聚类中心；S414、迭代步骤S...

【专利技术属性】
技术研发人员：赵真，郭红梅，张莹，江雪梨，鲁长江，张威，龙建宇，何宗杭，
申请(专利权)人：四川省震灾风险防治中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人