基于粒子群优化随机森林的出行方式选择预测方法及装置制造方法及图纸

技术编号：40286159 阅读：7 留言：0更新日期：2024-02-07 20:38

本发明专利技术公开了一种基于粒子群优化随机森林的出行方式选择预测方法及装置，该方法包括如下步骤：采集城市居民个人基本信息、出行相关信息和出行方式选择信息，并进行预处理，划分为训练集和测试集；采用粒子群优化随机森林模型，以粒子位置信息为基础生成随机森林，然后迭代求解模型最优参数，最后得到最优随机森林模型；将待预测的城市居民个人基本信息和出行相关信息输入最优随机森林模型，得到预测的出行方式。本发明专利技术克服了传统出行方式选择预测技术上的缺点，有效提高了出行方式选择预测的正确率和效率，为现状城市交通管理措施和未来城市交通系统发展策略的制定提供依据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及交通出行行为预测，尤其涉及一种基于粒子群优化随机森林的出行方式选择预测方法及装置。

技术介绍

1、城市居民交通出行行为是城市交通管理与控制和交通规划的重要部分和关键内容，居民出行方式选择直接影响着城市道路交通结构、交通资源分配、交通安全、交通基础设施建设、能源消耗和交通排放等方面。因此，对居民出行方式选择进行精准预测能够为现状城市交通管理措施和未来城市交通系统发展策略的制定提供宝贵的数据支撑。

2、现阶段，居民出行方式选择预测方法主要分为两类：一类是离散选择模型，如多项logit模型(mnl)等；另一类是机器学习模型，如随机森林模型(rf)等。离散选择模型建立在随机效用理论之上，可解释性强，但模型的使用拥有严格的假设条件，可能与实际情况不相符，且模型预测准确性不高，当变量复杂且具有高度非线性特性时，离散选择模型的应用受到限制。近年来，机器学习模型因其较高的预测准确性被广泛应用到出行方式选择预测的研究中，有效提高了出行方式选择预测的正确率，而有学者发现随机森林模型的预测性能要优于其他机器学习模型。然而随机森林模型也存在一定局限，该模型的使用需要提前输入部分超参数。确定超参数的值最普遍的方法是采用网格搜索算法进行求解，但是网格搜索算法计算量较大，且在超参数数量多、搜索范围广时搜索效率低下。

技术实现思路

1、专利技术目的：本专利技术针对现有技术存在的问题，提供一种效率更高、准确率更高的基于粒子群优化随机森林的出行方式选择预测方法及装置。

2、技术方

3、(1)采集城市居民个人基本信息、出行相关信息和出行方式选择信息；

4、(2)对采集到的信息按照预设方式进行预处理，并划分为训练集和测试集；

5、(3)采用粒子群优化随机森林模型，具体包括：粒子位置信息定义为随机森林模型超参数，以粒子种群中每一粒子初始位置或按照预设方式迭代更新后的位置信息为基础，根据训练集构建随机森林模型，将测试集输入构建的随机森林模型中，根据输出结果计算模型预测错误率，查找到迭代过程中每一粒子对应的最低预测错误率和对应粒子位置，作为每一粒子的粒子历史最佳位置和粒子历史最优错误率，再从所有粒子的历史最佳位置和历史最优错误率中，查找出粒子历史最优错误率最低值和对应粒子历史最佳位置，作为种群历史最优错误率和种群历史最佳位置，将种群历史最佳位置对应的随机森林模型作为最优随机森林模型；

6、(4)将待预测的城市居民个人基本信息和出行相关信息输入最优随机森林模型，得到预测的出行方式。

7、进一步的，步骤(2)具体包括：

8、(2-1)对采集的信息进行数据清洗，删除存在缺失值、异常值、逻辑不连贯以及简单题目不正确不合理数据；

9、(2-2)进行数据编码，将文本型数据、非连续型数据转换成为数值型数据；

10、(2-3)进行数据标准化，将不同量纲的数据转换成同一规格；

11、(2-4)进行特征选取，对属于不同类别下的属性特征进行相关性分析，剔除部分共线性高于预设阈值和与出行方式选择相关性低于预设阈值的变量；

12、(2-5)将经过预处理的数据按照预设比例划分成为训练集和测试集。

13、进一步的，步骤(3)具体包括如下步骤：

14、(3-1)初始化粒子种群基本参数，初始化粒子位置信息和搜索速度，设置粒子群优化最大迭代次数t，初始化每个粒子记忆库中记录的粒子历史最佳位置和粒子历史最优错误率，初始化种群记忆库中记录的种群历史最佳位置和种群历史最优错误率；

15、(3-2)以粒子种群中任一粒子的位置信息为基础，从训练集中有放回的重复抽样组成与训练集规模相同的训练子集，根据训练子集生长建模形成决策树，并不断重复从而构建多颗不同的决策树，组成随机森林模型，并保证随机森林模型满足该粒子位置信息的约束；

16、(3-3)将测试集输入到步骤(3-2)所构建的随机森林模型中，根据输出结果计算随机森林模型的预测错误率；若当前预测错误率低于该粒子记忆库记录的粒子历史最优错误率，则将该预测错误率和对应的粒子位置作为本轮迭代中该粒子的粒子历史最佳位置和粒子历史最优错误率，更新到粒子记忆库中；

17、(3-4)若当前预测错误率低于种群记忆库记录的种群历史最优错误率，则将该预测错误率和对应的粒子位置作为种群历史最佳位置和种群历史最优错误率，更新到种群记忆库中；

18、(3-5)重复执行步骤(3-2)～(3-4)，直至粒子种群中每一粒子被遍历；

19、(3-6)随机生成一个[0,1]范围内的数a，如果a<0.95，则进入步骤(3-7)；如果a≥0.95，则变异，重新初始化种群中每个粒子的位置信息和搜索速度，进入步骤(3-8)；

20、(3-7)根据粒子和种群历史最佳位置对粒子种群中所有粒子的位置信息进行更新；

21、(3-8)判断迭代次数是否达到最大迭代次数t，若否返回执行步骤(3-2)，若是，将此时种群历史最佳位置对应的随机森林模型作为最优随机森林模型。

22、进一步的，步骤(3-3)所述预测错误率的计算公式为：

23、

24、式中，test表示测试集中样本总数，false_p表示将测试集输入随机森林模型，预测结果错误的样本数量。

25、进一步的，步骤(3-7)中粒子种群中每一粒子的位置信息的更新公式为：

26、

27、

28、

29、式中，表示第t次迭代中更新后、前的粒子o位置信息第d维坐标分量；表示第t+1、t次迭代中，粒子o搜索速度的第d维速度分量；表示第t次迭代时，粒子o的粒子记忆库中记录的粒子历史最佳位置的第d维坐标分量；表示第t次迭代时，种群记忆库中记录的种群历史最佳位置第d维坐标分量；wt表示第t次迭代中，惯性权重的大小；r1、r2为两个属于[0,1]范围的随机数，防止粒子群算法陷入局部最优；t表示当前迭代次数，c1、c2为学习因子，wmax、wmin表示惯性权重的最大值、最小值。

30、本专利技术所述的基于粒子群优化随机森林的出行方式选择预测装置，包括：

31、数据采集模块，用于采集城市居民个人基本信息、出行相关信息和出行方式选择信息；

32、预处理模块，用于对采集到的信息按照预设方式进行预处理，并划分为训练集和测试集；

33、随机森林优化模块，用于采用粒子群优化随机森林模型，具体包括：粒子位置信息定义为随机森林模型超参数，以粒子种群中每一粒子初始位置或按照预设方式迭代更新后的位置信息为基础，根据训练集构建随机森林模型，将测试集输入构建的随机森林模型中，根据输出结果计算模型预测错误率，查找到迭代过程中每一粒子对应的最低预测错误率和对应粒子位置，作为每一粒子的粒子历史最佳位置和粒子历史最优错误率，再从所有粒子的历史最本文档来自技高网...

【技术保护点】

1.一种基于粒子群优化随机森林的出行方式选择预测方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的基于粒子群优化随机森林的出行方式选择预测方法，其特征在于：步骤(2)具体包括：

3.根据权利要求1所述的基于粒子群优化随机森林的出行方式选择预测方法，其特征在于：步骤(3)具体包括如下步骤：

4.根据权利要求3所述的基于粒子群优化随机森林的出行方式选择预测方法，其特征在于：步骤(3-3)所述预测错误率的计算公式为：

5.根据权利要求3所述的基于粒子群优化随机森林的出行方式选择预测方法，其特征在于：步骤(3-7)中粒子种群中每一粒子的位置信息的更新公式为：

6.一种基于粒子群优化随机森林的出行方式选择预测装置，其特征在于，该装置包括：

7.根据权利要求6所述的基于粒子群优化随机森林的出行方式选择预测装置，其特征在于：所述预处理模块具体包括：

8.根据权利要求6所述的基于粒子群优化随机森林的出行方式选择预测装置，其特征在于：所述随机森林优化模块具体包括：

9.根据权利要求8所述的

10.根据权利要求8所述的基于粒子群优化随机森林的出行方式选择预测装置，其特征在于：所述位置更新单元中粒子种群中每一粒子的位置信息的更新公式为：

...

【技术特征摘要】

1.一种基于粒子群优化随机森林的出行方式选择预测方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的基于粒子群优化随机森林的出行方式选择预测方法，其特征在于：步骤(2)具体包括：

3.根据权利要求1所述的基于粒子群优化随机森林的出行方式选择预测方法，其特征在于：步骤(3)具体包括如下步骤：

4.根据权利要求3所述的基于粒子群优化随机森林的出行方式选择预测方法，其特征在于：步骤(3-3)所述预测错误率的计算公式为：

5.根据权利要求3所述的基于粒子群优化随机森林的出行方式选择预测方法，其特征在于：步骤(3-7)中粒子种群中每一粒子的位置信息的更新公式为：<...

【专利技术属性】
技术研发人员：李文权，邓安鑫，郑炎，殷子娟，王白凡，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人