一种基于Q-Learning强化学习的模块化公交系统技术方案

技术编号：43210969 阅读：11 留言：0更新日期：2024-11-05 17:06

本发明专利技术提供了一种基于Q‑Learning强化学习的模块化公交系统，属于智能公交技术领域，包括服务终端、服务模式、运营调度系统和智能公交，所述的运营调度系统的数据信息通过Q‑Learning算法计算出最佳运营调度，把最佳运营调度的信息反馈给智能公交，两个所述智能公交之间可进行电力输送，采用粒子群算法对于每个智能公交求解出最佳充电位置；采用以上算法后，本发明专利技术具有如下优点：本发明专利技术通过Q‑learning，改进Q‑learning算法使其成为可以快速定制上门接送所有乘客的专属路线，提高公交出行方式的影响力。根据乘客实时的动态请求优化生成不同的线路，为乘客提供高效合理的出行服务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能公交，具体是指一种基于q-learning强化学习的模块化公交系统。

技术介绍

1、随着城市的快速发展，城市人口不断增加，私家车的数量也随着大量增长，造成了交通拥堵和环境污染问题日益严峻。充分发挥城市公共交通系统的作用，能够缓解这些问题。但是目前公共交通也有乘客等待时间较长和乘客满意度较低的问题。如何有效的解决现有的问题，是增加公共交通吸引力的关键。公交调度是公交企业日常运营活动的中心，它直接影响到运营成本和乘客满意度。符合客流规律的公交调度方案能够根据客流量的变化调整发车间隔，加强了公交服务的针对性，减少了乘客的等车时间，提高了公交服务质量，增加公共交通的吸引力。

2、公交调度的目的就是在满足乘客出行需求的情况下，尽量节省运营成本。这两个相互矛盾的要求导致这是一个多目标优化问题。同时，公交调度要受到公交企业运营成本、车队规模等多方面的约束。怎样在同时满足客流量需求和约束条件下，找到合适的方法在合理的时间内确定公交调度方案，是实现智能化公交调度的关键。公交调度分为静态调度和动态调度两个部分，静态调度主要是指制订每条线路的发车时刻表，动态调度主要完成当出现车辆、客流等突发情况时对已有的发车时刻表进行调整。在日常运营中，静态调度为主，动态调度为辅。本专利技术主要涉及如何使用改进的混合启发式算法来解决快速公交的静态调度问题。

3、目前，国内外在此领域的研究有很多，但是每个城市公交系统的具体情况都不同，没有一种较为通用的能够结合历史运营数据进行公交调度的方法。在这些研究中有很多人使用遗传算法等启

4、随着人工智能、车路协同和自动驾驶车辆等技术的发展，一种新兴的电动模块车因其自适应的载客容量吸引了越来越多的关注。起初，意大利的工业设计师tommasogecchelin在2012年首次提出了一种各车舱之间可以组合与分离的公共交通工具即模块化电动公交的概念原型。2018年，nextfuture公司在迪拜推出了功能齐全的模块化电动公交模型并进行了测试，因此模块化电动公交引发了诸多学者的关注。在后来的研究中，guo等人表明，模块化公交系统提供了在固定和灵活交通服务之间进行切换的机会。chen等首先联合优化了车头时距和起始站的车辆容量。但截止到目前为止，并未存在一种能够较高效的分配模块化电动公交车资源的算法技术方案。所以，在模块化公交系统的研究上，还有很大的空间等着探索进步。

技术实现思路

1、本专利技术要解决上述技术问题，提供一种基于q-learning强化学习的模块化公交系统。

2、为解决上述技术问题，本专利技术提供的技术方案为：

3、一种基于q-learning强化学习的模块化公交系统，包括服务终端、服务模式、运营调度系统和智能公交，所述的运营调度系统的数据信息通过q-learning算法计算出最佳运营调度，把最佳运营调度的信息反馈给智能公交；

4、所述q-learning算法计算公式(1)为：

5、q(s,a)i＝q(s,a)i-1+α[r(s,a,s′)+γ×maxa′q(s′,a′)-q(s,a)i–1] (1)

6、同时设置奖励和惩罚函数，所述奖励和惩罚函数的计算公式(2)为：

7、r(s,a,s′)＝-φ·t+θ·n (2)

8、两个所述智能公交之间可进行电力输送，采用蒙特卡洛法建立一个预测模型，将智能公交的行驶路线和电量剩余输入模型，让其作为驱动预测的自变量和要确定的因变量，然后将自变量制定概率分布；

9、采用粒子群算法对于每个智能公交求解出最佳充电位置；

10、所述采用粒子群算法计算公式(3)(4)为：

11、

12、优选地，所述公式(1)为q-learning迭代更新公式，根据maxa′q(s′,a′)，即下一个状态s′中选取最大的q(s′,a′)i值乘以折扣因子γ加上真实回报值为q现实，而根据过往q表中的q(s′,a′)i-1作为q估计，i为迭代数，通过更新其估计值来逼近真实q现实，学习率α是新学习经验的权重，α∈(0,1)。

13、优选地，q表格中，若q(s1,a1)＝-2要小于q(s1,a2)＝1，所以判断要选择a2作为下一个行为。现在的状态更新为s2，还是有两个同样的选择，重复上面的过程，在行为准则q表中寻找q(s2,a1)q(s2,a2)的值，并比较他们的大小，选取比较大的一个。

14、优选地，所述的公式(1)的a为动作；s为状态；α是学习率，为新学习经验的权重，α∈(0,1)；γ是折扣因子，为决定未来状态重要性的变量，式(1)表示，根据maxa′q(s′,a′)，即下一个状态s′中选取最大的q(s,a)i–1值乘以折扣因子γ加上真实回报值为q现实，而根据过往q表中的q(s,a)i–1作为q估计。

15、优选地，所述式(3)中为种群c中粒子d在第t+1迭代过程中的速度；为种群c中粒子d在第t次迭代过程中的位置；r1,r2,r3为[0,1]范围内的随机数；e1,e2,e3为学习系数；为种群c中粒子d的历史最佳位置；g1和g为种群和全局最佳位置；x为收缩因子；ω为惯性权重。

16、优选地，所述式(2)中t按照道路等级和交通车辆行驶速度分为5个等级，采用k-means算法对于乘客分布进行聚类分析，每一个乘客奖励值为1。

17、采用以上算法后，本专利技术具有如下优点：

18、本专利技术通过q-learning，改进q-learning算法使其成为可以快速定制上门接送所有乘客的专属路线，提高公交出行方式的影响力。可以自动学习最优的线路选择策略，根据乘客实时的动态请求优化生成不同的线路，为乘客提供高效合理的出行服务，这对定制公交提升开线效率、提高出行服务水平以及吸引更多私家车用户具有重要理论研究价值和实践意义。

19、上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本专利技术进一步的方面、实施方式和特征将会是容易明白的。

本文档来自技高网...

【技术保护点】

1.一种基于Q-Learning强化学习的模块化公交系统，其特征在于，包括服务终端、服务模式、运营调度系统和智能公交，所述的运营调度系统的数据信息通过Q-Learning算法计算出最佳运营调度，把最佳运营调度的信息反馈给智能公交；

2.根据权利要求1所述的一种基于Q-Learning强化学习的模块化公交系统，其特征在于：所述公式(1)为Q-learning迭代更新公式，根据maxa′Q(s′,a′)，即下一个状态s′中选取最大的Q(s′,a′)i值乘以折扣因子γ加上真实回报值为Q现实，而根据过往Q表中的Q(s′,a′)i-1作为Q估计，i为迭代数，通过更新其估计值来逼近真实Q现实，学习率α是新学习经验的权重，α∈(0,1)。

3.根据权利要求1所述的一种基于Q-Learning强化学习的模块化公交系统，其特征在于：Q表格中，若Q(s1,a1)＝-2要小于Q(s1,a2)＝1，所以判断要选择a2作为下一个行为，现在的状态更新为s2，还是有两个同样的选择，重复上面的过程，在行为准则Q表中寻找Q(s2,a1)Q(s2,a2)的值，并比较他们的大小，选取比较大的一个。

4.根据权利要求1所述的一种基于Q-Learning强化学习的模块化公交系统，其特征在于：所述的公式(1)的a为动作；s为状态；α是学习率，为新学习经验的权重，α∈(0,1)；γ是折扣因子，为决定未来状态重要性的变量，式(1)表示，根据maxa′Q(s′,a′)，即下一个状态s′中选取最大的Q(s,a)i–1值乘以折扣因子γ加上真实回报值为Q现实，而根据过往Q表中的Q(s,a)i–1作为Q估计。

5.根据权利要求1所述的一种基于Q-Learning强化学习的模块化公交系统，其特征在于：所述式(3)中为种群c中粒子d在第t+1迭代过程中的速度；为种群c中粒子d在第t次迭代过程中的位置；r1,r2,r3为[0,1]范围内的随机数；e1,e2,e3为学习系数；为种群c中粒子d的历史最佳位置；g1和G为种群和全局最佳位置；X为收缩因子；ω为惯性权重。

6.根据权利要求1所述的一种基于Q-Learning强化学习的模块化公交系统，其特征在于：所述式(2)中T按照道路等级和交通车辆行驶速度分为5个等级，采用K-means算法对于乘客分布进行聚类分析，每一个乘客奖励值为1。

...

【技术特征摘要】

1.一种基于q-learning强化学习的模块化公交系统，其特征在于，包括服务终端、服务模式、运营调度系统和智能公交，所述的运营调度系统的数据信息通过q-learning算法计算出最佳运营调度，把最佳运营调度的信息反馈给智能公交；

2.根据权利要求1所述的一种基于q-learning强化学习的模块化公交系统，其特征在于：所述公式(1)为q-learning迭代更新公式，根据maxa′q(s′,a′)，即下一个状态s′中选取最大的q(s′,a′)i值乘以折扣因子γ加上真实回报值为q现实，而根据过往q表中的q(s′,a′)i-1作为q估计，i为迭代数，通过更新其估计值来逼近真实q现实，学习率α是新学习经验的权重，α∈(0,1)。

3.根据权利要求1所述的一种基于q-learning强化学习的模块化公交系统，其特征在于：q表格中，若q(s1,a1)＝-2要小于q(s1,a2)＝1，所以判断要选择a2作为下一个行为，现在的状态更新为s2，还是有两个同样的选择，重复上面的过程，在行为准则q表中寻找q(s2,a1)q(s2,a2)的值，并比较他们的大小，选取比较大的一个。

...

【专利技术属性】
技术研发人员：许吴琦，刘星良，刘通，黄彦钧，白云天，吕沁函，
申请(专利权)人：重庆交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人