交通信号灯控制方法、装置、设备及存储介质制造方法及图纸

技术编号：40574378 阅读：21 留言：0更新日期：2024-03-06 17:15

本发明专利技术涉及交通技术领域，尤其涉及一种交通信号灯控制方法、装置、设备及存储介质。该方法包括：获取目标交通路口的实时交通流数据；将实时交通流数据输入预先部署的信控策略，获取信控策略输出的交通信号灯配时方案，其中，信控策略为基于目标交通路口的历史交通流数据学习得到的控制策略；基于交通信号灯配时方案，调整目标交通路口的交通信号灯的配时。本发明专利技术用以解决现有技术中交通信号灯控制与真实交通状况脱节的缺陷。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及交通，尤其涉及一种交通信号灯控制方法、装置、设备及存储介质。

技术介绍

1、优化城市交通信号控制，降低路口通行延误水平，减少居民出行成本，切实改善城市民生服务水平，具有重要的社会及经济价值。

2、传统交通工程领域的信号灯控制优化方法主要依赖大量实践中统计的工程经验，通过实地收集或假设一系列交通参数(例如交叉口几何结构，车辆、行人通行速度与时间、各方向车流量、绿信比等)，使用经验公式计算优化的信号灯配时方案。采用这种方式收集交通参数需要花费大量的人力、物力，无疑提高了大规模应用的难度。此外，传统经验公式中包含对交通参数的大量人为、工程经验假设，缺少对实际路口真实交通状况的考虑。

3、现阶段基于交通仿真模拟器和强化学习的信号控制优化方法使用传统微观交通仿真模拟器以及在线强化学习的方法对信号控制进行模拟优化。传统微观交通仿真模拟器主要基于交通流理论中的跟驰模型(car-following model)，对车辆的行驶行为以及相邻车辆间的跟驰行为进行仿真模拟。微观交通仿真模拟器主要用于模拟不同交通流、信号灯配时参数下的交叉口交通状况，模拟生成的数据被用在强化学习算法之中，通过反复的迭代以寻找最优的信号灯配时策略。此种方法的劣势在于需要对各交叉口分别建模、采集数据和训练强化学习模型，缺乏通用性。对复杂或大规模路口建模时会出现工程量和复杂度大的问题。此外，仿真模型对车辆行驶行为的描述高度理想化，往往与现实世界中的车辆行驶行为偏差较大。容易造成对仿真模拟下的交通状况过度乐观的估计，使得信号配时优化方案的失准

4、总而言之，现有技术普遍缺乏对真实路口高实时交通数据的考虑与利用，导致优化方案可能出现与实际交通状况的脱节失准，以及缺乏灵活性、普适性。因此，需要新的可利用城市实际道路交通系统采集的大量真实路口数据进行建模及调优的技术方法，解决现有数据驱动信控优化技术与真实交通状况脱节，且无法低成本、规模化部署落地的现实挑战。

技术实现思路

1、本专利技术提供一种交通信号灯控制方法、装置、设备及存储介质，用以解决现有技术中交通信号灯控制与真实交通状况脱节的缺陷。

2、本专利技术提供一种交通信号灯控制方法，包括：获取目标交通路口的实时交通流数据；将所述实时交通流数据输入预先部署的信控策略，获取所述信控策略输出的交通信号灯配时方案，其中，所述信控策略为基于所述目标交通路口的历史交通流数据学习得到的控制策略；基于所述交通信号灯配时方案，调整所述目标交通路口的交通信号灯的配时。

3、根据本专利技术提供的一种交通信号灯控制方法，所述信控策略的学习过程如下：获取所述目标交通路口的所述历史交通流数据，其中，所述历史交通流数据包括预设历史时段内的历史流量数据和历史排队数据；基于所述历史交通流数据，计算最大排队长度，以及构建奖励函数；基于所述历史交通流数据和所述最大排队长度，以最大化所述奖励函数为目标，进行无模型的离线强化学习，获得所述信控策略。

4、根据本专利技术提供的一种交通信号灯控制方法，所述基于所述历史交通流数据，计算最大排队长度，包括：基于预设的状态建模方式，对所述历史交通流数据进行统一格式化处理，获得状态特征和动作特征；基于所述状态特征和所述动作特征，计算状态参数的估算值，其中，所述状态参数为车道级排队参数；基于所述状态参数的估算值，计算所述最大排队长度。

5、根据本专利技术提供的一种交通信号灯控制方法，所述基于所述状态参数的估算值，计算所述最大排队长度，包括：对于任意一个信号灯周期，基于所述状态参数的估算值，计算所述最大排队长度；对于多信号灯周期，解析得到每一个所述信号灯周期分别对应的状态特征，每一个所述信号灯周期分别对应的所述状态参数的估算值，分别计算每一个所述信号灯周期分别对应所述最大排队长度，其中，所述多信号灯周期包括至少两个所述信号灯周期。

6、根据本专利技术提供的一种交通信号灯控制方法，所述基于所述历史交通流数据和所述最大排队长度，以最大化所述奖励函数为目标，进行无模型的离线强化学习，获得所述信控策略，包括：将所述最大排队长队更新至所述状态特征；基于所述动作特征和更新后的所述状态特征，以最大化所述奖励函数为目标，以马尔可夫决策为基础，进行无模型的离线强化学习，获得所述信控策略。

7、根据本专利技术提供的一种交通信号灯控制方法，所述马尔可夫决策包括预先配置的行为策略约束项；基于所述动作特征和更新后的所述状态特征，以最大化所述奖励函数为目标，以马尔可夫决策过程为基础，进行无模型的离线强化学习，获得所述信控策略，包括：基于所述动作特征和更新后的所述状态特征，以最大化所述奖励函数为目标，以包括所述行为策略约束项的马尔可夫决策过程为基础，进行无模型的离线强化学习，获得所述信控策略。

8、根据本专利技术提供的一种交通信号灯控制方法，所述基于所述历史交通流数据和所述最大排队长度，以最大化所述奖励函数为目标，进行无模型的离线强化学习，获得所述信控策略之前，还包括：在所述历史交通流数据的基础上添加高斯噪声，更新所述历史交通流数据。

9、本专利技术还提供一种交通信号灯控制装置，包括：获取模块，用于获取目标交通路口的实时交通流数据；处理模块，用于将所述实时交通流数据输入预先部署的信控策略，获取所述信控策略输出的交通信号灯配时方案，其中，所述信控策略为基于所述目标交通路口的历史交通流数据学习得到的控制策略；调整模块，用于基于所述交通信号灯配时方案，调整所述目标交通路口的交通信号灯的配时。

10、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述交通信号灯控制方法。

11、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述交通信号灯控制方法。

12、本专利技术提供的交通信号灯控制方法、装置、设备及存储介质，获取目标交通路口的实时交通流数据；将实时交通流数据输入预先部署的信控策略，获取信控策略输出的交通信号灯配时方案，其中，信控策略为基于目标交通路口的历史交通流数据学习得到的控制策略；基于交通信号灯配时方案，调整目标交通路口的交通信号灯的配时。通过目标交通路口的实时交通流数据，由预先部署的信控策略实时调整目标交通路口的交通信号灯的配时，更加贴合目标交通路口的真实交通状况。同时，信控策略为基于目标交通路口的历史交通流数据学习得到的控制策略，进一步提升目标交通路口交通信号灯控制符合目标交通路口的真实状况。

本文档来自技高网...

【技术保护点】

1.一种交通信号灯控制方法，其特征在于，包括：

2.根据权利要求1所述的交通信号灯控制方法，其特征在于，所述信控策略的学习过程如下：

3.根据权利要求2所述的交通信号灯控制方法，其特征在于，所述基于所述历史交通流数据，计算最大排队长度，包括：

4.根据权利要求3所述的交通信号灯控制方法，其特征在于，所述基于所述状态参数的估算值，计算所述最大排队长度，包括：

5.根据权利要求3所述的交通信号灯控制方法，其特征在于，所述基于所述历史交通流数据和所述最大排队长度，以最大化所述奖励函数为目标，进行无模型的离线强化学习，获得所述信控策略，包括：

6.根据权利要求5所述的交通信号灯控制方法，其特征在于，所述马尔可夫决策包括预先配置的行为策略约束项；

7.根据权利要求2所述的交通信号灯控制方法，其特征在于，所述基于所述历史交通流数据和所述最大排队长度，以最大化所述奖励函数为目标，进行无模型的离线强化学习，获得所述信控策略之前，还包括：

8.一种交通信号灯控制装置，其特征在于，包括：

9.一种电子设备

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的交通信号灯控制方法。

...

【技术特征摘要】

1.一种交通信号灯控制方法，其特征在于，包括：

2.根据权利要求1所述的交通信号灯控制方法，其特征在于，所述信控策略的学习过程如下：

3.根据权利要求2所述的交通信号灯控制方法，其特征在于，所述基于所述历史交通流数据，计算最大排队长度，包括：

4.根据权利要求3所述的交通信号灯控制方法，其特征在于，所述基于所述状态参数的估算值，计算所述最大排队长度，包括：

6.根据权利要求5所述的交通信号灯控制方法，其特征在于，所述...

【专利技术属性】
技术研发人员：詹仙园，李健雄，袁基睿，梅雨，田楚杰，宋健，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人