System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度强化学习的信号灯智能控制方法技术_技高网

一种基于深度强化学习的信号灯智能控制方法技术

技术编号:43627813 阅读:14 留言:0更新日期:2024-12-11 15:07
本发明专利技术特别涉及一种基于深度强化学习的信号灯智能控制方法。该基于深度强化学习的信号灯智能控制方法,基于SUMO仿真软件和python构建仿真平台,在SUMO仿真软件中搭建路网;基于柔性动作‑评价算法SAC设计入匝道车辆的控制策略模型;定义算法流程,对目标网络进行更新,以确保训练的稳定;进行模型训练,并通过车辆仿真技术验证模型的有效性;最后实时获取道路车辆信息,利用经过训练与验证的模型实现对信号灯的实时控制。该基于深度强化学习的信号灯智能控制方法,不仅能够控制信号灯相位,还可以根据各个道路的车流密度动态调整信号灯相位,进而平衡了各个方向车辆的等待时间,提高了路口的通行效率。

【技术实现步骤摘要】

本专利技术涉及智能交通,特别涉及一种基于深度强化学习的信号灯智能控制方法


技术介绍

1、随着城市中汽车保有量的增加,路网承受负荷加重,道路通行能力不满足当前需求,交通堵塞等问题在城市路网系统中愈发突出。交叉路口作为交通路网的瓶颈,其管理策略对路网的综合通行能力影响最深,现有的交叉路口信号灯调控手段仍有提升的余地。如何使其可以根据道路车辆的密度和分布状态动态调整相位策略,提高道路通行能力,是一个需要迫切解决的问题。

2、传统的信号灯智能控制方法往往不能充分利用现有的传感器、摄像头等联网设备收集的多维交通数据,大多依据专家的经验判断而设置信号灯相位,这种策略往往缺乏灵活性和及时性。

3、为了提高交叉路口信号灯调控效率,本专利技术提出了一种基于深度强化学习的信号灯智能控制方法。


技术实现思路

1、本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的基于深度强化学习的信号灯智能控制方法。

2、本专利技术是通过如下技术方案实现的:

3、一种基于深度强化学习的信号灯智能控制方法,包括以下步骤:

4、步骤s1、搭建仿真平台;

5、基于sumo(simulation of urban mobility)仿真软件和python构建仿真平台,在sumo仿真软件中搭建路网,路网策略中包含交叉口策略、信号灯策略以及输入车辆策略;

6、步骤s2、设计控制策略模型;

7、基于柔性动作-评价算法(soft actor-critic,sac)设计入匝道车辆的控制策略模型,分别定义模型中的状态空间s、动作空间a和奖励函数r;

8、其中,状态空间s为车辆的位置和速度,为一维数组;动作空间a定义为信号灯的相位;奖励函数r为车辆排队长度、车辆平均速度和车辆等待时间加权求和得到的值,具体如下:

9、r=μ1*rlength+μ2rspeed+μ3rwaittime

10、其中μ1、μ2与μ3分别为车辆排队长度、车辆平均速度和车辆等待时间的权重参数,权重和为1,表示不同指标对奖励函数的影响;rlength表示路口车辆平均排队长度,rspeed为所有车辆通过路口的平均车速,rwaittime为所有车辆在路口的平均等待时间;

11、步骤s3、定义算法流程;

12、在进行模型训练前初始化所有参数,根据智能体执行动作更新环境状态数据,并产生奖励,将智能体执行动作的各个步骤中产生的经验存储到经验回放池中;当经验存储量达到自定义阈值时,开始学习过程,对目标网络进行更新,以确保训练的稳定;

13、所述步骤s3中,算法流程如下:

14、步骤s3.1、在进行模型训练前初始化所有参数,包括最大时间步m、初始化策略网络参数q值函数参数v值函数参数γ和经验回放池d;

15、步骤s3.2、智能体根据环境状态和策略网络选择一个动作,智能体执行动作at使环境更新到新的状态st+1,并产生奖励rt;

16、步骤s3.3、将各个步骤中产生的经验(st,at,st+1,r)存储到经验回放池d中,当经验回放池d中的经验达到自定义阈值时,开始学习过程;

17、步骤s3.4、学习过程中,在经验回放池d中进行随机采样,通过算法的损失函数来更新q值函数、v值函数、策略参数和目标值网络参数,对目标网络进行更新,以确保训练的稳定。

18、步骤s4、模型训练与验证;

19、在训练过程中,模型以最大化累计奖励函数为目标,通过智能体在模拟环境中不断探索的方式训练模型,以提高其控制信号灯的策略方式,并通过车辆仿真技术验证模型的有效性。

20、所述步骤s4中,模型训练过程如下:

21、步骤s4.1、通过设置车辆的输入规则初始化环境数据;

22、步骤s4.2、通过调用traci接口的方式收集路口车辆信息数据,并记录环境状态、智能体采取的动作、即时奖励和下一个环境状态;

23、步骤s4.3、计算目标策略熵、更新评论家critic网络、行动者actor网络和策略网络;

24、步骤s4.4、在训练过程中,自动调整目标策略熵以平衡探索和利用的策略;如果策略的熵低于目标策略熵,则增加目标策略熵的值,以鼓励更多的探索;

25、步骤s4.5、重复步骤s4.2~步骤s4.4,直到达到用户自定义预定的训练轮数。

26、所述步骤s4中,模型验证过程与模型训练过程的区别仅在于,在验证过程中不再更新行动者actor网络和策略网络。

27、步骤s5、模型应用;

28、在仿真平台中,智能体通过python调用sumo仿真软件的traci接口实时获取道路车辆信息,利用经过训练与验证的模型实现对信号灯的实时控制。

29、一种基于深度强化学习的信号灯智能控制系统,包括:

30、仿真平台搭建模块,负责基于sumo(simulation of urban mobility)仿真软件和python构建仿真平台,在sumo仿真软件中搭建路网,路网策略中包含交叉口策略、信号灯策略以及输入车辆策略;在仿真平台中,智能体通过python调用sumo仿真软件的traci接口实时获取道路车辆信息,实现对信号灯的实时控制;

31、控制策略模型设计模块,负责基于柔性动作-评价算法(soft actor-critic,sac)设计入匝道车辆的控制策略模型,分别定义模型中的状态空间s、动作空间a和奖励函数r;

32、其中,状态空间s为车辆的位置和速度,为一维数组;动作空间a定义为信号灯的相位;奖励函数r为车辆排队长度、车辆平均速度和车辆等待时间加权求和得到的值,具体如下:

33、r=μ1*rlength+μ2rspeed+μ3rwaittime

34、其中μ1、μ2与μ3分别为车辆排队长度、车辆平均速度和车辆等待时间的权重参数,权重和为1,表示不同指标对奖励函数的影响;rlength表示路口车辆平均排队长度,rspeed为所有车辆通过路口的平均车速,rwaittime为所有车辆在路口的平均等待时间;

35、算法流程定义模块,负责在进行模型训练前初始化所有参数,根据智能体执行动作更新环境状态数据,并产生奖励,将智能体执行动作的各个步骤中产生的经验存储到经验回放池中;当经验存储量达到自定义阈值时,开始学习过程,对目标网络进行更新,以确保训练的稳定;

36、所述算法流程定义模块负责执行的算法流程如下:

37、步骤s3.1、在进行模型训练前初始化所有参数,包括最大时间步m、初始化策略网络参数q值函数参数v值函数参数γ和经验回放池d;

38、步骤s3.2、智能体根据环境状态和策略网络选择一个动作,智能体执行动作at使环境更新到新的状态st+1,并产生奖励rt;

39、步骤s3.3、将各个步骤中产生的经验(st,at,st+本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的信号灯智能控制方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于深度强化学习的信号灯智能控制方法,其特征在于:所述步骤S3中,算法流程如下:

3.根据权利要求1所述的基于深度强化学习的信号灯智能控制方法,其特征在于:所述步骤S4中,模型训练过程如下:

4.根据权利要求3所述的基于深度强化学习的信号灯智能控制方法,其特征在于:所述步骤S4中,模型验证过程与模型训练过程的区别仅在于,在验证过程中不再更新行动者actor网络和策略网络。

5.一种基于深度强化学习的信号灯智能控制系统,其特征在于:包括:

6.根据权利要求5所述的基于深度强化学习的信号灯智能控制系统,其特征在于:所述算法流程定义模块负责执行的算法流程如下:

7.根据权利要求5所述的基于深度强化学习的信号灯智能控制系统,其特征在于:所述模型训练与验证模块中,模型训练过程如下:

8.根据权利要求7所述的基于深度强化学习的信号灯智能控制系统,其特征在于:所述模型训练与验证模块中,模型验证过程与模型训练过程的区别仅在于,在验证过程中不再更新行动者actor网络和策略网络。

9.一种基于深度强化学习的信号灯智能控制设备,其特征在于:包括存储器和处理器;所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现如权利要求1至4任意一项所述的方法。

10.一种可读存储介质,其特征在于:所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任意一项所述的方法。

...

【技术特征摘要】

1.一种基于深度强化学习的信号灯智能控制方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于深度强化学习的信号灯智能控制方法,其特征在于:所述步骤s3中,算法流程如下:

3.根据权利要求1所述的基于深度强化学习的信号灯智能控制方法,其特征在于:所述步骤s4中,模型训练过程如下:

4.根据权利要求3所述的基于深度强化学习的信号灯智能控制方法,其特征在于:所述步骤s4中,模型验证过程与模型训练过程的区别仅在于,在验证过程中不再更新行动者actor网络和策略网络。

5.一种基于深度强化学习的信号灯智能控制系统,其特征在于:包括:

6.根据权利要求5所述的基于深度强化学习的信号灯智能控制系统,其特征在于:所述算法流程定义模块负责执行的...

【专利技术属性】
技术研发人员:韦凯朱勇张东海张衡李兆凯
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1