基于强化学习的信号控制装置及信号控制方法制造方法及图纸

技术编号:31227136 阅读:15 留言:0更新日期:2021-12-08 09:34
提供信号控制装置及信号控制方法,根据本说明书中公开的一实施例,一种基于强化学习模型而控制交叉路中的交通信号的信号控制装置,可包括:拍摄部,拍摄多个交叉路中的每一者来获取多个交叉路图像,存储部,存储用于控制信号的程序,以及控制部,包括至少一个处理器,执行所述程序,以利用通过所述拍摄部获取的交叉路图像来算出控制所述多个交叉路中的每一者的信号灯的控制信息;所述控制部,利用基于被训练的强化学习模型的多个代理,基于由多个代理将基于所述多个交叉路图像中的每一者而算出的状态信息作为输入而算出的动作信息,算出控制所述多个交叉路中的每一者的信号灯的控制信息,所述强化学习模型被训练成将状态信息和奖励作为输入值而输出用于控制信号灯的动作信息。作信息。作信息。

【技术实现步骤摘要】
【国外来华专利技术】基于强化学习的信号控制装置及信号控制方法


[0001]在本说明书中公开的实施例涉及基于强化学习的信号控制装置及信号控制方法,更详细地,涉及控制多个交叉路中的交通信号的装置及方法。

技术介绍

[0002]近来,随着出于方便或工作原因而购买车辆的人数增加,在道路上行驶的车辆数量也在增加。由于这些车辆的增加,交通堵塞也在增加,交通堵塞可能因道路环境、驾驶员状况、车辆故障和车辆事故等多种因素而发生。
[0003]造成交通堵塞的原因之一是道路环境中的交通信号体系的问题。例如,交通信号控制车辆的流量,由于它们每隔一定时间就确定车辆的通行方向,当特定方向的车辆数量增加时,交通堵塞就不可避免。为此,当发生交通拥堵时,警察或相关人员亲自操纵信号控制器来控制交通流量。这种方式存在人不能为了控制交通信号而一直待命的局限,因此已经有各种尝试来控制交通信号。
[0004]在作为现有技术文献的韩国公开专利第10

2009

0116172号“人工智能车辆信号灯控制装置”中记载了分析通过利用影像探测器拍摄的影像来控制交通信号灯的方法。但是,在上述的现有技术中,只是将人工智能模型用作通过简单的影像分析来检测特定车道上是否存在车辆等的手段,基于检测的信息决定下一个信号是通过现有的碎片化运算来实现,因此存在难以提升信号体系的效率性的问题。
[0005]因此,需要一种用于改善交通状况的技术。
[0006]另一方面,前述的
技术介绍
是专利技术人为推导本专利技术而拥有的,或者是推导本专利技术的过程中学到的技术信息,不能说一定是在申请本专利技术前向公众公开的公知技术。

技术实现思路

[0007]要解决的技术问题
[0008]在本说明书中公开的实施例的目的在于,提供一种基于强化学习模型的信号控制装置及信号控制方法。
[0009]并且,在本说明书中公开的实施例的目的在于,提供一种基于多个代理的强化学习模型的信号控制装置及信号控制方法。
[0010]并且,在本说明书中公开的实施例的目的在于,提供一种能够在多个交叉路使交通顺畅的信号控制装置及信号控制方法。
[0011]并且,在本说明书中公开的实施例的目的在于,提供一种解决控制对象环境和学习对象环境不一致的问题的信号控制装置及信号控制方法。
[0012]并且,在本说明书中公开的实施例的目的在于,提供一种对交通模拟时间投入最少时间的信号控制装置及信号控制方法。
[0013]用于解决问题的手段
[0014]作为用于解决上述技术问题的技术手段,根据本说明书中记载的一实施例,一种
基于强化学习模型而控制交叉路中的交通信号的信号控制装置,可包括:拍摄部,拍摄多个交叉路中的每一者来获取多个交叉路图像,存储部,存储用于控制信号的程序,以及控制部,包括至少一个处理器,执行所述程序,以利用通过所述拍摄部获取的交叉路图像来算出控制所述多个交叉路中的每一者中的信号灯的控制信息;所述控制部,利用基于被训练的强化学习模型的多个代理,基于由多个代理将基于所述多个交叉路图像中的每一者而算出的状态信息作为输入而算出的动作信息,算出控制所述多个交叉路中的每一者中的信号灯的控制信息,所述强化学习模型被训练成将状态信息和奖励作为输入值而输出用于控制信号灯的动作信息。
[0015]此外,作为用于解决上述技术问题的技术手段,根据本说明书中记载的一实施例,信号控制装置基于强化学习模型控制交叉路中的交通信号的方法,可包括如下步骤:以使代理将状态信息和奖励作为输入值而输出用于控制信号灯的动作信息的方式对强化学习模型进行训练,通过拍摄多个交叉路中的每一者来获取多个交叉路图像,以及利用所获取的交叉路图像来算出控制所述多个交叉路中的每一者中的信号灯的控制信息;算出所述控制信息的步骤包括如下步骤,利用基于被训练的所述强化学习模型的多个代理,基于由多个代理将基于所述多个交叉路图像中的每一者而算出的状态信息作为输入而算出的动作信息,来算出控制所述多个交叉路中的每一者中的信号灯的控制信息。
[0016]专利技术的效果
[0017]根据前述的任一问题解决手段,可提供一种基于强化学习模型的信号控制装置及信号控制方法。
[0018]并且,在本说明书中公开的实施例中,可提供一种基于多个代理的强化学习模型的信号控制装置及信号控制方法。
[0019]并且,在本说明书中公开的实施例中,可提供一种能够在多个交叉路使交通顺畅的信号控制装置及信号控制方法。
[0020]并且,在本说明书中公开的实施例中,可提供一种解决控制对象环境和学习对象环境不一致的问题的信号控制装置及信号控制方法。
[0021]并且,在本说明书中公开的实施例中,可提供一种对交通模拟时间投入最少时间的信号控制装置及信号控制方法。
[0022]可从公开的实施例中获得的效果不限于在以上提及的效果,公开的实施例所属
的普通技术人员可以从以下描述明确理解未提及的其他效果。
附图说明
[0023]图1为示出根据一实施例的信号控制装置的结构的框图。
[0024]图2为示出包括根据一实施例的信号控制装置的信号控制系统的示意性结构的图。
[0025]图3至图4为用于描述根据一实施例的信号控制装置的示意图。
[0026]图5为示出常规强化学习模型的图。
[0027]图6为用于描述根据一实施例的信号控制装置的强化学习及信号控制过程的图。
[0028]图7为分步示出根据一实施例的信号控制方法的强化学习过程的流程图。
[0029]图8为分步示出根据一实施例的信号控制方法的利用强化学习的模型来控制信号
灯的过程的流程图。
具体实施方式
[0030]作为用于解决所述技术问题的技术手段,根据本说明书中记载的一实施例,一种基于强化学习模型而控制交叉路中的交通信号的信号控制装置,可包括:拍摄部,拍摄多个交叉路中的每一者来获取多个交叉路图像,存储部,存储用于控制信号的程序,以及控制部,包括至少一个处理器,执行所述程序,以利用通过所述拍摄部获取的交叉路图像来算出控制所述多个交叉路中的每一者中的信号灯的控制信息;所述控制部,利用基于被训练的强化学习模型的多个代理,基于由多个代理将基于所述多个交叉路图像中的每一者而算出的状态信息作为输入而算出的动作信息,算出控制所述多个交叉路中的每一者中的信号灯的控制信息,所述强化学习模型被训练成将状态信息和奖励作为输入值而输出用于控制信号灯的动作信息。
[0031]并且,作为用于解决上述技术问题的技术手段,根据本说明书中记载的一实施例,信号控制装置基于强化学习模型控制交叉路中的交通信号的方法,可包括如下步骤:以使代理将状态信息和奖励作为输入值而输出用于控制信号灯的动作信息的方式对强化学习模型进行训练,通过拍摄多个交叉路中的每一者来获取多个交叉路图像,以及利用所获取的交叉路图像来算出控制所述多个交叉路中的每一者中的信号灯的控制信息;算出所述控制信息的步骤包括如下步骤,利用基于被训练的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种信号控制装置,基于强化学习模型而控制交叉路中的交通信号,其中,所述信号控制装置包括:拍摄部,通过拍摄多个交叉路中的每一者来获取多个交叉路图像,存储部,存储用于控制信号的程序,以及控制部,包括至少一个处理器,执行所述程序,以利用通过所述拍摄部获取的交叉路图像来算出控制所述多个交叉路中的每一者中的信号灯的控制信息;所述控制部,利用基于被训练的强化学习模型的多个代理,基于由多个代理将基于所述多个交叉路图像中的每一者而算出的状态信息作为输入而算出的动作信息,来算出控制所述多个交叉路中的每一者中的信号灯的控制信息,所述强化学习模型被训练成将状态信息和奖励作为输入值而输出用于控制信号灯的动作信息。2.根据权利要求1所述的信号控制装置,其中,所述控制部,基于预定时间内的到达交通量和通过交通量而算出对应于交叉路图像的交叉路中的延迟程度作为状态信息。3.根据权利要求1所述的信号控制装置,其中,所述控制部,训练所述强化学习模型,以将基于作为所述多个交叉路中的一个交叉路的第一交叉路的图像而算出的状态信息作为输入值,从第一代理获取用于控制第二交叉路的信号灯的动作信息。4.根据权利要求3所述的信号控制装置,其中,所述控制部,训练所述强化学习模型,以获取与所述第一交叉路中的信号灯的绿灯开始时间与所述第二交叉路中的信号灯的绿灯开始时间之间的时间差相关的偏移时间作为所述动作信息。5.根据权利要求1所述的信号控制装置,其中,所述控制部,在判断作为所述多个交叉路中的一个交叉路的第一交叉路处于过饱和状态时,利用强化学习模型并基于第一交叉路图像算出信号周期,所述强化学习模型被训练成将从所述第一交叉路图像提取的状态信息作为输入值,输出用于控制所述第一交叉路的信号灯的信号周期作为动作信息。6.根据权利要求1所述的信号控制装置,其中,所述控制部,在判断作为所述多个交叉路中的一个交叉路的第一交叉路处于过饱和状态时,利用强化学习模型并基于第一交叉路图像算出信号模式,所述强化学习模型被训练成将从所述第一交叉路图像提取的状态信作为输入值,输出用于控制所述第一交叉路的信号灯的信号模式作为动作信息。7.根据权利要求1所述的信号控制装置,其中,所述控制部,以将状态信息和奖励作为输入值而输出用于控制信号灯的动作信息的方式对所述强化学习模型进行训练,并与延迟程度成比例地增加所述奖励。8.根据权利要求1所述的信号控制装置,其中,所述强化学习模型,基于从根据预...

【专利技术属性】
技术研发人员:李锡中崔兑旭金大承李喜斌
申请(专利权)人:乐人株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1