一种基于强化学习的城市道路自动泊车方法及系统技术方案

技术编号:33400468 阅读:25 留言:0更新日期:2022-05-11 23:21
本发明专利技术公开了一种基于强化学习的城市道路自动泊车方法,包括:S1、车位线识别流程,S2、状态输入流程,以及S3、泊车决策控制流程,其中,泊车决策控制流程包括:S31、Actor使用经验池中计算好的状态价值与Critic网络预测当前状态价值进行神经网络的更新,用M均方差误差作为Loss函数,对神经网络进行训练,得到更新后的目标神经网络;S32、将状态输入向量输入停车动作策略π

【技术实现步骤摘要】
一种基于强化学习的城市道路自动泊车方法及系统


[0001]本专利技术涉及自动泊车
,尤其涉及一种基于强化学习的城市道路自动泊车方法及系统。

技术介绍

[0002]目前行业内的自动泊车技术,都是基于轨迹规划,轨迹跟踪,或者车位线识别。然而,随着城市道路车辆增多,城市路况日益复杂,以及驾驶员的驾驶水平参差不齐,很多车辆的停车操作并没有保证规范和安全。很多车辆停车时因为上述情况,或者城市交通设施不完善的路况,并没有严格按照车位线来进行停车动作。如果自动驾驶车辆还按照规范的停车位识别方式,检测到符合要求的车位才进行自动泊车操作的话,将会导致大量本能够停车但又不够规范的停车位被浪费掉,也会造成驾驶员时间上的浪费。而针对于非标准化的停车为,目前行业内的自动泊车方式都无法做到安全高效。

技术实现思路

[0003]本专利技术的目的在于提供一种基于强化学习的城市道路自动泊车方法及系统,其能够有效解决现有技术中所存在的上述技术问题。
[0004]为了实现上述目的,本专利技术的一实施例提供了一种基于强化学习的城市道路自动泊车方法,包括:
[0005]S1、车位线识别流程,包括:
[0006]S11、采用语义分割算法进行车位线检测,判断能否检测到完整停车线,若能则执行步骤S12,否则通过车位标记点的定位方式,采用一个单阶段轻量化目标检测网络完成停车位顶点的回归,然后通过YOLOX算法判断车辆停车方式,最后通过canny算子获得车辆轮廓并识别车辆偏转角度以进行车位线边缘补全,从而得到完整的车位线轮廓;
[0007]S12、进行超声波雷达测距,结合基于概率框架的单目视觉SLAM算法构建停车空间坐标系,从而确定停车空间;
[0008]S2、状态输入流程,包括:
[0009]S21、将SLAM建图后的鸟瞰图作为二维停车地图,同时以目标停车位几何中心为原点,建立平面直角坐标系,设车辆时刻t的坐标为(x
t
,y
t
),车辆的初始坐标为(x0,y0);
[0010]S22、在车辆周身装上超声波雷达结合视觉传感器获取环境状态信息,以车辆的几何中心为圆心,划分半径为r的圆,将圆平均分割成36个扇形,超声波雷达负责检测实体障碍物,视觉传感器负责检测车道线和车位线,将交通标线中的实线视为障碍物;令第i个扇形内障碍物到圆心的距离为l
i
,障碍物的移动速度为v
i
,车辆当前速度为V,转向角为μ,定义相对角为κ,表示车辆中轴线与停车位的角度;
[0011]S23、定义停车位为极坐标原点,则车辆中心的坐标为(h,ρ),因此状态输入为(l0/r,v1,l1/r,v2,...,l
i
/r,v
i
,...,l
36
/r,v
36
,x
t
/x0,y
t
/y0,V,μ,κ,h,ρ),并对状态向量每一个元素除以一个常数,使各元素的取值范围维持在(

1,1)内;当扇形i内没有障碍物时,l
i
/r


1,v
i
=0;
[0012]S3、泊车决策控制流程,包括:
[0013]S31、Actor使用经验池中计算好的状态价值与Critic网络预测当前状态价值进行神经网络的更新,用M均方差误差作为Loss函数,对神经网络进行训练,得到更新后的目标神经网络;
[0014]S32、将状态输入向量输入停车动作策略π
*
对应的更新后的目标神经网络,输出得到车辆的转向角和加速度,控制车辆的移动。
[0015]较佳地,所述步骤S31包括:
[0016]S311、随机初始化Critic神经网络Actor网络π
φ
,对应的网络参数分别为θ1,θ2,φ,并将网络参数赋值给目标网络θ
′1←
θ1,θ
′2←
θ2,φ'

φ,创建两个空的经验池M
success
和M
failure
,初始化最小经验池长度|B|
min
,Actor更新间隔

t,当前迭代代数t=0,最大迭代代数T;
[0017]S312、当前状态向量为s,Actor选择一个附加噪声的动作:
[0018]a~π
φ
(s)+ε,ε~N(0,σ)
[0019]仿真环境返回一个奖励值r和更新后的状态s',构成经验元组(s,a,r,s')并存入对应经验池;
[0020]S313、当两个经验池的长度和大于预设值时,从经验池中取出batch组经验值;否则返回S312;
[0021]S314、从经验元组中取出数据,进行Q值估计:
[0022][0023][0024]令t=t+1,并更新Critic网络:
[0025][0026]S315、当tmod

t时,使用确定性策略梯度方法更新Actor神经网络:
[0027][0028]更新目标神经网络:
[0029]θ

i

τθ
i
+(1

τ)θ

i
[0030]φ'

τφ+(1

τ)φ'
[0031]S316、当t>T时,仿真训练结束;否则,返回S312。
[0032]较佳地,在步骤S312中,通过以下方式存入对应经验池:
[0033]定义最大停车动作时限T
max
,单次仿真最大允许撞车次数L;当至少满足以下条件之一时:1.单次仿真撞车次数大于L,2.车辆使出仿真环境边界,3.仿真运行时间大于最大停车动作时限T
max
;停止当前仿真,重新开始仿真;对经验池中的数据组织方式进行改进,将经验池一分为二为M
success
和M
failure
,分别存储成功和失败两种停车经验;假定时刻t车辆仍在运行且一段时间内未发生撞车行为,此时车辆探索得到的停车经验为e
t
,则可以认定t

α时刻的经验e
t

a
对停车的影响是积极的,是一条成功的停车经验;因此除经验池M
success
和M
failure
外,另设置临时经验池M
temp
,用于存储最近的α条经验;该经验池的大小固定为α,当其
存满后,如果临时经验池不存在撞车行为,就使用先进先出原则将其中最早的一条经验取出存入经验池M
success
;如果其存在撞车行为,就使用先进先出原则将其中最早的一条经验取出存入经验池M
failure
,然后将新的经验继续存入经验池本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的城市道路自动泊车方法,其特征在于,包括:S1、车位线识别流程,包括:S11、采用语义分割算法进行车位线检测,判断能否检测到完整停车线,若能则执行步骤S12,否则通过车位标记点的定位方式,采用一个单阶段轻量化目标检测网络完成停车位顶点的回归,然后通过YOLOX算法判断车辆停车方式,最后通过canny算子获得车辆轮廓并识别车辆偏转角度以进行车位线边缘补全,从而得到完整的车位线轮廓;S12、进行超声波雷达测距,结合基于概率框架的单目视觉SLAM算法构建停车空间坐标系,从而确定停车空间;S2、状态输入流程,包括:S21、将SLAM建图后的鸟瞰图作为二维停车地图,同时以目标停车位几何中心为原点,建立平面直角坐标系,设车辆时刻t的坐标为(x
t
,y
t
),车辆的初始坐标为(x0,y0);S22、在车辆周身装上超声波雷达结合视觉传感器获取环境状态信息,以车辆的几何中心为圆心,划分半径为r的圆,将圆平均分割成36个扇形,超声波雷达负责检测实体障碍物,视觉传感器负责检测车道线和车位线,将交通标线中的实线视为障碍物;令第i个扇形内障碍物到圆心的距离为l
i
,障碍物的移动速度为v
i
,车辆当前速度为V,转向角为μ,定义相对角为κ,表示车辆中轴线与停车位的角度;S23、定义停车位为极坐标原点,则车辆中心的坐标为(h,ρ),因此状态输入为(l0/r,v1,l1/r,v2,...,l
i
/r,v
i
,...,l
36
/r,v
36
,x
t
/x0,y
t
/y0,V,μ,κ,h,ρ),并对状态向量每一个元素除以一个常数,使各元素的取值范围维持在(

1,1)内;当扇形i内没有障碍物时,l
i
/r=

1,v
i
=0;S3、泊车决策控制流程,包括:S31、Actor使用经验池中计算好的状态价值与Critic网络预测当前状态价值进行神经网络的更新,用M均方差误差作为Loss函数,对神经网络进行训练,得到更新后的目标神经网络;S32、将状态输入向量输入停车动作策略π
*
对应的更新后的目标神经网络,输出得到车辆的转向角和加速度,控制车辆的移动。2.根据权利要求1所述的基于强化学习的城市道路自动泊车方法,其特征在于,所述步骤S31包括:S311、随机初始化Critic神经网络Actor网络π
φ
,对应的网络参数分别为θ1,θ2,φ,并将网络参数赋值给目标网络θ
′1←
θ1,θ
′2←
θ2,φ'

φ,创建两个空的经验池M
success
和M
failure
,初始化最小经验池长度|B|
min
,Actor更新间隔

t,当前迭代代数t=0,最大迭代代数T;S312、当前状态向量为s,Actor选择一个附加噪声的动作:a~π
φ
(s)+ε,ε~N(0,σ)仿真环境返回一个奖励值r和更新后的状态s',构成经验元组(s,a,r,s')并存入对应经验池;S313、当两个经验池的长度和大于预设值时,从经验池中取出batch组经验值;否则返回S312;
S314、从经验元组中取出数据,进行Q值估计:S314、从经验元组中取出数据,进行Q值估计:令t=t+1,并更新Critic网络:S315、当tmod

t时,使用确定性策略梯度方法更新Actor神经网络:更新目标神经网络:θ

i

τθ
i
+(1

τ)θ

i
φ'

τφ+(1

τ)φ'S316、当t>T时,仿真训练结束;否则,返回S312。3.根据权利要求2所述的基于强化学习的城市道路自动泊车方法,其特征在于,在步骤S312中,通过以下方式存入对应经验池:定义最大停车动作时限T
max
,单次仿真最大允许撞车次数L;当至少满足以下条件之一时:1.单次仿真撞车次数大于L,2.车辆使出仿真环境边界,3.仿真运行时间大于最大停车动作时限T
max
;停止当前仿真,重新开始仿真;对经验池中的数据组织方式进行改进,将经验池一分为二为M
success
和M
failure
,分别存储成功和失败两种停车经验;假定时刻t车辆仍在运行且一段时间内未发生撞车行为,此时车辆探索得到的停车经验为e
t
,则可以认定t

α时刻的经验e
t

a
对停车的影响是积极的,是一条成功的停车经验;因此除经验池M
success
和M
failure
外,另设置临时经验池M
temp
,用于存储最近的α条经验;该经验池的大小固定为α,当其存满后,如果临时经验池不存在撞车行为,就使用先进先出原则将其中最早的一条经验取出存入经验池M
success
;如果其存在撞车行为,就使用先进先出原则将其中最早的一条经验取出存入经验池M
failure
,然后将新的经验继续存入经验池M
temp
;如此反复,直至完成此次停车任务;最后根据车辆的最终状态,将经验池M
temp
中的所有经验存入对应的经验池M
success
或M
failure
;其中,令总采样数为m,当M
success
长度不超过m*(1

β)时,令M
success
经验池的长度为|M
success
|,则从M
success
经验池中取|M
success
|条经验,从M
failure
中取m

|M
success
|条经验。当M
success
长度大于m*(1

β)时,两个经验池采样的数量分别为:式中:n
success
,n
failure
分别为从M
success
和M
failure
的采样数,β∈[0,1]是失败样本采样率。4.根据权利要求3所述的基于强化学习的城市道路自动泊车方法,其特征在于,还包括:采用Sumtree的形式对经验池的数据进行组织,将TD误差的绝对值作为Sumtree中每个叶节点的存储值;进行数据采样时,将优先级p的总和除以抽样数,得到区间数,然后在每个区间里随机选取一个数,将此数从Sumtree的根节点开始,按照一定的规律向下搜索,最后将搜索得到的优先级p与样本数据相对应,即可实现更高效的经验回放。
5.根据权利要求1所述的基于强化学习的城市道路自动泊车方法,其特征在于,所述步骤S12包括:通过单目相机恢复快速通过未知场景时的3D轨迹的实时算法,在概率框架下在线创建稀疏但persistent的地图,包括主动(active)建图和测量、使用针对相机平滑运动的通用运动模型以及单目特征初始化和特征方位估计的解决方法;通过单目视觉SLAM建图确定当前车辆在目标停车空间下的坐标,按照和其他车辆相同停车方式,结合超声波雷达测距,确定停车空间的最大可用面积;最后利用多传感器进行障碍物检测,通过视觉传感器采集到的图片信息,通过轻量化目标检测网络yolox

s识别常见障碍物,并根据类别估算真实体积;若目标检测算法无法判断障碍物类型,则由超声波雷达进行距离判断,通过超声波雷达返回的距离信息,结合障碍物在图片上的大小,进行坐标定位以及体积的估算。6.一种基于强化学习的城市道路自动泊车系统,其特征在于,包括:车位线识别模块,其包括:完整车位线轮廓获取单元,用于...

【专利技术属性】
技术研发人员:宋柱梅叶健龙郑浩然
申请(专利权)人:易飒广州智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1