一种基于模糊深度强化学习的自动泊车方法技术

技术编号:22715568 阅读:29 留言:0更新日期:2019-12-04 02:20
本发明专利技术公开了一种基于模糊深度强化学习的自动泊车方法,其步骤包括:1构建模糊动作网络,输出控制指令从而建立样本池集合;2搭建模糊评价网络用于训练模糊动作网络;3搭建目标模糊评价网络与目标模糊动作网络,用于训练模糊评价网络;3以样本池集合中t时刻的样本{s

An automatic parking method based on Fuzzy depth reinforcement learning

The invention discloses an automatic parking method based on Fuzzy deep reinforcement learning, the steps of which include: 1. Building a fuzzy action network, outputting control instructions to establish a sample pool set; 2. Building a fuzzy evaluation network for training a fuzzy action network; 3. Building a target fuzzy evaluation network and a target fuzzy Action Network for training a fuzzy evaluation network; 3. Using t in the sample pool set Sample of time {s

【技术实现步骤摘要】
一种基于模糊深度强化学习的自动泊车方法
本专利技术涉及智能汽车自动泊车规划
,具体的说是一种基于模糊深度强化学习的自动泊车方法。
技术介绍
随着机动车保有量的不断上升,停车位变得拥挤,车位拥挤会给城市带来安全、经济、环境、健康等方面的问题,停车问题以及成为不可避免的问题。同时,由于停车环境拥挤、司机技术水平的原因,停车事故频频发生。随着泊车技术的发展,车企推出了半自动泊车系统以及全自动泊车系统。半自动泊车系统利用摄像头来采集图像数据以及超声波雷达来检测周围物体距车身的距离数据,通过传感器的数据提醒司机进行泊车,但是还是根据司机主观因素完成泊车;全自动泊车系统采用传统轨迹规划的方法,通常包括两段式或者三段式泊车,存在着传感器误识别、环境复杂、轨迹误差等原因,无法适用于多种泊车环境。
技术实现思路
本专利技术为了克服上述现有技术的不足之处,提供一种基于模糊深度强化学习的自动泊车方法,以期通过结合模糊神经网络以及深度强化学习的控制方法来完成自动泊车,从而能使得自动泊车过程更加安全可靠,降低停车事故的发生。本专利技术为达到上述专利技术目的,采用如下的技术方案是:本专利技术一种基于模糊深度强化学习的自动泊车方法的特点在于,包括以下步骤;步骤1:建立车辆动力学模型以及泊车环境模型;步骤2:收集真实场景中基于驾驶员经验的泊车数据作为原始数据,所述泊车数据为车辆的状态信息与车辆控制指令;步骤3:定义车辆控制指令集a={a0,a1,...,at,...,am},a0代表车辆初始时刻的控制指令,at代表车辆t时刻的控制指令,并有at={vt,δt};vt代表车辆t时刻的速度,δt代表车辆t时刻的方向盘角度,定义状态信息集s={s0,s1,...,st,...,sm},s0代表车辆初始时刻的状态,st代表车辆t时刻执行t-1时刻的控制指令at-1后的状态,并有st={xt,yt,εt},xt代表车辆t时刻在大地坐标系下的横坐标,yt代表车辆t时刻在大地坐标系下的纵坐标,εt代表t时刻的航向角;t=1,2,…,m;步骤4:定义并初始化t=1;更新系数τ,样本数m,目标网络更新频率T,最大迭代次数C;步骤5:构建模糊动作网络,包括:输入层、隐藏层、输出层;所述输入层包含一个神经元,用于输入车辆t时刻状态st;所述隐藏层包括:模糊化层、模糊规则层和模糊决策层;所述输入层将所述车辆t时刻状态st传递给所述模糊化层;由所述模糊化层中的隶属度函数进行计算,得到车辆t时刻状态st对应的隶属度,并将所述隶属度输入模糊规则层;利用所述原始数据建立所述模糊规则层中的动作模糊规则,每条动作模糊规则对应输出一个控制指令;所述模糊规则层根据车辆t时刻状态st对应的隶属度计算每条动作模糊规则的适用度后传递给模糊决策层;所述模糊决策层选出最大适用度所对应的动作模糊规则并输出相应的控制指令at,max1;所述输出层包含一个神经元,并根据所接收到的模糊规则层输出的控制指令at,max1,利用式(1)得到车辆t时刻的控制指令at并输出;at=at,max1θmax1(1)式(1)中,θmax1表示第max1条动作模糊规则所对应的网络参数;步骤6:建立样本池集合D;步骤6.1:在所述模糊动作网络基于车辆t时刻的状态st得到车辆t时刻的控制指令at;步骤6.2:所述车辆动力学模型执行t时刻的行控制指令at并得到t+1时刻的状态st+1以及t时刻的奖励Rt;将所述t时刻的状态st、控制指令at和奖励Rt作为t时刻的样本{st,at,Rt,st+1}并储存至样本池集合D中;步骤7、构建与所述模糊动作网络结构相同的目标模糊动作网络,并按照一定的周期更新所述目标模糊动作网络中的网络参数,得到更新后的网络参数θ′max1,并相应输出控制指令a′t;以t时刻的样本{st,at,Rt,st+1}中的t+1时刻的状态st+1作为网络输入,输出t+1时刻的控制指令a′t+1;步骤8:搭建目标模糊评价网络,包括输入层、隐藏层、输出层;所述目标模糊评价网络的输入层包含2个神经元;所述目标模糊评价网络的隐藏层包括:模糊化层,模糊规则层和模糊决策层;所述目标模糊评价网络的输出层包含1个神经元;以所述样本池集合D中车辆t+1时刻的状态st+1以及所述目标模糊动作网络输出的控制指令at+1′作为所述目标模糊评价网络的输入并由所述输入层传递给所述模糊化层;由所述模糊化层中的隶属度函数进行计算,得到车辆t时刻状态st对应的隶属度,并传递到模糊规则层;利用所述原始数据建立所述目标模糊评价网络的模糊规则层中的评价模糊规则,每条目标模糊评价网络的评价模糊规则对应输出一个折扣因子;所述目标模糊评价网络的模糊规则层根据车辆t时刻状态对应的隶属度计算每条评价模糊规则的适用度;所述目标模糊评价网络的模糊决策层选出最大适用度所对应的评价模糊规则并输出相应的折扣因子γ′max2;所述目标模糊评价网络的输出层并根据所接收到的模糊规则层输出的折扣因子γ′max2,利用式(2)得到目标模糊评价网络在t时刻输出的Q值Q′(st+1,a′t+1):式(3)中,ω′max2表示按照一定的周期更新所述目标模糊评价网络的第max2条网络权值参数后的更新值;γ′max2为折扣因子;步骤9:建立所述目标模糊评价网络结构相同的模糊评价网络,利用式(3)得到所述模糊评价网络的在t时刻输出的Q值Q(st,at):式(3)中,ωmax2表示第max2条评价模糊规则所对应的模糊评价网络权值参数,Q′(st+1,a′t+1)为t时刻目标模糊评价网络的输出,γmax2为折扣因子;步骤10:通过所述模糊评价网络来对所述模糊动作网络进行训练,并通过梯度下降法对模糊动作网络进行更新;步骤10.1:利用式(4)计算误差函数J(θmax1):步骤10.2:利用式(5)计算所述模糊动作网络的梯度步骤10.3:通过式(6)得到更新后的模糊动作网络参数θ*max1:步骤11:通过所述目标模糊动作网络和目标模糊评价网络对所述模糊评价网络进行训练;步骤11.1:利用式(7)计算均方差函数L:步骤11.2:通过式(8)得到更新后的模糊评价网络参数ω*max1:步骤12:对所述目标模糊动作网络参数θ′max1与目标模糊评价网络的参数ω′max1进行更新;步骤12.1:若所述最大迭代次数C与所述网络更新频率T比值的余数为1时,利用式(9)对网络参数θ′max1进行更新,得到更新后的目标模糊动作网络参数θ″max1,否则,不更新θ′max1与ω′max1;θ″max1=τθmax1+(1-τ)θ′max1(9)步骤12.2:通过式(10)更新所述目标模糊评价网络参数ω′max1,得到更新后的目标模糊评价网络参数ω″max1:...

【技术保护点】
1.一种基于模糊深度强化学习的自动泊车方法,其特征在于,包括以下步骤;/n步骤1:建立车辆动力学模型以及泊车环境模型;/n步骤2:收集真实场景中基于驾驶员经验的泊车数据作为原始数据,所述泊车数据为车辆的状态信息与车辆控制指令;/n步骤3:定义车辆控制指令集a={a

【技术特征摘要】
1.一种基于模糊深度强化学习的自动泊车方法,其特征在于,包括以下步骤;
步骤1:建立车辆动力学模型以及泊车环境模型;
步骤2:收集真实场景中基于驾驶员经验的泊车数据作为原始数据,所述泊车数据为车辆的状态信息与车辆控制指令;
步骤3:定义车辆控制指令集a={a0,a1,...,at,...,am},a0代表车辆初始时刻的控制指令,at代表车辆t时刻的控制指令,并有at={vt,δt};vt代表车辆t时刻的速度,δt代表车辆t时刻的方向盘角度,定义状态信息集s={s0,s1,...,st,...,sm},s0代表车辆初始时刻的状态,st代表车辆t时刻执行t-1时刻的控制指令at-1后的状态,并有st={xt,yt,εt},xt代表车辆t时刻在大地坐标系下的横坐标,yt代表车辆t时刻在大地坐标系下的纵坐标,εt代表t时刻的航向角;t=1,2,…,m;
步骤4:定义并初始化t=1;更新系数τ,样本数m,目标网络更新频率T,最大迭代次数C;
步骤5:构建模糊动作网络,包括:输入层、隐藏层、输出层;
所述输入层包含一个神经元,用于输入车辆t时刻状态st;
所述隐藏层包括:模糊化层、模糊规则层和模糊决策层;
所述输入层将所述车辆t时刻状态st传递给所述模糊化层;由所述模糊化层中的隶属度函数进行计算,得到车辆t时刻状态st对应的隶属度,并将所述隶属度输入模糊规则层;
利用所述原始数据建立所述模糊规则层中的动作模糊规则,每条动作模糊规则对应输出一个控制指令;所述模糊规则层根据车辆t时刻状态st对应的隶属度计算每条动作模糊规则的适用度后传递给模糊决策层;
所述模糊决策层选出最大适用度所对应的动作模糊规则并输出相应的控制指令at,max1;
所述输出层包含一个神经元,并根据所接收到的模糊规则层输出的控制指令at,max1,利用式(1)得到车辆t时刻的控制指令at并输出;
at=at,max1θmax1(1)
式(1)中,θmax1表示第max1条动作模糊规则所对应的网络参数;
步骤6:建立样本池集合D;
步骤6.1:在所述模糊动作网络基于车辆t时刻的状态st得到车辆t时刻的控制指令at;
步骤6.2:所述车辆动力学模型执行t时刻的行控制指令at并得到t+1时刻的状态st+1以及t时刻的奖励Rt;将所述t时刻的状态st、控制指令at和奖励Rt作为t时刻的样本{st,at,Rt,st+1}并储存至样本池集合D中;
步骤7、构建与所述模糊动作网络结构相同的目标模糊动作网络,并按照一定的周期更新所述目标模糊动作网络中的网络参数,得到更新后的网络参数θ′max1,并相应输出控制指令a′t;以t时刻的样本{st,at,Rt,st+1}中的t+1时刻的状态st+1作为网络输入,输出t+1时刻的控制指令a′t+1;
步骤8:搭建目标模糊评价网络,包括输入层、隐藏层、输出层;
所述目标模糊评价网络的输入层包含2个神经元;
所述目标模糊评价网络的隐藏层包括:模糊化层,模糊规则层和模糊决策层;
所述目标模糊评价网络的输出层包含1个神经元;...

【专利技术属性】
技术研发人员:黄鹤张润张炳力郭伟锋沈干于海涛姜平
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1