当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于人类反馈的边缘场景动态补全智能驾驶测试方法技术

技术编号:39258134 阅读:14 留言:0更新日期:2023-10-30 12:09
本发明专利技术涉及一种基于人类反馈的边缘场景动态补全智能驾驶测试方法,包括以下步骤:获取真实环境初始状态;搭建基于强化学习的原始场景驱动器,并进行行为选择修正,得到探索行为;在测试环境中进行测试并进行专家评价,搭建基于人类反馈的边缘场景动态补全库;搭建基于人类反馈的模仿学习驱动器,根据边缘场景动态补全库中的测试数据进行策略更新,对模仿学习驱动器进行训练,输出边缘场景再现行为;获取真实环境初始状态和边缘场景动态补全库的环境初始状态,进行场景驱动器选择;根据选择的场景驱动器输出对应行为,并根据对应行为在测试环境中进行测试,得到测试结果。与现有技术相比,本发明专利技术具有测试效率高、场景测试全面等优点。等优点。等优点。

【技术实现步骤摘要】
一种基于人类反馈的边缘场景动态补全智能驾驶测试方法


[0001]本专利技术涉及智能驾驶汽车安全测试领域,尤其是涉及一种基于人类反馈的边缘场景动态补全智能驾驶测试方法。

技术介绍

[0002]随着智能算法的进步,智能驾驶汽车被寄予厚望,能够提升道路通行效率并降低交通事故发生率。然而,由于智能算法的可解释性问题,智能驾驶汽车的安全性难以得到充分保障。自然驾驶环境测试车辆安全性是目前最可靠的方法,但据RAND研究显示,进行这样的测试需要275亿公里,耗费时间和金钱成本巨大。因此,基于虚拟场景的智能驾驶加速测试变得迫切且受到广泛关注。
[0003]传统的基于特定场景的测试并不适用于智能驾驶汽车的安全验证,因为智能算法的高拟合和性和低泛化性的特点。因此,一个高效的智能驾驶汽车测试场景驱动器是被需要的。通过人为设定高覆盖且连续的测试场景是困难,且成本高昂。并且,由于被测车辆搭乘的智能算法不是一层不变的,危险的边缘场景是个性化的。基于强化学习的智能驾驶汽车安全验证方法被最近提出,由于它具有通过环境交互获得经验的特点。但是,高探索趋向的驱动器有利于应对智能算法的个性化,但测试效率低。而高样本利用率的驱动器有较高的测试效率,但是易陷入局部最优,忽略最危险工况。

技术实现思路

[0004]本专利技术的目的是为了提供一种基于人类反馈的边缘场景动态补全智能驾驶测试方法,采用原有驱动器积极探索和模仿学习驱动器再现的结合测试方法,避免了由于原有驱动器经验过少时导致的场景测试不全的问题以及探索获得的新边缘场景暴露率低导致的测试效率低的问题。
[0005]本专利技术的目的可以通过以下技术方案来实现:
[0006]一种基于人类反馈的边缘场景动态补全智能驾驶测试方法,包括以下步骤:
[0007]1)模型构建与训练阶段:
[0008]获取真实环境初始状态;
[0009]搭建基于强化学习的原始场景驱动器;
[0010]以真实环境初始状态作为原始场景驱动器的输入,对原始场景驱动器进行训练,输出最大概率行为和最大行为概率;
[0011]对原始场景驱动器的输出进行行为选择修正,得到探索行为;
[0012]根据探索行为在测试环境中进行测试,并进行专家评价,根据专家评价的测试结果搭建基于人类反馈的边缘场景动态补全库;
[0013]搭建基于人类反馈的模仿学习驱动器,根据边缘场景动态补全库中的测试数据进行策略更新,对模仿学习驱动器进行训练,输出边缘场景再现行为;
[0014]2)测试阶段:
[0015]获取真实环境初始状态和基于人类反馈的边缘场景动态补全库的环境初始状态,进行场景驱动器选择;
[0016]根据选择的场景驱动器,以真实环境初始状态作为场景驱动器的输入,得到对应的探索行为或边缘场景再现行为,并根据对应行为在测试环境中进行测试,得到测试结果。
[0017]所述对原始场景驱动器的输出进行行为选择修正,得到探索行为具体包括以下步骤:
[0018]随机生成符合正太分布的、取值在(0,1)之间的随机数;
[0019]获取由原始场景驱动器的策略函数计算获得的最大行为概率和对应的最大概率行为;
[0020]对比随机数与最大行为概率的大小,确定当前状态下执行的行为,修正行为选择。
[0021]所述对比随机数与最大行为概率的大小,确定当前状态下执行的行为具体为:当随机数相较于最大行为概率较小时,选取当前状态下执行的行为a
s
=a
max
,否则,通过随机方式选取前状态下执行的行为a
s
=a
r
,即:
[0022][0023]其中,θ表示当前场景驱动器中的策略函数的参数;p
θ
(a|s)表示在当前策略和环境状态s下,选择动作a的概率,动作被定义为被控交通车的驾驶行为;a
r
表示随机动作;ε为随机数;p
θmax
(a|s)为最大行为概率;a
max
为最大概率行为。
[0024]所述动作包括左换道、右换道以及加速度控制,其中,加速度控制根据离散区间和分辨率被离散为多个驾驶行为。
[0025]所述根据专家评价的测试结果搭建基于人类反馈的边缘场景动态补全库具体为:
[0026]通过人类反馈评价现有的场景测试过程,将已有的场景驱动器展示的测试场景分为危险场景和一般场景,其中,评定为危险场景的测试过程被记录在基于人类反馈的边缘场景动态补全库中,边缘场景动态补全库中的一个元素表示一次完整的测试过程。
[0027]所述边缘场景动态补全库是一个轮换的动态库,在测试过程中,若库被填满,则抛弃最早收录的测试场景,以保存最新的边缘场景,其中,库的大小依据计算设备存储能力设置。
[0028]所述模仿学习驱动器采用深度神经网络构建场景状态与动作之间的映射关系,网络以场景状态为输入,根据当前时刻模仿学习驱动器的策略函数确定动作选择概率,并对动作选择概率进行归一化处理后输出。
[0029]所述模仿学习驱动器的目标函数是最小化策略函数选择的行为与边缘场景动态补全库中记录的行为的差:
[0030][0031]其中,a
maxj
|s
j
表示在环境状态s
i
下,策略函数计算获得的最大的概率p
θmax
(a|s
i
)对应的行为;a
j
|s
j
表示在环境状态s
i
下,人类反馈的边缘场景动态补全库中记录的实际行为;M
m
为边缘场景动态补全库的元素集合;n表示在一次测试中场景驱动器做出决策的次数;θ为策略函数的参数,依据深度神经网络中的梯度下降进行更新。
[0032]所述场景驱动器选择采用向量积的方式确定本次测试采用原始场景驱动器还是
模仿学习驱动器,公式如下:
[0033][0034]其中,s
0n
为本次测试开始时的场景状态,s
0m
为基于人类反馈的边缘场景动态补全库中保存的测试案例的初始状态,η为允许的初始场景最小相似系数。
[0035]所述场景驱动器选择过程中,遍历所有的基于人类反馈的边缘场景动态补全库中的初始状态。
[0036]与现有技术相比,本专利技术具有以下有益效果:
[0037](1)本专利技术采用原有驱动器积极探索和模仿学习驱动器再现的结合测试方法,避免了由于原有驱动器经验过少时导致的场景测试不全的问题以及探索获得的新边缘场景暴露率低导致的测试效率低的问题。
[0038](2)本专利技术设置了基于人类反馈的边缘场景动态补全库,可以有效的记录探索获得的新边缘场景,并通过设置基于模仿学习的模仿学习驱动器用于学习新边缘场景中的环境状态与动作之间的关系,避免了新边缘场景生成的知识的遗漏。
[0039](3)本专利技术通过向量积的方式来选择本次测试采用原始驱动器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人类反馈的边缘场景动态补全智能驾驶测试方法,其特征在于,包括以下步骤:1)模型构建与训练阶段:获取真实环境初始状态;搭建基于强化学习的原始场景驱动器;以真实环境初始状态作为原始场景驱动器的输入,对原始场景驱动器进行训练,输出最大概率行为和最大行为概率;对原始场景驱动器的输出进行行为选择修正,得到探索行为;根据探索行为在测试环境中进行测试,并进行专家评价,根据专家评价的测试结果搭建基于人类反馈的边缘场景动态补全库;搭建基于人类反馈的模仿学习驱动器,根据边缘场景动态补全库中的测试数据进行策略更新,对模仿学习驱动器进行训练,输出边缘场景再现行为;2)测试阶段:获取真实环境初始状态和基于人类反馈的边缘场景动态补全库的环境初始状态,进行场景驱动器选择;根据选择的场景驱动器,以真实环境初始状态作为场景驱动器的输入,得到对应的探索行为或边缘场景再现行为,并根据对应行为在测试环境中进行测试,得到测试结果。2.根据权利要求1所述的一种基于人类反馈的边缘场景动态补全智能驾驶测试方法,其特征在于,所述对原始场景驱动器的输出进行行为选择修正,得到探索行为具体包括以下步骤:随机生成符合正太分布的、取值在(0,1)之间的随机数;获取由原始场景驱动器的策略函数计算获得的最大行为概率和对应的最大概率行为;对比随机数与最大行为概率的大小,确定当前状态下执行的行为,修正行为选择。3.根据权利要求2所述的一种基于人类反馈的边缘场景动态补全智能驾驶测试方法,其特征在于,所述对比随机数与最大行为概率的大小,确定当前状态下执行的行为具体为:当随机数相较于最大行为概率较小时,选取当前状态下执行的行为a
s
=a
max
,否则,通过随机方式选取前状态下执行的行为a
s
=a
r
,即:其中,θ表示当前场景驱动器中的策略函数的参数;p
θ
(a|s)表示在当前策略和环境状态s下,选择动作a的概率,动作被定义为被控交通车的驾驶行为;a
r
表示随机动作;ε为随机数;p
θmax
(a|s)为最大行为概率;a
max
为最大概率行为。4.根据权利要求2所述的一种基于人类反馈的边缘场景动态补全智能驾驶测试方法,其特征在于,所述动作包括左换道、右换道以及加速度控制,其中,加速度控制根据离散区间和分辨率被离散为多个驾驶行为。5.根据权利要求1所述的一种基于人类反馈的边缘场景动态补全智...

【专利技术属性】
技术研发人员:陈虹孟强张琳
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1