一种基于人类反馈的边缘场景动态补全智能驾驶测试方法技术

技术编号：39258134 阅读：30 留言：0更新日期：2023-10-30 12:09

本发明专利技术涉及一种基于人类反馈的边缘场景动态补全智能驾驶测试方法，包括以下步骤：获取真实环境初始状态；搭建基于强化学习的原始场景驱动器，并进行行为选择修正，得到探索行为；在测试环境中进行测试并进行专家评价，搭建基于人类反馈的边缘场景动态补全库；搭建基于人类反馈的模仿学习驱动器，根据边缘场景动态补全库中的测试数据进行策略更新，对模仿学习驱动器进行训练，输出边缘场景再现行为；获取真实环境初始状态和边缘场景动态补全库的环境初始状态，进行场景驱动器选择；根据选择的场景驱动器输出对应行为，并根据对应行为在测试环境中进行测试，得到测试结果。与现有技术相比，本发明专利技术具有测试效率高、场景测试全面等优点。等优点。等优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于人类反馈的边缘场景动态补全智能驾驶测试方法

[0001]本专利技术涉及智能驾驶汽车安全测试领域，尤其是涉及一种基于人类反馈的边缘场景动态补全智能驾驶测试方法。

技术介绍

[0002]随着智能算法的进步，智能驾驶汽车被寄予厚望，能够提升道路通行效率并降低交通事故发生率。然而，由于智能算法的可解释性问题，智能驾驶汽车的安全性难以得到充分保障。自然驾驶环境测试车辆安全性是目前最可靠的方法，但据RAND研究显示，进行这样的测试需要275亿公里，耗费时间和金钱成本巨大。因此，基于虚拟场景的智能驾驶加速测试变得迫切且受到广泛关注。
[0003]传统的基于特定场景的测试并不适用于智能驾驶汽车的安全验证，因为智能算法的高拟合和性和低泛化性的特点。因此，一个高效的智能驾驶汽车测试场景驱动器是被需要的。通过人为设定高覆盖且连续的测试场景是困难，且成本高昂。并且，由于被测车辆搭乘的智能算法不是一层不变的，危险的边缘场景是个性化的。基于强化学习的智能驾驶汽车安全验证方法被最近提出，由于它具有通过环境交互获得经验的特点。但是，高探索趋向的驱动器有利于应对智能算法的个性化，但测试效率低。而高样本利用率的驱动器有较高的测试效率，但是易陷入局部最优，忽略最危险工况。

技术实现思路

[0004]本专利技术的目的是为了提供一种基于人类反馈的边缘场景动态补全智能驾驶测试方法，采用原有驱动器积极探索和模仿学习驱动器再现的结合测试方法，避免了由于原有驱动器经验过少时导致的场景测试不全的问题以及探索获得的新边缘场景暴露率低导致的...

【技术保护点】

【技术特征摘要】
1.一种基于人类反馈的边缘场景动态补全智能驾驶测试方法，其特征在于，包括以下步骤：1)模型构建与训练阶段：获取真实环境初始状态；搭建基于强化学习的原始场景驱动器；以真实环境初始状态作为原始场景驱动器的输入，对原始场景驱动器进行训练，输出最大概率行为和最大行为概率；对原始场景驱动器的输出进行行为选择修正，得到探索行为；根据探索行为在测试环境中进行测试，并进行专家评价，根据专家评价的测试结果搭建基于人类反馈的边缘场景动态补全库；搭建基于人类反馈的模仿学习驱动器，根据边缘场景动态补全库中的测试数据进行策略更新，对模仿学习驱动器进行训练，输出边缘场景再现行为；2)测试阶段：获取真实环境初始状态和基于人类反馈的边缘场景动态补全库的环境初始状态，进行场景驱动器选择；根据选择的场景驱动器，以真实环境初始状态作为场景驱动器的输入，得到对应的探索行为或边缘场景再现行为，并根据对应行为在测试环境中进行测试，得到测试结果。2.根据权利要求1所述的一种基于人类反馈的边缘场景动态补全智能驾驶测试方法，其特征在于，所述对原始场景驱动器的输出进行行为选择修正，得到探索行为具体包括以下步骤：随机生成符合正太分布的、取值在(0,1)之间的随机数；获取由原始场景驱动器的策略函数计算获得的最大行为概率和对应的最大概率行为；对比随机数与最大行为概率的大小，确定当前状态下执行的行为，修正行为选择。3.根据权利要求2所述的一种基于人类反馈的边缘场景动态补全智能驾驶测试方法，其特征在于，所述对比随机数与最大行为概率的大小，确定当前状态下执行的行为具体为：当随机数相较于最大行为概率较小时，选取当前状态下执行的行为a
s
＝a
max
，否则，通过随机方式选取前状态下执行的行为a
s
＝a
r
，即：其中，θ表示当前场景驱动器中的策略函数的参数；p
θ
(a|s)表示在当前策略和环境状态s下，选择动作a的概率，动作被定义为被控交通车的驾驶行为；a
r
表示随机动作；ε为随机数；p
θmax
(a|s)为最大行为概率；a
max
为最大概率行为。4.根据权利要求2所述的一种基于人类反馈的边缘场景动态补全智能驾驶测试方法，其特征在于，所述动作包括左换道、右换道以及加速度控制，其中，加速度控制根据离散区间和分辨率被离散为多个驾驶行为。5.根据权利要求1所述的一种基于人类反馈的边缘场景动态补全智...

【专利技术属性】
技术研发人员：陈虹，孟强，张琳，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人