一种基于逆强化学习的智能汽车标准测试场景生成方法技术

技术编号：41802645 阅读：2 留言：0更新日期：2024-06-24 20:24

本发明专利技术属于自动驾驶测试技术领域，具体的说是一种基于逆强化学习的智能汽车标准测试场景生成方法。包括：一、确定关键场景要素；步骤二、计算边缘小概率分布；步骤三、搭建高精度数据采集平台，进行驾驶员驾驶数据采集；步骤四、计算状态到驾驶员动作映射的最佳奖励函数，逆向生成反映真实人类决策机制的驾驶员模型；步骤五、设计优化架构、制定适应度评价准则，并且设计优化搜索算法与适应度评价函数；步骤六、自动生成理想测试用例。本发明专利技术能够实现合理可预见且可避免的标准场景快速生成，大幅度提升测试场景生成效率，并且在测试场景“可避免”验证方面具有显著效率和成本优势。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自动驾驶测试，具体的说是一种基于逆强化学习的智能汽车标准测试场景生成方法。

技术介绍

1、针对一项待测功能的测试场景设计，以制定国家标准并确保功能准入的有效性，现有研究中，标准专家提出了一个基于“合理可预见且可避免”原则的场景评价体系。该体系的核心理念在于，将“合理可预见”的场景界定为那些参数配置符合实际数据分布中的“低频但非异常”特征，意味着这些场景虽然在实际驾驶过程中相对少见，但其出现具有一定的统计学合理性；而“可避免”的属性则强调，在注意力高度集中的合格驾驶员操作下，能够及时识别潜在风险并通过合理的驾驶决策规避事故的发生。通过实施这一严谨的场景评估流程，可以快速识别和筛选出关键性的场景要素，进而为构建科学、全面且针对性强的测试标准提供了坚实的理论基础与实践指导。

2、“可避免”属性是测试场景设计的关键，构建全面且精确的驾驶员模型是当前研究的重点挑战，目前研究包括标准制动模型、模糊控制策略等，然而这些参数化模型难以充分捕捉真实驾驶过程中复杂的动态特征与非线性决策机制。基于人类驾驶员数据特征构建的驾驶员模型能够有效还原驾驶过程，具备最高的真实性。然而真实数据的学习过程存在效率低，拟合效果差，泛化能力弱等缺点，难以应用到场景参数设计的整体流程中。因此，亟需构建一种基于真实驾驶行为数据的驾驶模型构建方法，实现高效率地“合理可预见且可避免”评价流程。

技术实现思路

1、本专利技术提供了一种基于逆强化学习的智能汽车标准测试场景生成方法，针对传统驾驶员模型精度低，

2、本专利技术技术方案结合附图说明如下：

3、一种基于逆强化学习的智能汽车标准测试场景生成方法，包括：

4、步骤一、设计待测驾驶场景工程和待测场景，确定关键场景要素；

5、步骤二、分析合理可预见性参数分布，处理自然驾驶数据，计算边缘小概率分布；

6、步骤三、采集人类驾驶员驾驶行为数据，搭建高精度数据采集平台，抽取场景进行驾驶员驾驶数据采集；

7、步骤四、构建基于逆强化学习的人类驾驶员智能体模型，并且基于逆强化学习算法，计算状态到驾驶员动作映射的最佳奖励函数，逆向生成反映真实人类决策机制的驾驶员模型；

8、步骤五、设计优化架构、制定适应度评价准则，并且设计优化搜索算法与适应度评价函数；

9、步骤六、搜索场景自动化优化，构建自动化测试流程，设计优化搜索算法对测试场景参数空间进行迭代搜索，自动生成理想测试用例。

10、进一步的，所述步骤一的具体方法如下：

11、11)定义测试目标；

12、将对自动驾驶系统的评估标准划分为两个关键维度即过程安全性及任务执行有效性；对于过程安全性，在模拟测试过程中，系统应确保不会发生任何形式的实际或潜在碰撞，并且风险评估指标始终保持在预设的安全阈值之内；而对于任务执行有效性，验证自动驾驶系统能否在典型行驶任务场景中适时、准确地激活并执行被测功能；这两类测试目标均量化为具体可衡量的评价指标；

13、12)确定场景要素；

14、将场景的构成要素设定为：交通参与者的运动要素、结构化道路信息、交通信号及标志、光照及天气条件四方面；选取与待测功能的性能表现有影响的要素为关键场景要素。

15、进一步的，所述步骤二的具体方法如下：

16、21)处理自然驾驶数据；

17、以highd数据集为依据，对实际道路行驶中的关键运动学参数进行提取和标准化转换；关键要素参数包括速度、加速度和车距，并转化为便于统计分析的形式；

18、22)计算小概率分布；

19、运用核密度估计方法来精确描绘各个关键参数的概率分布特性曲线，分析各参数分布曲线的尾部区域，找出出现频率较低但具有潜在安全风险的“边缘”、“极端”事件。

20、进一步的，所述步骤三的具体方法如下：

21、31)搭建数据采集平台；

22、采用senso-wheel驾驶模拟器，并将驾驶模拟器与联合仿真软件无缝集成，共同搭建起数据采集平台；

23、32)对驾驶场景进行采样并且对数据进行采集；

24、运用蒙特卡洛随机抽样方法，在前期分析得出的边缘小概率分布中，选取并生成10个代表性测试场景；邀请正常驾驶员一名，在模拟的这10个特定场景下进行驾驶操作，同时系统实时记录并详细收集其驾驶行为数据，以期深入研究人类驾驶员在应对复杂及危险情境时的行为反应模式。

25、进一步的，所述步骤四的具体方法如下：

26、41)定义强化学习任务并且对数据集进行构建；

27、针对场景，定义过程中的状态空间s、动作空间a，将采集的驾驶数据转换为一系列状态-动作对；

28、42)设计奖励函数；

29、设计奖励网络，以强化学习状态为输入，奖励值为输出；为了提升模型训练效率，在神经网络中引入待测系统密切相关的危险性指标碰撞时间；

30、43)应用逆强化学习算法；

31、基于最大熵irl，通过最大化观测到的人类行为与该奖励函数下最优策略生成行为之间的相似性，来估计最佳奖励函数参数；

32、44)生成驾驶员模型；

33、当得到最优奖励函数后，使用强化学习方法ppo，在奖励函数下训练一个专家智能体模型；当专家智能体模型在各种状态下的决策策略与人类驾驶员的数据记录在奖励层面表现一致时即强化学习的奖励结果相同，便认为成功逆向生成了一个反映真实人类决策机制的驾驶员模型。

34、进一步的，所述步骤五的具体方法如下：

35、51)设计优化架构；

36、所述优化架构包含输入、评价、搜索和输出四个部分，输入场景参数空间，通过专家智能体进行模拟驾驶，结合智能优化算法搜索出关键测试场景，用于标准场景构建；

37、52)设计适应度准则；

38、基于获取的专家智能体模型，对实际场景参数进行“可避免”评价，以风险评估领域常用的碰撞时间作为通过性评价指标，计算公式为：两车相对距离/相对车速，单位为秒；如果ttc小于阈值0.6s，则表明该场景难以避免。

39、进一步的，所述步骤六的具体方法如下：

40、61)设计优化算法；

41、采用布谷鸟算法进行场景搜索；

42、62)设计优化流程；

43、基于原始参数空间初始化宿主巢穴位置；然后通过专家智能体计算场景适应度，具体为构建仿真场景-测试专家智能体-输出奖励结果；利用levy飞行确定新解fi，并随机选择候选解fj，如果fi的适应度大于fj，则用新的解替代候选解，否则按照发现概率丢本文档来自技高网...

【技术保护点】

1.一种基于逆强化学习的智能汽车标准测试场景生成方法，其特征在于，包括：

2.根据权利要求1所述的一种基于逆强化学习的智能汽车标准测试场景生成方法，其特征在于，所述步骤一的具体方法如下：

3.根据权利要求1所述的一种基于逆强化学习的智能汽车标准测试场景生成方法，其特征在于，所述步骤二的具体方法如下：

4.根据权利要求1所述的一种基于逆强化学习的智能汽车标准测试场景生成方法，其特征在于，所述步骤三的具体方法如下：

5.根据权利要求1所述的一种基于逆强化学习的智能汽车标准测试场景生成方法，其特征在于，所述步骤四的具体方法如下：

6.根据权利要求1所述的一种基于逆强化学习的智能汽车标准测试场景生成方法，其特征在于，所述步骤五的具体方法如下：

7.根据权利要求1所述的一种基于逆强化学习的智能汽车标准测试场景生成方法，其特征在于，所述步骤六的具体方法如下：

8.根据权利要求1所述的一种基于逆强化学习的智能汽车标准测试场景生成方法，其特征在于，所述制定循环次数为100次；所述指定数目为100个。

【技术特征摘要】

1.一种基于逆强化学习的智能汽车标准测试场景生成方法，其特征在于，包括：

2.根据权利要求1所述的一种基于逆强化学习的智能汽车标准测试场景生成方法，其特征在于，所述步骤一的具体方法如下：

3.根据权利要求1所述的一种基于逆强化学习的智能汽车标准测试场景生成方法，其特征在于，所述步骤二的具体方法如下：

4.根据权利要求1所述的一种基于逆强化学习的智能汽车标准测试场景生成方法，其特征在于，所述步骤三的具体方法如下：

5.根据权利要求1所述的一...

【专利技术属性】
技术研发人员：朱冰，汤瑞，赵健，张培兴，李文旭，李嘉胜，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人