System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于交通运输领域,涉及一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备。
技术介绍
1、在自动驾驶领域,实现车辆在无人干预下安全行驶的愿景是当今技术追求的重点。自动驾驶技术旨在通过先进的感知、决策和控制系统,在无需人工干预的情况下,使车辆能够安全、有效地导航。传统的自动驾驶系统通常依赖基于规则的方法,这些方法需要复杂的程序编码,对各种交通情况进行预设规则。然而,这些基于规则的系统在应对未知和复杂场景时往往显得僵化和有限,难以适应动态变化的环境。为了提供更灵活且适应性强的解决方案,强化学习被引入到自动驾驶领域。强化学习通过与环境的交互学习,无需预设规则,提供了一种更加灵活和智能的自动驾驶解决方案。但是,传统的强化学习通常需要手动设计状态空间和奖励函数,这在复杂的自动驾驶场景中极为困难且效率低下。
2、端到端强化学习被引入到自动驾驶领域,作为提供更灵活且适应性强解决方案的一种方法。端到端强化学习通过直接从原始传感器输入中学习驾驶行为,整合了环境感知、决策制定和控制执行,避免了复杂的手动特征选择和状态设计,减少了路径规划和轨迹跟踪等中间环节的误差传递。通过这种方式,端到端强化学习提高了系统的鲁棒性和适应性,能够更有效地应对动态变化的环境。
3、因此,在这样的背景下,引入人类偏好对奖励函数模型进行训练,这一方法摒弃了过于依赖抽象和理论化的奖励函数设定,转而直接引入人类的直观判断和反馈,通过提供给人类两个状态与动作的序列,得出人类对其偏好的反馈,借助偏好预测模型与交叉熵损失函数对奖励函数模型进行训练
4、综上所述,本专利技术提出了一种端到端强化学习的新型控制策略,该策略通过将端到端强化学习与人类偏好相结合,实现在城市复杂路况下的自动驾驶,提供一种更加高效、安全、可泛化的自动驾驶解决方案。
技术实现思路
1、本专利技术提供了一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备,采用带有人类偏好的奖励函数模型,解决了传统强化学习中容易出现的奖励黑客问题,实现了与人类的真实目标和价值观对齐的端到端自动驾驶。通过引入人类偏好,模型不仅能学习到与人类决策一致的行为,还能有效避免因奖励设计缺陷而导致的策略失效问题。人类偏好的引入是本专利技术的一大创新点,它确保了模型在实际驾驶过程中做出的决策与人类驾驶员的预期和价值观一致,增强了模型的现实适用性和安全性。基于预先采集到的数据集,作为预训练奖励函数模型输入,通过预训练的优势,奖励函数模型可以在学习开始之前就获得关于任务的一定先验知识,帮助模型更快的收敛;利用人类偏好,使学习行为更接近人类决策,避免奖励黑客行为;基于实时采集到的车端与路端信息,作为强化学习主神经网络的输入,在训练的过程中,在固定时段同时根据人类偏好利用对奖励函数模型的神经网络参数进行调整和优化,有助于处理那些预训练过程中可能未能充分考虑到的特殊情况和边缘案例。在保证模型训练效率与最终模型的表现更加符合人类的期望和偏好的同时,确保行驶的安全性。
2、本专利技术基于人类偏好强化学习的端到端自动驾驶控制系统包括三块主要内容:预训练部分、奖励函数学习部分以及智能体学习部分。
3、对于预训练部分,采用carla模拟器中预先采集的数据作为输入,将现有奖励函数输出的真值加上横摆角速度作响应比作为目标值,对奖励函数的神经网络模型进行预训练。通过使用预先采集到的高质量数据进行预训练,奖励函数模型在学习开始之前就获得了关于任务的一定先验知识。这种策略有助于模型更快地收敛,并提高模型的初始性能,减少训练时间。
4、对于奖励函数学习部分,利用奖励预测值得出奖励模型预测的偏好与真实偏好做交叉熵,并获取此状态下不同动作的奖励分布,并加入l2正则化项,其可以通过添加权重的平方和作为惩罚项,有助于减少模型复杂度并防止过拟合,从而提高模型的泛化能力。奖励函数学习通过引入人类偏好,借助偏好预测模型与交叉熵损失函数使得模型的学习行为更加接近人类决策,从而避免奖励黑客行为。这一步骤有助于模型在复杂环境中做出更符合人类期望的决策,并增强模型的泛化能力。
5、对于智能体学习部分,采用ppo算法,在carla模拟器中,以语义分割后的多通道bev作为输入,以向量形式的油门开度与转角作为输出,进行实时训练。智能体学习采用ppo算法,通过实时采集的车端与路端信息进行训练。该部分确保了模型在实际操作中的表现更加符合人类的期望和偏好,同时保证了行驶的安全性。通过不断的训练和优化,智能体学习部分能够有效提高自动驾驶系统的决策能力和适应性。
6、通过这三部分的紧密结合,本专利技术的端到端自动驾驶控制系统不仅解决了传统强化学习中容易出现的奖励黑客问题,而且使得自动驾驶系统能够与人类的真实目标和价值观紧密对齐。该策略显著增强了自动驾驶模型的泛化能力,并确保了在复杂交通环境中的行为一致性和安全性,与人类乘客的驾驶偏好保持高度一致。
7、第一部分:预训练
8、对于奖励函数的神经网络模型,利用roach模型在carla模拟器中进行数据集预采集,保存为.h5文件,提供了感知的语义信息与自车状态量,随后为帮助神经网络理解输入信息,利用卷积层与全连接层进行提取的特征作为神经网络模型的输入,输入项的原始信息包括:1)语义分割后的多通道bev;2)自车油门、转向、刹车、速度,其中,转向控制的取值范围定义为[-1,1],表示车辆左右转向的程度;而油门控制和刹车控制的取值范围均设定为[0,1],代表油门和刹车踏板应用的力道,0代表无力道,1代表全力道。;3)roach模型的奖励真实值rb;4)自车的横摆角速度,单位为°/s。输出为强化学习奖励值的预测值v(st),在模型用于更新神经网络的权重。
9、语义分割后的多通道bev图像ibev包括六个通道,分别是可行驶区域、预期路线、车道边界线、多个时间序列的其余车辆、多个时间序列的行人、多个时间序列的交通灯与停止标志及其触发区域。测量向量mre包括bev中未表示的自车状态,包括转向、油门、刹车、横向和水平速度的地面实况测量值。对于bev,采用六层卷积层进行编码处理;对于测量向量,采用两个全连接层进行编码。将两个编码器的输出合并,并通过另外两个全连接层处理以产生潜在特征jre,最后输入到带有两个全连接隐藏层的奖励函数的神经网络模型中进行训练。奖励函数的神经网络模型由一个输入层、两个隐藏层以及一个输出层组成,输入输出层均配置有单一单元,而隐藏层设定为具有128个单元。其中,每一个隐藏层后紧跟一层leakyrelu激活函数以增加非线性表达能力;在输出层采用线性激活函数。为了将稳定性考虑在内,参照响应比函数,提出一种综合奖励函数,方程如下所示:
10、
11本文档来自技高网...
【技术保护点】
1.一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,包括:预训练部分、奖励函数学习部分以及智能体学习部分;
2.根据权利要求1所述的一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,所述预训练部分,预先采集的数据是利用ROACH模型在CARLA模拟器中进行数据集预采集,并保存为.h5文件;具体包括:
3.根据权利要求2所述的一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,所述语义分割后的多通道BEV图像包括六个通道,分别是可行驶区域、预期路线、车道边界线、多个时间序列的其余车辆、多个时间序列的行人、多个时间序列的交通灯与停止标志及其触发区域;测量向量包括BEV中未表示的自车状态,包括转向、油门、刹车、横向和水平速度的地面实况测量值;对于BEV,采用六层卷积层进行编码处理,对于测量向量,采用两个全连接层进行编码,将两个编码合并,并通过另外两个全连接层处理以产生潜在特征,最后输入到带有两个全连接隐藏层的奖励函数的神经网络模型中进行训练。
4.根据权利要求3所述的一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,所
5.根据权利要求4所述的一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,为了将稳定性考虑在内,参照响应比函数,提出一种综合奖励函数,如下所示:
6.根据权利要求4所述的一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,对于神经网络模型的损失函数,提出一种利用时间差分学习的方法,以在奖励预测模型中实现顺序敏感性,这不仅考虑到一个行动和其立即回报,还综合了后续状态的预测奖励值,从而允许模型对于序列中行动的长期影响有所认识;损失函数中引入一个序列衰减系数λ,适用于奖励函数预测模型的损失计算,具体来说,对每一步采取的行动的奖励预测V(st)更新如下:
7.根据权利要求4所述的一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,对于神经网络的权重更新,使用反向传播算法计算损失函数关于模型参数的梯度,梯度根据损失函数对每个参数的偏导数来度量每个参数的改变率,这些计算出的梯度被用来驱动Adam优化器,实现模型权重的更新,权重的更新遵循以下规则:
8.根据权利要求1所述的一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,所述奖励函数学习部分,在奖励函数神经网络模型预训练完成后,将其接入强化学习模型,用以代替强化学习模型中基于规则的奖励函数部分;
9.根据权利要求1所述的一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,所述智能体学习部分,将语义分割后的六通道BEV图像作为输入,此外再额外输入一个测量向量,其包括BEV中未表示的自车状态,包括方向、油门、刹车、变速器档位、横向和纵向速度,将以上输入经过与预训练时相同的卷积与全连接层进行编码,帮助强化学习理解,输出为自车转角、油门、刹车的预测值,其中,转向控制的取值范围定义为[-1,1],表示车辆左右转向的程度;油门控制和刹车控制的取值范围均设定为[0,1],代表油门和刹车踏板应用的力道,0代表无力道,1代表全力道;
10.一种自动驾驶设备,其特征在于,该设备内设置权利要求1-9任一项所述系统的程序代码。
...【技术特征摘要】
1.一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,包括:预训练部分、奖励函数学习部分以及智能体学习部分;
2.根据权利要求1所述的一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,所述预训练部分,预先采集的数据是利用roach模型在carla模拟器中进行数据集预采集,并保存为.h5文件;具体包括:
3.根据权利要求2所述的一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,所述语义分割后的多通道bev图像包括六个通道,分别是可行驶区域、预期路线、车道边界线、多个时间序列的其余车辆、多个时间序列的行人、多个时间序列的交通灯与停止标志及其触发区域;测量向量包括bev中未表示的自车状态,包括转向、油门、刹车、横向和水平速度的地面实况测量值;对于bev,采用六层卷积层进行编码处理,对于测量向量,采用两个全连接层进行编码,将两个编码合并,并通过另外两个全连接层处理以产生潜在特征,最后输入到带有两个全连接隐藏层的奖励函数的神经网络模型中进行训练。
4.根据权利要求3所述的一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,所述奖励函数的神经网络模型,由一个输入层、两个隐藏层以及一个输出层组成,输入层和输出层均配置单一单元,隐藏层设定为128个单元;其中,每一个隐藏层后紧跟一层leakyrelu激活函数以增加非线性表达能力;在输出层采用线性激活函数。
5.根据权利要求4所述的一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,为了将稳定性考虑在内,参照响应比函数,提出一种综合奖励函数,如下所示:
6.根据权利要求4所述的一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,对于神经网络模型...
【专利技术属性】
技术研发人员:蔡英凤,曹吴鸿,陆思凯,陈龙,孙晓强,
申请(专利权)人:江苏大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。