System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于智能汽车,具体涉及一种考虑动作异步性的智能网联汽车高速公路合流决策方法。
技术介绍
1、高速公路匝道合流是自动驾驶最困难的任务之一,其相关研究也一直是自动驾驶领域所关注的热点,实现智能网联汽车在高速公路合流区的合理决策对于推进自动驾驶的商业化应用具有重要的应用价值。
2、早期研究主要采取基于规则的方法,不适用于复杂的合流场景。对此,基于优化的方法表现出较好的效果,但依赖于精确的模型,且计算复杂,对混合交通的适应性较差。随着人工智能技术的发展,多智能体强化学习可以利用神经网络的函数逼近能力来理解环境中的状态信息,并学习状态与动作之间的映射以创建最优策略,表现出良好的性能。但是现有多智能体强化学习研究主要建立在多智能体完全合作的基础上,以马尔可夫决策过程为基本模型,假设所有智能体同时做出决策,最终收敛到纳什均衡。这些方法没有明确地建模和分析车辆之间的冲突,忽略了现实中车辆间的异步动作协同,处理智能体之间复杂交互的能力有限,容易导致收敛结果的不确定性和次优性,合流决策过于保守。因此,如何在决策模型中考虑车辆动作的异步性是提高智能网联汽车高速公路合流安全可靠性的关键问题。
技术实现思路
1、有鉴于此,本专利技术的目的在于提供一种考虑动作异步性的智能网联汽车高速公路合流决策方法,能够针对高速公路合流区车辆动作协同的异步性,通过构建stackelberg博弈模型,把混合交通下智能网联汽车高速公路合流决策表征为一个基于stackelberg博弈的多智能体强化学习问题,设
2、为达到上述目的,本专利技术提供了一种考虑动作异步性的智能网联汽车高速公路合流决策方法,包括以下步骤:
3、s1.选择混合交通下高速公路合流区,并对智能网联汽车icv和人类驾驶汽车hdv进行功能定义;
4、s2.把混合交通下智能网联汽车高速公路合流决策表征为一个基于stackelberg博弈的多智能体强化学习问题,设计考虑车辆动作异步性的时空序列马尔可夫决策过程;
5、s3.构建stackelberg博弈模型;
6、s4.采用actor-critic多智能体强化学习框架进行训练与评估。
7、进一步,所述步骤s1中,智能网联汽车icv和人类驾驶汽车hdv的功能定义为:
8、icv能够通过传感器获取周围车辆的运行状态信息,如速度、位置;
9、icv能够通过车载通信模块获取其他icv和交通通信设施的信息,如实时交通信息、道路状况,实现完全信息共享,hdv不具备通信功能;
10、icv的决策基于分层决策控制模型实现,高级决策由多智能体强化学习算法给出,借助底层pid控制器实现油门和转向操作,hdv的决策依据跟驰模型和换道模型输出的指令实现。
11、进一步,所述高级决策包括向左变道、向右边变道、加速、减速和保持现状。
12、进一步,所述步骤s2中,针对高速公路合流区车辆动作协同的异步性,设计时空序列马尔可夫决策过程,表示为:
13、stmdp={s,a,p,r,γ,o}
14、式中,s表示状态空间;a表示动作空间;p表示状态转移矩阵,表示整个系统的动力学特性;r表示奖励函数;γ表示折扣因子;oi表示智能体i的动作顺序,o=(o1,o2,...,om)表示所有智能体的动作顺序,m表示场景中icv的数量,其顺序排列依据每个icv的安全优先级指标pi来决定,表示不同icv在决策阶段的重要性;
15、其中,多智能体系统整体的状态空间是所有icv状态空间的笛卡尔积,表示为:
16、s=s1×s2×…×sm
17、
18、式中,st为t时刻一辆icv的状态空间;表示车辆的纵向位置,表示车辆的横向位置,的具体值是以高速公路合流区主道上车辆相对于行驶方向上最左侧边缘的竖直线与车辆相对于路段入口纵向最上侧边缘的水平线的交点为笛卡尔坐标系原点来计算的;表示车辆的纵向速度;表示车辆的横向速度;n代表所有icv和hdv的车辆个数,设环境中包含n-m辆hdv和m辆icv;
19、其中,整个系统的动作空间为各个icv的联合动作,表示为:
20、a=a1×a2×…am
21、ai={aleft,aright,aup,adown,acruising}
22、式中,aleft,aright,aup,adown,acruising分别为向左变道、向右边变道、加速、减速和保持现状;ai为一组离散的高级控制决策,为第i辆icv的动作空间;执行一次加速或减速操作,车辆对应的加速度变化为2m/s2。
23、进一步,所述步骤s3构建stackelberg博弈模型的过程为:
24、s3.1结合多智能体强化学习对车辆合流博弈场景进行描述,确定高速公路匝道合流过程中的博弈论各要素;
25、各要素包括:参与者、策略集、收益函数、信息集和均衡;
26、参与者是进入合流区域的所有icv;策略集是icv的动作空间;收益函数是icv的奖励函数;信息集是icv的状态空间;均衡是多个icv在互相最佳响应的情况下达到的一种稳定状态;
27、s3.2通过多智能体强化学习,构建stackelberg博弈模型,表示为:
28、
29、式中,表示在领导者做出决策πl和跟随者做出决策πf时领导者的策略函数;表示在同样情况下跟随者的策略函数;br(πl)表示跟随者在观察到领导者的决策πf后做出的最佳响应策略;
30、s3.3进一步明确stackelberg博弈均衡目标,表示为:
31、
32、式中,表示在领导者做出决策πlse和跟随者做出决策πfse时领导者在状态s下的状态价值函数;表示在领导者做出决策πl和跟随者做出决策πf时领导者在状态s下的状态价值函数;br(πlse)表示跟随者在观察到领导者的决策πlse后做出的最佳响应策略;
33、s3.4设计icv安全优先级指标,根据icv安全优先级指标的大小,确定领导者和跟随者层级,安全优先级指标的值越大,则icv在多层领导者-跟随者结构中的位置越接近顶层;
34、定义第i辆icv的安全优先级指标为pi,表示为:
35、pi=λ1pl+λ2pe+λ3ph+ηi
36、式中,λ1,λ2,λ3分别表示合并优先级度量pl、合并距离优先级度量pe以及车头时距优先级度量ph的权重系数,ηi是服从ηi~n(0,0.001)的正态分布的随机变量,目的是防止出现两辆icv的安全优先级指标pi相同的情况;pl,pe,ph分别表示为:
37、
38、式中,x和l分别为第i辆icv在合并车道上行驶的距离和合并车道长度;dheadway是车头间距;th是预定义的车头时距阈值本文档来自技高网...
【技术保护点】
1.一种考虑动作异步性的智能网联汽车高速公路合流决策方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种考虑动作异步性的智能网联汽车高速公路合流决策方法,其特征在于,所述步骤S1中,智能网联汽车ICV和人类驾驶汽车HDV的功能定义为:
3.根据权利要求2所述的一种考虑动作异步性的智能网联汽车高速公路合流决策方法,其特征在于:所述高级决策包括向左变道、向右边变道、加速、减速和保持现状。
4.根据权利要求3所述的一种考虑动作异步性的智能网联汽车高速公路合流决策方法,其特征在于,所述步骤S2中,针对高速公路合流区车辆动作协同的异步性,设计时空序列马尔可夫决策过程,表示为:
5.根据权利要求4所述的一种考虑动作异步性的智能网联汽车高速公路合流决策方法,其特征在于,所述步骤S3构建Stackelberg博弈模型的过程为:
6.根据权利要求5所述的一种考虑动作异步性的智能网联汽车高速公路合流决策方法,其特征在于,所述步骤S4包括以下子步骤:
【技术特征摘要】
1.一种考虑动作异步性的智能网联汽车高速公路合流决策方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种考虑动作异步性的智能网联汽车高速公路合流决策方法,其特征在于,所述步骤s1中,智能网联汽车icv和人类驾驶汽车hdv的功能定义为:
3.根据权利要求2所述的一种考虑动作异步性的智能网联汽车高速公路合流决策方法,其特征在于:所述高级决策包括向左变道、向右边变道、加速、减速和保持现状。
4.根据权利要求3所述...
【专利技术属性】
技术研发人员:谷振宇,沈嘉玮,李东洋,胥肖沄,刘仁韬,姜为,
申请(专利权)人:重庆大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。