System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术使用了一个专注于长期收益的路径规划模型,利用强化学习将预估的未来价值结合到实时调度中,以实现车队的长期运营效益最大化。具体涉及一种自动驾驶出租车的路径规划和充放电协调优化方法。
技术介绍
1、随着对自动驾驶出租车的日益关注,这类车辆以其24小时不间断运营、无需人力成本、低能源成本和易于统一管理的优势,成为了行业内外瞩目的焦点。因此,有效地整合路径规划和电动汽车充放电策略,对于自动驾驶出租车运营平台来说,是实现成本降低与效率提升的重要途径。
2、在解决实时调度问题时,由于乘客未来出行信息未知,且乘客起终点(od)随时间产生,因此形成了动态车辆路由问题(dvrp)。为了全局优化匹配效率,近期研究通过创新策略和先进算法,如基于强化学习的动态二分图司乘匹配策略和深度q网络等,提高了车队运营效率。这些方法有效探索了多车司乘匹配问题,并证明了考虑未来价值的预测策略能够显著提升运营效率。此外,由于电价的分时变化,能源成本成为影响电动出租车净收益的重要因子,而考虑分时电价的调度策略更加契合降本增效的需求,可通过车到网(v2g)技术反向放电,v2g技术的应用能为运营平台带来额外经济效益。
3、鉴于实时调度系统往往短视眼前利益,本专利技术提出一种侧重长期收益的自动驾驶动态调度模型。通过神经网络学习分时电价特征、模拟车辆不同时空状态的价值,并将预估未来价值整合到当前路径规划中,从而提高车队的长期运营收益。
技术实现思路
1、本专利技术针对长期收益的自动驾驶动态调度模型,
2、获取智能体相关数据,构建mdp模型,所述mdp模型表示为(s,a,t,r,γ),其中s是状态空间,a是动作空间,t是状态转换模型,r是奖励模型,γ是折扣因子;
3、系统利用历史订单的时空分布(当前位置、是否空车和行驶目的地等)和分时电价的信息进行离线预训练;
4、建立基于神经网络的车辆状态价值预测模型,将状态s通过神经网络拟合出车辆状态值函数v(sv,a),然后通过双神经网络和经验池的方式获得算法收敛;
5、所述神经网络的架构包括:输入层,第一卷积层、第二卷积层、最大池化层、第一全连接层、第二全连接层、输出层,状态s通过神经网络输入,定义参数化的状态价值评估函数为v(s,θ)使用一种td(0)的方式估计v(sv,*)得到车辆状态价值函数:
6、
7、其中θt表示目标网络的参数。
8、使用车辆状态值函数v(sv,a)来衡量车辆时空状态sv,a的未来价值,它代表了车辆在sv,a状态下到运营结束时间的预估累积收益,其中sv,a表示车辆v执行动作a后到达的状态,考虑未来价值情况下的优化目标p't,其中γ∈[0,1]是一个折扣因子,表示模型对未来价值的重视程度:
9、
10、所述模型的输入变量是模型构建中的状态向量s,表示为[vtv,vbv,vlv,vdv,ts,td],其中vtv是当车辆状态变为“可调度”时所需要的时间,vbv是当车辆状态变为“可调度”时的剩余电量百分比,vlv是当车辆状态变为“可调度”时所在的路网位置,vdv是车辆从当前位置vlv到最近的充电站的距离,ts是每天的时间步,td是日期时间步;
11、动作空间at表示在时间步t所有可行的动作集合(a∈at),包括智能体停留(a1),转移(a2),充电(a3),放电(a4),匹配(a5);
12、所述“可调度”的电动出租车,选择智能体可执行动作,具体包括:
13、a.若在调度指令下,电动出租车选择停留(a1),车辆将停留在原地不动,以等待未来的出行需求;
14、b.若在调度指令下,电动出租车选择转移(a2),调度指令引导车辆转移到另一个位置。车辆在调度时间窗δt内持续移动,可到达的新位置是与原位置时间距离为δt以内的地点。系统根据不同转移地点的时空价值决策车辆是否转移到该地点。通过该指令,车辆可以转移到出现订单概率更大的地点或者前往充电站;
15、c.若在调度指令下,电动出租车选择充电(a3),如果车辆在充电站,接收到该指令的车辆继续充电或立即开始充电。当车辆已经处于满电状态时,该指令无效;
16、d.若在调度指令下,电动出租车选择放电(a4),如果车辆在充电站,接收到该指令的车辆继续放电或立即开始放电。当车辆已经处于无电状态时,该指令无效;
17、e.若在调度指令下,电动出租车选择匹配(a5),该指令指派一个出行订单给车辆,即与订单集rt相关的动作。
18、每个“匹配”动作与一个出行订单绑定,当车辆执行一个指定的“匹配”指令时,意味着车辆需要前往该订单乘客的起点处接起乘客,其后运送乘客前往目的地。车辆在到达乘客目的地之前,都处于“不可调度”的状态。
19、若在调度指令下,电动出租车选择匹配(a5),每个“匹配”动作与一个出行订单关联,具体包括:
20、订单o为例,rro,rpo,rdo,rao,rsto分别表示订单o发起时间、乘客预估上车时间、乘客预估下车时间,乘客接受的最大等待时间、乘客起点终点最短旅行时间;
21、rpo≤rao+rro是乘客等待时间约束,上车时间不晚于最晚上车时间;
22、在满足乘客等待时间约束下,该动作的回报由计算,其中w1表示单位时间车辆获得的收益。
23、由于车辆的位置不同,系统调度不同车辆运送指定乘客时乘客的等待时间不同,使用w2表示对乘客单位等待时间的补偿,系统指派不同车辆运载相同乘客时,由于车辆的初始位置不同,运营商有不同程度的收益。
24、对每辆“可调度”车辆,模型枚举所有动作,计算车辆-动作对的价值q(sv,*,a),其中sv,*表示车辆的当前状态,q(sv,*,a)表示车辆在当前状态下执行动作a的预估未来累积收益:
25、q(sv,*,a)=rv,a+γ·v(sv,a)。
26、模型能够利用分时电价的峰谷特征和电动汽车入网(vehicle to grid,v2g)技术进行充放电;
27、使用式表示,其中f(t)是关于时间的分段函数,表示在一天中t时刻的分时电价,pc表示平均充电功率,pd表示平均放电功率,表示充电产生的成本,表示放电产生的收益。
28、结合当前状态和预测的未来价值做出实时的路径规划和调度决策。
29、通过贪婪地选取权重最大的车辆-动作对,其次优先选择运载乘客相关的动作。最后,将贪婪匹配结果作为整数规划求解器初始解进一步求解,以达到最大化。
本文档来自技高网...【技术保护点】
1.一种自动驾驶出租车的路径规划和充放电协调优化方法,其特征在于,系统利用历史订单的时空分布(当前位置、是否空车和行驶目的地等)和分时电价的信息进行离线预训练,建立基于神经网络的车辆状态价值预测模型,所述模型的输入变量是模型构建中的状态向量S,表示为<mi>[</mi><msub><mi>VT</mi><mi>v</mi></msub><mi>,</mi><msub><mi>VB</mi><mi>v</mi></msub><mi>,</mi><msub><mi>VL</mi><mi>v</mi></msub><mi>,</mi><msub><mi>VD</mi><mi>v</mi></msub><
2.根据权利要求1所述的一种自动驾驶出租车的路径规划和充放电协调优化方法,其特征在于,所述“可调度”的电动出租车,选择智能体可执行动作,具体包括:
3.根据权利要求2所述的一种自动驾驶出租车的路径规划和充放电协调优化方法,其特征在于,若在调度指令下,电动出租车选择匹配(),每个“匹配”动作与一个出行订单关联,具体包括:
4.根据权利要求1所述的一种自动驾驶出租车的路径规划和充放电协调优化方法,其特征在于,模型能够利用分时电价的峰谷特征和电动汽车入网(Vehicle to Grid, V2G)技术进行充放电,,,其中是关于时间的分段函数,表示在一天中时刻的分时电价,表示平均充电功率,表示平均放电功率,表示充电产生的成本,表示放电产生的收益。
5.根据权利要求1所述的一种自动驾驶出租车的路径规划和充放电协调优化方法,其特征在于,结合当前状态和预测的未来价值做出实时的路径规划和调度决策,通过贪婪地选取权重最大的车辆-动作对,其次优先选择运载乘客相关的动作,最后,将贪婪匹配结果作为整数规划求解器初始解进一步求解,以达到最大化。
...【技术特征摘要】
1.一种自动驾驶出租车的路径规划和充放电协调优化方法,其特征在于,系统利用历史订单的时空分布(当前位置、是否空车和行驶目的地等)和分时电价的信息进行离线预训练,建立基于神经网络的车辆状态价值预测模型,所述模型的输入变量是模型构建中的状态向量s,表示为<mi>[</mi><msub><mi>vt</mi><mi>v</mi></msub><mi>,</mi><msub><mi>vb</mi><mi>v</mi></msub><mi>,</mi><msub><mi>vl</mi><mi>v</mi></msub><mi>,</mi><msub><mi>vd</mi><mi>v</mi></msub><mi>,ts,td]</mi>,其中是当车辆状态变为“可调度”时所需要的时间,是当车辆状态变为“可调度”时的剩余电量百分比,是当车辆状态变为“可调度...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。