System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种基于深度强化学习的充电调度方法、装置、设备及介质。
技术介绍
1、当前,新能源汽车快速发展,尤其以电能为驱动能力的电动汽车呈快速发展的姿态。然而,随着电动汽车的数量越来越多,用户对电动汽车的充电及时性提出了更高的要求。
2、相关技术中,使用运筹优化方法在车辆离散决策空间中进行最优决策方案的选择,以确定多个智能充电设备和多个待充电车辆之间的匹配关系,然而,随着车辆离散决策空间的不断扩展以及实时求解的个性化要求,传统的运筹优化方法面临着巨大的计算压力,在有限的时间内难以准确找到最优决策方案,即当存在大规模待充电车辆时,相关技术中存在对智能充电设备的充电调度效率差的问题。
技术实现思路
1、本申请实施例的主要目的在于提出一种基于深度强化学习的充电调度方法、装置、设备及介质,本申请能够提高对智能充电机器人的充电调度效率。
2、为实现上述目的,本申请实施例的第一方面提出了一种于深度强化学习的充电调度方法,方法包括:
3、获取目标区域内多个待选车辆的充电需求信息,以及多个待选充电设备的设备资源信息;
4、将充电需求信息和设备资源信息输入预先训练好的深度强化学习模型中,当待选车辆未选完时,从多个待选充电设备中选定目标充电设备,并确定目标充电设备对应的目标充电动作,其中,目标充电动作包括向内充电和向外充电中的一种;
5、若目标充电动作为向外充电,从剩余的多个待选车辆中,基于当前的充电需求信息和设备资源信息为
6、直至所有待选车辆选完时,基于每一目标充电设备下的多个目标充电动作的选定顺序,生成对应的目标充电序列;
7、基于各目标充电序列,调度对应的目标充电设备按选定顺序执行目标充电动作,以完成对目标车辆的充电。
8、在一些实施例中,设备资源信息包括当前余电值、当前累计工作时间和当前充电序列,其中,当前充电序列是目标充电序列的一个子集;
9、从多个待选充电设备中选定目标充电设备,包括:
10、根据预设的第一解码器参数,对所有当前余电值和当前累计工作时间进行线性变换和激活处理,得到设备状态特征;
11、根据各待选充电设备对应的当前充电序列生成高维映射序列,根据预设的第二解码器参数,对所有高维映射序列进行线性变换和激活处理,得到序列状态特征;
12、对设备状态特征和序列状态特征拼接后的结果进行线性变换和激活处理,得到待选充电设备对应的设备选择概率值,根据设备选择概率值从多个待选充电设备中选定目标充电设备。
13、在一些实施例中,根据各待选充电设备对应的当前充电序列生成高维映射序列,包括:
14、根据预设的编码器参数,拼接每一待选车辆对应的充电需求信息和所有待选充电设备对应的设备资源信息,得到初始特征;
15、以预设的第一注意力机制为约束条件,对初始特征进行特征增强,得到更新后的初始特征;
16、对更新后的初始特征进行前馈传播处理,得到待选车辆对应的高维映射特征;
17、针对每一待选充电设备对应的当前充电序列中指示的各待选车辆的选定顺序,依次拼接对应的高维映射特征,得到高维映射序列。
18、在一些实施例中,基于当前的充电需求信息和设备资源信息为目标充电设备选定对应的目标车辆,包括:
19、融合所有高维映射特征,得到全局特征信息;
20、确定目标充电设备对应的设备资源信息,并以预设的第二注意力机制为约束条件,对设备资源信息、全局特征信息和高维映射序列拼接后的结果进行特征增强,得到车辆状态特征;
21、对车辆状态特征进行特征提取和激活处理,得到待选车辆对应的车辆选择概率值,根据车辆选择概率值从多个待选车辆中确定目标充电设备对应的目标车辆。
22、在一些实施例中,充电需求信息包括充电起止值和停留时间;
23、更新对应的设备资源信息,包括:
24、获取当前选定的目标充电设备对应的设备资源信息,以及目标车辆对应的充电需求信息;
25、根据当前余电值和充电起止值计算得到电量差值,并根据当前累计工作时间和停留时间计算得到时间总值;
26、根据电量差值更新当前余电值,根据时间总值更新当前累计工作时间,根据目标车辆的选定顺序更新当前充电序列。
27、在一些实施例中,深度强化学习模型是通过以下步骤训练得到:
28、获取样本区域内多个样本待选车辆的样本充电需求信息,以及多个样本待选充电设备的样本设备资源信息;
29、样本充电需求信息和样本设备资源信息输入深度强化学习模型中,当样本待选车辆未选完时,从多个样本待选充电设备中选定样本目标充电设备,并确定样本目标充电设备对应的样本目标充电动作,其中,样本目标充电动作包括向内充电和向外充电中的一种;
30、若样本目标充电动作为向外充电,从剩余的多个样本待选车辆中,基于当前的样本充电需求信息和样本设备资源信息为样本目标充电设备选定对应的样本目标车辆,并更新对应的样本设备资源信息和样本充电需求信息;
31、直至所有样本待选车辆选完时,基于每一样本目标充电设备下的多个样本目标充电动作的选定顺序,生成对应的样本目标充电序列;
32、根据样本目标充电序列确定样本奖励值,基于样本奖励值调整深度强化学习模型的参数,得到训练后的深度强化学习模型。
33、在一些实施例中,样本目标充电序列中的样本目标充电设备是根据样本设备选择概率值确定得到的,样本目标充电设备对应的各样本目标车辆是根据样本车辆选择概率值确定得到的,样本奖励值包括第一样本奖励值和第二样本奖励值;
34、根据样本目标充电序列确定样本奖励值,包括:
35、若样本目标充电设备是根据最大的样本设备选择概率值确定得到的,且样本目标充电设备对应的各样本目标车辆是根据最大的样本车辆选择概率值确定得到的,根据样本目标充电序列确定每一样本目标充电设备匹配的样本目标车辆的第一充电数量,以及对应的每一样本目标车辆释放的第一充电电量;
36、根据所有第一充电数量的合计值和/或第一充电电量的合计值,得到第一样本奖励值;
37、若样本目标充电设备是根据随机的样本设备选择概率值确定得到的,且样本目标充电设备对应的各样本目标车辆是根据随机的样本车辆选择概率值确定得到的,根据样本目标充电序列确定每一样本目标充电设备匹配的样本目标车辆的第二充电数量,以及对应的每一样本目标车辆释放的第二充电电量;
38、根据所有第二充电数量的合计值和/或第二充电电量的合计值,得到第二样本奖励值。
39、为实现上述目的,本申请实施例的第二方面提出了一种基于深度强化学习的充电调度装置,装置包括:
40、获取模块,用于获取目标区域内多个待选车辆的充电需求信本文档来自技高网...
【技术保护点】
1.一种基于深度强化学习的充电调度方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述设备资源信息包括当前余电值、当前累计工作时间和当前充电序列,其中,所述当前充电序列是所述目标充电序列的一个子集;
3.根据权利要求2所述的方法,其特征在于,所述根据各所述待选充电设备对应的当前充电序列生成高维映射序列,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于当前的所述充电需求信息和所述设备资源信息为所述目标充电设备选定对应的目标车辆,包括:
5.根据权利要求2所述的方法,其特征在于,所述充电需求信息包括充电起止值和停留时间;
6.根据权利要求1所述的方法,其特征在于,所述深度强化学习模型是通过以下步骤训练得到:
7.根据权利要求6所述的方法,其特征在于,所述样本目标充电序列中的所述样本目标充电设备是根据样本设备选择概率值确定得到的,所述样本目标充电设备对应的各所述样本目标车辆是根据样本车辆选择概率值确定得到的,所述样本奖励值包括第一样本奖励值和第二样本奖励值;
8.一种基于深
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于深度强化学习的充电调度方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于深度强化学习的充电调度方法。
...【技术特征摘要】
1.一种基于深度强化学习的充电调度方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述设备资源信息包括当前余电值、当前累计工作时间和当前充电序列,其中,所述当前充电序列是所述目标充电序列的一个子集;
3.根据权利要求2所述的方法,其特征在于,所述根据各所述待选充电设备对应的当前充电序列生成高维映射序列,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于当前的所述充电需求信息和所述设备资源信息为所述目标充电设备选定对应的目标车辆,包括:
5.根据权利要求2所述的方法,其特征在于,所述充电需求信息包括充电起止值和停留时间;
6.根据权利要求1所述的方法,其特征在于,所述深度强化学习模型是通过以下步骤训练得到:
7...
【专利技术属性】
技术研发人员:张莲民,邓茗,丁溢,张慧娟,郭永鸿,潘凯,张海伦,
申请(专利权)人:深圳市大数据研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。