基于多目标深度强化学习的目标分配方法、装置及系统制造方法及图纸

技术编号：42111045 阅读：20 留言：0更新日期：2024-07-25 00:33

本发明专利技术涉及一种基于多目标深度强化学习的目标分配方法、装置及系统。其方法部分主要包括：输入多目标分配问题实例信息，以及权重向量集合；对多目标分配问题实例信息进行矩阵化处理，输入策略模型的encoder模块，得到encoder模块的输出结果；计算decoder模块的权重系数；计算Pareto解；遍历各权重向量，根据遍历的权重向量重复计算decoder模块的权重系数以及计算Pareto解，得到多目标分配问题实例的Pareto解集，即完成求解。本发明专利技术可以实现多目标分配问题的Pareto解集求解。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及目标分配优化，特别是涉及一种基于多目标深度强化学习的目标分配方法、装置及系统。

技术介绍

1、目标分配问题最初被提出，其主要内容是为了将一定种类的输出源、一定数量的输出单位分配给一定数量的接收目标，实现某些接收目标被损伤概率的最小化，或某些接收目标被损伤概率的最大化。在上述问题中，求解其最优解实际上是比较困难的，所以大部分算法的研究目标是在可接受的时间限制内求得尽量好的优化结果。传统的目标分配问题仅考虑单个优化目标，如最大化输出源对接收目标的综合损伤效能，但是在实际应用场景中，输出源和输出单位的成本也非常重要。多目标分配问题则需要同时考虑最大化效能和最小化成本两个优化目标，求解得到的帕累托(pareto)解集可为实际决策提供更好的参考，但是多优化目标给问题求解带来了更大的难度。需说明，本专利技术中的多目标分配问题指的是“具有多个优化目标的目标分配问题”，其中，“优化目标”中的目标指的是优化问题的目标函数，“目标分配”中的目标指的是待分配的接收目标。

2、相关研究多采用元启发式算法求解多目标分配问题，由于元启发式算法依赖于种群的迭代进化，计算成本较高。有研究者提出一种融合注意力机制的深度强化学习算法，其应用时仅需根据问题实例进行一次模型推理即可得到优化解，响应快速，但是其仅考虑单个优化目标。有研究者采用神经网络模型辅助多目标分配问题求解完成后pareto解选择问题。有研究者利用强化学习算法训练的神经网络模型辅助确定双种群遗传算法中的种群交换率，以提高种群的多样性。这类研究采用神经网络/强化学习技术辅助目标

3、在组合优化领域，有研究采用强化学习技术直接求解典型多目标组合优化问题。有研究者基于分解思想，将多目标优化问题分解为一系列单目标优化问题，并对各个单目标优化问题分别建立一个指针网络(pointer network)，利用训练得到的各指针网络实现对pareto解集的求解，但是其模型数量较多，训练成本较高，且训练完成的模型只能求解特定权重向量下的pareto解。有研究者建立根据问题背景信息以及分解权重向量预测pareto解的神经网络模型，并设计了一种高效强化学习算法进行模型训练，得到的模型能够求解任一权重向量下的pareto解，优化效果和计算速度具有较大优势。不过，这类研究考虑的均是旅行商问题、车辆路径问题等形式规整的典型组合优化问题，无法直接应用于多目标分配问题的求解。

4、有鉴于此，如何克服现有技术所存在的缺陷，解决上述技术问题中的至少一部分问题，是本
待解决的难题。

技术实现思路

1、针对现有技术中的缺陷或改进需求，本专利技术提供一种基于多目标深度强化学习的目标分配方法、装置及系统，首先研究多目标分配问题的优化数学模型，设计面向多目标分配问题的策略模型结构以及强化学习训练算法，并进行模型训练，利用策略模型实现多目标分配问题实例在任一权重向量下的子问题的求解，进而实现多目标分配问题的pareto解集求解。

2、本专利技术采用如下技术方案：

3、第一方面，本专利技术提供了一种基于多目标深度强化学习的目标分配方法，包括：

4、输入多目标分配问题实例信息，以及权重向量集合；

5、对多目标分配问题实例信息进行矩阵化处理，输入策略模型的encoder模块，得到encoder模块的输出结果；

6、计算decoder模块的权重系数：从权重向量集合中选择一个权重向量，输入权重生成网络层，计算得到策略模型的decoder模块的权重系数；

7、计算pareto解：将encoder模块的输出结果输入decoder模块，计算得到一个输出源和接收目标的分配方案，也即多目标分配问题实例在当前权重向量下的pareto解；

8、遍历各权重向量，根据遍历的权重向量重复计算decoder模块的权重系数以及计算pareto解，得到多目标分配问题实例的pareto解集，即完成求解。

9、在一个优选实施方式中，所述多目标分配问题实例信息包括：各接收目标的价值系数w＝[w1,w2,…,wt]、输出源-接收目标对的损伤概率矩阵p＝[pij]n×t、各类输出源的数量o＝[o1,o2,…,on]以及各类输出单位的成本cw＝[cw1,cw2,…,cwn]；所述权重向量为二维向量，元素和为1，元素均大于等于0；其中，t为接收目标数，n为输出源种类数。

10、在一个优选实施方式中，所述对多目标分配问题实例信息进行矩阵化处理具体包括：

11、将单个多目标分配问题实例信息写成大小为(n×t)×4的矩阵，矩阵中每行对应一个输出源-接收目标对的损伤概率、输出源的数量、输出单位的成本以及接收目标的价值系数，如下式：

12、i＝(pij,oi,cwi,wj)；i＝1,2,…,n；j＝1,2,…,t；

13、所述策略模型的encoder模块采用与transformer模型相同的encoder模块，其由一个线性层加六个encoder子层组成，每个encoder子层由多注意力层、add&norm层、mlp层、add&norm层堆叠而成。

14、在一个优选实施方式中，所述权重生成网络层为一线性层，所述decoder模块的权重系数根据所述权重生成网络层的权重对权重向量做线性变换后再作变形得到。

15、在一个优选实施方式中，所述计算pareto解具体包括：

16、按照预设顺序，每次取一个输出源-接收目标对在嵌入矩阵中所对应的嵌入向量，与encoder模块输出矩阵进行多注意力机制计算，得到结果

17、根据当前已经生成的各输出源-接收目标对的分配结果以及嵌入向量计算当前状态向量，并将当前状态向量输入一mlp层，得到结果

18、将与在最后一维上连接起来，再输入一mlp层，计算得到一个标量值y，最后采用sigmoid函数计算，将y映射到[0,1]区间内的一个标量值z；

19、根据当前已经分配的输出源和目标分配结果计算当前种类输出源的剩余数量n，将其与z相乘并进行四舍五入后，得到一[0,n]范围内整数，即当前所选的输出源-接收目标对的输出源分配数量；

20、根据上述流程，按照预设顺序每次取一个输出源-接收目标对，计算得到对应的输出源分配数量，待遍历完成所有输出源-接收目标对后，即得到一完整pareto解。

21、在一个优选实施方式中，所述根据当前已经生成的各输出源-接收目标对的分配结果以及嵌入向量计算当前状态向量具体包括：

22、将各个已经分配的输出源-接收目标对的对应的向量分别与其分配结果z相乘再计算平均结果，所得向量即为包含当前分配结果信息的当前状态向量。

23、在一个优选实施方式中，所述策略模型的训练方法具体包括：

24、初始化策略模型参数θ和学习率α，初始化最大训练批次数emax和单批次容量k；本文档来自技高网...

【技术保护点】

1.一种基于多目标深度强化学习的目标分配方法，其特征在于，包括：

2.根据权利要求1所述的基于多目标深度强化学习的目标分配方法，其特征在于，所述多目标分配问题实例信息包括：各接收目标的价值系数W＝[w1,w2,…,wt]、输出源-接收目标对的损伤概率矩阵P＝[pij]n×t、各类输出源的数量O＝[o1,o2,…,on]以及各类输出单位的成本CW＝[cw1,cw2,…,cwn]；所述权重向量为二维向量，元素和为1，元素均大于等于0；其中，t为接收目标数，n为输出源种类数。

3.根据权利要求2所述的基于多目标深度强化学习的目标分配方法，其特征在于，所述对多目标分配问题实例信息进行矩阵化处理具体包括：

4.根据权利要求1所述的基于多目标深度强化学习的目标分配方法，其特征在于，所述权重生成网络层为一线性层，所述decoder模块的权重系数根据所述权重生成网络层的权重对权重向量做线性变换后再作变形得到。

5.根据权利要求1所述的基于多目标深度强化学习的目标分配方法，其特征在于，所述计算Pareto解具体包括：

6.根据权利要求5所

7.根据权利要求1所述的基于多目标深度强化学习的目标分配方法，其特征在于，所述策略模型的训练方法具体包括：

8.一种基于多目标深度强化学习的目标分配装置，用于实现如权利要求1-7任一所述的基于多目标深度强化学习的目标分配方法，其特征在于，所述装置包括：

9.一种基于多目标深度强化学习的目标分配系统，应用如权利要求1-7任一所述的基于多目标深度强化学习的目标分配方法，其特征在于，所述系统包括信息输入模块、矩阵化处理模块、权重系数计算模块、Pareto解计算模块以及权重向量遍历模块，其中：

10.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，用于完成如权利要求1-7任一所述的基于多目标深度强化学习的目标分配方法。

...

【技术特征摘要】

1.一种基于多目标深度强化学习的目标分配方法，其特征在于，包括：

2.根据权利要求1所述的基于多目标深度强化学习的目标分配方法，其特征在于，所述多目标分配问题实例信息包括：各接收目标的价值系数w＝[w1,w2,…,wt]、输出源-接收目标对的损伤概率矩阵p＝[pij]n×t、各类输出源的数量o＝[o1,o2,…,on]以及各类输出单位的成本cw＝[cw1,cw2,…,cwn]；所述权重向量为二维向量，元素和为1，元素均大于等于0；其中，t为接收目标数，n为输出源种类数。

3.根据权利要求2所述的基于多目标深度强化学习的目标分配方法，其特征在于，所述对多目标分配问题实例信息进行矩阵化处理具体包括：

5.根据权利要求1所述的基于多目标深度强化学习的目标分配方法，其特征在于，所述计算par...

【专利技术属性】
技术研发人员：汪俊泽，高子文，姚迪，刘俊涛，
申请(专利权)人：中国船舶集团有限公司第七〇九研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人