基于深度强化学习的动态云制造服务组合方法和系统技术方案

技术编号:39590257 阅读:10 留言:0更新日期:2023-12-03 19:42
本发明专利技术提供一种基于深度强化学习的动态云制造服务组合方法

【技术实现步骤摘要】
基于深度强化学习的动态云制造服务组合方法和系统


[0001]本专利技术涉及云制造
,具体涉及一种基于深度强化学习的动态云制造服务组合方法

系统

存储介质和电子设备


技术介绍

[0002]在生活质量不断提高的今天,用户对个性化产品的需求也越来越大

然而,由于资源有限,单个企业的制造资源和能力已经不能满足用户的需求

为解决这一问题,企业需要通过共享制造资源和能力进行有效地协作,因而提出一种面向服务的智能制造新模式
——
云制造

在云制造平台中,企业共享的制造资源和能力被封装成服务,通过互联网提供给用户选择

服务组合是指将多个服务组合成增值服务以完成一项或者一组任务的过程

云制造服务组合中每个子任务都存在大规模候选服务集,并且需要优化多个目标以满足用户需求

[0003]针对云制造服务组合优选问题,其精确解求解难,故推出启发式算法和元启发式智能优化算法,如遗传算法

蚁群优化算法和粒子群优化算法等

这些方法虽然促进了云制造服务组合问题的研究工作,但难以解决动态随机资源约束下多任务调度问题,状态空间较大时无法计算,且易受参数调整的限制

陷入局部最优解和缺乏动态适应性

基于此,随着深度强化学习将强化学习的决策能力与深度学习感知能力融合在一起,一些学者认为深度强化学习
(
例如强化学习中的
Q
学习算法
)
有助于解决动态随机到达问题,利于提供云制造服务组合方案的选择

[0004]然而,传统的
Q
学习算法难以适用于连续状态以及繁多状态下搜索困难

存储困难的问题,导致无法挑选出最优组合方案


技术实现思路

[0005](

)
解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种基于深度强化学习的动态云制造服务组合方法

系统

存储介质和电子设备,解决了动态环境下的大规模服务组合的技术问题

[0007](

)
技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种基于深度强化学习的动态云制造服务组合方法,包括:
[0010]S1、
获取制造任务,并分解为一系列有序的制造子任务;
[0011]S2、
根据云制造平台中各个制造子任务及其服务类型

候选服务,以确定状态

动作及奖励值,构建马尔科夫决策模型;
[0012]S3、
根据所述马尔科夫决策模型,采用改进后的深度
Q
网络算法获取云制造最优服务组合方案;其中所述深度
Q
网络算法引入卷积长短期记忆网络

[0013]优选的,所述
S2
中的马尔科夫决策模型包括:
[0014](1)
状态
s
t
:在第
t
个决策时刻第
i
个制造子任务进行服务选择的状态,表示为
其中
s
t
包含当前制造任务中制造子任务顺序的标识符,表示智能体在第
t
个决策时刻下观测到的第
i
个制造子任务,表示在第
t
个决策时刻可供第
i
个制造子任务能进行服务选择的服务候选集,表示在第
t
个决策时刻第
i
个制造子任务能进行服务选择的
M
个候选服务

[0015](2)
状态空间
S
:所有可行状态值的集合;
[0016](3)
服务:包含两种状态
{0,1}
,其中0表示服务未被选择执行制造子任务,1表示服务被选择执行制造子任务;
[0017](4)
动作表示智能体在第
t
个决策时刻观测到的第
i
个制造子任务进行服务选择的动作,表示为
[0018](5)
动作空间
A
:每一个制造子任务所需制造服务类型对应的候选服务集,表示为:
[0019][0020]其中,表示在第
t
个决策时刻第
i
个制造子任务可进行服务选择的第
j
个候选服务;
[0021](6)
奖励函数
R
:智能体于第
t
个决策时刻观测得到状态
s
t
后,第
i
个制造子任务执行服务选择动作获得的奖励值
[0022](7)
状态转移模型:其中
s
t+1
表示智能体在第
t+1
个决策时刻第
i
个制造子任务的服务选择状态;
[0023](8)
策略
π

S

A
是指智能体依据当前的服务选择状态
s
t
,将其映射为要执行的服务选择动作表示为其中
argmax Q
表示会产生最大输出值对应的参数

[0024]优选的,每一个制造子任务存在3种服务选择状态值,表示为
{

1,0,F
i
}

[0025]其中,
‑1表示制造子任务处于待处理状态;0表示制造子任务完成;
F
i
表示制造子任务正在处理中,其状态值由制造任务最大可能剩余完工时间表示,即在不支付任何迟到成本的情况下完成制造任务的剩余时间单位的数值表示

[0026]优选的,所述奖励值的获取过程如下:
[0027]获取并归一化所有候选服务的服务质量非功能属性,其中所述服务质量非功能属性包括服务成本

服务时间

服务可靠性

信誉度和可用性;
[0028]根据各所述服务质量非功能属性的重要程度,构建判断矩阵求解各属性的参数权重;
[0029]获取制造子任务所选制造服务的服务质量属性值加权和,作为在状态
s
t
下智能体
执行动作所得到的奖励值
:
[0030][0031]其中,
ω
t

ω
c

ω
rel

ω
rep

ω...

【技术保护点】

【技术特征摘要】
1.
一种基于深度强化学习的动态云制造服务组合方法,其特征在于,包括:
S1、
获取制造任务,并分解为一系列有序的制造子任务;
S2、
根据云制造平台中各个制造子任务及其服务类型

候选服务,以确定状态

动作及奖励值,构建马尔科夫决策模型;
S3、
根据所述马尔科夫决策模型,采用改进后的深度
Q
网络算法获取云制造最优服务组合方案;其中所述深度
Q
网络算法引入卷积长短期记忆网络
。2.
如权利要求1所述的动态云制造服务组合方法,其特征在于,所述
S2
中的马尔科夫决策模型包括:
(1)
状态
s
t
:在第
t
个决策时刻制造子任务进行服务选择的状态,表示为其中
s
t
包含当前制造任务中制造子任务顺序的标识符,表示智能体在第
t
个决策时刻下观测到的第
i
个制造子任务,表示在第
t
个决策时刻可供第
i
个制造子任务能进行服务选择的服务候选集,表示在第
t
个决策时刻第
i
个制造子任务能进行服务选择的
M
个候选服务;
(2)
状态空间
S
:所有可行状态值的集合;
(3)
服务:包含两种状态
{0,1}
,其中0表示服务未被选择执行制造子任务,1表示服务被选择执行制造子任务;
(4)
动作表示智能体在第
t
个决策时刻观测到的第
i
个制造子任务进行服务选择的动作,表示为
(5)
动作空间
A
:每一个制造子任务所需制造服务类型对应的候选服务集,表示为:其中,表示智能体在第
t
个决策时刻观测到第
i
个制造子任务可进行服务选择的第
j
个候选服务;
(6)
奖励函数
R
:智能体于第
t
个决策时刻观测得到状态
s
t
后,第
i
个制造子任务执行服务选择动作获得的奖励值
(7)
状态转移模型:其中
s
t+1
表示智能体在第
t+1
个决策时刻第
i
个制造子任务的服务选择状态;
(8)
策略
π

S

A
是指智能体依据当前的服务选择状态
s
t
,将其映射为要执行的服务选择动作表示为其中
argmax Q
表示会产生最大输出值对应的参数
。3.
如权利要求2所述的动态云制造服务组合方法,其特征在于,每一个制造子任务存在
3
种服务选择状态值,表示为
{

1,0,F
i
}
;其中,
‑1表示制造子任务处于待处理状态;0表示制造子任务完成;
F
i
表示制造子任务正在处理中,其状态值由制造任务最大可能剩余完工时间表示,即在不支付任何迟到成本的情况下完成制造任务的剩余时间单位的数值表示
。4.
如权利要求2所述的动态云制造服务组合方法,其特征在于,所述奖励值的获取过程如下:获取并归一化所有候选服务的服务质量非功能属性,其中所述服务质量非功能属性包括服务成本

服务时间

服务可靠性

信誉度和可用性;根据各所述服务质量非功能属性的重要程度,构建判断矩阵求解各属性的参数权重;获取制造子任务所选制造服务的服务质量属性值加权和,作为在状态
s
t
下智能体执行动作所得到的奖励值
:
其中,
ω
t

ω
c

ω
rel

ω
rep

ω
usa
对应表示服务成本

服务时间

服务可靠性

信誉度和可用性的权重,用性的权重,对应表示归一化后的服务成本

服务时间

服务可靠性

信誉度和可用性的服务质量值,表示第
i
个制造子任务的服务质量非功能属性加权和
。5.
如权利要求4所述的动态云制造服务组合方法,其...

【专利技术属性】
技术研发人员:陆效农宋美玉彭张林张强朱克毓李刘屹张志
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1