一种基于深度强化学习的移动边缘计算的服务组合方法技术

技术编号:27416880 阅读:62 留言:0更新日期:2021-02-21 14:33
本发明专利技术涉及一种基于深度强化学习的移动边缘计算服务组合方法,属于移动边缘计算领域,包括S1:获取用户需求,对当前可用服务的QoS属性进行归一化处理;S2:针对终端高度移动的特性,构建共享服务的移动终端模型;S3:构建基于移动边缘计算的在线服务组合模型;S4:利用深度强化学习算法对服务组合问题进行求解。本发明专利技术方法利用深度强化学习算法,可在海量边缘服务数据中表现出其高效性,保证终端用户在移动的过程中提供可靠的解决方案。本发明专利技术方法不仅能满足终端用户需求,而且能保证服务组合的可靠性、高效性和灵活性。高效性和灵活性。高效性和灵活性。

【技术实现步骤摘要】
一种基于深度强化学习的移动边缘计算的服务组合方法


[0001]本专利技术属于移动边缘计算领域,涉及一种基于深度强化学习的移动边缘计算的服务组合方法。

技术介绍

[0002]近年来,随着大数据、云计算和人工智能技术的迅猛发展以及多媒体应用的普及,网络用户数量和移动应用服务类型呈爆炸式增长。智能终端和智能应用的出现,成为服务计算持续向前发展的关键因素之一。由于其业务具有复杂多样、持续时间长、数据量大等特点,导致终端与云通信延迟较高。终端设备与云之间的通信距离较远,这可能会导致连接不稳定和较长的延迟,无法满足当前的低时延需求。因此,移动边缘计算技术的出现为此类问题提供了有效的解决方案。
[0003]随着移动设备和无线技术的快速发展,服务不再局限于传统的云平台,它们变得更加灵活和复杂。移动终端、穿戴设备和智能应用的出现,使得服务器中的服务数目越来越多,种类复杂多样,服务请求更加多样化。将服务组合问题应用于边缘计算,虽然能够解决用户的低时延需求,但也带来了新的挑战。由于移动终端资源有限且移动性强,边缘服务随着终端的不断移动,通常会出现服务组合失败或因交付失败而不断重新组合的情况。因此,如何在边缘服务中随着终端的移动性选择可靠服务并且保证服务组合的成功率最高是本专利技术急需解决的重点。
[0004]近年来,一些研究学者采用机器学习技术解决服务组合问题,但由于各种智能应用的不断增加,机器学习技术已经不能用于处理当前的海量数据,深度学习的出现为解决此类问题提供了新思路。深度强化学习是人工智能领域的一个新的研究热点,它解决了许多需要感知高维原始输入和决策控制的任务。该技术具有善于处理高维数据,能够在不断变化的环境中学习、计算和处理数据的特点。在移动边缘计算环境中充分利用该技术计算能力强和处理大数据的优势,可实现在边缘计算环境中终端设备和边缘节点之间的高效通信,从而提高服务效率,给用户更好的用户体验。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种基于深度强化学习的移动边缘计算服务组合方法,实现在移动边缘设备上解决服务组合问题获得最优的解决方案,降低时延,增加高效性。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]一种基于深度强化学习的移动边缘计算的服务组合方法,包括以下步骤:
[0008]S1:获取用户需求,对当前可用服务的QoS属性进行归一化处理;
[0009]S2:针对终端高度移动的特性,构建共享服务的移动终端模型;
[0010]S3:构建基于移动边缘计算的在线服务组合模型;
[0011]S4:利用深度强化学习算法对服务组合问题进行求解。
[0012]进一步,步骤S1中所述可用服务的QoS属性包括响应时间、吞吐量、可靠性、延迟时间、可用性;
[0013]所述归一化处理包括:当服务的QoS属性和服务质量之间呈正相关时,采用公式(1)对服务进行规格化处理;反之采用公式(2):
[0014][0015][0016]服务请求为初始服务S0,期望得到的服务参数为终止服务S
T

[0017]进一步,所述步骤S2包括:
[0018]定义服务节点的相对动态期为T=[a
ij
,b
ij
],若在该范围内的连接表示随时有可能会断开,当T<a
ij
表示稳定状态,当T>b
ij
表示断开状态,两个服务节点必断开;其中a
ij
和b
ij
均服从均匀分布;用p
ij
表示服务可用的概率;
[0019](1)若当前状态节点处于稳定状态,表示该状态节点提供的服务是完全可用的,在t时刻,该节点提供的服务不会移动到请求者的覆盖范围以外,即t<a
ij

[0020](2)若当前状态节点处于相对动态时期,表示该状态提供的服务是不稳定的,服务节点在t时刻的不稳定性表示为
[0021](3)若当前状态节点处于断开状态,表示提供的服务不可用,在t时刻该终端已经移动出请求者的覆盖范围,即t>b
ij
;具体如下公式:
[0022][0023]进一步,步骤S3中所述服务组合模型定义为一个五元组RLSC=<S,A(.),P,R,B>
[0024]S代表系统从初始状态到终止状态的过程中所有状态的集合,该状态包含初始状态和终止状态;
[0025]A(.)代表系统在状态s∈S下可采取的动作的集合,每个动作和具体服务存在一定的映射关系,A(.)是所有A(s
i
)的集合,即组合服务中所有可能用到的全体服务集合;
[0026]P是状态转移函数,P(s'|s,a)表示在状态s下调用服务a∈A(s)转移到下一状态s'的概率;
[0027]R是奖励函数,当一个服务a∈A(s)被调用后,环境从当前状态s转移到下一状态s',同时得到一个奖励值r=R(s'|s,a);当r>0时,表示奖励;当r<0时,表示惩罚;当选择某一个服务使服务组合质量越高,则奖励值越大,否则奖励值越小;服务组合的目标是选择最优候选服务使组合服务的累计回报值最高;
[0028]B表示Agent的状态,描述Agent处在状态s的概率,B(s)=p
ij

[0029]当选择某一动作后,将计算得到的奖励值,为保证服务组合过程能够高效进行,将服务的响应时间设置较大的权重,最终得到对应服务的奖励值,如公式(4)所示:
[0030][0031]基于QoS聚合值,将服务组合过程中某一状态执行动作后的奖励值用QoS聚合值表示;根据上述公式不断迭代选择最优的动作,直到达到终止状态,满足用户需求为止,使得服务组合的奖励值之和最大,服务组合达到近似最优。
[0032]进一步,步骤S4具体包括以下步骤:
[0033]S41:初始化参数:每个服务节点的相对动态期T=[a
ij
,b
ij
],折扣因子γ和学习率α,迭代次数和最大迭代次数,用户请求的初始服务和终止服务,初始化每个服务的奖励R;
[0034]S42:构建服务匹配原则:
[0035]根据服务S
i
的输入S
i-in
={I
i1
,I
i2
,...I
in
}和输出参数集S
i-out
={O
i1
,O
i2
,...O
in
}完成服务匹配,
[0036]匹配规则采用模糊匹配的方式;
[0037]其中服务的输入和输出参数集合中,存在不同的参数具有相同的语义包含关系;
[0038]S43:不断迭代,当迭代次数小于k时,根据启发式选择策略直接进入步骤S45,否则进入步骤S44;
[0039]S44:采用启发式选择策略选择适当的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的移动边缘计算的服务组合方法,其特征在于:包括以下步骤:S1:获取用户需求,对当前可用服务的QoS属性进行归一化处理;S2:针对终端高度移动的特性,构建共享服务的移动终端模型;S3:构建基于移动边缘计算的在线服务组合模型;S4:利用深度强化学习算法对服务组合问题进行求解。2.根据权利要求1所述的基于深度强化学习的移动边缘计算的服务组合方法,其特征在于:步骤S1中所述可用服务的QoS属性包括响应时间、吞吐量、可靠性、延迟时间、可用性;所述归一化处理包括:当服务的QoS属性和服务质量之间呈正相关时,采用公式(1)对服务进行规格化处理;反之采用公式(2):服务进行规格化处理;反之采用公式(2):服务请求为初始服务S0,期望得到的服务参数为终止服务S
T
。3.根据权利要求2所述的基于深度强化学习的移动边缘计算的服务组合方法,其特征在于:所述步骤S2包括:定义服务节点的相对动态期为T=[a
ij
,b
ij
],若在该范围内的连接表示随时有可能会断开,当T<a
ij
表示稳定状态,当T>b
ij
表示断开状态,两个服务节点必断开;其中a
ij
和b
ij
均服从均匀分布;用p
ij
表示服务可用的概率;(1)若当前状态节点处于稳定状态,表示该状态节点提供的服务是完全可用的,在t时刻,该节点提供的服务不会移动到请求者的覆盖范围以外,即t<a
ij
;(2)若当前状态节点处于相对动态时期,表示该状态提供的服务是不稳定的,服务节点在t时刻的不稳定性表示为(3)若当前状态节点处于断开状态,表示提供的服务不可用,在t时刻该终端已经移动出请求者的覆盖范围,即t>b
ij
;具体如下公式:4.根据权利要求3所述的基于深度强化学习的移动边缘计算的服务组合方法,其特征在于:步骤S3中所述服务组合模型定义为一个五元组RLSC=<S,A(.),P,R,B>S代表系统从初始状态到终止状态的过程中所有状态的集合,该状态包含初始状态和
终止状态;A(.)代表系统在状态s∈S下可采取的动作的集合,每个动作和具体服务存在一定的映射关系,A(.)是所有A(s
i
)的集合,即组合服务中所有可能用到的全体服务集合;P是状态转移函数,P(s'|s,a)表示在状态s下调用服务a∈A(s)转移到下一状态s'的概率;R是奖励函数,当一个服务a∈A(s)被调用后,环境从当前状态s转移到下一状态s',同时得到一个奖励值r=R(s'|s,a);当r>0时,表示奖励;当r<0时,表示惩罚;当选择某一个服务使服务组合质量越高,则奖励值越大,否则奖励值越小;服务组合的目标是选择最优候选服务使组合服务的累计回报值最高;B表示Agent的状态,描述Agent处在状态s的概率,B(s)=p
ij
;当选择某一动作后,将计算得到的奖励值,为保证服务组合过程能够高效进行,将服务的响应时间设置较大的权重,最终得到对应服务的奖励值,如公式(4)所示:基于QoS聚合值,将服务组合过程中某一状态执行动作后的奖励值用QoS聚合值表示;根据上述公式不断迭代选择最优的动作,直到达到终止状态,满足用户需求为止,使得服务组合的奖励值之和最大,服务组合达到近似最优。5.根据权利要求4所述的基于深度强化学习的移动边缘计算的服务组合方法,其特征在...

【专利技术属性】
技术研发人员:黄俊连亚婷
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1