服务决策方法以及服务决策装置制造方法及图纸

技术编号:38903212 阅读:9 留言:0更新日期:2023-09-22 14:21
本申请涉及一种服务决策方法以及服务决策装置。所述方法包括:接收终端发送的任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息,若基于终端位置信息确定终端当前处于重叠覆盖区域中,则根据任务请求以及目标决策网络生成目标决策指令,并根据终端标识将目标决策指令发送至终端,其中,目标决策指令用于指示目标无人机服务器是否向终端提供任务请求对应的服务,目标决策指令用于供终端根据目标决策指令以及其他无人机服务器发送的决策指令,从目标无人机服务器和其他无人机服务器中选取一个服务器提供服务。采用本方法能够提高资源利用率。法能够提高资源利用率。法能够提高资源利用率。

【技术实现步骤摘要】
服务决策方法以及服务决策装置


[0001]本申请涉及人工智能
,特别是涉及一种服务决策方法以及服务决策装置。

技术介绍

[0002]随着计算机技术的发展,越来越多的终端设备出现在人们的日常生活中。终端中通常会安装很多应用程序,用户在使用终端中安装的应用程序时,需要越来越多的计算资源或带宽来满足计算需求,因此,产生了MEC(Mobile Edge Computing,移动边缘计算技术),即终端在需要计算某项资源需求较大的任务时,可以将任务卸载至MEC服务器中,从而减轻终端的计算负担,降低任务执行的时延和能耗。
[0003]在偏远地区,通常由具有MEC功能的无人机服务器对该地区的终端提供移动边缘计算服务,实际场景中,多个无人机服务器为同一地区提供移动边缘计算服务时,各无人机服务器的覆盖区域存在重叠覆盖,多个无人机服务器为重叠区域内终端提供移动边缘计算服务时,存在资源浪费的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高资源利用率的服务决策方法以及服务决策装置。
[0005]第一方面,本申请提供了一种服务决策方法。该方法用于目标无人机服务器,该目标无人机服务器与其他无人机服务器之间存在重叠覆盖区域。该方法包括:接收终端发送的任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息;若基于终端位置信息确定终端当前处于重叠覆盖区域中,则根据任务请求以及目标决策网络生成目标决策指令,并根据终端标识将目标决策指令发送至终端;其中,目标决策指令用于指示目标无人机服务器是否向终端提供任务请求对应的服务,目标决策指令用于供终端根据目标决策指令以及其他无人机服务器发送的决策指令,从目标无人机服务器和其他无人机服务器中选取一个服务器提供服务。
[0006]在其中一个实施例中,根据任务请求以及目标决策网络生成目标决策指令,包括:获取目标无人机服务器当前的状态信息;将状态信息和任务请求作为目标无人机服务器的当前环境观测数据输入至目标决策网络中,得到目标决策网络输出的决策数据,决策数据包括目标无人机服务器针对任务请求的动作决策信息、目标无人机服务器针对任务请求分配的计算资源、带宽以及预计执行时延;根据决策数据生成目标决策指令。
[0007]在其中一个实施例中,状态信息包括目标无人机服务器的服务器位置信息、目标无人机服务器当前的可用资源信息、目标无人机服务器当前的可用带宽信息以及目标无人
机服务器与重叠覆盖区域对应的覆盖用户数量。
[0008]在其中一个实施例中,在目标决策指令指示目标无人机服务器向终端提供服务的情况下,该方法还包括:接收终端基于目标决策指令发送的任务数据,并根据目标决策指令对任务数据进行任务处理,以向终端提供任务请求对应的服务。
[0009]在其中一个实施例中,该方法还包括:在多个训练时隙中,基于各训练时隙对应的初始样本环境观测数据,迭代训练初始决策网络,以得到目标决策网络,初始样本环境观测数据包括样本任务请求以及样本状态信息。
[0010]在其中一个实施例中,基于各训练时隙对应的初始样本环境观测数据,迭代训练初始决策网络,以得到目标决策网络,包括:在目标训练时隙中,对于一次迭代过程,将迭代过程对应的第一中间样本环境观测数据输入至中间决策网络,得到中间决策网络输出的中间决策数据;将中间决策数据输入至少一个评价网络中,得到评价网络输出的针对中间决策数据的评价值,评价值是基于针对中间决策数据的目标奖惩值确定的;根据评价值调整评价网络的网络参数,以使各训练时隙中的多次迭代过程结束后得到目标决策网络。
[0011]在其中一个实施例中,将中间决策数据输入至少一个评价网络中,得到评价网络输出的针对中间决策数据的评价值之后,该方法还包括:获取第二中间样本环境观测数据,第二中间样本环境观测数据为第一中间样本环境观测数据所对应的迭代过程的下一轮迭代过程的样本环境观测数据;将第一中间样本环境观测数据、中间决策数据、目标奖惩值以及第二中间样本环境观测数据作为第一中间样本环境观测数据所对应的迭代过程的经验值存入经验池中;其中,经验池中包括目标无人机服务器以及其他无人机服务器对应的各经验值。
[0012]在其中一个实施例中,该方法还包括:在目标训练时隙中的多次迭代过程结束后,基于经验池中的各经验值调整中间决策网络的网络参数,以得到目标决策网络。
[0013]在其中一个实施例中,将中间决策数据输入至少一个评价网络中,得到评价网络输出的针对中间决策数据的评价值,包括:将中间决策数据输入至少一个评价网络中,得到多个奖惩约束条件对应的奖惩值,其中,奖惩约束条件包括目标无人机服务器服务用户数量的限制条件、目标无人机服务器分配计算资源的限制条件、目标无人机服务器分配带宽的限制条件、目标无人机服务器任务执行时延的限制条件以及各训练时隙对应的时延限制条件中的至少一种;根据各奖惩值获取针对中间决策数据的目标奖惩值,并根据目标奖惩值获取评价值。
[0014]在其中一个实施例中,评价网络包括第一评价网络和第二评价网络,评价值包括第一评价网络输出的第一评价值以及第二评价网络输出的第二评价值,根据评价值调整评价网络的网络参数,还包括:对第一评价值和第二评价值进行大小比较,并将第一评价值和第二评价值中的最
小评价值作为当前评价值;获取当前评价值与目标评价值之前的误差结果,并利用差分学习的方式,基于误差结果调整第一评价网络的网络参数以及调整第二评价网络的网络参数。
[0015]第二方面,本申请提供了一种服务决策方法。该方法用于终端,终端处于多个无人机服务器的重叠覆盖区域内。该方法包括:向各无人机服务器发送任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息;接收各无人机服务器发送的决策指令,并按照各决策指令指示的无人机服务器是否向终端提供任务请求对应的服务,从各无人机服务器中选取一个服务器提供服务;其中,决策指令是无人机服务器根据任务请求以及目标决策网络生成的。
[0016]第三方面,本申请提供了一种服务决策装置。该装置用于目标无人机服务器,目标无人机服务器与其他无人机服务器之间存在重叠覆盖区域。该装置包括:接收模块,用于接收终端发送的任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息;决策模块,若基于终端位置信息确定终端当前处于重叠覆盖区域中,则根据任务请求以及目标决策网络生成目标决策指令,并根据终端标识将目标决策指令发送至终端;其中,目标决策指令用于指示目标无人机服务器是否向终端提供任务请求对应的服务,目标决策指令用于供终端根据目标决策指令以及其他无人机服务器发送的决策指令,从目标无人机服务器和其他无人机服务器中选取一个服务器提供服务。
[0017]第四方面,本申请提供了一种服务决策装置。该装置用于终端,终端处于多个无人机服务器的重叠覆盖区域内。该装置包括:发送模块,用于向各无人机服务器发送任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息;接收模块,用于接收各无人机服务器发送的决策指令,并按本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种服务决策方法,其特征在于,用于目标无人机服务器,所述目标无人机服务器与其他无人机服务器之间存在重叠覆盖区域,所述方法包括:接收终端发送的任务请求,所述任务请求包括所述终端的终端标识、终端位置信息以及任务信息;若基于所述终端位置信息确定所述终端当前处于所述重叠覆盖区域中,则根据所述任务请求以及目标决策网络生成目标决策指令,并根据所述终端标识将所述目标决策指令发送至所述终端;其中,所述目标决策指令用于指示所述目标无人机服务器是否向所述终端提供所述任务请求对应的服务,所述目标决策指令用于供所述终端根据所述目标决策指令以及所述其他无人机服务器发送的决策指令,从所述目标无人机服务器和所述其他无人机服务器中选取一个服务器提供所述服务。2.根据权利要求1所述的方法,其特征在于,所述根据所述任务请求以及目标决策网络生成目标决策指令,包括:获取所述目标无人机服务器当前的状态信息;将所述状态信息和所述任务请求作为所述目标无人机服务器的当前环境观测数据输入至所述目标决策网络中,得到所述目标决策网络输出的决策数据,所述决策数据包括所述目标无人机服务器针对所述任务请求的动作决策信息、所述目标无人机服务器针对所述任务请求分配的计算资源、带宽以及预计执行时延;根据所述决策数据生成所述目标决策指令。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在多个训练时隙中,基于各所述训练时隙对应的初始样本环境观测数据,迭代训练初始决策网络,以得到所述目标决策网络,所述初始样本环境观测数据包括样本任务请求以及样本状态信息。4.根据权利要求3所述的方法,其特征在于,所述基于各所述训练时隙对应的初始样本环境观测数据,迭代训练初始决策网络,以得到所述目标决策网络,包括:在目标训练时隙中,对于一次迭代过程,将所述迭代过程对应的第一中间样本环境观测数据输入至中间决策网络,得到所述中间决策网络输出的中间决策数据;将所述中间决策数据输入至少一个评价网络中,得到所述评价网络输出的针对所述中间决策数据的评价值,所述评价值是基于针对所述中间决策数据的目标奖惩值确定的;根据所述评价值调整所述评价网络的网络参数,以使各所述训练时隙中的多次迭代过程结束后得到所述目标决策网络。5.根据权利要求4所述的方法,其特征在于,所述将所述中间决策数据输入至少一个评价网络中,得到所述评价网络输出的针对所述中间决策数据的评价值之后,所述方法还包括:获取第二中间样本环境观测数据,所述第二中间样本环境观测数据为所述第一中间样本环境观测数据所对应的迭代过程的下一轮迭代过程的样本环境观测数据;将所述第一中间样本环境观测数据、所述中间决策数据、所述目标奖惩值以及所述第二中间样本环境观测数据作为所述第一中间样本环境观测数据所对应的迭代过程的经验值存入经验池中;
在所述目标训练时隙中的多次迭代过程结束后,基于所述经验池中的各所述经验值调整所述中间决策网络的网络参数,以得到所述目标决策网络;其中,所述经验池中包括所述目标无人机服务器以及所述其他无人机服务器对应的各所述经验值。6.根据权利要求4或5任一项所述的方法,其特征在于,所述将所述中间...

【专利技术属性】
技术研发人员:杜军张华蕾田雨王劲涛江炳青侯向往夏照越艾门
申请(专利权)人:技术创新研究院独资有限责任公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1