System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种基于td3(twin delayed deep deterministic policygradient)的多无人机辅助移动边缘计算系统,属于移动边缘计算领域。
技术介绍
1、随着信息技术的发展,移动用户需要处理的任务逐渐转向计算密集型和延迟敏感型,移动边缘计算能够以较低的传输延迟为移动用户提供强大计算服务,如何有效保证用户的服务体验是十分关键的问题,用户体验包括延迟、能耗、鲁棒性、公平性等,如果用户数量激增,无人机由于其灵活可部署性为移动边缘计算发挥了重要的作用。
2、无人机辅助移动边缘计算因为无人机受到信道环境、计算资源等限制,使用传统方法不仅需要知道整个环境中的全局信息,而且还面临着复杂的连续离散混合优化问题,导致算法在延迟和公平性方面表现不好,并且在多变的环境中,每一步动作都需要重新求解,很难满足实时要求。
3、深度强化学习方法可以很好的解决上述问题,深度强化学习可以先通过试错的方式让智能体懂得什么行为是好的,什么行为是差的,从而部署在环境中可以保证无人机对于环境的实时性决策。
4、目前的深度强化算法通常考虑的是单无人机辅助移动边缘计算即单智能体深度强化学习算法,并且通信模型使用的是自由空间传播模型,但是在现实生活中,大部分情况都是多无人机辅助移动边缘计算,信道传播模型也很难是自由空间传播模型,在这种情况下,如果都按照自由传播模型进行计算会导致鲁棒性差,实际应用效果不好。
技术实现思路
1、本专利技术提供了一种基于td3
2、为解决上述优化问题,本专利技术采取了下述技术方案实现:
3、一,对提出的无人机辅助移动边缘计算系统进行建模。
4、二,获取用户和无人机的基本状态信息,以无人机路径规划、无人机用户选择为动作,以及给出一个公式决定任务分配比,基于我们设计的奖励函数和折扣因子,将模型转化为马尔可夫决策过程。
5、三,各无人机通过其配备的神经网络进行马尔可夫决策过程求解,从而得到优化后的飞行轨迹和用户选择,最终达到降低延迟和提升用户被服务次数公平性的目的。
6、我们考虑的是当基站负载很大时,无人机辅助基站进行移动用户任务处理,用户在每个时刻都会产生一个延迟敏感型任务,无人机根据深度强化学习算法同时在这个时刻决定自己的飞行方向以及选择服务的用户,无人机在同一时间内只能服务一个用户,然后无人机飞行完成后给出一个任务分配比用于决定基站与无人机之间的任务分配,通过优化这三个行为,最终实现了用户延迟的降低和用户被服务次数公平性的提高。
7、根据本专利技术的第一方面,提供一种无人机辅助移动边缘计算系统,包括:
8、编码模块,用于对环境进行编码建模操作。
9、训练模块,用于对无人机上搭载的神经网络进行训练。
10、执行模块,用于使用训练好的神经网络根据无人机观察信息得到无人机动作以及使用提出的任务分配比公式得到无人机与基站之间的任务分配比,并在环境中执行无人机动作和任务分配比。
11、其中,每个无人机上搭载了六个神经网络,分别为:actor网络,参数为α的,第一critic网络,参数为β1,第二critic网络,参数为β2,actor网络对应的第一target网络,第一critic网络对应的第二target网络,第二critic网络对应的第三target网络。
12、进一步地,本专利技术所提供的无人机辅助移动边缘计算系统延迟和公平性优化方法,训练模块包括用于进行以下训练过程:
13、步骤a1:对环境参数进行初始化。
14、步骤a2:获取无人机观察信息并进行正则化处理。
15、步骤a4:critic网络训练。
16、步骤a5:actor网络训练。
17、步骤a6:target网络更新。
18、步骤a7:判断无人机运行时刻是否到达最大限制时刻,如果未达最大限制时刻则返回步骤a2;如果达到最大限制时刻,则判断是否到达设定的最大训练轮数,如果否,则返回步骤a1,如果是则结束训练。
19、进一步地,本专利技术所提供的无人机辅助移动的边缘计算系统,步骤a1包括:初始化无人机位置cm(t)、所有用户被服务次数an(t)、基站位置ck、用户位置cn、时间t、神经网络训练优化器adam。
20、步骤a2包括:观察信息om(t)计算方式为:
21、
22、其中an(t)代表用户n在t时刻是否被服务,表示为:
23、
24、将om(t)正则化从而将数据压缩在0-1范围内,计算方式为:
25、
26、其中,om(t)max为om(t)可能达到最大的值。
27、进一步地,本专利技术所提供的无人机辅助移动边缘计算系统,步骤a3包括:
28、将正则化处理后的观察信息om(t)输入actor神经网络得到动作am(t)并将动作和任务分配比um(t)作用于环境可以得到四元组(s(t),am(t),rm(t),s(t+1))以完成经验存储;其中s(t)代表所有无人机的观察,可以表示为s(t)={o1(t),o2(t),…,om(t)}。无人机的动作其中zm(t)代表t时刻无人机m的用户选择,代表t时刻无人机的飞行方向,任务分配比um(t)由任务分配比公式给出,如下:
29、
30、其中,s为cpu周期数,fk为地面基站的cpu频率,fm为无人机的cpu频率,rm,k(t)为tst时无人机m与地面基站k之间的传输速度。
31、为了优化离散和连续混合动作的探索,以探索更多的路径,避免陷入局部最优,将离散变量的用户选择zm(t)设置为:
32、
33、其中ε表示给定探索参数,exp表示均值为0,方差为1的正态函数,是无人机上搭载的actor网络。
34、将连续变量的飞行方向φm(t)设置为:
35、
36、其中∈表示噪音探索参数。
37、四元组中rm(t)表示无人机根据输出动作am(t)和任务分配比um(t)从环境中获取到的奖励,奖励是用来评价无人机输出动作am(t)的好坏,奖励函数表示为:
38、
39、其中,tm代表无人机m处理的任务总延迟,pcol,pue,prange分别代表无人机之间的碰撞惩罚,无人机选择相同用户惩罚,无人机超出边界惩罚。
40、进一步地,本专利技术所提供的无人机辅助移动边缘计算系统延迟和公平性优化方法,步骤a4包括:
41、在经验回放缓冲器中随机抽样得到k条经验,利用抽样得到的四元组(s(t),am(t),rm(t),s(t+1))更新智能体的两个crit本文档来自技高网...
【技术保护点】
1.一种无人机辅助移动边缘计算系统,其特征在于,包括:
2.根据权利要求1所述的无人机辅助移动边缘计算系统,其特征在于,训练模块包括用于进行以下训练过程:
3.根据权利要求2所述的无人机辅助移动边缘计算系统,其特征在于,步骤A1包括:初始化无人机位置Cm(t)、所有用户被服务次数An(t)、基站位置Ck、用户位置Cn、时间t、神经网络训练优化器Adam;
4.根据权利要求3所述的无人机辅助移动边缘计算系统,其特征在于,步骤A3包括:
5.根据权利要求4所述的无人机辅助移动的边缘计算系统,其特征在于,步骤A4包括:
6.根据权利要求5所述的无人机辅助移动边缘计算系统,其特征在于,步骤A5包括:Actor网络训练采用策略梯度上升算法,其中:
7.根据权利要求6所述的无人机辅助移动边缘计算系统,其特征在于,步骤A6包括:Target网络更新表示为:
8.根据权利要求1所述的无人机辅助移动边缘计算系统,其特征在于,执行模块包括用于进行以下执行过程:
9.一种计算机设备,其特征在于,包括:
>10.一种计算机可读存储介质,其特征在于,存储有指令,所述指令被处理器执行时,实现如权利要求1-8所述的无人机辅助移动的边缘计算系统。
...【技术特征摘要】
1.一种无人机辅助移动边缘计算系统,其特征在于,包括:
2.根据权利要求1所述的无人机辅助移动边缘计算系统,其特征在于,训练模块包括用于进行以下训练过程:
3.根据权利要求2所述的无人机辅助移动边缘计算系统,其特征在于,步骤a1包括:初始化无人机位置cm(t)、所有用户被服务次数an(t)、基站位置ck、用户位置cn、时间t、神经网络训练优化器adam;
4.根据权利要求3所述的无人机辅助移动边缘计算系统,其特征在于,步骤a3包括:
5.根据权利要求4所述的无人机辅助移动的边缘计算系统,其特征在于,步骤a4包括:<...
【专利技术属性】
技术研发人员:杨帆,李振宇,廖茂棱,吴江妮,
申请(专利权)人:中南林业科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。