System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于模型划分和迁移学习的推理决策方法技术_技高网

基于模型划分和迁移学习的推理决策方法技术

技术编号:44097687 阅读:12 留言:0更新日期:2025-01-21 12:31
本发明专利技术涉及移动通信技术领域,尤其涉及基于模型划分和迁移学习的推理决策方法,包括以下步骤:S1:部署DNN模型并生成状态值,将状态值和训练集输入DNN模型,若需重新部署DNN模型,则从上次部署的DNN模型中加载神经网络参数,将全连接层参数进行初始化后输入编码网络,并将模型参数输入模型缓存中;S2:从模型缓存中采样训练数据,计算累计优势、损失函数值和梯度下降更新参数;S3:根据计算结果进行训练,直到达到预设训练轮次后完成训练;S4:将测试集输入训练模型后得到决策结果。本发明专利技术通过迁移学习实现缩短时间,以节省计算资源,避免了从头训练所有参数的高成本的效果,并通过将模型划分和迁移学习结合起来,有助于减少停机时间。

【技术实现步骤摘要】

本专利技术涉及移动通信,尤其涉及基于模型划分和迁移学习的推理决策方法、设备和存储介质。


技术介绍

1、随着移动通信技术的持续发展和进步,机器学习不再仅仅局限于传统的云数据中心,这一趋势已经引领着深度神经网络(deep neural networks,dnns)模型推理技术迈向了全新的境界,为众多移动智能系统的应用提供了更广泛的可能性,这些系统覆盖了包括但不限于无人机技术、医疗物联网应用和自动驾驶技术等广泛的领域。

2、然而,伴随着移动智能应用的快速增长,移动智能系统面临着大规模计算密集型和对实时性要求极高的推理任务的挑战,这些任务需要在极短的时间内完成大量的数据处理和决策制定,但移动设备通常受到硬件性能的限制,这使得它们难以满足这些高度复杂的计算需求,因为它涉及到在资源受限的移动设备上执行复杂的机器学习任务。

3、现有的边端协同推理系统在跨地理服务或网络切换时会遇到严重的性能问题,具体来说当下的方法具有以下的缺点:性能问题:在网络切换或遇到严重干扰时,这些系统会遇到显著的性能问题,这可能导致服务不可靠和任务超时;服务处理机制存在缺陷:尽管当前的容器化计算框架能够处理一些分布式任务,但这些系统缺乏灵活的服务处理机制,特别是在地理上分散的边缘节点之间;资源利用率低下:高效资源利用的挑战尚未得到充分解决,这意味着现有方法在资源管理方面还有待改进。


技术实现思路

1、本专利技术的目的是为了解决现有技术中存在的缺点,而提供了基于模型划分和迁移学习的推理决策方法,包括以下步骤:

2、s1:部署dnn模型并生成状态值,将所述状态值和训练集输入dnn模型中,判断是否重新部署dnn模型,若重新部署,则从上次部署的dnn模型中加载神经网络参数,将全连接层参数进行初始化后输入编码网络,并将包括所述神经网络参数和所述全连接层参数的模型参数输入模型缓存中;

3、s2:从所述模型缓存中采样训练数据,根据所述训练数据计算累计优势、损失函数值和梯度下降更新参数;

4、s3:根据所述累计优势、所述损失函数值和所述梯度下降更新参数进行训练,直到达到预设训练轮次后完成训练,且在完成训练时保存训练模型的网络参数,若未训练完成,则返回步骤s2;

5、s4:将测试集输入所述训练模型后得到决策结果。

6、优选地,在步骤s1中,所述部署dnn模型,包括:

7、s11:通过观测空间on得到每个移动设备观测,其中观测空间on为和三个子集的笛卡尔积,其中,包括dnn模型类型、数据待推理、预处理延迟和前一槽的中断状态在内的移动设备计算条件,包含信号强度、位置、移动和所属边缘节点在内的通信相关信息,包含节点类型和当前占用水平在内的边缘节点计算条件;

8、s12:通过神经块的编码器来编码所述移动设备观测得到编码观测,其中,所述神经块包括使用leakyrelu激活函数的两个全连接层;

9、s13:将所述编码观测输入到记忆驱动模块,并输出读取结果和新记忆结果,其中,所述记忆驱动模块包括一个用于记录和保持最近观测的记忆块、用于接收所述编码观测的读取块和用于接收旧记忆结果的写入块;

10、s14:头模块拼接所述编码观测、所述读取结果和所述新记忆结果后,通过概率抽样生成子决策,且评论家网络生成所述状态值v(ot,mt)以进行训练过程,其中,所述头模块包括使用leakyrelu激活函数的全连接层和softmax激活函数的全连接层。

11、优选地,在步骤s13中,所述将所述编码观测输入到记忆驱动模块,并输出编码观测结果和旧记忆结果,进一步包括:

12、在设定时间段中,所述读取块根据所述编码观测和所述记忆块的最近观测获得读取结果hn,l:

13、

14、其中,表示hadamard乘积,wn,1,wn,2是所述读取块中的学习权重,gn,t为设定时间段的编码观测,mn,t为设定时间段的最近观测;

15、在设定时间段中,所述写入块根据所述编码观测和所述记忆块的最近观测生成一个新记忆结果并根据所述新记忆结果将所述记忆块进行更新,新记忆结果的计算公式如下所示:

16、

17、其中,wn,3,wn,4,wn,5是所述写入块中的学习权重。

18、优选地,在步骤s14中,头模块拼接所述编码观测、所述读取结果和所述新记忆结果后,通过概率抽样生成子决策,进一步包括:

19、通过平均公式聚合所有移动设备的记忆结果,形成每个移动设备的新记忆内容后,通过概率抽样生成子决策;

20、其中所述平均公式,如下所示:

21、

22、其中,所述为记忆结果。

23、优选地,在步骤中s1中,所述将所述状态值和训练集输入dnn模型中,判断是否重新部署dnn模型,进一步包括:

24、对于移动设备n在时间段t的当前观测,通过奖励函数rn,t进行决策,奖励函数rn,t的计算公式,如下所示:

25、

26、其中,是本地处理时间,即整个任务在本地完全处理,是时间段t的设备n的管道时间;

27、其中,对于预取机制,若当前槽少于τ+1,则每个移动设备的策略是完全本地处理,函数rn是一个连续函数,决策值的最大值为1,当决策值的最小值为-4,当当时,决策值为0。

28、优选地,在步骤s2中,根据训练数据计算损失函数值,进一步包括:

29、将训练集中的小批量样本输入所述dnn模型,根据所述状态值的得到动作累计优势的估计值,近端策略优化目标函数根据所述估计值和所述训练集得到损失函数值,如下所示:

30、

31、其中,et[·]是从一个小批量样本的期望值,clip((∈))是一个具有超参数∈的修剪函数,πθ是具有训练参数θ的策略,θold是训练更新前的参数,ent((·))表示鼓励探索的熵奖励,ρ为超参数,是相对量化某一时间段t的动作累计优势的估计值,smooth(l1(·))是平滑l1损失函数,是从时间段t开始的累计奖励。

32、优选地,根据所述状态值的得到动作累计优势的估计值,进一步包括:

33、根据所述状态值的相对量化某一时间段t的动作累计优势的估计值计算公式如下所示:

34、

35、其中,γλ是超参数,且λ∈[0,1],v(·)是训练过程中的状态值函数,也即所述评论家网络,rt+i是在时间段t+i获得的奖励,ot+i是在时间段t+i获得的观测,mt+i是在时间段t+i获得的记忆内容。

36、优选地,在步骤s4中,将测试集输入所述训练模型后得到决策结果,进一步包括:

37、将所述测试集输入所述训练模型后得到行动决策,所述行动决策an为三个子集的笛卡尔积,其中,包含边缘节点的迁移决策,包含所述训练模型划分决策的子决策,包含数据压缩的决策,用于表示按照压缩比对传输数据进行压缩。

38、基于相同的本文档来自技高网...

【技术保护点】

1.基于模型划分和迁移学习的推理决策方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于模型划分和迁移学习的推理决策方法,其特征在于,在步骤S1中,所述部署DNN模型,包括:

3.根据权利要求2所述的基于模型划分和迁移学习的推理决策方法,其特征在于,在步骤S13中,所述将所述编码观测输入到记忆驱动模块,并输出编码观测结果和旧记忆结果,进一步包括:

4.根据权利要求3所述的基于模型划分和迁移学习的推理决策方法,其特征在于,在步骤S14中,头模块拼接所述编码观测、所述读取结果和所述新记忆结果后,通过概率抽样生成子决策,进一步包括:

5.根据权利要求4所述的基于模型划分和迁移学习的推理决策方法,其特征在于,在步骤中S1中,所述将所述状态值和训练集输入DNN模型中,判断是否重新部署DNN模型,进一步包括:

6.根据权利要求5所述的基于模型划分和迁移学习的推理决策方法,其特征在于,在步骤S2中,根据训练数据计算损失函数值,进一步包括:

7.根据权利要求6所述的基于模型划分和迁移学习的推理决策方法,其特征在于,根据所述状态值的得到动作累计优势的估计值,进一步包括:

8.根据权利要求7所述的基于模型划分和迁移学习的推理决策方法,其特征在于,在步骤S4中,将测试集输入所述训练模型后得到决策结果,进一步包括:

9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述的基于模型划分和迁移学习的推理决策方法的步骤。

10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至8中任一项所述的基于模型划分和迁移学习的推理决策方法的步骤。

...

【技术特征摘要】

1.基于模型划分和迁移学习的推理决策方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于模型划分和迁移学习的推理决策方法,其特征在于,在步骤s1中,所述部署dnn模型,包括:

3.根据权利要求2所述的基于模型划分和迁移学习的推理决策方法,其特征在于,在步骤s13中,所述将所述编码观测输入到记忆驱动模块,并输出编码观测结果和旧记忆结果,进一步包括:

4.根据权利要求3所述的基于模型划分和迁移学习的推理决策方法,其特征在于,在步骤s14中,头模块拼接所述编码观测、所述读取结果和所述新记忆结果后,通过概率抽样生成子决策,进一步包括:

5.根据权利要求4所述的基于模型划分和迁移学习的推理决策方法,其特征在于,在步骤中s1中,所述将所述状态值和训练集输入dnn模型中,判断是否重新部署dnn模型,进一步包括:

6.根据权利要求5所述的基于模型划分和迁移学...

【专利技术属性】
技术研发人员:姚欣王晓飞
申请(专利权)人:派欧云计算上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1