System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型训练方法、频率调节方法、装置、设备和存储介质制造方法及图纸_技高网

模型训练方法、频率调节方法、装置、设备和存储介质制造方法及图纸

技术编号:44106175 阅读:14 留言:0更新日期:2025-01-24 22:32
本申请提供了一种模型训练方法、频率调节方法、模型训练装置、频率调节装置、电子设备和计算机可读存储介质,涉及终端技术领域,该模型训练方法包括:从训练数据回放池中获取目标数据组,训练数据回放池包括多个数据组,数据组包括设备在当前时刻的运行状态和即时奖励、设备在下一时刻运行所需的工作频率、设备在下一时刻的运行状态,奖励根据设备的帧率和/或功耗确定;将目标数据组输入深度神经网络模型,以根据训练数据组对模型进行动作评估,得到模型的当前动作值和目标动作值;基于目标动作值与当前动作值之间的差异信息训练模型。本申请能够解决现有调频策略导致避免移动设备的性能下降以及造成功耗浪费的问题。

【技术实现步骤摘要】

本申请涉及终端,并且更具体地,涉及终端中一种模型训练方法、频率调节方法、模型训练装置、频率调节装置、电子设备和计算机可读存储介质。


技术介绍

1、在android(中文名:安卓)系统中,调频机制和策略用来管理处理器的频率和电压,以平衡系统性能和电池寿命。调频技术虽然得到了广泛的研究,但目前的实现仍存在一定的局限性。现有的移动设备中使用的调频策略仅基于任务的利用率,而其不考虑上层应用的帧率,面对利用率低但与产生帧有关的线程和利用率高但与产生帧无关的线程,常常调整到错误的频率,导致性能下降和功耗浪费。因此,如何解决现有调频策略导致移动设备性能下降和功耗浪费,成为亟待解决的问题。


技术实现思路

1、本申请提供了一种模型训练方法、频率调节方法、模型训练装置、频率调节装置、电子设备和计算机可读存储介质,能够解决现有移动设备调频策略导致避免移动设备的性能下降以及造成功耗浪费的问题,不仅可以降低移动设备的功耗,还可以避免移动设备的性能下降。

2、第一方面,提供了一种模型训练方法,所述模型训练方法包括:从训练数据回放池中获取目标数据组;其中,所述训练数据回放池包括多个数据组,所述数据组包括样本设备在当前时刻下的第一样本运行状态和样本即时奖励、所述样本设备在下一时刻运行的样本工作频率、所述样本设备在下一时刻下的第二样本运行状态,所述样本即时奖励根据所述样本设备的帧率和/或功耗确定;将所述目标数据组输入深度神经网络模型,以根据所述训练数据组对所述深度神经网络模型进行动作评估,得到所述深度神经网络模型的当前动作值和目标动作值;基于所述目标动作值与所述当前动作值之间的差异信息,训练所述深度神经网络模型。

3、结合第一方面,在某些可能的实现方式中,所述模型训练方法还包括:更新所述训练数据回放池;所述更新所述训练数据回放池包括:获取所述样本设备在当前时刻下的第一运行状态;根据所述第一运行状态确定所述样本设备在下一时刻运行的下一时刻工作频率;根据关于所述样本设备的帧率和/或功耗的奖励函数,确定所述样本设备在当前时刻下的当前即时奖励;控制所述样本设备按照所述下一时刻工作频率运行,获取下一时刻下的所述样本设备的第二运行状态;将所述第一运行状态、所述下一时刻工作频率、所述当前即时奖励和所述第二运行状态添加至所述训练数据回放池,以更新所述训练数据回放池。

4、结合第一方面和上述实现方式,在某些可能的实现方式中,所述获取所述样本设备在当前时刻下的第一运行状态包括:获取所述样本设备在当前时刻下的当前工作频率、功耗、当前帧率、中央处理器利用率、缓存未命中的次数以及i/o页面错误的次数,得到所述第一运行状态。

5、结合第一方面和上述实现方式,在某些可能的实现方式中,所述奖励函数的公式如下:

6、r(t)=g(t)-p(t)

7、

8、p(t)=β×p(t)

9、其中,r(t)为所述奖励函数,p(t)为所述功耗,q(t)为所述当前帧率,l为所述样本设备提供的目标帧率,h为用于表示所述样本设备提供的用户可容忍且为最低用户体验的预设帧率,α为用于平衡所述样本设备的性能的权重,β为用于权衡所述功耗的权重,c为常数。

10、结合第一方面和上述实现方式,在某些可能的实现方式中,所述深度神经网络模型包括用于动作选择的第一子模型和用于动作评估的第二子模型;述将所述目标数据组输入深度神经网络模型,以根据所述训练数据组对所述深度神经网络模型进行动作评估,得到所述深度神经网络模型的当前动作值和目标动作值包括:根据所述第一样本运行状态、所述样本工作频率以及所述第一子模型的第一模型参数,确定所述当前动作值;将所述第二样本运行状态输入所述第二子模型,得到所述第二样本运行状对应的多个待选频率和多个待选频率各自对应的待选即时奖励;获取多个所述待选即时奖励中的最大待选即时奖励,将所述多个待选频率中与所述最大待选即时奖励对应的待选频率确定为最大奖励频率;根据所述第二样本运行状态、所述样本即时奖励、所述最大奖励频率以及所述第二子模型的第二模型参数,确定所述目标动作值。

11、第二方面,提供了一种频率调节方法,所述频率调节方法包括:获取目标设备的运行状态;将所述运行状态输入深度神经网络模型,由所述深度神经网络模型输出目标工作频率;其中,所述深度神经网络模型根据上述的模型训练方法训练得到;控制所述目标设备按照所述目标工作频率运行。

12、结合第二方面和上述实现方式,在某些可能的实现方式中,所述目标工作频率包括所述目标设备中的第一集群在下一时刻运行所需的工作频率和第二集群在下一时刻运行所需的工作频率,所述第一集群的算力大于所述第二集群的算力;所述控制所述目标设备按照所述目标工作频率运行包括:将所述第一集群的当前工作频率调节至所述第一集群在下一时刻运行所需的工作频率;将所述第二集群的当前工作频率调节至所述第二集群在下一时刻运行所需的工作频率。

13、第三方面,提供了一种模型训练装置,所述模型训练装置包括:

14、数据获取模块,用于从训练数据回放池中获取目标数据组;其中,所述训练数据回放池包括多个数据组,所述数据组包括样本设备在当前时刻下的第一样本运行状态和样本即时奖励、所述样本设备在下一时刻运行的样本工作频率、所述样本设备在下一时刻下的第二样本运行状态,所述样本即时奖励根据所述样本设备的帧率和/或功耗确定;

15、数据处理模块,用于将所述目标数据组输入深度神经网络模型,以根据所述训练数据组对所述深度神经网络模型进行动作评估,得到所述深度神经网络模型的当前动作值和目标动作值;

16、模型训练模块,用于基于所述目标动作值与所述当前动作值之间的差异信息,训练所述深度神经网络模型。

17、结合第三方面,在某些可能的实现方式中,所述模型训练装置还包括:

18、数据更新单元,用于更新所述训练数据回放池;

19、所述数据更新单元包括:

20、第一获取子单元,用于获取所述样本设备在当前时刻下的第一运行状态;

21、第一计算子单元,用于根据所述第一运行状态确定所述样本设备在下一时刻运行的下一时刻工作频率;

22、第二计算子单元,用于根据关于所述样本设备的帧率和/或功耗的奖励函数,确定所述样本设备在当前时刻下的当前即时奖励;

23、第二获取子单元,用于控制所述样本设备按照所述下一时刻工作频率运行,获取下一时刻下的所述样本设备的第二运行状态;

24、更新子单元,用于将所述第一运行状态、所述下一时刻工作频率、所述当前即时奖励和所述第二运行状态添加至所述训练数据回放池,以更新所述训练数据回放池。

25、结合第三方面和上述实现方式,在某些可能的实现方式中,所述第一获取子单元具体用于:获取所述样本设备在当前时刻下的当前工作频率、功耗、当前帧率、中央处理器利用率、缓存未命中的次数以及i/o页面错误的次数,得到所述第一运行状态。

26、结本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,所述模型训练方法包括:

2.根据权利要求1所述的模型训练方法,其特征在于,所述模型训练方法还包括:

3.根据权利要求2所述的模型训练方法,其特征在于,所述获取所述样本设备在当前时刻下的第一运行状态包括:

4.根据权利要求3所述的模型训练方法,其特征在于,所述奖励函数的公式如下:

5.根据权利要求1至4任意一项所述的模型训练方法,其特征在于,所述深度神经网络模型包括用于动作选择的第一子模型和用于动作评估的第二子模型;

6.一种频率调节方法,其特征在于,所述频率调节方法包括:

7.根据权利要求6所述的频率调节方法,其特征在于,所述目标工作频率包括所述目标设备中的第一集群在下一时刻运行所需的工作频率和第二集群在下一时刻运行所需的工作频率,所述第一集群的算力大于所述第二集群的算力;

8.一种模型训练装置,其特征在于,所述模型训练装置包括:

9.一种频率调节装置,其特征在于,所述频率调节装置包括:

10.一种电子设备,其特征在于,所述电子设备包括:</p>

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被执行时,实现如权利要求1至5中任意一项所述的模型训练方法或者执行如权利要求6或7所述的频率调节方法。

...

【技术特征摘要】

1.一种模型训练方法,其特征在于,所述模型训练方法包括:

2.根据权利要求1所述的模型训练方法,其特征在于,所述模型训练方法还包括:

3.根据权利要求2所述的模型训练方法,其特征在于,所述获取所述样本设备在当前时刻下的第一运行状态包括:

4.根据权利要求3所述的模型训练方法,其特征在于,所述奖励函数的公式如下:

5.根据权利要求1至4任意一项所述的模型训练方法,其特征在于,所述深度神经网络模型包括用于动作选择的第一子模型和用于动作评估的第二子模型;

6.一种频率调节方法,其特征在于,所述频率调节方法包括:

7.根据权利要求6所...

【专利技术属性】
技术研发人员:孙鹏谢芮程大钊桑乾龙
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1