一种权重数据处理方法、系统、设备及可读存储介质技术方案

技术编号:39138467 阅读:8 留言:0更新日期:2023-10-23 14:53
本申请提供了一种权重数据处理方法、系统、设备及可读存储介质,该方法应用于学习引擎,首先获取目标样本数据;响应于接收目标采样请求,根据目标采样策略对目标样本数据进行采样,获得已采样数据,利用已采样数据构成待训练数据组,待训练数据组中包括多个已采样数据,再基于待训练数据组中的多个已采样数据分别进行机器学习模型的多次权重更新迭代,获得每次权重更新迭代后的模型权重数据,在获得每次权重更新迭代后的模型权重数据之后,若接收到推送请求,通过权重订阅接口将模型权重数据推送至预测推断引擎。如此,可以对于每次更新迭代后的需要进行推送的数据,推送至预测推断引擎,提高了模型权重数据的更新效率和推送效率。率。率。

【技术实现步骤摘要】
一种权重数据处理方法、系统、设备及可读存储介质


[0001]本申请涉及机器学习
,尤其涉及一种权重数据处理方法、系统、设备及可读存储介质。

技术介绍

[0002]大规模分布式持续学习引擎(以下简称:持续学习引擎)主要负责采样经验回放以及迭代模型,并实时将新的模型权重推送到对应的预测推断引擎。持续学习引擎分为三个模块,分别是经验回放中转站模块Replay Buffer,模型迭代模块和和模型权重推送模块。
[0003]现有技术中,Replay Buffer是持续学习引擎存放经验回放数据的中转站,Replay Buffer没有独立的资源分配,需要和持续学习引擎的工作节点共享资源,而Replay Buffer中保存着大量的经验回放数据,并且在模型权重推送模块进行更新和推送时效率较低。

技术实现思路

[0004]有鉴于此,本申请提供了一种权重数据处理方法、系统、设备及可读存储介质,提高了模型权重推送模块进行权重更新并推送的效率。
[0005]第一方面,本申请提供了一种权重数据处理方法,所述方法应用于学习引擎,所述学习引擎和预测推断引擎之间配置有权重订阅接口,所述方法包括:
[0006]获取目标样本数据;
[0007]响应于接收目标采样请求,根据目标采样策略对所述目标样本数据进行采样,获得已采样数据;
[0008]利用所述已采样数据构成待训练数据组,所述待训练数据组中包括多个所述已采样数据;
[0009]基于所述待训练数据组中的多个所述已采样数据分别进行机器学习模型的多次权重更新迭代,获得每次权重更新迭代后的模型权重数据;
[0010]在所述获得每次权重更新迭代后的模型权重数据之后,若接收到推送请求,通过所述权重订阅接口将所述模型权重数据推送至所述预测推断引擎。
[0011]在一种可能实现的方式中,所述获取目标样本数据,包括:
[0012]采集目标环境中的状态数据、目标环境中的动作数据和目标环境中的奖励点数据;
[0013]基于所述目标环境中的状态数据、所述目标环境中的动作数据和所述目标环境中的奖励点数据生成待切分样本数据;
[0014]按照预设的数据切分规则,将所述待切分样本数据切分为所述目标样本数据。
[0015]在一种可能实现的方式中,所述响应于接收目标采样请求,根据目标采样策略对所述目标样本数据进行采样,获得已采样数据,包括:
[0016]获取所述目标样本的样本生成时间和所述目标采样请求的接收时间;
[0017]计算所述目标样本的样本生成时间和所述目标采样请求的接收时间之间的时间
差值;
[0018]基于所述时间差值从小到大对所述目标样本进行采样排序;
[0019]基于所述采样排序对所述目标样本进行采样。
[0020]在一种可能实现的方式中,所述权重更新迭代过程为:
[0021]获取所述机器学习模型中的初始权重;
[0022]利用模型迭代模块学习预设待训练数据组,获取所述预设待训练数据组对应的更新后的模型权重数据。
[0023]在一种可能实现的方式中,所述方法还包括:
[0024]基于连续内存存储机制将所述已采样数据存储至预设内存空间中。
[0025]第二方面,本申请还提供了一种权重数据处理系统,所述系统应用于学习引擎,所述学习引擎和预测推断引擎之间配置有权重订阅接口,所述系统包括:获取模块、采样模块、构建模块、迭代模块和推送模块;
[0026]所述获取模块,用于获取目标样本数据;
[0027]所述采样模块,用于响应于接收目标采样请求,根据目标采样策略对所述目标样本数据进行采样,获得已采样数据;
[0028]所述构建模块,用于利用所述已采样数据构成待训练数据组,所述待训练数据组中包括多个所述已采样数据;
[0029]所述迭代模块,用于基于所述待训练数据组中的多个所述已采样数据分别进行机器学习模型的多次权重更新迭代,获得每次权重更新迭代后的模型权重数据;
[0030]所述推送模块,用于在所述获得每次权重更新迭代后的模型权重数据之后,若接收到推送请求,通过所述权重订阅接口将所述模型权重数据推送至所述预测推断引擎。
[0031]在一种可能实现的方式中,所述获取模块,包括获取子模块;
[0032]所述获取子模块,用于采集目标环境中的状态数据、目标环境中的动作数据和目标环境中的奖励点数据;基于所述目标环境中的状态数据、所述目标环境中的动作数据和所述目标环境中的奖励点数据生成待切分样本数据;按照预设的数据切分规则,将所述待切分样本数据切分为所述目标样本数据。
[0033]在一种可能实现的方式中,所述采样模块,包括采样子模块;
[0034]所述采样子模块,用于获取所述目标样本的样本生成时间和所述目标采样请求的接收时间;计算所述目标样本的样本生成时间和所述目标采样请求的接收时间之间的时间差值;基于所述时间差值从小到大对所述目标样本进行采样排序;基于所述采样排序对所述目标样本进行采样。
[0035]在一种可能实现的方式中,所述迭代模块,包括迭代子模块;
[0036]所述迭代子模块,用于获取所述机器学习模型中的初始权重;利用模型迭代模块学习预设待训练数据组,获取所述预设待训练数据组对应的更新后的模型权重数据。
[0037]在一种可能实现的方式中,所述系统还包括:存储模块;
[0038]所述存储模块,用于基于连续内存存储机制将所述已采样数据存储至预设内存空间中。
[0039]第三方面本申请提供了一种权重数据处理设备,包括:处理器和存储器;
[0040]所述存储器,用于存储一个或多个程序;
Prefetching(当trajectories(一组环境采样数据)完成时,通过quene(队列)存入replay buffer)线程组以及负责模型批量学习训练及迭代和检查点记录的Training线程组。
[0053]SeedRL Learner Replay Buffer:当轨迹经验trajectories完全展开后,将其添加到FIFO(先进先出策略)队列或重放缓冲区,然后通过数据预取进行采样线程。
[0054]SeedRL Learner Model Update:在异步优化时评估策略后通过“近在策略”的更新模型参数。
[0055]SeedRL Learner Batching Module:通过使用远程调用框架(RPC),Seed RL构建了一个批处理模块,可以有效地将多个对于智能体的推理调用批处理在一起。在智能体可以与Learner安装在同一台机器上的情况下,使用了特定传输协议,从而减少延迟、CPU和系统调用度过高。
[0056]态势(observation):每次环境和智能体交互的时候,由环境发送给智能体的数据,称为引擎层的态势
[0057]指令(action):每次环境和智能体交互的时候,由智能体发往环境对象本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种权重数据处理方法,其特征在于,所述方法应用于学习引擎,所述学习引擎和预测推断引擎之间配置有权重订阅接口,所述方法包括:获取目标样本数据;响应于接收目标采样请求,根据目标采样策略对所述目标样本数据进行采样,获得已采样数据;利用所述已采样数据构成待训练数据组,所述待训练数据组中包括多个所述已采样数据;基于所述待训练数据组中的多个所述已采样数据分别进行机器学习模型的多次权重更新迭代,获得每次权重更新迭代后的模型权重数据;在所述获得每次权重更新迭代后的模型权重数据之后,若接收到推送请求,通过所述权重订阅接口将所述模型权重数据推送至所述预测推断引擎。2.根据权利要求1所述的方法,其特征在于,所述获取目标样本数据,包括:采集目标环境中的状态数据、目标环境中的动作数据和目标环境中的奖励点数据;基于所述目标环境中的状态数据、所述目标环境中的动作数据和所述目标环境中的奖励点数据生成待切分样本数据;按照预设的数据切分规则,将所述待切分样本数据切分为所述目标样本数据。3.根据权利要求1所述的方法,其特征在于,所述响应于接收目标采样请求,根据目标采样策略对所述目标样本数据进行采样,获得已采样数据,包括:获取所述目标样本的样本生成时间和所述目标采样请求的接收时间;计算所述目标样本的样本生成时间和所述目标采样请求的接收时间之间的时间差值;基于所述时间差值从小到大对所述目标样本进行采样排序;基于所述采样排序对所述目标样本进行采样。4.根据权利要求1所述的方法,其特征在于,所述权重更新迭代过程为:获取所述机器学习模型中的初始权重;利用模型迭代模块学习预设待训练数据组,获取所述预设待训练数据组对应的更新后的模型权重数据。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于连续内存存储机制将所述已采样数据存储至预设内存空间中。6.一种权重数据处理系统,其特征在于,所述系统应用于学习引擎,所述学习引擎和所述预测推断引擎之间配置有权重订阅接口,所述...

【专利技术属性】
技术研发人员:袁泉龙海涛黄安付
申请(专利权)人:启元世界深圳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1