强化学习方法、装置、计算机可读介质及电子设备制造方法及图纸

技术编号:22723332 阅读:18 留言:0更新日期:2019-12-04 05:54
本公开实施例提供了一种强化学习方法、强化学习装置、计算机可读介质及电子设备,涉及机器学习技术领域。该强化学习方法包括:通过历史数据构建仿真环境;确定所述仿真环境的第一状态,通过强化模型确定对于所述第一状态的第一响应动作;计算所述第一响应动作的置信度,根据所述第一响应动作的置信度确定探索样本;基于所述探索样本对所述强化模型进行训练。本公开实施例的技术方案能够控制强化学习的探索过程,增强探索的策略的有效性,从而加快强化学习的训练过程。

Reinforcement learning methods, devices, computer-readable media and electronic equipment

The embodiment of the present disclosure provides an reinforcement learning method, reinforcement learning device, computer-readable medium and electronic device, and relates to the field of machine learning technology. The reinforcement learning method includes: constructing the simulation environment through historical data; determining the first state of the simulation environment, determining the first response action to the first state through the reinforcement model; calculating the confidence degree of the first response action, determining the exploration sample according to the confidence degree of the first response action; training the reinforcement model based on the exploration sample \u3002 The technical scheme of the embodiment of the disclosure can control the exploration process of reinforcement learning, enhance the effectiveness of the exploration strategy, and thus accelerate the training process of reinforcement learning.

【技术实现步骤摘要】
强化学习方法、装置、计算机可读介质及电子设备
本公开涉及机器学习
,具体而言,涉及一种强化学习方法、强化学习装置、计算机可读介质及电子设备。
技术介绍
近年来,强化学习(ReinforcementLearning)作为机器学习的一大研究热点,已经被广泛应用于仿真模拟、机器人控制、优化与调度等诸多领域。强化学习是用于描述和解决智能体在与环境的交互中,通过学习策略以达成最大回报或实现特定目标的问题。最常用强化学习模型是马尔可夫决策过程(MarkovDecisionProcess,MDP),智能体可以根据已有的策略选择当前状态下的最优的动作,执行此动作,观察环境给出的反馈和环境的下一个状态,并根据该反馈调整策略,反复迭代直至找到最优的策略能够最大限度获得正反馈。大多数情况下,MDP中的各个变量无法知晓,需要依据对环境的探索来得到最优的奖励。因此需要收集历史数据,通过历史数据建立一个仿真环境,把这个仿真环境当作现实环境进行探索,发现更好的动作,从而得到更高的回报。然而,基于历史数据得到的仿真环境不能完全反映真实环境的情景,由此训练出来的强化算法受仿真环境的影响较大。如果仿真环境比较贴合真实环境,得到的强化算法得出最优解;而如果仿真环境偏离真实环境,得到的强化算法也无法收敛到真实最优解;从而导致强化算法的稳定性较差。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术人发现,相关技术中,通过历史数据建立的仿真环境不能完全反映真实环境的情景。对于历史数据密集的样本中,仿真环境的反馈能够较好地贴合真实环境的反馈,而对于历史数据稀疏的样本,仿真环境的反馈则容易偏离真实环境。因此,基于仿真环境训练出来的强化学习算法易受到仿真环境的影响,稳定性较差。基于此,本公开实施例的目的在于提供一种强化学习方法、强化学习装置、计算机可读介质及电子设备,进而至少在一定程度上克服上述问题。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开实施例的第一方面,提供了一种强化学习方法,包括:通过历史数据构建仿真环境;确定所述仿真环境的第一状态,通过强化模型确定对于所述第一状态的第一响应动作;计算所述第一响应动作的置信度,根据所述第一响应动作的置信度确定探索样本;基于所述探索样本对所述强化模型进行训练。在本公开的一种示例性实施例中,所述计算所述第一响应动作的置信度,包括:根据所述历史数据的变化范围确定多个取值区间;根据所述历史数据中各样本的动作变量的取值,确定各所述取值区间的置信度;根据所述第一响应动作所属的目标取值区间的置信度确定所述第一响应动作的置信度。在本公开的一种示例性实施例中,所述根据所述第一响应动作的置信度确定探索样本,包括:如果所述第一响应动作的置信度满足预设条件,则将所述第一响应动作以第一概率确定为探索样本;如果所述第一响应动作的置信度不满足所述预设条件,则将所述第一响应动作以第二概率确定为探索样本,其中,所述第一概率大于所述第二概率且所述第一概率与所述第二概率之和为1。在本公开的一种示例性实施例中,如果所述第一响应动作的置信度满足预设条件,则将所述第一响应动作以第一概率确定为探索样本,包括:如果所述第一响应动作的置信度满足预设条件,根据所述第一响应动作确定所述仿真环境的第二状态;基于所述强化模型确定对于所述第二状态的第二响应动作;如果所述第二响应动作的置信度满足所述预设条件,则确定所述第一响应动作与所述第二响应动作为探索轨迹;以所述第一概率,将所述探索轨迹中包含的响应动作确定为探索样本。在本公开的一种示例性实施例中,所述方法还包括:如果所述探索轨迹中包含的响应动作的数量超过预设阈值,则重新确定第一状态。在本公开的一种示例性实施例中,所述方法还包括:如果所述第一响应动作的置信度不满足所述预设条件,则对所述第一响应动作添加噪声获得第二响应动作,以使所述第二响应动作的置信度满足所述预设条件。在本公开的一种示例性实施例中,所述根据所述历史数据中各样本的动作变量的取值,确定各所述取值区间的置信度,包括:根据所述历史数据中各样本的动作变量的取值,计算各所述取值区间的样本分布概率;对所述样本分布概率进行数据处理,以得到各所述取值区间的置信度,其中,所述数据处理包括滤波处理、平滑处理和归一化处理中的一种或多种。在本公开的一种示例性实施例中,所述第一响应动作包括多维变量,所述如果所述第一响应动作的置信度满足预设条件,包括:如果所述多维变量在各维度的置信度均满足预设条件,则确定所述第一响应动作的置信度满足预设条件。在本公开的一种示例性实施例中,根据所述第一响应动作的置信度确定探索样本之前,包括:根据历史数据分别确定各维度的取值区间;分别计算所述各维度的取值区间对应的置信度;根据所述多维变量在各维度上所属的各目标取值区间,确定所述多维变量的各维度的置信度。根据本公开实施例的第二方面,提供了一种强化学习装置,包括:环境构建模块,用于通过历史数据构建仿真环境;动作确定模块,用于确定所述仿真环境的第一状态,通过强化模型确定对于所述第一状态的第一响应动作;置信度计算模块,用于计算所述第一响应动作的置信度,根据所述第一响应动作的置信度确定探索样本;模型训练模块,用于基于所述探索样本对所述强化模型进行训练。在本公开的一种示例性实施例中,置信度计算模块包括:区间划分单元,用于根据所述历史数据的变化范围确定多个取值区间;区间置信度确定单元,用于根据所述历史数据中各样本的动作变量的取值,确定各所述取值区间的置信度;动作置信度确定单元,用于根据所述第一响应动作所属的目标取值区间的置信度确定所述第一响应动作的置信度。在本公开的一种示例性实施例中,置信度计算模块包括:正样本确定单元,用于如果所述第一响应动作的置信度满足预设条件,则将所述第一响应动作以第一概率确定为探索样本;负样本确定单元,用于如果所述第一响应动作的置信度不满足所述预设条件,则将所述第一响应动作以第二概率确定为探索样本,其中,所述第一概率大于所述第二概率且所述第一概率与所述第二概率之和为1。在本公开的一种示例性实施例中,正样本确定单元用于:如果所述第一响应动作的置信度满足预设条件,根据所述第一响应动作确定所述仿真环境的第二状态;基于所述强化模型确定对于所述第二状态的第二响应动作;如果所述第二响应动作的置信度满足所述预设条件,则确定所述第一响应动作与所述第二响应动作为探索轨迹;以所述第一概率,将所述探索轨迹中包含的响应动作确定为探索样本。在本公开的一种示例性实施例中,所本文档来自技高网...

【技术保护点】
1.一种强化学习方法,其特征在于,包括:/n通过历史数据构建仿真环境;/n确定所述仿真环境的第一状态,通过强化模型确定对于所述第一状态的第一响应动作;/n计算所述第一响应动作的置信度,根据所述第一响应动作的置信度确定探索样本;/n基于所述探索样本对所述强化模型进行训练。/n

【技术特征摘要】
1.一种强化学习方法,其特征在于,包括:
通过历史数据构建仿真环境;
确定所述仿真环境的第一状态,通过强化模型确定对于所述第一状态的第一响应动作;
计算所述第一响应动作的置信度,根据所述第一响应动作的置信度确定探索样本;
基于所述探索样本对所述强化模型进行训练。


2.根据权利要求1所述的方法,其特征在于,所述计算所述第一响应动作的置信度,包括:
根据所述历史数据的变化范围确定多个取值区间;
根据所述历史数据中各样本的动作变量的取值,确定各所述取值区间的置信度;
根据所述第一响应动作所属的目标取值区间的置信度确定所述第一响应动作的置信度。


3.根据权利要求1所述的方法,其特征在于,所述根据所述第一响应动作的置信度确定探索样本,包括:
如果所述第一响应动作的置信度满足预设条件,则将所述第一响应动作以第一概率确定为探索样本;
如果所述第一响应动作的置信度不满足所述预设条件,则将所述第一响应动作以第二概率确定为探索样本,其中,所述第一概率大于所述第二概率且所述第一概率与所述第二概率之和为1。


4.根据权利要求3所述的方法,其特征在于,如果所述第一响应动作的置信度满足预设条件,则将所述第一响应动作以第一概率确定为探索样本,包括:
如果所述第一响应动作的置信度满足预设条件,根据所述第一响应动作确定所述仿真环境的第二状态;
基于所述强化模型确定对于所述第二状态的第二响应动作;
如果所述第二响应动作的置信度满足所述预设条件,则确定所述第一响应动作与所述第二响应动作为探索轨迹;
以所述第一概率,将所述探索轨迹中包含的响应动作确定为探索样本。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
如果所述探索轨迹中包含的响应动作的数量超过预设阈值,则重新确定第一状态。


6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
如果所述第一响应动作的置信度不满足所述预设条件,则对所述第一响应动...

【专利技术属性】
技术研发人员:詹仙园徐浩然张玥霍雨森朱翔宇王小波邓欣郑宇李春洋张钧波
申请(专利权)人:京东城市北京数字科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1