强化学习方法、装置、计算机可读介质及电子设备制造方法及图纸

技术编号：22723332 阅读：25 留言：0更新日期：2019-12-04 05:54

本公开实施例提供了一种强化学习方法、强化学习装置、计算机可读介质及电子设备，涉及机器学习技术领域。该强化学习方法包括：通过历史数据构建仿真环境；确定所述仿真环境的第一状态，通过强化模型确定对于所述第一状态的第一响应动作；计算所述第一响应动作的置信度，根据所述第一响应动作的置信度确定探索样本；基于所述探索样本对所述强化模型进行训练。本公开实施例的技术方案能够控制强化学习的探索过程，增强探索的策略的有效性，从而加快强化学习的训练过程。

Reinforcement learning methods, devices, computer-readable media and electronic equipment

The embodiment of the present disclosure provides an reinforcement learning method, reinforcement learning device, computer-readable medium and electronic device, and relates to the field of machine learning technology. The reinforcement learning method includes: constructing the simulation environment through historical data; determining the first state of the simulation environment, determining the first response action to the first state through the reinforcement model; calculating the confidence degree of the first response action, determining the exploration sample according to the confidence degree of the first response action; training the reinforcement model based on the exploration sample \u3002 The technical scheme of the embodiment of the disclosure can control the exploration process of reinforcement learning, enhance the effectiveness of the exploration strategy, and thus accelerate the training process of reinforcement learning.

全部详细技术资料下载

【技术实现步骤摘要】
强化学习方法、装置、计算机可读介质及电子设备
本公开涉及机器学习
，具体而言，涉及一种强化学习方法、强化学习装置、计算机可读介质及电子设备。
技术介绍
近年来，强化学习(ReinforcementLearning)作为机器学习的一大研究热点，已经被广泛应用于仿真模拟、机器人控制、优化与调度等诸多领域。强化学习是用于描述和解决智能体在与环境的交互中，通过学习策略以达成最大回报或实现特定目标的问题。最常用强化学习模型是马尔可夫决策过程(MarkovDecisionProcess，MDP)，智能体可以根据已有的策略选择当前状态下的最优的动作，执行此动作，观察环境给出的反馈和环境的下一个状态，并根据该反馈调整策略，反复迭代直至找到最优的策略能够最大限度获得正反馈。大多数情况下，MDP中的各个变量无法知晓，需要依据对环境的探索来得到最优的奖励。因此需要收集历史数据，通过历史数据建立一个仿真环境，把这个仿真环境当作现实环境进行探索，发现更好的动作，从而得到更高的回报。然而，基于历史数据得到的仿真环境不能完全反映真实环境的情景，由此训练出来的强化算法受仿真环境的影响较大。如果仿真环境比较贴合真实环境，得到的强化算法得出最优解；而如果仿真环境偏离真实环境，得到的强化算法也无法收敛到真实最优解；从而导致强化算法的稳定性较差。需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术人发...

【技术保护点】
1.一种强化学习方法，其特征在于，包括：/n通过历史数据构建仿真环境；/n确定所述仿真环境的第一状态，通过强化模型确定对于所述第一状态的第一响应动作；/n计算所述第一响应动作的置信度，根据所述第一响应动作的置信度确定探索样本；/n基于所述探索样本对所述强化模型进行训练。/n

【技术特征摘要】
1.一种强化学习方法，其特征在于，包括：
通过历史数据构建仿真环境；
确定所述仿真环境的第一状态，通过强化模型确定对于所述第一状态的第一响应动作；
计算所述第一响应动作的置信度，根据所述第一响应动作的置信度确定探索样本；
基于所述探索样本对所述强化模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述计算所述第一响应动作的置信度，包括：
根据所述历史数据的变化范围确定多个取值区间；
根据所述历史数据中各样本的动作变量的取值，确定各所述取值区间的置信度；
根据所述第一响应动作所属的目标取值区间的置信度确定所述第一响应动作的置信度。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一响应动作的置信度确定探索样本，包括：
如果所述第一响应动作的置信度满足预设条件，则将所述第一响应动作以第一概率确定为探索样本；
如果所述第一响应动作的置信度不满足所述预设条件，则将所述第一响应动作以第二概率确定为探索样本，其中，所述第一概率大于所述第二概率且所述第一概率与所述第二概率之和为1。

4.根据权利要求3所述的方法，其特征在于，如果所述第一响应动作的置信度满足预设条件，则将所述第一响应动作以第一概率确定为探索样本，包括：
如果所述第一响应动作的置信度满足预设条件，根据所述第一响应动作确定所述仿真环境的第二状态；
基于所述强化模型确定对于所述第二状态的第二响应动作；
如果所述第二响应动作的置信度满足所述预设条件，则确定所述第一响应动作与所述第二响应动作为探索轨迹；
以所述第一概率，将所述探索轨迹中包含的响应动作确定为探索样本。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：
如果所述探索轨迹中包含的响应动作的数量超过预设阈值，则重新确定第一状态。

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：
如果所述第一响应动作的置信度不满足所述预设条件，则对所述第一响应动...

【专利技术属性】
技术研发人员：詹仙园，徐浩然，张玥，霍雨森，朱翔宇，王小波，邓欣，郑宇，李春洋，张钧波，
申请(专利权)人：京东城市北京数字科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人