一种基于生成对抗网络的强化学习探索方法技术

技术编号：24459095 阅读：26 留言：0更新日期：2020-06-10 16:27

本发明专利技术公开了一种基于生成对抗网络的强化学习探索方法，辅助机器人在物流运输场景中进行探索，涉及强化学习探索方法领域。本发明专利技术通过生成负样本和正样本来训练生成对抗网络，并通过判别器D提供对生成对抗网络的内部奖励，以鼓励探索。本发明专利技术生成对抗网络可以与任意强化学习算法结合使用，且不局限于特定的状态空间，可以针对各种维度、各种类型(连续或离散)的状态空间进行密度估计，从而给出内部奖励。实践证明，生成对抗网络的训练频率在远小于强化学习策略更新频率的情况下效果更为优秀，这意味着本发明专利技术相较于不辅助探索的强化学习算法的额外计算开销可以忽略不计，可以用于物流运输等强化学习应用场景中辅助机器人进行探索。

An exploration method of reinforcement learning based on generative adversary network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于生成对抗网络的强化学习探索方法
本专利技术涉及强化学习探索方法领域，尤其涉及一种基于生成对抗网络的强化学习探索方法。
技术介绍
强化学习探索问题，是指在强化学习技术中探索和利用的平衡问题。通常来讲，目前强化学习在落地到具体应用中时普遍存在探索不充分的情况，在机器人辅助物流运输的场景中使用强化学习时，通常需要人工地设计一些基于脚本的规则辅助机器人探索，来让强化学习关注于运筹优化的目标，但是人工设计的脚本难以最大限度地发挥强化学习的主动学习能力。而若不使用人工设计的脚本进行探索则机器人通常无法获得足够的外部奖励，难以快速准确地适应环境。(一)分析近期关于强化学习探索的专利技术：1、申请号为201910549586.X的中国专利技术专利申请《一种强化学习的高效探索方法》提出了一种利用预训练的计数估计函数进行强化学习的高效探索方法，该方法主要针对连续空间任务，并不适用于离散空间任务；2、申请号为201810071032.9的中国专利技术专利申请《强化学习任务中高维连续动作空间离散化探索方法》，通过量化操作将连续的动作空间转化成一个离散的动作空间，进行降维编码并计数，进而提高智能体策略更新时的搜索效率，该方法主要针对高维连续动作空间进行探索的优化，而本方法主要针对状态空间进行探索的优化；(二)分析近期基于强化学习探索的研究：Bellemare等在ConferenceandWorkshoponNeuralInformationProcessingSystems(神经信息处理系统会议...

【技术保护点】
1.一种基于生成对抗网络的强化学习探索方法，其特征在于，通过生成负样本和正样本来训练生成对抗网络，并通过判别器D提供对所述生成对抗网络的内部奖励inR

【技术特征摘要】
1.一种基于生成对抗网络的强化学习探索方法，其特征在于，通过生成负样本和正样本来训练生成对抗网络，并通过判别器D提供对所述生成对抗网络的内部奖励inRt，以鼓励探索。

2.如权利要求1所述的基于生成对抗网络的强化学习探索方法，其特征在于，所述负样本是生成器G生成的虚拟状态样本zt。

3.如权利要求1所述的基于生成对抗网络的强化学习探索方法，其特征在于，所述正样本是真实状态样本φt。

4.如权利要求1所述的基于生成对抗网络的强化学习探索方法，其特征在于，所述负样本与所述正样本相比，如果相似度高则所述判别器D给出的所述内部奖励inRt少，反之相似度低则给出所述内部奖励inRt多。

5.如权利要求4所述的基于生成对抗网络的强化学习探索方法，其特征在于，包括如下步骤：
步骤1、定义机器人的状态空间，即机器人执行每一步时的输入st，包括空间中的坐标，运货物目的地的距离和方向，待运货物坐标和距离，传感器感知的周围障碍物方位和距离，对于第t步，转换计算所述真实状态样本φt；
步骤2、所述生成器G生成所述第t步使用的所述虚拟状态样本zt；
步骤3、将所述第t步的所述真实状态样本φt与所述虚拟状态样本zt，输入所述判别器D，训练所述生成对抗网络，同时生成所述内部奖励inRt；
步骤4、按照强化学习策略根据当前输入的所述st输出当前应当执行的动作at，所述动作at包括改变和保持移动方向，拿起和放下货物，以及前进的速度，根据环境执行所述第t步后得到的外部奖励exRt，结合所述内部奖励inRt，生成所述第t步机器人得到的奖励总合Rt；<...

【专利技术属性】
技术研发人员：洪伟峻，张伟楠，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人