一种基于生成对抗网络的强化学习探索方法技术

技术编号:24459095 阅读:26 留言:0更新日期:2020-06-10 16:27
本发明专利技术公开了一种基于生成对抗网络的强化学习探索方法,辅助机器人在物流运输场景中进行探索,涉及强化学习探索方法领域。本发明专利技术通过生成负样本和正样本来训练生成对抗网络,并通过判别器D提供对生成对抗网络的内部奖励,以鼓励探索。本发明专利技术生成对抗网络可以与任意强化学习算法结合使用,且不局限于特定的状态空间,可以针对各种维度、各种类型(连续或离散)的状态空间进行密度估计,从而给出内部奖励。实践证明,生成对抗网络的训练频率在远小于强化学习策略更新频率的情况下效果更为优秀,这意味着本发明专利技术相较于不辅助探索的强化学习算法的额外计算开销可以忽略不计,可以用于物流运输等强化学习应用场景中辅助机器人进行探索。

An exploration method of reinforcement learning based on generative adversary network

【技术实现步骤摘要】
一种基于生成对抗网络的强化学习探索方法
本专利技术涉及强化学习探索方法领域,尤其涉及一种基于生成对抗网络的强化学习探索方法。
技术介绍
强化学习探索问题,是指在强化学习技术中探索和利用的平衡问题。通常来讲,目前强化学习在落地到具体应用中时普遍存在探索不充分的情况,在机器人辅助物流运输的场景中使用强化学习时,通常需要人工地设计一些基于脚本的规则辅助机器人探索,来让强化学习关注于运筹优化的目标,但是人工设计的脚本难以最大限度地发挥强化学习的主动学习能力。而若不使用人工设计的脚本进行探索则机器人通常无法获得足够的外部奖励,难以快速准确地适应环境。(一)分析近期关于强化学习探索的专利技术:1、申请号为201910549586.X的中国专利技术专利申请《一种强化学习的高效探索方法》提出了一种利用预训练的计数估计函数进行强化学习的高效探索方法,该方法主要针对连续空间任务,并不适用于离散空间任务;2、申请号为201810071032.9的中国专利技术专利申请《强化学习任务中高维连续动作空间离散化探索方法》,通过量化操作将连续的动作空间转化成一个离散的动作空间,进行降维编码并计数,进而提高智能体策略更新时的搜索效率,该方法主要针对高维连续动作空间进行探索的优化,而本方法主要针对状态空间进行探索的优化;(二)分析近期基于强化学习探索的研究:Bellemare等在ConferenceandWorkshoponNeuralInformationProcessingSystems(神经信息处理系统会议)会议(2016年第29届第1471-1479页)上发表的Unifyingcount-basedexplorationandintrinsicmotivation.《结合基于计数的探索和内在驱动》,该文中将动作状态对进行伪计数来对近似的贝尔曼方程进行求解。其不足在于:伪计数的方法不适用于大状态空间和大动作空间;Ostrovski等在InternationalConferenceonMachineLearning(机器学习国际会议)会议(2018年第35届)上发表的Count-basedexplorationwithneuraldensitymodels.《基于计数且使用神经密度模型的探索》,该文中对状态的伪计数使用了PixelCNN给出密度估计来近似。其不足在于:PixelCNN是一种适用于图像这类二维离散状态的密度估计模型,具有其局限性。对国内外相关专利分析以及相关研究可得出以下结论:目前在机器人进行物流运输的场景中没有适用于任意类型的(离散或连续的)任意规模的状态空间上的辅助强化学习探索的应用。因此,本领域的技术人员致力于开发一种在机器人物流运输的场景中,可适用于任意类型的(离散或连续的)任意规模的状态空间上的辅助强化学习探索的应用。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的是现有强化学习探索方法不适用于在物流运输场景中的任意类型的(离散或连续的)任意规模的状态空间上辅助机器人进行探索的技术问题。为实现上述目的,本专利技术提供了一种基于生成对抗网络的强化学习探索方法(GenerativeAdversarialExploration,GAEX),其特征在于,通过生成负样本和正样本来训练生成对抗网络,并通过判别器D提供对所述生成对抗网络的内部奖励inRt,以鼓励探索。进一步地,所述负样本是生成器G生成的虚拟状态样本zt。进一步地,所述正样本是真实状态样本φt。进一步地,所述负样本与所述正样本相比,如果相似度高则所述判别器D给出高置信度,相应所述内部奖励inRt少,反之相似度低则给出所述内部奖励inRt多。进一步地,包括如下步骤:步骤1、定义机器人的状态空间,即机器人执行每一步时的输入st,包括空间中的坐标,运货物目的地的距离和方向,待运货物坐标和距离,传感器感知的周围障碍物方位和距离,对于第t步,转换计算所述真实状态样本φt;步骤2、所述生成器G生成所述第t步使用的所述虚拟状态样本zt;步骤3、将所述第t步的所述真实状态样本φt与所述虚拟状态样本zt,输入所述判别器D,训练所述生成对抗网络,同时生成所述内部奖励inRt;步骤4、按照强化学习策略根据当前输入的所述st输出当前应当执行的动作at,所述动作at包括改变和保持移动方向,拿起和放下货物,以及前进的速度,根据环境执行所述第t步后得到的外部奖励exRt,结合所述内部奖励inRt,生成所述第t步机器人得到的奖励总合Rt;步骤5、根据所述第t步的奖励总合Rt,使用强化学习的方法对机器人进行更新,得到更新策略的新的所述机器人。进一步地,所述真实状态样本φt的转换计算方法为计算所述第t步过去四帧的叠加状态简化表示,包括如下步骤:步骤1.1、令d表示任意数据降维方法,令s[-i]表示过去第i步的原始状态输入,令α表示介于0到1之间的衰减常量,令所述φt初始化为0;步骤1.2、所述真实状态样本φt的计算方法为令i=3,2,1,反复代入φt=φt+α(d(s[-i+1])-d(s[-i]))。进一步地,所述虚拟状态样本zt和所述真实状态样本φt具有相同的维度。进一步地,令D(φt)表示所述判别器D输出的对于所述第t步的所述真实状态样本φt真实度的估计,则所述内部奖励inRt的计算方法为:inRt=β(1-D(φt))2。进一步地,所述生成器G和所述判别器D在所述机器人进行强化学习的同时进行训练,利用存储的所述真实状态样本φt,以及即时生成的所述虚拟状态样本zt分别作为所述正样本和所述负样本进行训练。进一步地,在所述机器人进行强化学习策略更新时,利用所述第t步的所述奖励总合Rt进行训练,其中Rt=exRt+inRt。本专利技术中所运用到的生成对抗网络从规律上讲,所述生成器会不断地对真实样本的分布进行拟合,一旦所述机器人进入到了常遇到的环境时,所述判别器D会对所述真实状态样本φt给出高真实度估计,认为是正样本,从而降低了该状态下的内部奖励inRt,而一旦所述机器人进入到了未曾遇到或极少遇到的环境时,所述判别器D会对所述真实状态样本φt给出低真实度估计,认为是负样本,从而提高了该状态下的内部奖励inRt。而所述生成器G又会对新的状态样本进行学习,保持对环境状态样本真实度的始终有一个合理的评估,使得当极少遇到的环境在重复探索多次后其所述真实度估计会降低到正常值附近。从而所述机器人能够不断地得到有效的探索激励信号,主动地进行探索。从规律上讲更优的物流运输路径,更合理的避障方式都需要在机器人对环境中的不断探索中发现。本专利技术具有如下技术效果:1、本专利技术中机器人的控制算法逻辑十分灵活,可以结合做强化学习算法,只需将生成对抗网络中判别器给出的内部奖励inRt与外部奖励exRt结合相加得到奖励总合Rt进行训练即可。2、本专利技术中机器人可以对多种输入类型进行处理,不局限于特定的状态空间,可以在任意类型的任意规模的状态本文档来自技高网
...

【技术保护点】
1.一种基于生成对抗网络的强化学习探索方法,其特征在于,通过生成负样本和正样本来训练生成对抗网络,并通过判别器D提供对所述生成对抗网络的内部奖励inR

【技术特征摘要】
1.一种基于生成对抗网络的强化学习探索方法,其特征在于,通过生成负样本和正样本来训练生成对抗网络,并通过判别器D提供对所述生成对抗网络的内部奖励inRt,以鼓励探索。


2.如权利要求1所述的基于生成对抗网络的强化学习探索方法,其特征在于,所述负样本是生成器G生成的虚拟状态样本zt。


3.如权利要求1所述的基于生成对抗网络的强化学习探索方法,其特征在于,所述正样本是真实状态样本φt。


4.如权利要求1所述的基于生成对抗网络的强化学习探索方法,其特征在于,所述负样本与所述正样本相比,如果相似度高则所述判别器D给出的所述内部奖励inRt少,反之相似度低则给出所述内部奖励inRt多。


5.如权利要求4所述的基于生成对抗网络的强化学习探索方法,其特征在于,包括如下步骤:
步骤1、定义机器人的状态空间,即机器人执行每一步时的输入st,包括空间中的坐标,运货物目的地的距离和方向,待运货物坐标和距离,传感器感知的周围障碍物方位和距离,对于第t步,转换计算所述真实状态样本φt;
步骤2、所述生成器G生成所述第t步使用的所述虚拟状态样本zt;
步骤3、将所述第t步的所述真实状态样本φt与所述虚拟状态样本zt,输入所述判别器D,训练所述生成对抗网络,同时生成所述内部奖励inRt;
步骤4、按照强化学习策略根据当前输入的所述st输出当前应当执行的动作at,所述动作at包括改变和保持移动方向,拿起和放下货物,以及前进的速度,根据环境执行所述第t步后得到的外部奖励exRt,结合所述内部奖励inRt,生成所述第t步机器人得到的奖励总合Rt;<...

【专利技术属性】
技术研发人员:洪伟峻张伟楠
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1