当前位置: 首页 > 专利查询>清华大学专利>正文

基于瓦瑟斯坦距离的无监督强化学习方法及装置制造方法及图纸

技术编号:32754176 阅读:21 留言:0更新日期:2022-03-23 18:50
本发明专利技术公开了一种基于瓦瑟斯坦距离的无监督强化学习方法及装置,该方法包括获取智能体的当前策略引导得到的轨迹里的状态分布;计算状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离;根据瓦瑟斯坦距离计算智能体的伪回报,并以伪回报代替目标强化学习框架中的环境反馈的回报,引导智能体的当前策略与其他历史策略保持大的距离。该方法利用瓦瑟斯坦距离,来鼓励无监督强化学习框架下的算法能够训练得到多样化的策略或技能。的算法能够训练得到多样化的策略或技能。的算法能够训练得到多样化的策略或技能。

【技术实现步骤摘要】
基于瓦瑟斯坦距离的无监督强化学习方法及装置


[0001]本专利技术涉及深度学习
,特别涉及一种基于瓦瑟斯坦距离的无监督强化学习方法及装置。

技术介绍

[0002]强化学习是机器学习领域中较为复杂的一个研究领域,针对的是解决一类序列决策问题。在这一类序列决策问题中,智能体被设定为需要从环境中感知信息(例如无人驾驶车视觉传感器获取的视觉信息,机械臂的角度、速度等状态信息),通过内置的策略模型计算得到动作,再施加给环境,如此反复与环境交互。在强化学习中,智能体的目标是最大化从环境反馈的回报。与传统的自然语言处理、计算机视觉领域的算法不同,强化学习方法致力于解决更普遍的一类问题,如人机交互、博弈、机器人控制等等,同时也可以应用到自然语言处理、计算机视觉领域。因此强化学习在实现通用人工智能上具有广阔前景,是目前的前沿研究领域。
[0003]与前述的经典强化学习相比,无监督强化学习致力于使得智能体在没有环境反馈的回报时,依旧成功地学习一系列策略或技能。当再次可以获取到环境的反馈时,这些学到的策略或技能可以被视作预训练模型来加速训练进程;当在分层强化学习中时,这些学到的策略或技能则可作为原始选项。在无监督强化学习中,关键的问题是如何能够学习出一系列更加多样化的策略或技能,来帮助智能体更加有效的探索状态空间。
[0004]现有的多数无监督强化学习算法主要通过给模型输入一个隐变量,并通过最大化互信息的方式来间接控制智能体的行为表现。进而每次通过改变隐变量的值来获取到一系列多样化的策略或技能。
[0005]对互信息的计算可以等价为对两个条件概率分布之间的JS散度(Jensen

Shannon divergence,琴生

香农散度,一种两个概率分布间差异的度量方法)的计算,因此这些基于互信息的方法受限于JS散度本身的局限,仅仅满足于能够成功区分出不同的策略或技能,而不能鼓励不同的策略之间尽可能保持大的差异性,所以在对状态空间的探索上依旧存在着效率不足的问题。

技术实现思路

[0006]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0007]为此,本专利技术的一个目的在于提出一种基于瓦瑟斯坦距离的无监督强化学习方法,该方法可以利用瓦瑟斯坦距离,来鼓励无监督强化学习框架下的算法能够训练得到多样化的策略或技能。
[0008]本专利技术的另一个目的在于提出一种基于瓦瑟斯坦距离的无监督强化学习装置。
[0009]为达到上述目的,本专利技术一方面实施例提出了一种基于瓦瑟斯坦距离的无监督强化学习方法,包括以下步骤:
[0010]获取智能体的当前策略引导得到的轨迹里的状态分布;
[0011]计算所述状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离;以及
[0012]根据所述瓦瑟斯坦距离计算所述智能体的伪回报,并以所述伪回报代替目标强化学习框架中的环境反馈的回报,引导所述智能体的当前策略与所述其他历史策略保持大的距离。
[0013]为达到上述目的,本专利技术另一方面实施例提出了一种基于瓦瑟斯坦距离的无监督强化学习装置,包括:
[0014]获取模块,用于获取智能体的当前策略引导得到的轨迹里的状态分布;
[0015]计算模块,用于计算所述状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离;以及
[0016]学习模块,用于根据所述瓦瑟斯坦距离计算所述智能体的伪回报,并以所述伪回报代替目标强化学习框架中的环境反馈的回报,引导所述智能体的当前策略与所述其他历史策略保持大的距离
[0017]本专利技术实施例的基于瓦瑟斯坦距离的无监督强化学习方法及装置,提供了一种基于瓦瑟斯坦距离的无监督强化学习框架,为现有的无监督强化学习领域提供了新的问题解决思路。现有的基于互信息的算法局限于无法鼓励策略或技能间保持较大距离,从而存在对状态空间探索效率不足的问题。本专利技术提供的方法则能够通过“伪回报”的方式,鼓励智能体习得差异较大的不同策略,从而能够更有效地探索状态空间,为在环境给予回报时迅速适应任务目标提供了更多样化的预训练模型。
[0018]本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0019]本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0020]图1为根据本专利技术一个实施例的基于瓦瑟斯坦距离的无监督强化学习方法流程图;
[0021]图2为根据本专利技术一个实施例的基于瓦瑟斯坦距离的无监督强化学习框架中物理量关系图;
[0022]图3为根据本专利技术一个实施例的基于瓦瑟斯坦距离的无监督强化学习框架中循环示意图;
[0023]图4为根据本专利技术一个实施例的回报分摊算法中循环示意图;
[0024]图5为根据本专利技术一个实施例的基于瓦瑟斯坦距离的无监督强化学习装置结构示意图。
具体实施方式
[0025]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0026]下面参照附图描述根据本专利技术实施例提出的基于瓦瑟斯坦距离的无监督强化学习方法及装置。
[0027]首先将参照附图描述根据本专利技术实施例提出的基于瓦瑟斯坦距离的无监督强化学习方法。
[0028]图1为根据本专利技术一个实施例的基于瓦瑟斯坦距离的无监督强化学习方法流程图。
[0029]如图1所示,该基于瓦瑟斯坦距离的无监督强化学习方法包括以下步骤:
[0030]在步骤S101中,获取智能体的当前策略引导得到的轨迹里的状态分布。
[0031]在步骤S102中,计算所述状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离。
[0032]本专利技术为基于瓦瑟斯坦距离来使智能体学会一系列多样化的策略的框架,在本框架下,鼓励智能体的不同策略之间的差异性尽可能大,进而能够更高效地探索状态空间。
[0033]在步骤S103中,根据瓦瑟斯坦距离计算智能体的伪回报,并以伪回报代替目标强化学习框架中的环境反馈的回报,引导智能体的当前策略与其他历史策略保持大的距离。
[0034]可选地,在本专利技术的一个实施例中,根据瓦瑟斯坦距离计算智能体的伪回报,包括:利用智能体的策略模型,以智能体的当前观测得到的状态变量,进行决策得到动作变量,进而与环境产生交互,得到伪回报。
[0035]可选地,在本专利技术的一个实施例中,在计算智能体的伪回报之后,还包括:采用深度强化学习框架,利用梯度反向传播优化智能体的策略模型。
[0036]为了使得智能体能够在无法获取到环境的反馈时(有时也可以认为不明确指定目标任务时),依旧能够高效、充分地探索状态空间,本专利技术提供一种基于瓦瑟斯坦距离的无本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于瓦瑟斯坦距离的无监督强化学习方法,其特征在于,包括以下步骤:获取智能体的当前策略引导得到的轨迹里的状态分布;计算所述状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离;以及根据所述瓦瑟斯坦距离计算所述智能体的伪回报,并以所述伪回报代替目标强化学习框架中的环境反馈的回报,引导所述智能体的当前策略与所述其他历史策略保持大的距离。2.根据权利要求1所述的方法,其特征在于,所述根据所述瓦瑟斯坦距离计算所述智能体的伪回报,包括:利用所述智能体的策略模型,以所述智能体的当前观测得到的状态变量,进行决策得到动作变量,进而与环境产生交互,得到所述伪回报。3.根据权利要求1所述的方法,其特征在于,在计算所述智能体的伪回报之后,还包括:采用深度强化学习框架,利用梯度反向传播优化所述智能体的策略模型。4.根据权利要求1或2所述的方法,其特征在于,所述瓦瑟斯坦距离为对偶形式估计。5.根据权利要求3所述的方法,其特征在于,所述瓦瑟斯坦距离为对偶形式为原始形式估计。6.根据权利...

【专利技术属性】
技术研发人员:季向阳何舜成蒋雨航
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1