当前位置: 首页 > 专利查询>深圳大学专利>正文

一种基于深度强化学习的决策方法技术

技术编号:27242327 阅读:31 留言:0更新日期:2021-02-04 12:14
本发明专利技术公开了一种基于深度强化学习的决策方法。该方法包括:智能体根据环境信息进行决策,选择决策后的动作;智能体将决策后的动作与知识库对比,并基于知识库中的设定规则集决定执行决策后的动作或替换决策后的动作;智能体将决策后的动作或替换后的动作在环境中执行,从环境中获得奖励和新的环境信息,并将旧环境信息、动作、奖励和新环境信息组合成经验信息,存入经验回放池;在经验回放池中随机选取设定数量的经验信息,以更新深度强化学习模型,进而指导下一次的迭代。利用本发明专利技术,能够缩短训练时间并避免作出灾难性决策,可广泛应用于动态决策领域。用于动态决策领域。用于动态决策领域。

【技术实现步骤摘要】
一种基于深度强化学习的决策方法


[0001]本专利技术涉及人工智能领域,更具体地,涉及一种基于深度强化学习的决策方法。

技术介绍

[0002]强化学习是机器学习中的一个领域,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
[0003]目前,深度强化学习已成功应用于多种动态决策领域,尤其是那些具有很大状态空间的领域。然而,深度强化学习也面临着一些问题,首先,它的训练过程可能非常缓慢并且需要大量资源,最终的系统通常很脆弱,结果难以解释,并且在训练开始很长一段时间表现很差。此外,对于机器人技术和关键决策支持系统中的应用,利用深度强化学习甚至可能作出灾难性的决策,从而导致成本巨大的后果。
[0004]因此,需要对现有技术进行改进,以获得效率更高、更安全的决策方法。

技术实现思路

[0005]本专利技术的目的是克服上述现有技术的缺陷,提供一种基于深度强化学习的决策方法,是将高抽象层级规则与深度强化学习相结合进行动态决策的新技术方案。
[0006]本专利技术提供一种基于深度强化学习的决策方法。该方法包括以下步骤:
[0007]智能体根据环境信息进行决策,选择决策后的动作;
[0008]智能体将决策后的动作与知识库对比,并基于知识库中的设定规则集决定是否用规则集中的随机动作替换决策后的动作;
[0009]在判断为替换决策后的动作的情况下,在环境中执行替换后的动作,从环境中获得奖励和新的环境信息,并将旧环境信息、动作、奖励和新环境信息组合成经验信息,存入经验回放池;
[0010]在经验回放池中随机选取设定数量的经验信息,以更新深度强化学习模型,进而指导下一次的迭代。
[0011]在一个实施例中,根据知识库中的设定规则集决定是否用规则集中的随机动作替换决策后的动作包括:
[0012]判断知识库中的规则集是否满足预定条件;
[0013]在满足设定条件的情况下,以设定的概率用规则集中的一个随机动作替换决策后的动作。
[0014]在一个实施例中,在满足设定条件的情况下,以P
t
=p0·
γ
t
的概率用合规动作集α(R,t)中的一个随机动作替换决策后的动作,其中p0是初始规则干预概率,t是运行时间,γ是衰减率,R表示规则集,α表示符合规则集R和在时间t下的所有动作。
[0015]在一个实施例中,所述规则集根据决策应用场景以避免灾难性决策或以提升学习效率为目标进行设定,用于引导智能体在该应用场景下的动作。
[0016]在一个实施例中,将旧环境信息、动作、奖励和新环境信息组合成一个经验信息,
存入经验回放池包括:
[0017]在获得新环境信息后,将一个单位的经验信息(φ(s
t
),a
t
,r
t
,φ(s
t+1
))存入经验回放池D;
[0018]如果存入新的经验信息时,经验池容量超过设定的阈值N,则以存入时间为参考删除早期的经验信息。
[0019]在一个实施例中,在经验回放池中随机选取设定数量的经验信息,以更新深度强化学习模型包括:
[0020]在智能体与环境的每轮交互的每一步t中,在经验回放池中D随机选取一定数量的经验信息(φ(s
j
),a
j
,r
j
,φ(s
j+1
)),并计算各个经验信息的当前时刻j的价值:
[0021][0022]以(y
j-Q(φ(s
j
),a
j
;θ))2为目标函数做梯度下降来优化神经网络参数θ;
[0023]最后每隔固定的步数C,将目标动作-价值函数Q*同步为动作-价值函数Q;
[0024]其中,a

表示j+1时刻的可选动作,a
j
表示j时刻的动作,s
j
和s
j+1
分别表示j时刻和j+1时刻的环境信息,φ表示预处理过程。
[0025]与现有技术相比,本专利技术的优点在于,在深度强化学习中,除了考虑所有可能采取动作的Q值之外,还考虑了适用的规则,通过将高抽象层级规则与深度强化学习相结合,提高了训练效果并且能够避免作出灾难性决策。
[0026]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。
附图说明
[0027]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。
[0028]图1是根据本专利技术一个实施例的基于深度强化学习的决策方法的流程图;
[0029]图2是根据本专利技术一个实施例的规则干预学习框架的示意图;
[0030]图3是根据本专利技术一个实施例的Flappybird游戏中的画面图;
[0031]图4是根据本专利技术一个实施例的Flappybird游戏中规则生效范围示意图;
[0032]图5是根据本专利技术一个实施例的Flappybird游戏中平均奖励和平均Q值的实验结果图;
[0033]图6是根据本专利技术一个实施例的Spacewar游戏中的画面图;
[0034]图7是根据本专利技术一个实施例的Spacewar游戏中平均奖励和平均Q值实验结果图;
[0035]图8是根据本专利技术一个实施例的Breakout游戏中的画面图;
[0036]图9是根据本专利技术一个实施例的Breakout游戏中平均奖励和平均Q值实验结果图;
[0037]图10是根据本专利技术一个实施例的GirdWorld游戏中的画面图;
[0038]图11是本专利技术一个实施例的GirdWorld游戏中平均奖励实验结果图;
[0039]附图中,Average Reward-平均奖励;Average Q value-平均Q值;Training Epochs-训练时期。
具体实施方式
[0040]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。
[0041]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。
[0042]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0043]在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
[0044]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0045]参见图1所示,该实施例提供的基于深度强化学习的决本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的决策方法,包括以下步骤:智能体根据环境信息进行决策,选择决策后的动作;智能体将决策后的动作与知识库对比,并基于知识库中的设定规则集决定是否用规则集中的随机动作替换决策后的动作;在判断为替换决策后的动作的情况下,在环境中执行替换后的动作,从环境中获得奖励和新的环境信息,并将旧环境信息、动作、奖励和新环境信息组合成经验信息,存入经验回放池;在经验回放池中随机选取设定数量的经验信息,以更新深度强化学习模型,进而指导下一次的迭代。2.根据权利要求1所述的方法,其中,根据知识库中的设定规则集决定是否用规则集中的随机动作替换决策后的动作包括:判断知识库中的规则集是否满足预定条件;在满足设定条件的情况下,以设定的概率用规则集中的一个随机动作替换决策后的动作。3.根据权利要求2所述的方法,其中,在满足设定条件的情况下,以P
t
=p0·
γ
t
的概率用合规动作集α(R,t)中的一个随机动作替换决策后的动作,其中p0是初始规则干预概率,t是运行时间,γ是衰减率,R表示规则集,α表示符合规则集R和在时间t下的所有动作。4.根据权利要求1所述的方法,其中,所述规则集根据决策应用场景以避免灾难性决策或以提升学习效率为目标进行设定,用于引导智能体在该应用场景下的动作。5.根据权利要求1所述的方法,其中,将旧环境信息、动作、奖励和新环境信息组合成一个经验信息,存入经验回放池包括:在获得新环境信息后,将一个单位的经验信息(φ(s
t
),a
t

【专利技术属性】
技术研发人员:张昊迪伍楷舜陈振浩高子航李启凡
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利